贸易的好处

2022年1月22日

| 杂谈

最近在看格里高丽.曼昆的《经济学原理》，感觉挺有意思，这里给大家分享其中一个实例，就是贸易可以使双方都获得好处，是一个双赢的局面，而不是一个成功，一个失败。

寓言故事

假设只有两个人并且只有两种商品的情况下。一个是农民，一个渔民，而商品是鱼和大米，他们都能够捕鱼和耕种，但是效率是不一样的，我们假设一年中农民只耕种，可以生产480kg大米，只捕鱼，可以捕捞240kg鱼。而渔民只耕种，可以生产160kg大米，只捕鱼，只能生产160kg鱼。

……

阅读全文

python绘制雨云图(Raincloud)

2022年1月11日

| 技术

在做探索性分析时，条形图、箱线图是很好的方法，他可以很好地展示大概的数据结构与分布，由于最近看到有人使用使用雨云图展示数据，图形看起来很美观，有趣，因此这里也就进行了梳理并使用python实现雨云图的绘制。

介绍

雨云图其实是一种混合图，由四部分组成，它们分别是 violin plot（云）、boxplot（伞）、swarm plot（雨）。

……

阅读全文

典型相关分析介绍及python实现

2021年12月29日

| 技术

在处理单个高维数据时,通过可以通过LDA,PCA,等等方法进行降维处理,但是如果某两个数据来自同一个样本,但是数据类型不同,差距巨大时,怎么办呢?这个时候就是典型相关性分析(Canonical Correlation Analysis,CCA)的应用场景.CCA允许我们同时从两套数据分析.典型的应用场景就包括生物学上的联合分析,同一组样本,同时检测转录组和蛋白组,转录组和代谢组以及微生物代谢组等等,更详细的内容可参考维基百科.

……

阅读全文

matplotlib画图时进行颜色填充

2021年12月29日

| 技术

在python中matplotlib进行绘图时,有时为了图形的美观,需要在其上方或者下方进行颜色填充,这时需要采用的函数是fill_between,其中参数y2决定第二条线,如果是向上还是向下填充,下面具体展示:

数据生成

我们这里以正弦函数为例

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
n = 1024
x = np.linspace(-np.pi, np.pi, n, endpoint=True)
y = np.sin(2 * x)
plt.plot(x, y, color='blue', alpha=1.00)
plt.savefig("sin.png",dpi=200)
plt.close()

画出来的正弦函数图为:

……

阅读全文

使用bootstrapping计算置信区间

2021年12月28日

| 技术

概念

置信区间(confidence interval,ci)是总体数值在特定可信度下的区间。它是根据原始观测样本估计的，通常定义为 95%.即通常所说的95%置信区间.

为何使用置信区间

一般情况下,获得的样本都是抽样得到的,总体是未知的,这样从样本中获得的数据没法直接反映总体情况,为了表示样本表示总体的情况,置信区间也就有了用武之地.

……

阅读全文

预处理方法Scale,Standardize,Normalize的选择

2021年12月26日

| 技术

很多机器学习的方法都要求数据近似正态分布并尽可能接近,而python中用于机器学习的包便是sklearn,其提供包括MinMaxScaler,RobustScaler,StandardScaler和Normalizer在内的多种函数用于机器学习的预处理,那么这些方法应该如何选择呢?首先我们介绍下区别然后采用实际数据进行处理查看数据处理前后的变化,最后再来做一个总结.

……

阅读全文

c-index及其在生存分析中的应用

2021年12月23日

| 技术

一致性指数(concordance index)或者说c-index是用于评估算法预测效果的参数.定义上是指素有时间点上一致性对的比例.该参数在生物学上比如癌症预测上具有重要意义,可以用来评估癌症生存期预测的好坏.在python中可以使用lifelines包下的工具的concordance_index函数进行计算下面从具体的例子看看其具体的意义. 假设实际应用中有个癌症研究,其中6个患者的生存期情况分别为1个月,6个月,12个月,2年,3年,5年,如果预测结果为1个月,6个月,12个月,2年,3年,5年.那么该预测完全正确,c-index最高,为1,计算代码如下:

……

阅读全文

python原生list数组与numpy的array

2021年12月22日

| 技术

在python中存储集合数据可以选择多种原生数据类型,包括list,array,tuple,dictionary四种类型.其中list可变性强,可存储任意内容并且可变,应用范围广泛.而在进行科学运算,存储纯数字时,numpy被广泛应用,可以说基本完全替代了list.那么它们之间有何不同,差距到底有多大,实际过程中应该如何应用呢?

……

阅读全文

K-Means聚类及sklearn实现

2021年12月20日

| 技术

本文章将从数学及代码角度阐述K-Means聚类方法的原理及应用。

聚类分析允许我们找到相似样本或者feature的组，这些对象之间的相关性更强。常见的用途有包括按照不同的基因表达情况对样本进行分组，或者根据不同样本的分类对基因进行分组等。本文将会介绍聚类算法中的k-means：

k-means聚类的基本概念
k-means 算法背后的数学原理
k-means的优缺点
使用scikit-learn 包实现
可视化分类
选择最优的k

k-means聚类的基本概念

k-means是一种高效的无监督的聚类方法，最初用于信号处理，旨在将n个观测值划分为k个簇，其中每个观测值都属于具有最近均值的簇（簇中心或簇质心），作为群。很容易混淆的另一种聚类方法是监督学习算法k-nearest neighbors (KNN)，需要注意。

……

阅读全文

迅雷链接解析

2021年12月14日

此工具是用于解析迅雷链接真实地址及编码。已更新为javascript版本

使用方法

1.解码迅雷：填写迅雷链接地址。完整的包含thunder://的地址

解码后的地址为： https://www.bobobk.com/favicon.ico

2.编码迅雷：填写链接地址。编码后获得thunder://的地址

编码后的地址为： thunder://QUFodHRwczovL3d3dy5ib2JvYmsuY29tL2Zhdmljb24uaWNvWlo=

……

阅读全文

春江暮客

贸易的好处

寓言故事

python绘制雨云图(Raincloud)

介绍

典型相关分析介绍及python实现

matplotlib画图时进行颜色填充

数据生成

使用bootstrapping计算置信区间

概念

为何使用置信区间

预处理方法Scale,Standardize,Normalize的选择

c-index及其在生存分析中的应用

python原生list数组与numpy的array

K-Means聚类及sklearn实现

k-means聚类的基本概念

迅雷链接解析

使用方法

最近文章

分类

标签

友情链接

其它