数据科学基础:常见概率分布及解释

概率分布对于统计至关重要,就像数据结构对计算机科学一样。如果您想成为一个合格的数据科学家,那么了解它们就是基础内容了。有时,直接食用scikit-learn就可以进行简单的分析,而不必完全了解概率分布,就像您可以在不了解哈希函数的情况下管理Java程序一样。但是可能以失败与bug告终。 概率分布有数百种,但是最常见的也就是15种,那么他们是什么呢,本文将一一介绍。

……

阅读全文

python实现梯度下降在实际当中的应用

定义

梯度下降法(Gradient descent)是一个一阶最优化算法,通常也称为最陡下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法。

……

阅读全文

centos7上使用CPUMiner-Multi在MinerGate矿池挖门罗币

吃灰鸡多了,这里给大家个选择,把闲置的vps利用起来,今天就教大家在centos上面使用CPUMiner-Multi来挖矿,赚一点虚拟币,门罗币在当前状态下是效益最高的虚拟币,因此就选择门罗币。

步骤:

  1. 注册minergate
  2. 编译CPUMiner-Multi
  3. 验证CPUMiner-Multi
  4. 在minergate矿池开始挖矿

注册minergate

menergate官网注册账号,一个邮箱就可以了,这里不做赘述。

……

阅读全文

git push 更新被拒绝,因为远程版本库包含您本地尚不存在的提交

在改进了本博客使用的一个hugo主题bobobk-hugo后,在推送到git仓库时,发现以下错误

(base) ➜  bobobk-hugo git:(master) git push origin
Username for 'https://github.com': tengbozhang
Password for 'https://[email protected]': 
To https://github.com/tengbozhang/bobobk-hugo.git
 ! [rejected]        master -> master (fetch first)
error: 无法推送一些引用到 'https://github.com/tengbozhang/bobobk-hugo.git'
提示:更新被拒绝,因为远程版本库包含您本地尚不存在的提交。这通常是因为另外
提示:一个版本库已推送了相同的引用。再次推送前,您可能需要先合并远程变更
提示:(如 'git pull')。
提示:详见 'git push --help' 中的 'Note about fast-forwards' 小节。

git提示远程版本库包含您本地尚不存在的提交,说明github中的仓库有了本地并不存在的更新内容,而本地版本并没有及时pull下来,因此在提交时提示需要先合并远程变更的版本,解决方法也很简单

……

阅读全文

机器学习中的决策树及python实例

一棵树在现实生活中有许多枝叶,事实上树的概念在机器学习也有广泛应用,涵盖了分类和回归。在决策分析中,决策树可用于直观地决策和作出决策。决策树,顾名思义,一个树状的决策模型。尽管数据挖掘与机器学习中常常用到,本文将集中说明决策树及python的实现。

如何将算法表示为树

为此,让我们考虑一个非常基本的示例,该示例采用泰坦尼克号数据集(该数据机可直接在sklearn获得)。该模型使用数据集中的3个特征,即性别,年龄和同胞(配偶或子女的数量) 维基的图。。。。 titanic_decision 决策树是上下颠倒的,其根在顶部。在上图中,黑色粗体表示条件/ 内部节点,树将基于该条件分裂为分支/ 边缘。分支的末端不再分裂,是决策/ 叶子,在这种情况下,乘客是死亡还是幸存,分别用红色和绿色表示。 虽然,真实的数据集将具有更多的特征,而这只是展示了更大树中的一个分支,但是您不能忽略此算法的简单性。该功能重要性是显而易见的。这种方法通常称为从数据中学习决策树,而上方的树则称为分类树,因为目标是将乘客分类为是幸存还是死亡。回归树以相同的方式表示,只是它们预测的是像房屋价格这样的连续值。通常,决策树算法被称为CART或分类和回归树。 那么,后台实际发生了什么?种植一棵树涉及决定要选择的特征以及要使用的分割条件,以及何时停止。因为树通常会随心所欲地生长,因此您需要将其修剪减少决策树以使其节点适中防止过拟合的出现。 让我们从用于拆分的常用技术开始

……

阅读全文

归一化与标准化区别与使用场景

归一化(normalization)

“归一化”一词在统计中非正式地表达方式,因此术语“归一化数据”可以具有多种含义。在大多数情况下,对数据进行规范化时,您将消除数据的度量单位,从而使您可以更轻松地比较不同位置的数据。标准化数据的一些更常见的方法包括:

  1. 使用z得分或t得分转换数据。这通常称为标准化。在大多数情况下,如果统计教科书在谈论标准化数据,那么这就是他们可能使用的“标准化”的定义。 将数据重新缩放为0到1之间的值。这通常称为要素缩放。实现此目的的一种可能公式是: x_new = (x-x_min)/(x_max-x_min)
  2. 标准化残差:回归分析中使用的比率会迫使残差变成正态分布的形状。
  3. 使用公式μ/σ归一化矩。
  4. 将向量(在线性代数中)规范为一的范数。从这个意义上说,规范化是指对向量进行变换,使其长度为1。

大部分情况下归一化就是使得所有的数字变成0-1之间的数,所有参数都必须具有相同的正标度。但是,数据集中的 异常值 将丢失。

标准化(standrization)

归一化通常是指将变量缩放为0到1之间的值,而标准化则将数据转换为均值为零且标准偏差为1。这种标准化称为z得分,通过μ/σ处理

……

阅读全文

主成分分析背后的数学原理及python实例演示

本文将介绍机器学习中非常重要的降维的一种处理方法,主成分分析。

PCA介绍

在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(PC)。具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感(相对缩放)。 主成分分析的中心思想是在稀疏矩阵中,通过一些手段减少由大量相互关联的变量组成的数据集的维数,同时尽可能保留数据集中存在的变化。这是通过将一组不相关且有序的主 变量(PC)转换为一组新变量来实现的,从而使前几个变量保留了所有原始变量中存在的大部分变化,从而达到较少数据维度的作用。

……

阅读全文

bit、byte、Bps、bps、kbps、Bps、Gbps、pps等比特字节网速单位说明

一直都知道bit和byte是两个概念,一个为二进制,一个为字节单位,为8个bit,但是在实际情况中,还是分不清bit和byte在各种网络速度缩写中是怎么区别的,这次就把查到的知识做个汇总,但是总体的区别就是,大写的B就是字节数,而小写的就是bit数,表示的是多少个二进制位。

bit

电脑内存中最小的单位,在现今所有的计算机系统中,每一bit 可以代表0 或 1 的1个二进制数位讯号。

……

阅读全文

统计学偏态分布显示生活中的统计陷阱

90%的司机认为自己的驾驶水平高于平均水平,90%的人认为自己比人群平均智商要高,而关键是这都是可能符合真实数据的,确实是真实的,并没有造假,然后就认为“哇,其他人在客观地评估自己方面很糟糕”。这时您应该想到的是如果我们使用均值,这听起来并不那么令人难以置信。假如数据分布严重倾斜,是左偏态或者右偏态的话,就会存在严重的误导作用。因为平均值经常会骗人。而很多人却总是使用平均数来骗人显示自己某方面的的优越性,这是不科学的,中位数才是正常情况下的一般水准。 我们来看一个实际例子说明平均数的不可靠,假设

……

阅读全文

命令行使用的监控计算机cpu的ui工具s-tui

s-tui是一个免费且开源监控计算机cpu的命令行ui工具。可以实时监控计算机cpu的温度,频率等并且以图形化的方式展示。这是一个python工具,可以直接使用pip安装,但是这是需要root权限的,可在ssh登陆的情况下直接以图形化方式监控cpu状态。

  1. 安装s-tui
  2. 使用s-tui

安装s-tui

s-tui可以直接pip安装,可安装的一个包stress,可以用于压力测试。

……

阅读全文

最近文章

分类

标签

友情链接

其它