数据科学基础:常见概率分布及解释
概率分布对于统计至关重要,就像数据结构对计算机科学一样。如果您想成为一个合格的数据科学家,那么了解它们就是基础内容了。有时,直接食用scikit-learn就可以进行简单的分析,而不必完全了解概率分布,就像您可以在不了解哈希函数的情况下管理Java程序一样。但是可能以失败与bug告终。 概率分布有数百种,但是最常见的也就是15种,那么他们是什么呢,本文将一一介绍。
……春江暮客的个人学习分享网站
概率分布对于统计至关重要,就像数据结构对计算机科学一样。如果您想成为一个合格的数据科学家,那么了解它们就是基础内容了。有时,直接食用scikit-learn就可以进行简单的分析,而不必完全了解概率分布,就像您可以在不了解哈希函数的情况下管理Java程序一样。但是可能以失败与bug告终。 概率分布有数百种,但是最常见的也就是15种,那么他们是什么呢,本文将一一介绍。
……梯度下降法(Gradient descent)是一个一阶最优化算法,通常也称为最陡下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法。
……吃灰鸡多了,这里给大家个选择,把闲置的vps利用起来,今天就教大家在centos上面使用CPUMiner-Multi来挖矿,赚一点虚拟币,门罗币在当前状态下是效益最高的虚拟币,因此就选择门罗币。
步骤:
menergate官网注册账号,一个邮箱就可以了,这里不做赘述。
……在改进了本博客使用的一个hugo主题bobobk-hugo后,在推送到git仓库时,发现以下错误
(base) ➜ bobobk-hugo git:(master) git push origin
Username for 'https://github.com': tengbozhang
Password for 'https://[email protected]':
To https://github.com/tengbozhang/bobobk-hugo.git
! [rejected] master -> master (fetch first)
error: 无法推送一些引用到 'https://github.com/tengbozhang/bobobk-hugo.git'
提示:更新被拒绝,因为远程版本库包含您本地尚不存在的提交。这通常是因为另外
提示:一个版本库已推送了相同的引用。再次推送前,您可能需要先合并远程变更
提示:(如 'git pull')。
提示:详见 'git push --help' 中的 'Note about fast-forwards' 小节。
git提示远程版本库包含您本地尚不存在的提交,说明github中的仓库有了本地并不存在的更新内容,而本地版本并没有及时pull下来,因此在提交时提示需要先合并远程变更的版本,解决方法也很简单
……一棵树在现实生活中有许多枝叶,事实上树的概念在机器学习也有广泛应用,涵盖了分类和回归。在决策分析中,决策树可用于直观地决策和作出决策。决策树,顾名思义,一个树状的决策模型。尽管数据挖掘与机器学习中常常用到,本文将集中说明决策树及python的实现。
为此,让我们考虑一个非常基本的示例,该示例采用泰坦尼克号数据集(该数据机可直接在sklearn获得)。该模型使用数据集中的3个特征,即性别,年龄和同胞(配偶或子女的数量)
维基的图。。。。
决策树是上下颠倒的,其根在顶部。在上图中,黑色粗体表示条件/ 内部节点,树将基于该条件分裂为分支/ 边缘。分支的末端不再分裂,是决策/ 叶子,在这种情况下,乘客是死亡还是幸存,分别用红色和绿色表示。
虽然,真实的数据集将具有更多的特征,而这只是展示了更大树中的一个分支,但是您不能忽略此算法的简单性。该功能重要性是显而易见的。这种方法通常称为从数据中学习决策树,而上方的树则称为分类树,因为目标是将乘客分类为是幸存还是死亡。回归树以相同的方式表示,只是它们预测的是像房屋价格这样的连续值。通常,决策树算法被称为CART或分类和回归树。
那么,后台实际发生了什么?种植一棵树涉及决定要选择的特征以及要使用的分割条件,以及何时停止。因为树通常会随心所欲地生长,因此您需要将其修剪减少决策树以使其节点适中防止过拟合的出现。
让我们从用于拆分的常用技术开始
“归一化”一词在统计中非正式地表达方式,因此术语“归一化数据”可以具有多种含义。在大多数情况下,对数据进行规范化时,您将消除数据的度量单位,从而使您可以更轻松地比较不同位置的数据。标准化数据的一些更常见的方法包括:
归一化通常是指将变量缩放为0到1之间的值,而标准化则将数据转换为均值为零且标准偏差为1。这种标准化称为z得分,通过μ/σ处理
……本文将介绍机器学习中非常重要的降维的一种处理方法,主成分分析。
在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(PC)。具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感(相对缩放)。 主成分分析的中心思想是在稀疏矩阵中,通过一些手段减少由大量相互关联的变量组成的数据集的维数,同时尽可能保留数据集中存在的变化。这是通过将一组不相关且有序的主 变量(PC)转换为一组新变量来实现的,从而使前几个变量保留了所有原始变量中存在的大部分变化,从而达到较少数据维度的作用。
……一直都知道bit和byte是两个概念,一个为二进制,一个为字节单位,为8个bit,但是在实际情况中,还是分不清bit和byte在各种网络速度缩写中是怎么区别的,这次就把查到的知识做个汇总,但是总体的区别就是,大写的B就是字节数,而小写的就是bit数,表示的是多少个二进制位。
电脑内存中最小的单位,在现今所有的计算机系统中,每一bit 可以代表0 或 1 的1个二进制数位讯号。
……90%的司机认为自己的驾驶水平高于平均水平,90%的人认为自己比人群平均智商要高,而关键是这都是可能符合真实数据的,确实是真实的,并没有造假,然后就认为“哇,其他人在客观地评估自己方面很糟糕”。这时您应该想到的是如果我们使用均值,这听起来并不那么令人难以置信。假如数据分布严重倾斜,是左偏态或者右偏态的话,就会存在严重的误导作用。因为平均值经常会骗人。而很多人却总是使用平均数来骗人显示自己某方面的的优越性,这是不科学的,中位数才是正常情况下的一般水准。 我们来看一个实际例子说明平均数的不可靠,假设
……s-tui是一个免费且开源监控计算机cpu的命令行ui工具。可以实时监控计算机cpu的温度,频率等并且以图形化的方式展示。这是一个python工具,可以直接使用pip安装,但是这是需要root权限的,可在ssh登陆的情况下直接以图形化方式监控cpu状态。
s-tui可以直接pip安装,可安装的一个包stress,可以用于压力测试。
……