数据科学基础：常见概率分布及解释

2020年1月9日

| 技术

概率分布对于统计至关重要，就像数据结构对计算机科学一样。如果您想成为一个合格的数据科学家，那么了解它们就是基础内容了。有时，直接食用scikit-learn就可以进行简单的分析，而不必完全了解概率分布，就像您可以在不了解哈希函数的情况下管理Java程序一样。但是可能以失败与bug告终。概率分布有数百种，但是最常见的也就是15种，那么他们是什么呢，本文将一一介绍。

……

阅读全文

python实现梯度下降在实际当中的应用

2020年1月8日

| 技术

定义

梯度下降法（Gradient descent）是一个一阶最优化算法，通常也称为最陡下降法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索，则会接近函数的局部极大值点；这个过程则被称为梯度上升法。

……

阅读全文

centos7上使用CPUMiner-Multi在MinerGate矿池挖门罗币

2020年1月7日

| 技术

吃灰鸡多了，这里给大家个选择，把闲置的vps利用起来，今天就教大家在centos上面使用CPUMiner-Multi来挖矿,赚一点虚拟币，门罗币在当前状态下是效益最高的虚拟币，因此就选择门罗币。

步骤：

注册minergate
编译CPUMiner-Multi
验证CPUMiner-Multi
在minergate矿池开始挖矿

注册minergate

menergate官网注册账号，一个邮箱就可以了，这里不做赘述。

……

阅读全文

git push 更新被拒绝，因为远程版本库包含您本地尚不存在的提交

2020年1月6日

| 技术

在改进了本博客使用的一个hugo主题bobobk-hugo后，在推送到git仓库时，发现以下错误

(base) ➜  bobobk-hugo git:(master) git push origin
Username for 'https://github.com': tengbozhang
Password for 'https://[email protected]': 
To https://github.com/tengbozhang/bobobk-hugo.git
 ! [rejected]        master -> master (fetch first)
error: 无法推送一些引用到 'https://github.com/tengbozhang/bobobk-hugo.git'
提示：更新被拒绝，因为远程版本库包含您本地尚不存在的提交。这通常是因为另外
提示：一个版本库已推送了相同的引用。再次推送前，您可能需要先合并远程变更
提示：（如 'git pull'）。
提示：详见 'git push --help' 中的 'Note about fast-forwards' 小节。

git提示远程版本库包含您本地尚不存在的提交，说明github中的仓库有了本地并不存在的更新内容，而本地版本并没有及时pull下来，因此在提交时提示需要先合并远程变更的版本，解决方法也很简单

……

阅读全文

机器学习中的决策树及python实例

2020年1月4日

| 技术

一棵树在现实生活中有许多枝叶，事实上树的概念在机器学习也有广泛应用，涵盖了分类和回归。在决策分析中，决策树可用于直观地决策和作出决策。决策树，顾名思义，一个树状的决策模型。尽管数据挖掘与机器学习中常常用到，本文将集中说明决策树及python的实现。

如何将算法表示为树

为此，让我们考虑一个非常基本的示例，该示例采用泰坦尼克号数据集（该数据机可直接在sklearn获得）。该模型使用数据集中的3个特征，即性别，年龄和同胞（配偶或子女的数量）维基的图。。。。 titanic_decision 决策树是上下颠倒的，其根在顶部。在上图中，黑色粗体表示条件/ 内部节点，树将基于该条件分裂为分支/ 边缘。分支的末端不再分裂，是决策/ 叶子，在这种情况下，乘客是死亡还是幸存，分别用红色和绿色表示。虽然，真实的数据集将具有更多的特征，而这只是展示了更大树中的一个分支，但是您不能忽略此算法的简单性。该功能重要性是显而易见的。这种方法通常称为从数据中学习决策树，而上方的树则称为分类树，因为目标是将乘客分类为是幸存还是死亡。回归树以相同的方式表示，只是它们预测的是像房屋价格这样的连续值。通常，决策树算法被称为CART或分类和回归树。那么，后台实际发生了什么？种植一棵树涉及决定要选择的特征以及要使用的分割条件，以及何时停止。因为树通常会随心所欲地生长，因此您需要将其修剪减少决策树以使其节点适中防止过拟合的出现。让我们从用于拆分的常用技术开始

……

阅读全文

归一化与标准化区别与使用场景

2020年1月4日

| 杂谈

归一化（normalization）

“归一化”一词在统计中非正式地表达方式，因此术语“归一化数据”可以具有多种含义。在大多数情况下，对数据进行规范化时，您将消除数据的度量单位，从而使您可以更轻松地比较不同位置的数据。标准化数据的一些更常见的方法包括：

使用z得分或t得分转换数据。这通常称为标准化。在大多数情况下，如果统计教科书在谈论标准化数据，那么这就是他们可能使用的“标准化”的定义。将数据重新缩放为0到1之间的值。这通常称为要素缩放。实现此目的的一种可能公式是： x_new = (x-x_min)/(x_max-x_min)
标准化残差：回归分析中使用的比率会迫使残差变成正态分布的形状。
使用公式μ/σ归一化矩。
将向量（在线性代数中）规范为一的范数。从这个意义上说，规范化是指对向量进行变换，使其长度为1。

大部分情况下归一化就是使得所有的数字变成0-1之间的数，所有参数都必须具有相同的正标度。但是，数据集中的异常值将丢失。

标准化（standrization）

归一化通常是指将变量缩放为0到1之间的值，而标准化则将数据转换为均值为零且标准偏差为1。这种标准化称为z得分，通过μ/σ处理

……

阅读全文

主成分分析背后的数学原理及python实例演示

2020年1月3日

| 技术

本文将介绍机器学习中非常重要的降维的一种处理方法，主成分分析。

PCA介绍

在多元统计分析中，主成分分析（英语：Principal components analysis，PCA）是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分（PC）。具体地，主成分可以看做一个线性方程，其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感（相对缩放）。主成分分析的中心思想是在稀疏矩阵中，通过一些手段减少由大量相互关联的变量组成的数据集的维数，同时尽可能保留数据集中存在的变化。这是通过将一组不相关且有序的主变量（PC）转换为一组新变量来实现的，从而使前几个变量保留了所有原始变量中存在的大部分变化，从而达到较少数据维度的作用。

……

阅读全文

bit、byte、Bps、bps、kbps、Bps、Gbps、pps等比特字节网速单位说明

2020年1月2日

| 技术

一直都知道bit和byte是两个概念，一个为二进制，一个为字节单位，为8个bit，但是在实际情况中，还是分不清bit和byte在各种网络速度缩写中是怎么区别的，这次就把查到的知识做个汇总，但是总体的区别就是，大写的B就是字节数，而小写的就是bit数，表示的是多少个二进制位。

bit

电脑内存中最小的单位，在现今所有的计算机系统中，每一bit 可以代表0 或 1 的1个二进制数位讯号。

……

阅读全文

统计学偏态分布显示生活中的统计陷阱

2019年12月27日

| 技术

90％的司机认为自己的驾驶水平高于平均水平，90%的人认为自己比人群平均智商要高，而关键是这都是可能符合真实数据的，确实是真实的，并没有造假，然后就认为“哇，其他人在客观地评估自己方面很糟糕”。这时您应该想到的是如果我们使用均值，这听起来并不那么令人难以置信。假如数据分布严重倾斜，是左偏态或者右偏态的话，就会存在严重的误导作用。因为平均值经常会骗人。而很多人却总是使用平均数来骗人显示自己某方面的的优越性，这是不科学的，中位数才是正常情况下的一般水准。我们来看一个实际例子说明平均数的不可靠，假设

……

阅读全文

命令行使用的监控计算机cpu的ui工具s-tui

2019年12月23日

| 技术

s-tui是一个免费且开源监控计算机cpu的命令行ui工具。可以实时监控计算机cpu的温度，频率等并且以图形化的方式展示。这是一个python工具，可以直接使用pip安装，但是这是需要root权限的，可在ssh登陆的情况下直接以图形化方式监控cpu状态。

安装s-tui
使用s-tui

安装s-tui

s-tui可以直接pip安装,可安装的一个包stress，可以用于压力测试。

……

阅读全文

春江暮客

数据科学基础：常见概率分布及解释

python实现梯度下降在实际当中的应用

定义

centos7上使用CPUMiner-Multi在MinerGate矿池挖门罗币

注册minergate

git push 更新被拒绝，因为远程版本库包含您本地尚不存在的提交

机器学习中的决策树及python实例

如何将算法表示为树

归一化与标准化区别与使用场景

归一化（normalization）

大部分情况下归一化就是使得所有的数字变成0-1之间的数，所有参数都必须具有相同的正标度。但是，数据集中的异常值将丢失。

标准化（standrization）

主成分分析背后的数学原理及python实例演示

PCA介绍

bit、byte、Bps、bps、kbps、Bps、Gbps、pps等比特字节网速单位说明

bit

统计学偏态分布显示生活中的统计陷阱

命令行使用的监控计算机cpu的ui工具s-tui

安装s-tui

最近文章

分类

标签

友情链接

其它

定义

注册minergate

如何将算法表示为树

归一化（normalization）

大部分情况下归一化就是使得所有的数字变成0-1之间的数，所有参数都必须具有相同的正标度。但是，数据集中的 异常值 将丢失。

标准化（standrization）

PCA介绍

bit

安装s-tui

最近文章

分类

标签

友情链接

其它

大部分情况下归一化就是使得所有的数字变成0-1之间的数，所有参数都必须具有相同的正标度。但是，数据集中的异常值将丢失。