当前位置:首页 > 在线教育 > 统计学基础(统计学基础知识归纳)

统计学基础(统计学基础知识归纳)

基础:的统计干货一种描述统计的数值方法。

位置的度量

1.平均数

采样平均

总平均

加权平均值

几何平均数

中位数

将数据按照从小到大排列:

对于偶数个观测值,中位数是中间两个数的平均值。

对于奇数个观测值,中位数是中间数。

方式

出现的数据最多,可能不止一个。

百分位

至少p%的数据小于或等于该值,并且至少1-p%的数据大于或等于该值。

将数据按照从小到大的顺序排列,并计算n*p%:

如果是整数,取这个值和下一个数字的平均值。

如果不是整数,则向上舍入。

中位数和四分位数是特殊的百分位数。

变异程度的度量

1.极差与四分位数间距

范围:最大值和最小值之间的差值。

分位数区间,IQR):四分位数之间的差异。

四分位数区间和四分位数区间都是衡量变异程度的简单指标。相比之下,极端范围更容易受到异常值的影响,因此经常使用四分位数范围。

2.方差与标准差

方差是对数据总体变异程度的度量。

总体差异:

样本方差:

样本的方差是无偏的。

无偏性:统计量估计值的平均值等于统计量。

证明:是总体平均值,是总体标准差。

用随机变量x,

确实如此。

同样,由于。

因此

标准差(s):方差的算术平方根。

标准差系数(变异系数):标准偏差除以平均值。

分布形态、相对位置度量以及异常值检测

1.分布形态的度量——偏度

如果存在偏度:随机变量的第三矩,偏斜度定义如下:

当偏差大于0时,称为右偏差,当偏差小于0时,称为左偏差。

2.切比雪夫定理

对于切比雪夫定理:,的任意分布,z标准差内数据与平均值的比例至少为1-1/z 2,其中z0。

切比雪夫定理来源于切比雪夫不等式:

或者

针对连续变量的切比雪夫不等式证明:

为了证明。

仅仅

也就是

因为

因此,原来的命题被证明了。

3.异常值检测

异常值检测有两种简单的方法:

1.z-score法

由于大部分日数据近似服从正态分布,从标准正态分布表可以看出,数据位于z=3以内的概率为99.87%,因此z位于该区间之外的数据被认为是异常值。

2.四分位数间距法

五数概括法和箱线图置的度量

1.五数概括法

用最大值和最小值的中间值以及上下四分位数汇总数据的方法。

2.箱线图

以上数据是一个城市100家餐厅的代表性美食价格和餐厅的质量评级。下面的方框图用来描述价格不同档次餐馆的分布情况。其中:

盒子里面:中间。

框的上边界:第三个四分位数Q3。

盒子的下边界:第一个四分位数Q1。

上边界线:最小值{最大值(X),Q3 1.5IQR}。

下边界线:最大{最小值(X),Q1-1.5智商}。

上下边界之外的点:异常值。

两变量之间关系的度量

1.协方差

协方差是两个随机变量之间线性相关性的度量。协方差的绝对值越大,两个随机变量之间的相关性越强。对于一组具有n个容量的数据,协方差为正数表明两随机变量正相关,协方差为负表明两随机变量负相关观察到(X 1 Y 1),(X 2 Y 2).(X ^ N ^ Y ^ N),其协方差定义如下:

总体协方差:

类似的,样本协方差为:

样本协方差为总体协方差的无偏估计量,其证明如下:

2.相关系数

例如,如果将所有数据扩展5倍,线性相关性不会改变,但协方差的绝对值会增加。为了避免这种现象,我们使用相关系数来描述相关性。

协方差的问题在于受数据大小影响,

总体相关系数:

样本相关系数不是总体相关系数的无偏估计。

相关系数的范围为[-1,1],其绝对值越接近1,线性相关性越强。

样本相关系数:

证明了易相关系数的取值范围为[-1,1]。

相关系数取值范围的证明:

构造一个永不为负的二次函数。

柯西-施瓦茨不等式简单证明:

原命题的证明。

作者:心里有点空白。

由于其恒为非负,故有判别式小于等于0,即:

零基础入职数据分析就业班

就业班学员专享:趣味月考测试、

数据库模拟练习1v1职场生涯规划

班主任监督辅导

专业讲师团队答疑

1.熟练掌握数据分析工具,如加入我们你将拥有:.

2.SQL/Python/Excel/PPT"s实战项目经验。

3.数据工作场所讲师真实数据库.

1v1生涯规划

扫描二维码推送至手机访问。

版权声明:本文由ABC留学网提供发布,如需转载请注明出处。

本文链接:https://www.jumpabc.net/zaixianjiaoyu/31507.html

分享给朋友: