统计学基础(统计学基础知识归纳)
基础:的统计干货一种描述统计的数值方法。
位置的度量
1.平均数
采样平均
总平均
加权平均值
几何平均数
中位数
将数据按照从小到大排列:
对于偶数个观测值,中位数是中间两个数的平均值。
对于奇数个观测值,中位数是中间数。
方式
出现的数据最多,可能不止一个。
百分位
至少p%的数据小于或等于该值,并且至少1-p%的数据大于或等于该值。
将数据按照从小到大的顺序排列,并计算n*p%:
如果是整数,取这个值和下一个数字的平均值。
如果不是整数,则向上舍入。
中位数和四分位数是特殊的百分位数。
变异程度的度量
1.极差与四分位数间距
范围:最大值和最小值之间的差值。
分位数区间,IQR):四分位数之间的差异。
四分位数区间和四分位数区间都是衡量变异程度的简单指标。相比之下,极端范围更容易受到异常值的影响,因此经常使用四分位数范围。
2.方差与标准差
方差是对数据总体变异程度的度量。
总体差异:
样本方差:
样本的方差是无偏的。
无偏性:统计量估计值的平均值等于统计量。
证明:是总体平均值,是总体标准差。
用随机变量x,
确实如此。
同样,由于。
因此
标准差(s):方差的算术平方根。
标准差系数(变异系数):标准偏差除以平均值。
分布形态、相对位置度量以及异常值检测
1.分布形态的度量——偏度
如果存在偏度:随机变量的第三矩,偏斜度定义如下:
当偏差大于0时,称为右偏差,当偏差小于0时,称为左偏差。
2.切比雪夫定理
对于切比雪夫定理:,的任意分布,z标准差内数据与平均值的比例至少为1-1/z 2,其中z0。
切比雪夫定理来源于切比雪夫不等式:
或者
针对连续变量的切比雪夫不等式证明:
为了证明。
仅仅
也就是
因为
和
因此,原来的命题被证明了。
3.异常值检测
异常值检测有两种简单的方法:
1.z-score法
由于大部分日数据近似服从正态分布,从标准正态分布表可以看出,数据位于z=3以内的概率为99.87%,因此z位于该区间之外的数据被认为是异常值。
2.四分位数间距法
五数概括法和箱线图置的度量
1.五数概括法
用最大值和最小值的中间值以及上下四分位数汇总数据的方法。
2.箱线图
以上数据是一个城市100家餐厅的代表性美食价格和餐厅的质量评级。下面的方框图用来描述价格不同档次餐馆的分布情况。其中:
盒子里面:中间。
框的上边界:第三个四分位数Q3。
盒子的下边界:第一个四分位数Q1。
上边界线:最小值{最大值(X),Q3 1.5IQR}。
下边界线:最大{最小值(X),Q1-1.5智商}。
上下边界之外的点:异常值。
两变量之间关系的度量
1.协方差
协方差是两个随机变量之间线性相关性的度量。协方差的绝对值越大,两个随机变量之间的相关性越强。对于一组具有n个容量的数据,协方差为正数表明两随机变量正相关,协方差为负表明两随机变量负相关。观察到(X 1 Y 1),(X 2 Y 2).(X ^ N ^ Y ^ N),其协方差定义如下:
总体协方差:
类似的,样本协方差为:
样本协方差为总体协方差的无偏估计量,其证明如下:
2.相关系数
例如,如果将所有数据扩展5倍,线性相关性不会改变,但协方差的绝对值会增加。为了避免这种现象,我们使用相关系数来描述相关性。
协方差的问题在于受数据大小影响,
总体相关系数:
样本相关系数不是总体相关系数的无偏估计。
相关系数的范围为[-1,1],其绝对值越接近1,线性相关性越强。
样本相关系数:
证明了易相关系数的取值范围为[-1,1]。
相关系数取值范围的证明:
构造一个永不为负的二次函数。
柯西-施瓦茨不等式简单证明:
原命题的证明。
作者:心里有点空白。
由于其恒为非负,故有判别式小于等于0,即:
零基础入职数据分析就业班
就业班学员专享:趣味月考测试、
数据库模拟练习1v1职场生涯规划
班主任监督辅导
专业讲师团队答疑
1.熟练掌握数据分析工具,如加入我们你将拥有:.
2.SQL/Python/Excel/PPT"s实战项目经验。
3.数据工作场所讲师真实数据库.
1v1生涯规划