身边的情感故事
传统化学习

标准差的意义(期望与方差、标准差是什么)

标准差的意义(期望与方差、标准差是什么

一说起期望值,可能有的人会很陌生;但一说起平均数,可能大部分人都了解。其实求期望和求平均之间还是有那么一些关系的。

期望

我们先来举个例子,让你对期望有直观的理解。

假设我有1个不均匀的六面体,每个面标了一个数字,分别是6。如果我将此六面体向上抛出,那么落地时向上一面的概率如下表所示:

显然,上述的概率之和为1、那么此六面体向上一面的期望是什么呢?

我们是这样计算期望的:把每个面出现的概率乘以每个面的数字,然后算它们的加和。即:

1*(1/6) + 2*(1/3) + 3*(1/6) + 4*(1/12) + 5*(1/12) + 6*(1/6) = 37 / 12

因此,上面这个六面体落地时正面朝上的期望就是37/12,换算成整数约等于3.

不均匀的算出来了,那如果是均匀的六面体呢?它落地时向上的一面的期望又是什么呢?

很简单,由于是均匀的六面体,那么每个面朝上的概率都是1/6。因此,总的期望就是1/6(1+2+3+4+5+6)=21/6=3.5。此时,就相当于我们求了1-6的平均数。

换句话说,如果每个数字出现的概率是相等的,那我们就相当于求的平均数;如果每个数字出现的概率是不等的,那我们就在求期望。我们一般用“E”来表示期望。

方差

我们还是来举例说明什么是方差。

假设小明期末考试考了6门课,他的成绩分别是60,78,77,90,92,83。那么小明成绩的方差该怎么算呢?

我们需要先算出小明的平均成绩:(60+78+77+90+92+83)/ 6 = 80。

然后,分别用小明每一门课的成绩减去平均成绩,求出差的平方,再算出这些平方的平均值。即

[(60-80)^2 + (78-80)^2 + (77-80)^2 + (90-80)^2 + (92-80)^2 + (83-80)^2] / 6 = 111。

我们把这个结果就叫做方差。把它一般化, 假设有xx2…xn一共n个数据,它们的均值是μ,那么方差就可以表示为:

方差公式

有时候分母的n也会换成n-1,取决于它是样本数据还是整体数据,不过对我们的结果影响不大。

那么方差有什么意义呢?它所表示的是数据的波动程度,更具体的说,它表示的是数据与均值之间的离散程度。方差越大,表明数据越分散,离均值的平均距离远;方差越小,表明数据大多集中在均值周围。

标准差

标准差就是方差开方得到的结果,即

标准差公式

那这么做有什么意义呢?注意到,我们的方差是求了平方的,如果我们的数据是有单位的话,最后的结果将是单位的平方,对这个结果不是很好解释。比如上面小明成绩的方差是111,单位是“分”的平方。我们就会感到很奇怪。

将方差开方后,单位就变成了原来的单位,那么结果就很好解释了。可以得出,小明成绩的标准差约为10.5分。也就是说,小明的成绩与均值的差距平均在10.5分。

标准差同样衡量数据的波动状况,只不过它的结果很好解释。

Z值只是一个临界值,他是标准化的结果,本身没有意义,有意义的在于在标准正态分布模型中它代表的概率值。通过查表便可以知道。

Z值对应概率值表

举个例子来说

一个班级有100个同学

那么我们就有了100个智商值。

从60 到180 不等

假设平均值(mean)是90

那么有的人是60,有的人是110.和平均值的差值 平方再开方就是 方差(Variance)

方差可以帮助看出来这个人离平均值有多远,差距有多少

但是如果数量很大的话

数据就不好计算了

比如,一个方差5 一个方差10 还有方差20 的

太麻烦

这就引入 Z 值

Z值就是一个衡量方差的标准 或者说是 单位(unit)

在这个例子中,比如,我们设定单位是10

那么方差5的同学,Z score 就是 5/10=0.5

方差10 的同学 Z score 就是1

方差20的同学就是2

然后我们又知道最大的是10

这就很好标记

这就是为什么要有一个Z值表对应正态分布的原因

只看Z值是没有意义的,每个例子中 单位(unit)不一样

在正态分布这个情况下,其实单位已经给定义好了

所以只要知道Z值, 就可以知道这位同学的方差啦

也就相当于知道了这位同学的智商距离平均数有多远

实例:

某次期中考试,小明数学考了112,英语考了108.那么他的成绩好么?他的数学成绩好还是英语成绩好?

已知全市数学平均成绩是 108, 方差21 , 英语的平均成绩是97,方差18

通过求Z 值和查Z值表,我们可以得知

小明的数学成绩 在全市成绩的排名是57.53%, 英语成绩是72.91%

所以他的数学成绩中等,英语成绩比较好。

不同分布的z值具有可比性,例如N(0,1)的数据1的z值是1,表示离均值0有一个标准差,另外N(100,10)的数据110的z值也是1,表示离均值100有一个标准差,这样的话可以将不同的分布的数据,通过z值,直接比较各自距离各自均值的距离远近。

一般来说,对于正态分布,三个标准差内几乎涵盖了所有的数据。

68%的数据落在一个标准差内

95%的数据落在两个标准差内

99.7%的数据落在三个标准差内

如果数据分布是正态的,那么曲线的不同面积可以用z值的不同数值来表示。

同时,不同的面积或者不同的z值,也可以表示特定数值出现的概率。

例如:N(100,10)中110以上数据出现的概率大致是16%。

Z值的计算与分析
https://ues.fanyaozu.com/tag/%e4%ba%a4%e6%8d%a2%e7%b3%bb%e5%88%97150%e9%83%a8%e5%88%86

赞(0)