当前位置:首页 >> 电力/水利 >>

常用的统计量数


第三章 常用的統計量數

1

大綱
? 中央趨勢量數 ? 離差量數 ? 偏態 ? 峰度 ? 柴比雪夫不等式與經驗法則 ? 盒鬚圖

2

3-1 中央趨勢量數
? 算術平均數
– 未分組資料
? 樣本平均數


x ?



x1 ? x 2 ? ... ? x n n

? 母體平均數
? ?

x1 ? x 2 ? ? ? x N N

3

– 已分組資料
? 樣本平均數

?
? 母體平均數
x ?

k

fim i n

i ?1

? ?

?

k

fim i N

i ?1

? 其中︰

mi

f 表第 i 組的組中點,
i

表第 i 組的次數
4

? 平均數特性
– 各觀測值與平均數之差的總和和為0
? (x ? x) ? 0 – 各觀測值與平均數之差的平方和,較各觀測值與平均 數以外的數值之差的平方和小
i i ?1 n

? (x
i ?1

n

i

? x) ?
2

? (x
i ?1

n

i

? A)

2

– 每一筆資料放大a倍之後再加b,則平均數為原來的a倍 再加b
5

? 算數平均數的優點
– 簡單、容易瞭解,且若有資料值改變,則平均 數亦隨之改變,故反應靈敏。 – 計算平均數時,所有的資料皆被列入計算式中 – 可用代數方法計算出來自不同資料群組合併後 之算數平均數,故非常適合數學的應用。 – 每組的資料所求出來的算術平均數是唯一的

6

? 算數平均數的缺點
– 若存在極大或極小的極端值會使算數平均數失去代 表的意義 – 非數值型態的資料無法求得平均數 – 若分組資料中含有開放型的組距,因無法定出組中 點,故算數平均數不存在。 – 算數平均數所代表的數值為抽象之數,有時後此數 值並不存在於真實世界之中,如平均家庭人口數為 5.134人 – 若資料分配為雙峰分配,則算數平均數無法代表資 料的中央集中趨勢。
7

? 加權平均數
– 在求算平均數時,依照資料的重要程度適 當的加以放大後再求平均數,其放大所乘 的數字我們稱為權重(weighting),這樣 求算出來的平均數稱為加權平均數
加權平均數
?wx
i k i

?

i ?1 k

?w
i ?1

i

8

? 幾何平均數
– 適用於資料成級數增加時 – 未分組
G ?
n

x1 ? x 2 ? x n ?

n

?
i ?1

n

xi

– 已分組
G ?
n

m1 m 2

f1

f2

? mk

fk

?

n

?
i ?1

k

mi

fi

9

? 幾何平均數的優點
– 特別適用於資料成等比級數之資料 – 比較不容易受極端值所影響

? 缺點
– 具有0或負數的資料無法求得幾何平均數 – 若遇資料有少量的變動,對幾何平均數的大小 影響不大,故反應較不靈敏 – 組距不確定時無法求算
10

? 平均成長率
r ?
n

(1 ? r1 )( 1 ? r2 ) ? (1 ? rn ) ? 1

11

? 剪尾平均數
– 將資料由小到大排序再去掉左右各?%的觀 測值,所得之平均數稱為?%的剪尾平均數, X? 記作

? 截尾平均數
– 將資料由小到大排序後,以資料左端變數 資料的最大值來代表這些?%的變數資料, 同時以資料右端變數資料的最小值來代表 這些?%的變數資料,再和中間的的資料 求出的平均數,稱為?%的截尾平均數
12

? 中位數
– 將資料由小到大排序,位置居中者,就稱為該 組資料之中位數,一般以Me表示 – 未分組
?當
n不為整數時: 2

M e ? x ? n ? ?1
?2?

?當

n

2

為整數時: Me

?

x n ? x n ?1
2 2

2

13

– 已分組

n

M e ? li ? 2 ? ( li ?1 ? li ) Fi ? Fi ? 1

? Fi ? 1

14

? 中位數的性質
– 任一組資料中,各觀測值與其中位數差之絕對 值總和為最小
?
n

x i ? Me ?

i ?1

?

n

xi ? A

i ?1

– 中位數為按大小順序排列之量數,與資料分配 無關

15

? 中位數的優點
– 中位數為位置居中的數值,性質簡單,容易瞭 解 – 中位數不容易受極端值的影響,因此若存在極 端值的資料,中位數比算數平均數更能代表中 央趨勢。 – 若有開放組仍可求中位數 – 不能用數值表示的資料,只要知道順序,也可 以求算中位數
16

? 中位數的缺點
– 由於中位數只考慮位置居中數值,忽略了其他 數值大小,故缺乏敏感性,除非正好居中的數 值改變,否則即使有資料變動,也不會影響到 中位數的大小 – 無法由兩組資料中的資料筆數與其中位數求算 出合併後的中位數,故中位數不適合代數運算

17

? k分位數
– 將一組資料按大小順序排序後分成k等分,這 個等分點所對應的數值假設分別為p1,p2,…, pk-1,那麼我們就稱pa為這筆資料的第a個k分 位數
占全體的
a k

第a個k分位數
18

? 百分位數(percentile)
– 將資料依大小順序排列,取99個等分點,每一 等分點皆稱為百分位數 – 設有n個按大小次序排列的資料x1,x2,?,xn。 – 未分組
? x kn ? x kn ( ) ( ?1 ) ? 100 100 ? 2 Pk ? ? ?x ? ? ? kn ? ? 1 ? ? ? ? ? ? ? ? ? ? 100 ? ? kn 100 kn 100 不為整數 為整數

19

– 已分組
k ? Pk ? L ? n 100 fi ? F i ?1 ?c

L:表第i組之組下界 fi:表第i組之組次數 F :表累積次數 C:表組距
i ?1

20

? 十分位數
– 將一組資料分割成10等分,此九個數值稱為十 分位數,通常以Di表示,十分位數相當於特殊 的百分位數

21

? 四分位數(quartile)
– 將一組資料分割成4等分,此3個數值稱為四分 位數,通常以Qi表示 – 設有n個按大小次序排列的資料x1,x2,?,xn – 四分位數也是一種特殊的百分位數
Q 1 ? p 25 , Q 2 ? p 50 ? Me , Q 3 ? p 75

22

– 未分組
?x n ? x n ( ) ( ?1 ) ? 4 4 ? 2 Q1 ? ? ?x ? ? ? n ? ?1 ? ? ? ? ? ? ? ? ??4? ?
? x 3n ? x 3n ( ) ( ?1 ) ? 4 4 ? 2 Q3 ? ? ?x ? ? ? 3 n ? ?1 ? ? ? ? ? ? ? ? ?? 4 ? ?

n 4 n 4

為整數 不為整數

3n 4 3n 4

為整數 不為整數

23

? 已分組
n Q 1 ? L1 ? 4 ? F1 f1 ?c

n Q 3 ? L3 ? 4

? F3 f3

?c

24

? 眾數
– 一組資料中出現次數最多的那筆資料 – 中央趨勢量數的一種 – 特別適用在資料呈現偏斜或者雙峰分配的情形 – 常用的方法有:簡易法、金氏法、克氏法、皮 爾生經驗法

25

? 簡易法
– 取眾數所在組別之組中點即為眾數

26

? 金氏法(King's method)
– 金氏法是利用槓桿平衡原理
Mo ? L ? f ?1 f ?1 ? f ?1 ?C

27

? 克氏法
– 克氏法是利用三角形相似原理來定義眾數
Mo ? L ? ?1 ?1 ? ? 2 ?C

? ? 1 : f ? f ?1 ? ? ? 2 : f ? f ?1 ?C : 組距 ?

28

? 皮爾生經驗法則
– 皮爾生經驗法則是經觀察實驗而來的,他觀察 呈現偏斜分配的資料型態其眾數到平均數的距 離大約等於中位數到平均數距離的三倍
M o ? x ? 3( x ? M e )

29

? 眾數的優點
– 性質簡單,容易瞭解 – 只考慮出現次數最多的資料,故不易受極端值 所影響 – 分組次數在有不明確組距時,仍可求得眾數

30

? 眾數的缺點
– 只考慮出現次數最多的資料,忽略了其他數值 大小,故較不具敏感性 – 除非知道全部的資料,否則我們無法由兩組已 知眾數,求出合併後的眾數,故不適合代數運 算 – 眾數不具存在唯一性,可能只有一個、可能不 只一個、也可能不存在

31

3-2 離差量數
? 主要用來衡量一組資料分配集中或分散的 程度 ? 分為絕對離差量數與相對離差量數

32

3-2.1 絕對離差量數
? 全距
– 一組資料中的最大值減去最小值,稱為全距 – 未分組 – 已分組
R ? x max ? x min
?U max︰最大組的組上界 ? ? L min︰最小組的組下界

R ? U max ? L min

33

? 四分位距
– 第3四分位數減第1四分位數
? IQR=Q3?Q1

– 四分位差
? 四分位差又稱為四分半距 ? 四分位差等於第3四分位數減第1四分位數後再除以 2
Q .D . ? Q 3 ? Q1 2

34

? 平均差
– 未分組
?
M .A.D ?
n

xi ? x n

i ?1

– 已分組
?
M .A.D ?
k i ?1

fi mi ? x n

35

? 變異數與標準差
– 非組距型資料
? 母體變異數
?
2

?

1 N

? (x
i ?1

N

i

? ?) ?
2

1 N

?x
i ?1

N

2 i

??

2

? 母體標準差
? ? ?
2

36

? 樣本變異數
s ?
2

1 n ?1

?

n

( xi ? x ) ?
2

1 n ?1

i ?1

?

n

xi ?
2

n n ?1

x

2

i ?1

? 樣本標準差
s ? s
2

37

– 組距型資料
? 母體變異數
?
2 k k

?

1 N

?
i ?1

fi (mi ? ? ) ?
2

1 N

?
i ?1

fimi ? ?
2

2

? 樣本變異數
s ?
2

? n ?1

1

k

fi (mi ? x ) ?
2

i ?1

? n ?1

1

k

fim i ?
2

n n ?1

x

2

i ?1

38

? 變異數與標準差的特性
– 變異數或標準差越小,表示大部分數值越集中 於平均數附近。 – 變異數與標準差恆大於等於0。 – 若有二組資料X,Y,且滿足Y=a+bX,則
? Y ? b ? X ,? Y ? b ?
2 2 2 X

39

? 變異數與標準差的優點
– 所有的資料都列入考慮,因此感應靈敏 – 變異數與標準差具代數運算的特性,在所有 的離差量數中應用範圍最為廣泛

40

? 變異數與標準差的缺點
– 由於把所有的資料都考慮進來,因此容易受 極端值所影響。 – 變異數的單位為原資料單位的平方,其物理 意義不明顯且不容易瞭解。 – 當遇到開放型的組距時,則無法求算變異數 與標準差

41

3-2.2 相對離差量數
? 變異係數(coefficient of variation)
– 變異係數的定義為標準差除以平均數再乘以 100%
CV ? 標準差 平均數 ? 100 %

– 變異係數主要的用途是用在單位不同或平均數 不同的數個群體比較離散程度的衡量工具

42

? Z分數
– Z分數是將某資料減去平均數再除以標準差
Zi ? Xi ? x s 或Zi ? Xi ? ?

?

– Z分數主要用在單位不同或平均數不同時欲比 較個別資料或變數離散程度的衡量工具

43

3-3 偏態
? 偏態
– 偏態主要用來衡量單峰分配的偏斜程度,可 分為右偏(正偏)與左偏(負偏)與對稱分 配三種
對稱分配 右偏分配 左偏分配

?1 ? 0

?1 ? 0

?1 ? 0

44

? 偏態係數
1 N

– 對稱分配:?1=0 – 右偏(正偏)分配:?1>0 – 左偏(負偏)分配:?1<0
?
3

?1 ?

? (x
i ?1

n

i

? ?)

3

45

? 皮爾生偏態係數
SK ?

? ? Mo ?

?

3 ( ? ? Me )

?
左偏分配

對稱分配

右偏分配

SK>0 SK=0

SK<0 ? Me Mo

? ? Mo ? Me

? Mo Me

46

3-4 峰度
? 峰度
– 峰度係數主要用來衡量單峰分配圖形是高峻 或平坦 1
?2 ?
N

?

n

( xi ? ? )
4

4

i ?1

?

– 高狹峰(leptokurtosis):?2>3 – 常態峰(mesokurtosis):?2=3 – 低闊峰(platykurtosis):?2<3
47

3-5 柴比雪夫不等式與經驗法則
? 柴比雪夫不等式
– 柴比雪夫不等式主要用來估計不知母體分配情 的情況下,某變數所涵蓋範圍的機率值或個數 – 柴比雪夫不等式也是屬於母數統計學的一部分, 因為必須先知到母體平均數與變異數才能夠利 用柴氏不等式求算機率

48

P ( X ? ? ? k? ) ? 1 ?

1 k
2

,k ?1

至少佔全體的 1 ?

1 k2

? ? k?

?

? ? k?

49

? 經驗法則
– 經驗法則主要用於資料呈單峰對稱分配或鐘型 分配時,估計某變數所涵蓋範圍的機率值或個 數 – 經驗法則亦屬於母數統計的範圍 – 約有68%的觀測值落於( ? ? ? , ? ? ? ) 的區間內 – 約有95%的觀測值落於 ( ? ? 2? , ? ? 2? ) 的區間 內 ( ? ? 3? , ? ? 3? ) – 約有99.7%的觀測值落於 的區 間內 50

?

?

? ?
?
68% 95% 99.7%

?

?

51

3-6 探索性資料的分析—盒鬚圖
? 盒鬚圖包含了一組資料的最小值、第一四 分位數(Q1)、中位數(Me)、第三四分位數 (Q3)及最大值,故又稱為5個彙總量數圖

52

? 盒鬚圖與分配關係
– 對稱分配

– 左偏分配
– 右偏分配 – 均勻分配
53

? 內圍值
– 距第1四分位數與第3四分位數左右各1.5個 IQR的距離所對應的數值稱為內圍值

? 外圍值
– 距第1四分位數與第3四分位數左右各3個IQR 的距離所對應的數值稱為外圍值

54

? 平穩界外值
– 位於內、外圍之間之觀測值

? 極端界外值
– 落於外圍值之外的觀測值

55

56


相关文章:
常用统计量分布表(汇总)
常用统计量分布表(汇总)_数学_自然科学_专业资料 暂无评价|0人阅读|0次下载|举报文档 常用统计量分布表(汇总)_数学_自然科学_专业资料。附表 2 泊松分布表 ?m...
常用计算方法及描述统计量分析
常用计算方法及描述统计量分析_数学_自然科学_专业资料。实验一 常用计算方法及...混养的重量平均数高于单养,但是混养的标准差 和变异系数均低于单养,说明混养的...
实验一 常用计算方法及描述统计量分析
实验一 常用计算方法及描述统计量分析习题 2.10 某海水养殖场进行贻贝与海带...50 试从平均数、极差、标准差、变异系数几个指标评估单养和混养效果,并给出...
说明6个基本统计量
说明6个基本统计量_数学_自然科学_专业资料。说明 6 个基本统计量(平均数、众数...方差是统计中常用的:是指在一组数据中,各数据与它们的平均数 的差的平方的...
统计学常用公式
? ? 当 N 为偶数 (2)分组数据中位数的计算 分组数据中位数的计算时,要先...MSB MSE 公式四 1.拟合优度的检验统计量: ? ?? 2 i ?1 k ? fi ? f...
教育常用的几个统计方法
教育统计学初识 描述统计一、 数据的特征量及其计算 描述集中趋势的统计量,叫做“集中量数”,简称“集中量”。常用的集中量数有三种:算术平均数,中(位) 数和...
常用统计分析方法
上控制界限 UCL 和下控制界限 LCL,并有按时间顺 序抽取的样本统计量数值的描...缺陷数控制图 C 控制图 单位缺陷数控制图 u 控制图 表 2 常用控制图 各...
统计学常用分布及其分位数
统计学常用分布及其分位数_经济/市场_经管营销_专业资料。§1.4 常用的分布及其分位数 1. 卡平方分布 卡平方分布、t 分布及 F 分布都是由正态分布所导出的分...
统计
3.1 常用描述统计量简介 在统计分析中常用到的描述统计量主要包括以下类别。 ? 集中量数:包括均值、众数、中数、几何均数、调和均数、加权平均数及总和。 ? ...
常用统计数据分析软件
常用统计数据分析软件_计算机软件及应用_IT/计算机_专业资料。常用统计数据分析软件...此外,SAS 还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生 成...
更多相关标签:
常用统计量的分布 | 常用的统计量有 | 常用统计量 | 常用统计量主要有哪些 | 次序统计量的密度函数 | 顺序统计量的分布函数 | 次序统计量的分布函数 | 参数和统计量的区别 |