当前位置:首页 >> 小学教育 >>

1.1一维数据数字特征






2012~2013 学年第一学期

主 讲 教 师 李晓燕 课 程 名 称 数据分析 课 程 类 别 专业限选课 学 时 及 学 分 68;4 授 课 班 级 信息 101 102 使 用 教 材 《数据分析方法》 系 ( 院 . 部 ) 数理系 教研室(实验室) 信息与计算科学教研室

数据分析
总学时:68 内容:
? SAS 软件介绍 ? 数据的描述性分析 ? 线性回归分析 ? 方差分析 ? 主成分分析与典型相关分析 ? 判别分析 ? 聚类分析 ? 学生报告 8 学时 8 学时 8 学时 8 学时 3 学时 10 学时 13 学时 10 学时

理论 38.上机 28

适用专业:信息与计算科学

教材: 《数据分析方法》 ,梅长林、范金城编,高等教育出版社.2006. 参考资料:
《实用统计方法》 ,梅长林编,科学出版社; 《应用多元统计分析》 ,高惠璇编,北京大学出版社,2005; 《使用统计方法与 SAS 系统》 高惠璇编, , 北京大学出版社, 2001; 《多元统计分析》 (二版), 何晓群编, 中国人民大学出版社, 2008; 《应用回归分析》 (二版), 何晓群编, 中国人民大学出版社, 2007; 《统计建模与 R 软件》 ,薛毅编著,清华大学出版社,2007.

考核:
期末成绩(闭卷考试+上机考试) :70%。 平时成绩(平时作业+考勤+大报告) :30%。

课程作业
(1)作业题目在网络教学平台公布,按格式要求,以电子版方 式通过平台提交。 (2)大报告:2-3 人一组,每组一个选题,成员按相同的成绩 计分。收集数据,撰写小论文,做 PPT 讲解。每组讲 10-20 分钟, 提问环节。同学打分。


一、课 题:§ 1.1










课次序号: 01

一维数据的数字特征及相关系数

二、课

型:新授课

三、目的要求:1.掌握数据的数字特征(均值、方差等) ; 2.掌握几种描述性分析的 SAS 过程和作图过程计算这些数字特 征及进行描述性分析.

四、教学重点:均值、方差等数字特征. 教学难点:基本概念的理解.

五、教学方法及手段:传统教学与上机实验相结合.

六、参考资料:1.《实用统计方法》 ,梅长林,周家良编,科学出版社; 2.《SAS 统计分析应用》 ,董大钧主编,电子工业出版社.

七、作业:1.1

八、授课记录: 授课日期 班 次

信息 101 102

九、授课效果分析:

§0 绪论
0.1 课程内涵
数据分析(即多元统计学 statistics) :是以数据为依据,以统计方法为理论、计算机 及软为工具, 研究多变量问题、挖掘数据的统计规律的学科. 通过收集数据、 整理数据、

分析数据和由数据得出结论的一组概念、原则和方法。
例如 下表给出某年级随机抽取的 7 名学生 5 门课程期末考试的成绩: 序号 政治 语文 外语 数学 物理 1 99 94 93 100 100 2 99 88 96 99 97 3 100 98 81 96 100 4 93 88 88 99 96 5 100 91 72 96 78 6 90 78 82 75 96 7 75 73 88 97 89 如何根据抽样数据研究该年级学生的学习成绩? 用各科成绩总和作为综合指标,比较学生成绩的好坏; 根据各科成绩的近似程度对学生进行分类 (成绩好的与成绩差的, 文科成绩好的与理科 成绩好的) ;研究各科成绩之间的关系(物理与数学成绩的关系,文科成绩与理科成绩的关 系)等. 综上所述,多元统计分析是以各变量的 n 次观测数据所组成的数据矩阵
? x 11 ? x 21 X ? ? ? ? ? ? x n1 ? x 12 x 22 ? xn2 ? ? ? x1 p ? ? x2 p ? ? ? ? x np ? ?

为依据的,根据实际问题的需要,给出种种方法.

0.2 课程体系及应用
? 研究内容和方法:
英统计学家肯德尔(Kendall) 概括多元统计分析研究内容和方法为以下几方面:

1.多元统计的理论基础
包括多维随机向量及多维正态随机向量及由此定义的各种多元统计量,推导其分布 并研究性质、抽样分布理论——概率统计、数据描述性分析.

2.多元数据的统计推断
参数估计和假设检验问题.特别是多元正态分布的均值向量及协方差阵的估计和假设 检验等问题——数据描述性分析、方差分析、Bayses 统计推断.

3.变量间的相互关系
(1)相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化,建立 变量间的定量关系式,并用于预测或控制——回归分析.

(2)变量间的相互关系:分析两组变量间的相互关系——典型相关分析.飓风和蝴蝶.

4.简化数据结构(降维问题)
通过变换将相关的变量变为不相关的;高维数据投影到低维空间,简化问题又损失信 息不太多.如主成分分析、因子分析、相关分析、对应分析等方法.

5.分类与判别(归类问题)
将考察的变量按相似程度分类——聚类分析、判别分析.

? 多元统计分析的应用
由于大部分学科都涉及数据分析工作,因此统计学几乎可以与任何一个学科结合起来。 有 些 学 科 已 经 有 其 特 有 的 方 法 和 特 点 ; 如 生 物 统 计 (biostatistics) 、 经 济 计 量 学 (econometrics)计量地理、及热门的生物信息(bioinformation)和数据挖掘(Data Mining) 的方法主体都是统计。

1.教育学
学生成绩分析和预测.如高考成绩和高中成绩的关系,以此预测高考成绩;给出考生成 绩次序排队的最佳方案;利用高中成绩进行分类(按文理科、总成绩).

2.医学
根据检查数据或病例资料建立诊断准则,诊断病例.

3.气象学
根据各地气象站的气象指标资料(降雨量、气温、气压、湿度、风速、风向等)做统计 分析,进行天气预报等.

4.环境科学
分析污染气体浓度,布局监测点,污染治理.

5.地质学
处理地质观测数据,进行矿产预测、矿产构造解释、部署勘探工程等.

6.考古学
对发现的文物通过测得各类数据,判断出现的年代、种族等.

7.服装工业
抽样调查人体几十个部位的尺寸数据,进行统计分析,决定服装各型号及比例.使 生产地成衣适应大多数顾客的需要.

8.经济学
宏观经济、微观经济的应用.

9.农业
农业灌区分类,农机分类等.

10.社会科学
通过调查研究青少年犯罪各因素间的相互关系及变化规律,进行预防.

11.文学
如复旦大学统计系李贤平使用聚类、主成分、相关分析,选定 10 个与情节无关的 虚词为变量,统计每一回虚词出现的频数,进行统计分析,证明前 80 回为曹雪芹所写,而 后 40 回是他人所写.

12.其他
体育科研、军事科学、生物学、心理学、生态学、保险、火警预报、地震预报、中医阴 阳学说研究等.

0.3 统计学的产生与发展
统计学的产生:17 世纪中叶,英国威廉配第《政治算术》问世,标志统计学的诞生. 统计学主要流派: 国势学派(记述流派):最早流派之一。创始人德国的康令(H.Conring 1606-1681)和阿 享瓦尔(G.Achenwall 1719—1772).主要采用文字记述的形式,把国家重要事项系统地整理 并罗列出来(报表). 政治算术学派:创始人格朗特(J.Graunt 1620—1674)和威廉.配第(W.Petty 1623-1687)。主张以数字、重量和尺度来说话,用图表形式来概括数字资料. 数理统计学派:产生于 19 世纪中叶,创始人为比利时的凯特勒(L.A.J.Quetelet 1796-1874),把概率论引进统计学,为统计的数量分析奠定数理基础(数学统计学院).社会 经济统计学派: 19 世纪后半叶兴起于德国, 于 主张统计学是研究社会现象的社会科学.学派 融会了国势和政治算术学派观点, 并把政府统计和社会调查融合起来, 形成社会经济统计学, 影响较大.代表人恩格尔(1821-1896)和梅尔(1841-1925)(经济管理学院).

多元统计分析的起源:
20 世纪初,以 1928 年威沙特(Wishart)发表的论文《多元正态总体样本协方差矩阵 的精确分布》为开端,之后费希尔(Fisher) 、霍特林(Hotelling) 、罗伊(Roy) 、许宝騄 等做了一系列奠基性的工作.20 世纪 50 年代中期,电子计算机的出现和发展,使得多元统 计分析在地质、气象、医学、社会学等方面得到广泛的应用.

0.4 统计学是什么?
统计是人类思维的一个归纳过程 站在路口,看到每过去 20 辆小轿车时,也有 100 辆自行车通过.平均每 10 个轿车载 12 个人.于是,你认为小轿车和自行车在路口运载能力为 24:100---这是一个典型的统计思维 过程 一般说, 统计先从现实世界收集数据(信息), 如观测路口交通信息, 根据数据作出判断, 称为模型.模型是从数据产生的,需根据新信息不断改进,解释实际问题.不存在完美的模型。 简言之:统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、 原则和方法。以归纳为主要思维方式。

0.5 统计学与其他学科的关系
统计与数学的区别: 数学思维以演绎为主;统计以归纳为主,兼有演绎; 数学是工具:统计各领域利用几乎所有数学;但统计本身的数学为具体目标服务,一般不 形成数学体系。 统计与计算机的关系 最初的计算机仅仅是为科学计算而设计和建造的。统计是大型计算机的最早用户,由于 统计和数据打交道,没有计算机的发展统计就没有前途.计算机和统计的发展相辅相成

0.6 统计软件
应用统计学涉及大量数据的处理工作,需要借助统计软件完成。统计软件种类很多。本 课程使用 SAS 软件。只要学会使用一种“傻瓜式”软件或编程软件,其他类似。学软件的最 好方式是需要时在使用中学。

? ? ? ? ? ? ? ? ? ?

SAS:功能齐全和政府机构认可;强大的数据分析能力,是数据和统计分析领域的巨无 霸。全球 500 强前 100 家中的 91 家企业用 SAS。 需一定的编程技术;价格不菲。 SPSS:易操作,输出漂亮,功能齐全,价格合理。对非统计工作者是很好的选择。 Excel: 作为数据表格软件, 有画图和一定统计计算功能。 可做简单统计分析, Microsoft Office 装 Excel(需装数据分析的功能)。 MATLAB:应用于各个领域的以编程为主的软件,在工程上应用广泛。有统计包。 S-plus: 功能全, 强大的编程功能, 可自己编程来实现。 在进行“傻瓜化”以争取顾客。 R 软件:免费的开源软件,编程方便。可从网上下载更新和增加的软件包和程序。用户 量增加最快。主要问题没有“傻瓜化”。 Minitab 以及 Statistica:功能强大而又齐全,已经“傻瓜化”,我国用的不如 SPSS 与 SAS 普遍。 Eviews:处理回归和时间序列的软件。 GAUSS:搞经济的喜欢,编程强。中国用的不多 FORTRAN:应用广、历史长、速度快的编程软件,功能强,有一定统计包。需要编程,操作 不易。

0.7 应用案例及选题参考
? ? ? ? ? ? ? ? ? ? ? ? ? 大学排名是一个非常敏感的问题。 不同的机构得出不同的结果; 如何理解这些不同的结 果呢? 如何对学生成绩进行综合评价?--主成分 任何公司都有一个信用问题。 当然, 在这些公司试图得到贷款时并没有不还贷的不良记 录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢? 我国东部和西部的概念比较笼统。如何能够根据需要,选择一些指标来把各省,或各市 县甚至村进行分类呢? DNA 鉴定、蝴蝶的分类--聚类分析 如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢? 如何确定红楼梦前四十回和后四十回是否曹雪芹一人所写? 如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(如商 品或政策)的态度之间的关系呢? 高中成绩和大学成绩是否密切相关?地震与油价上涨有关吗?--相关分析 水质污染和那些因素有关?如何确定重金属污染源?--回归 如何设计调查问卷,收集数据,调查大学生喜欢的手机品牌? 两种小麦品种产量是否有显著差异? 肯德基选址问题调查分析(数据挖掘)

要求:
1.调研,收集数据; 2.数据处理; 3.选合适的统计模型建模。 4.2-3 人一组,写一篇大论文上交。做 PPT 汇报,10-20 分钟,可以提问 2-3 个问题。论文 和答辩各占 60、40 分。老师占 70%,学生 30%。 论文做的好的,可继续作为学术科技立项申报,或作为毕业设计题目继续完善。能投稿的投 稿。

第一章 数据的分布
数据的描述性分析即从数据出发概括数据的特征.分为数字特征和分布特征. 数字特征: 用简单的量概括数据包含的主要信息或特征.包括数据的集中位置、 分散程度、 数据分布的形状特征等. ? 表达数据集中位置的指标,用以描述观察值的平均水平,如均值、中位数、分位数、 三均值.. ? 表达数据的分散成度或变异的指标, 用以描述观察值间参差别不齐的程度, 如方差、 标准差、变异系数、极差、四分位数等.. ? 表达数据分布的形状的数字特征等,如峰度和偏度. 分布特征:反应数据整体结构特征. 本章介绍一维和多维数据描述性分析的基本内容,包括数据的数字特征与分布特征的 描述性分析.简介多维正态分布的定义和性质.

§1.1
设有 n 个一维数据:

一维数据的数字特征

x1 , x 2 , ? , x n

它们是从所研究的对象(总体)X 中观测得到的,称为样本观测值,n 为样本容量. 数据分析的任务:对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对 总体的信息做出推断.首先用一些简单的量概括数据中包含的信息或特征.

1.1.1 表示位置的数字特征
1.均值(mean)
x ? (? xi ) / n
i ?1 n

(1.1)

为 x 1 , x 2 , ? , x n 的(简单算术)平均数,简称均值.描述数据取值的平均位置. 注意:10 优点:是总体均值的无偏一致估计,含有数据的完整信息,是位置的主要测度值. 适用于数值型数据,不适用于分类和顺序数据. 20 缺点:易受数据中异常值的影响,缺乏抗扰性、稳健性.因此,在数据分析中还要 考虑其他一些描述位置的数字特征. 30 其他平均值(不要求) (1)加权算术平均值(arithmetic mean)
x ? (? xi f i ) / ? f i
i ?1 i ?1 n n

其中 f i 为 x i 出现的頻数.

(2)几何平均值(geometric mean) 几何平均值适用于表达呈对数正态分布资料的平均水平.常用于速度、 比率等变量的平均.

为观察值的总乘积开 n 次方根:

G ? (? x i )
i ?1

n

1/ n

为避免溢出及方便计算,常用对数计算,也称对数平均值:
G ? lg
?1

(( ? lg x i ) / n )
i ?1

n

加权几何平均为: G ? lg

?1

(( ? f i lg x i ) / ? f i )
i ?1 i ?1

n

n

(3)调和平均值(harmonic mean ) 也称倒数平均值.调和平均值适用于表达呈极严重的正偏态分布资料的平均水平, 有简单 调和平均值与加权调和平均值两种:
H ? n / ? (1 / x i )
i ?1 n

——简单调和平均值

H ?

?
i ?1

n

f i / ? ( f i / x i ) ——加权调和平均值
i ?1

n

(4)分组数据加权平均 数据被分成 k 组,各组组中值为 M 1 , M 2 , ? M k ,各组变量出现的頻数为 f i ,则分组加 权平均公式为:
x ? (? M i f i ) / n
i ?1 n

当数据量多时,采用分组加权平均,可大大减少工作量,又不至于造成太大误差. 40 次序统计量:将观测值从小到大排列,记为
x 1) ? x 2) ? ? ? x n ) ( ( (

其中: x 1) ? min x i ; (
1? i ? n

x n ) ? max x i 分别为最小和最大次序统计量. (
1? i ? n

2.中位数(median)
n 为奇数 ? x n ?1 ? ( 2 ), M ? ?1 ? ( x n ? x n ), n 为偶数 ( ) ( ?1) 2 2 ?2

(1.2)

中位数将总体或样本的全部观察值分成两部分,每部分各有 50%个观察值,其计算方法 为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数.观察值为 奇数时,处于中间的那个数为中位数.偶数时处于中间的两个数的均值为中位数. 中位数是位置平均值,受异常值影响小,较好的稳健性.在具有个别极大或极小值的分 布数列中,中位数比算术平均值更具有代表性.适用于测量的顺序数据,表达数值型数据的集 中趋势,不适用分类数据.

3.分位数(percentile)
np 不是整数 ? x ([ np ] ? 1), ? ? ? 1 (x ? x ( np ? 1 ) ), np 是整数 ? 2 ( np ) ?

M

p

(1.3)

分位数为顺序性数据. 0 ? p ? 1 , x 1 , x 2 , ? , x n 的分位数以 M 值分成两部分, 其中有 100 p % 个观察值不超过 M
p

p

表示,将总体或样本观察

.中位数 M 就是 0.5 分位数.实际应用中,

0.25 与 0.75 分位数重要,分别称为下、上四分位数.简记为
Q1 ? M
0 . 25

,

Q3 ? M

0 . 75

4.三均值
1 1 1 ~ M ? Q1 ? M ? Q 3 4 2 4

(1.4)
1 1 1 , , .代表前 25%部分,后 25%部分,及中间的 4 2 4

为 Q 1 , M , Q 3 的加权平均,权重分别是

50%部分.在实际中,既要充分利用信息,又要较强的稳健性,可以将这些量综合起来,采 用三均值作为概括位置的数字特征.

5. 众数(mode)
一组数据中出现頻数最多的变量值称为众数 M 0 ,列为频数表的资料,频数最大的组的 组中值为众数.适用于粗略地表示呈单峰分布资料的集中趋势.当数据个数较少时, 众数就是 出现次数最多的个数据. 例 1.1 某城市随机抽取 9 个家庭,调查每个家庭的人均月收入数据(单位:元) ,如下: 1080 750 780 1080 850 960 2000 1250 1630

计算人均月收入的均值及中位数. 解:顺序统计量 750 780 850 960 1080 1080 1250 1630 2000
n ? 9, x ? 1153 . 33 , 中位数 M ? x
( 9 ?1 2 )

? x ( 5 ) ? 1080 ,

Q1 ? M

0 . 25

? 850 ,

Q2 ? M

0 . 75

1 1 1 ? ? 1250 , M ? Q 1 ? M ? Q 3 ? 1065 , 4 2 4

众数 M

0

? 1080 出现 2 次.

二.数字特征的作用 总体 X 的分布为

? X 离散,分布 P { X ? x i } ? p i ( i ? 1, 2 , ? ) ? ? pi F ( x ) ? P { X ? x} ? ? xi ? x x ? f ( x )d x X 连续, 密度 f ( x ) ? ?? ?
EX ?

?

??

??

xf ( x ) d x (或 ? x i p i )

? EX ? x , M , M ,即为总体均值的相合估计

P
?

p

0 ? p ? 1,
n ?? 1,

F ( ? p ) ? P { X ? ? p } ? p , ? p ——总体分布的 p 分位数.

?

p

? M

p

样本 p 分位数为总体 p 分位数的相合估计.

例1.2 对某单位100名女学生测定血清蛋白含量(g/L),数据如下:
74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7 75.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.3 73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4

计算均值,中位数,上,下四分位数,M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位数及三
?

均值 M . 解:利用SAS系统的PROC UNIVARIATE过程实现.计算程序:
data examp1_2; input x @@; cards; 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5

79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7 75.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.3 73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4 ; proc univariate data=examp1_2;
过程的默认输出结果*/

/* 调用univariate过程,这里无选项,表示按此

var x; run; 注意: 此过程的默认结果输出含有: MEAN、 N、 Sum、 Dev、 Std Variance、 Skewness、 Kurtosis、

Ussr、Css、T(t 检验的值) 、Prt(p 值) 、各种分位数、中位数、Range、Modern 等. 程序运行结果 The SAS System 17:39 Friday, August 27, 2009 The UNIVARIATE Procedure UNIVARIATE 过程 Variable 变量: x Moments 矩 N Mean Std Deviation Skewness Uncorrected SS 未校平方和 Coeff Variation 变异系数 均值 100 73.66 Sum Weights 权重总和 100

7

Sum Observations 观测总和 7366 方差 s
2

标准偏差 s 3.94008153 Variance 偏度 g 1 USSR CV 0.06007521 Kurtosis 544116.46 5.34901103

15.5242424 0.03386864 1536.9 0.39400815

峰度 g 2 CSS

Corrected SS 校正平方和 Std Error Mean 标准误差均值

Mean

Basic Statistical Measures 基本统计测度 Location Variability 位置 变异性 均值 x 73.66000 Std Deviation 标准偏差 s 73.50000 73.50000 Variance Range 方差 s
2

3.94008 15.52424 20.00000 4.60000

Median 中位数M Mode 众数

极差 R

Interquartile Range 四分位极差 R 1

Tests for Location: Mu0=0

位置检验: Mu0=0
Test -Statistic-----p Value------

检验 Student's 学生 t Sign 符号 Signed Rank 符号秩

--统计量---------P 值------t 186.9504 Pr > |t| <.0001 M 50 Pr >= |M| <.0001 S 2525 Pr >= |S| <.0001 分位数(定义 5)
Quantile Estimate

分位数 100% 99% 95% 90% 75% 50% 25% 10% 5% 1% 0%

最大值 M0.99 M0.95 M0.90 Q3
Median 中位数M

Q1 M0.10 M0.05 M0.01 最小值

估计值 84.30 82.95 80.50 79.15 75.80 73.50 71.20 68.40 67.30 64.65 64.30

Extreme Observations

极值观测
----Lowest-------Highest---

----最小值---Value Obs

----最大值---Value Obs

值 64.3 65.0 65.0 67.2 67.3

观测 34 65 26 71 79

值 80.5 81.2 81.6 81.6 84.3

观测 7 47 67 88 97

又下、上截断点Q1 ±1.5R1为64.3和82.7,故84.3为异常值.可将其剔除,再分析.

1.1.2 表示分散性的数字特征
位置特征是数据分布的特征,反映各变量向中心值的聚集程度.要考察变量之间的差异 状况,需考察数据的分散程度,反映变量偏离中心值的程度,主要有方差、变异系数,极差 等.

1.方差、标准差与变异系数

方差(variance)与标准差(standard deviation)是一种常用的离散指标.方差是数据相对 于均值的偏差平方的平均:

? (x
s
2

n

i

? x)

2

?

i ?1

n ?1

(1.5)

方差的算术平方根称为标准差:
s ?

? (x ?

x)

2

n ?1

(1.6)

标准差的平方为方差,标准差(或方差)越大,表示观察值的分布越分散;反之,标准 差(或方差)越小,表示观察值的分布越集中.如果标准差为 0,表示这组观察值都为一个相 同的值.实际应用时常以均值±标准差的写法综合观察值集中和离散特征. 变异系数(coefficient of variantion)是刻画数据相对分散性的离散指标,它是标准差与均 值之比,用百分数表示: CV ? s / x ? 100 % ? s / x (1.7) 由于 CV 无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不 相同的指标或者平均水平相差悬殊的指标的变异程度. 总体 X 的标准差 ? 、方差 ? 、变异系数 ? ? ? / ? , x 1 , x 2 , ? , x n 来自总体 X , 则有:
2

s , s , CV 为 X 的方差 ?
2

2

、标准差 ? 、变异系数 ? ? ? / ? 的相合(一致)估计,即 n ?? 1

时,

?

2

? s , ? ? s , ? ? CV .
2

2.极差与四分位极差
全距(range)也称极差是一种离散指标,是最大与最小观察值之差
R ? x ( n ) ? x (1 )

(1.8)

用极差反映总体分布的离散程度虽然简便,但它只从两端数值考察,忽略了中间数据的 变动情况,不能说明整体的差异程度,尤其是存在极端值情况下,使用极差往往会造成错误 的结论. 四分位极差(interquartile range)是一种离散指标,它是第 3 个四分位数 Q 3 与第 1 个四 分位数 Q 1 之差,即
R1 ? Q 3 ? Q 1 ? M
0 . 75

? M

0 . 25

(1.9)

四分位极差也是数据分散性的一个重要的数字特征,对异常数据具有抗扰性. 总体标准差的(利用四分位极差)一个具有抗扰性的估计为:
?? ?
R1 1 . 349

———四分位标准差.

(1.10)

实际应用中,定义下、上截断点

Q 1 ? 1 .5 R 1 ,

Q 3 ? 1 .5 R 1

小(大)于下(上)截断点的数据称为特小(大)值,均称为异常值. 解释:正态分布总体 N ( ? , ? ) ,
2

P ( X ? ? 0 . 75 ) ? P (
?

X ??

?

?

? 0 . 75 ? ? ?

)? 0 . 75



? 0 . 75 ? ? ?

? 0 . 6745

? ? 0 . 75 ? ? ? 0 . 6745 ? ,

故正态分布的理论下、上截断点为
? 0 . 25 ? 1 . 5 r1 ? ? ? 2 . 698 ? , ? 0 . 75 ? 1 . 5 r1 ? ? ? 2 . 698 ?

四分位极差为
r1 ? ? 0 . 75 ? ? 0 . 25 ? 1 . 349 ?

此时

? ?

r1 1 .3 4 9

P ( X ? ? 0 . 25 ? 1 . 5 r1 或 X ? ? 0 . 75 ? 1 . 5 r1 ) ? P ( X ? ? ? 2 . 698 ? 或 X ? ? ? 2 . 698 ) ? P (| X ? ?

?

| ? 2 . 698 ) ? 2 ? ( 2 . 698 ) ? 0 . 00698

数据落在下、上截断点之外的概率为 0.00698,即对容量 n 较大的数据,异常值的比率约 为 0.00698.

0.75
? 0 . 75

? 0 . 75 ? 1 . 5 r1

求例 1.2 血清蛋白含量数据的方差、标准差、变异系数、极差、四分位极差、四分位标准差, 并分析是否有异常值. 解:程序如上:计算得 方差 s =15.52424, 标准偏差 s =3.94008, 变异系数 CV=5.34901103 极差 R =20.00000,
? 四分位极差 R 1 =4.60000,四分位标准差 ? ? 3 . 41
2

又上下截断点分别为 Q 3 ? 1 . 5 R ? 64 . 3 , Q 1 ? 1 . 5 R ? 82 . 7 ,数据84.3是异常值(特大). 将异常值去掉,进行计算,得均值、中位数、标准差、上下四分位数、四分位极差各为

x ? 73 . 552 ,M=73.5,

s ? 3 . 810 , Q 3 ? 75 . 8, Q 1 ? 71 . 2, R 1 ? 4 . 6

与例1相比,剔除异常值后均值与中位数更接近,而中位数、上下四分位数、四分位极差与 原数据值相等,这说明中位数、上下四分位数、四分位极差等对异常值具有抗扰性.而标准 差的值由3.940变小到3.810,说明其对异常值抗扰性较差.

1.1.3 表示分布形状的数字特征 1.偏度
偏度(skewness)即分布的偏斜度,偏斜度反映以平均值为中心的分布的不对称程度.偏 斜度的计算公式为样本观察值 x i 消除量纲影响的三阶中心矩, 然后按样本数 n 进行无偏修正, 定义如下:
g1 ?

?( ( n ? 1 )( n ? 2 )

n

xi ? x s

)

3

(1.11)

其中 s 为样本的标准差. g 1 ? 0 称正偏度(右偏态)表示不对称部分的分布更趋向正值,此时 在均值右边的数据更为分散;负偏度表示更趋向负值,均值左边的数据更分散.如图

频 数

M ? x

g 1 ? 0 右偏

频 数

M ? x

g 1 ? 0 左偏

无偏 g 1 ? 0 总体偏度 G 1 ?
E(X ? ?)
3

?

3

度量总体是否偏向某一侧。

G 1 ? 0,对称; G 1 ? 0,右偏;

2.峰度
峰度(kurtosis)反映与正态分布相比某一分布的尖锐度或平坦度.峰值的计算为样本观察 值 x i 消除量纲影响的四阶中心矩减去 3(因为标准正态分布的四阶原点矩为 3) ,然后按样本 数 n 进行无偏修正,公式如下:
g2 ?

?( ( n ? 1 )( n ? 2 )( n ? 3 )

n ( n ? 1)

xi ? x s

4

) ?

3 ( n ? 1)

2

( n ? 2 )( n ? 3 )

( 1.12)

式中 s 为样本的标准差,正峰值表示相对尖锐的分布,负峰值表示相对平坦的分布.

g 2 ? 0 峰值为正

g 2 ? 0 峰值为负

粗尾,分布异常数据多 总体峰度
G2 ?

细尾(肚子大,中间数据多),异常数据少

?4 ?
4

?3?

E(X ? ?)

4

?

4

? 3 度量总体的扁平程度,以同方差的正态分布为标准,比较

总体分布尾部分分散性的指标。
G 2 ? 0,接近正态分布; G 2 ? 0,尖峰粗尾,分布极端 G 2 ? 0,平峰细尾,分布极端 数值分布范围较广; 数值分布范围较少 .。

例 1.3 从 1952-2001 年我国国民生产总值、第一、二、三产业产值数据(见书例 1.3).计算 总值、第一、二、三产业产值的主要数字特征,并考察异常情况.程序如下:

data examp1_3; input year x x1 x2 x3; cards; 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 679.0 824.0 859.0 910.0 1028.0 1068.0 1307.0 1439.0 1457.0 1220.0 1149.3 1233.3 1454.0 1716.1 1868.0 1773.9 1723.1 1937.9 2252.7 2426.4 2518.1 2720.9 2789.9 2997.3 2943.7 3201.9 3624.1 4038.2 4517.8 4862.4 5294.7 5934.5 7171.0 8664.4 10202.2 11962.5 14928.3 16909.2 18547.9 21617.8 26638.1 342.9 378.0 392.0 421.0 443.9 430.0 445.9 383.8 340.7 441.1 453.1 497.5 559.0 651.1 702.2 714.2 726.3 736.2 793.3 826.3 827.4 907.5 945.2 971.1 967.0 942.1 1018.4 1258.9 1359.4 1545.6 1761.6 1960.8 2295.5 2541.6 2763.9 3204.3 3831.0 4228.0 5017.0 5288.6 5800.0 141.8 192.5 211.7 222.2 280.7 317.0 483.5 615.5 648.2 388.9 359.3 407.6 513.5 602.2 709.5 602.8 537.3 689.1 912.2 1022.8 1084.2 1173.0 1192.0 1370.5 1337.2 1509.1 1745.2 1913.5 2192.0 2255.5 2383.0 2646.2 3105.7 3866.6 4492.7 5251.6 6587.2 7278.0 7717.4 9102.2 11699.5 194.3 253.5 255.3 266.8 303.4 321.0 377.6 439.7 468.1 390.0 336.9 328.2 381.5 462.8 456.3 456.9 459.5 512.6 547.2 577.3 606.5 640.4 652.7 655.7 639.5 750.7 860.5 865.8 966.4 1061.3 1150.1 1327.5 1769.8 2256.2 2945.6 3506.6 4510.1 5403.2 5813.5 7227.0 9138.6

1993 1994 1995 1996 1997 1998 1999 2000 2001 ; run;

34634.4 46759.4 58478.1 67884.6 74462.6 78345.2 81910.9 89403.6 95933.3

6882.1 9457.2 11993.0 13844.2 14211.2 14552.4 14457.2 14212.0 14609.9

16428.5 22372.2 28537.9 33612.9 37222.7 38619.3 40417.9 45487.8 49069.1

11323.8 14930.0 17947.2 20427.5 23028.7 25173.5 27035.8 29703.8 32254.3

proc univariate data=examp1_3; var x x1 x2 x3; run; 结果输出: /* 对x x1 x2 x3进行univariate过程分析,输出变量的结果*/

UNIVARIATE 过程 变量: x 矩 N 50 权重总和 50 均值 16764.454 观测总和 838222.7 标准偏差 26948.1675 方差 726203730 偏度 1.86888604 峰度 2.18137482 未校平方和 4.96363E10 校正平方和 3.5584E10 变异系数 160.74587 标准误差均值 3811.04639 基本统计测度 位置 变异性 均值 16764.45 标准偏差 26948 中位数 3099.60 方差 726203730 众数 . 极差 95254 四分位极差 15452 位置检验: Mu0=0 检验 --统计量---------P 值------学生 t t 4.398911 Pr > |t| <.0001 符号 M 25 Pr >= |M| <.0001 符号秩 S 637.5 Pr >= |S| <.0001 分位数(定义 5) 分位数 估计值 100% 最大值 95933.3 99% 95933.3 95% 81910.9 90% 71173.6 75% Q3 16909.2 50% 中位数 3099.6 25% Q1 1457.0 10% 1048.0

5% 859.0 1% 679.0 0% 最小值 679.0 极值观测 ----最小值---------最大值----值 观测 值 观测 679 1 74462.6 46 824 2 78345.2 47 859 3 81910.9 48 910 4 89403.6 49 1028 5 95933.3 50 均值与中位数差距较大,S、R都大,说明数据取值分散,偏度g1 及g2取较大正值,说明,右 偏态,数据呈粗尾,有较多的特大值.下、上截断点40087.5,59731.5,94年以后均为特大 值.从而说明从94年后,国民生产总值迅速增长. UNIVARIATE 过程 变量: x1 矩 N 50 权重总和 50 均值 3486.652 观测总和 174332.6 标准偏差 4687.75216 方差 21975020.3 偏度 1.61895195 峰度 1.17134899 未校平方和 1684613105 校正平方和 1076775996 变异系数 134.448524 标准误差均值 662.948268 基本统计测度 位置 变异性 均值 3486.652 标准偏差 4688 中位数 969.050 方差 21975020 众数 . 极差 14269 四分位极差 3669 位置检验: Mu0=0 检验 --统计量---------P 值------学生 t t 5.259312 Pr > |t| <.0001 符号 M 25 Pr >= |M| <.0001 符号秩 S 637.5 Pr >= |S| <.0001 分位数(定义 5) 分位数 估计值 100% 最大值 14609.90 99% 14609.90 95% 14457.20 90% 14027.70 75% Q3 4228.00 50% 中位数 969.05 25% Q1 559.00 10% 406.50

5% 378.00 1% 340.70 0% 最小值 340.70 极值观测 -----最小值---------最大值----值 观测 值 观测 340.7 9 14211.2 46 342.9 1 14212.0 49 378.0 2 14457.2 48 383.8 8 14552.4 47 392.0 3 14609.9 50 UNIVARIATE 过程 变量: x2 矩 N 50 权重总和 50 均值 8030.578 观测总和 401528.9 标准偏差 13530.6088 方差 183077375 偏度 1.94115816 峰度 2.48177787 未校平方和 1.21953E10 校正平方和 8970791393 变异系数 168.488605 标准误差均值 1913.51705 基本统计测度 位置 变异性 均值 8030.578 标准偏差 13531 中位数 1439.800 方差 183077375 众数 . 极差 48927 四分位极差 6676 位置检验: Mu0=0 检验 --统计量---------P 值------学生 t t 4.196763 Pr > |t| 0.0001 符号 M 25 Pr >= |M| <.0001 符号秩 S 637.5 Pr >= |S| <.0001 分位数(定义 5) 分位数 估计值 100% 最大值 49069.10 99% 49069.10 95% 40417.90 90% 35417.80 75% Q3 7278.00 50% 中位数 1439.80 25% Q1 602.20 10% 298.85 5% 211.70 1% 141.80 0% 最小值 141.80

极值观测 -----最小值---------最大值----值 观测 值 观测 141.8 1 37222.7 46 192.5 2 38619.3 47 211.7 3 40417.9 48 222.2 4 45487.8 49 280.7 5 49069.1 50 UNIVARIATE 过程 变量: x3 矩 N 50 权重总和 50 均值 5247.224 观测总和 262361.2 标准偏差 8797.29147 方差 77392337.3 偏度 1.92145358 峰度 2.50044604 未校平方和 5168892511 校正平方和 3792224526 变异系数 167.656107 标准误差均值 1244.12489 基本统计测度 位置 变异性 均值 5247.224 标准偏差 8797 中位数 703.200 方差 77392337 众数 . 极差 32060 四分位极差 4947 位置检验: Mu0=0 检验 --统计量---------P 值------学生 t t 4.217602 Pr > |t| 0.0001 符号 M 25 Pr >= |M| <.0001 符号秩 S 637.5 Pr >= |S| <.0001 分位数(定义 5) 分位数 估计值 100% 最大值 32254.3 99% 32254.3 95% 27035.8 90% 21728.1 75% Q3 5403.2 50% 中位数 703.2 25% Q1 456.3 10% 312.2 5% 255.3 1% 194.3 0% 最小值 194.3 极值观测 -----最小值---------最大值----值 观测 值 观测

194.3 253.5 255.3 266.8 303.4

1 2 3 4 5

23028.7 25173.5 27035.8 29703.8 32254.3

46 47 48 49 50

课堂总结 ? 基本内容: 数据的位置特征——均值、中位数、分位数、三均值 数据的分散性特征——方差、标准差、极差及四分位极差、下上截断点 分布形状特征——偏度、峰度 ? 目的要求: 1.掌握数据的数字特征 2.掌握运用 SAS 软件计算这些数字特征 作业 1.1:


相关文章:
1.1一维数据数字特征
1.1一维数据数字特征_小学教育_教育专区。教 案 2012~2013 学年第一学期 主讲教师 李晓燕 课程名称 数据分析 课程类别 专业限选课 学时及学分 68;4 授课班级...
1.1一维数据数字特征
课一、课题:§1.1 时 授 课 计 划课次序号: 课次序号: 01 一维数据数字特征及相关系数 二、课 型:新授课 三、目的要求:1.掌握数据的数字特征(均值、...
数据的数字特征
免费 一维数据数字特征 7页 免费数​据​的​数​字​特​征 ...( ) A.0.6h B.0.9h C.1.0h D.1.5h 5、 重庆)从一堆苹果中任取 ...
1.3多维数据数字特征
一维数据数字特征:位置、分散型、形状; 2.数据分布:直方图、经验分布函数、QQ ...( 5 ) -5.2, -3.1, -0.8, 1.1, 4.2 3, 2, 4, 1, 5 注意:为...
数据的数字特征
13页 1下载券 数据的数字特征 2 暂无评价 2页 免费 一维数据数字特征 7页...3.已知一个样本中含有 5 个数据 3,5,7,4,6,则样本方差为( A.1 B.2 ...
数据的数字特征
免费 一维数据数字特征 7页 免费喜欢此文档的还喜欢 第1章§4数据的数字特征...0.1 人数 1 1 3 4 3 4 0.7 4 0.8 6 1.0 8 1.2 10 1.5 6 ...
数据的数字特征
课题:数据的数字特征一、学习目标:熟练掌握平均数、中位数、众数、极差、方差,...1.1一维数据数字特征 23页 免费 《数据的数字特征》教学... 8页 免费 一维...
1.4数据的数字特征
1.4数据数字特征_数学_高中教育_教育专区。班级___姓名___层次___ 1.4 数据...部门 人数 每人所创的年利润 A 1 20 B 1 5 C 2 2.5 D 4 2.1 E 2...
第二讲 一维随机变量的分布和数字特征
第二讲 一维随机变量的分布和数字特征_理学_高等教育_教育专区。0.第二讲 一维...( ) A. X P 0 0.3 0 0.1 0 1 2 1 0.3 1 0.2 2 1 1 2 (...
第一章数据描述性分析
实验一 一维数据数字特征 第一节 一维数据数字特征(约 2 课时) 均值、 ...3 某电瓷厂的某种悬式绝缘机电破坏负荷试验数据(单位:吨)分组表示如表 1.1。...
更多相关标签:
数据的数字特征 | 一维特征 | 一维信号特征提取 | zxing 一维码 带数字 | 一维数字滤波器 | jq 一维数字数组相加 | 一维数据聚类 | 一维数据散点图 |