当前位置:首页 >> 小学教育 >>

朴素贝叶斯分类(第九章)


朴素贝叶斯分类
第九章

条件概率
1. 定义
若 ? 是全集,A、B是其中的事件(子集),P表示事件发生 的概率,则

P( AB) P( A | B) ? P( B)
为事件B发生后A发生的概率。

A AB

B

?

乘法定理
设 P( A) ? 0, 则有 P( AB) ? P(B A)P( A) ? P( A B)P(B).
设 A,B ,C 为事件,且 P(AB ) ? 0, 则有

P ( ABC ) ? P ( A) P ( B A) P (C AB ).

注:当P(AB)不容易直接求得时,可考虑利用P(A)与 P(B|A)的乘积或P(B)与P(A|B)的乘积间接求得。

乘法定理的推广
推广 设 A1 ,A2 ,? ,An 为 n 个事件,n ? 2,
且 P(A1A2 ? An ?1 ) ? 0, 则有

P( A1A 2 ? A n ) ? P( A1 )P( A 2 A1 )P( A 3 A1A 2 ) ? P( A n A1A 2 ? A n ?1 )

二、全概率公式
1. 集合(样本空间)的划分
 定义 设 ? 为试验E的样本空间, B1 , B2 , 为 E 的一组事件, 若     10 Bi B j ? ?, i, j ? 1, 2,     20 B1 则称 B1 , B2 , B2 , n; Bn ? ?, , Bn

, Bn 为样本空间 ? 的一个划分.

B2

B1
Bn ?1

B3

Bn

2. 全概率公式
定义 设?为试验E的样本空间, A为E的事件, B1 , B2 , (i ? 1, 2, ?
n i ?1

, Bn为?的一个划分, 且P( Bi ) ? 0 , n), 则 ? P ( A | Bn ) P ( Bn )

P( A) ? P ( A | B1 ) P ( B1 ) ? P ( A | B2 ) P ( B2 ) ? ? P( B) P( A | Bi )

全概率公式

证明

A ? A? ? A (B1
? AB1

B2

Bn )
ABn .

AB2

? P( A) ? P( B1 ) P( A | B1 ) ? P( B2 ) P( A | B2 ) ? ? P( Bn ) P( A | Bn )
图示

B2
B3

B1
A
Bn?1

化整为零 各个击破

Bn

说明 全概率公式的主要用途在于它可以将一个复杂事 件的概率计算问题,分解为若干个简单事件的概率计算问 题,最后应用概率的可加性求出最终结果.

B2

A
Bn?1

B1
Bn

B3

例1 有一批同一型号的产品,已知其中由一厂生产的占 30% , 二厂生产的占 50% , 三厂生产的占 20%, 又知这三个 厂的产品次品率分别为2% , 1%, 1%,问从这批产品中任取一 件是次品的概率是多少
解 设事件 A 为“任取一件为次品”,
事件 B i 为" 任取一件为i 厂的产品 " ,i ? 1, 2, 3.

B1

B2

B3 ? ?,

Bi B j ? ?, i , j ? 1,2,3.

30% 由全概率公式得
B1

2% A 1% 1% 20% B3

50%
B2

?

P( A) ? P( B1 )P( A B1 ) ? P( B2 )P( A B2 ) ? P( B3 )P( A B3 ).
P ( B1 ) ? 0.3, P ( B2 ) ? 0.5, P ( B3 ) ? 0.2,

P ( A B1 ) ? 0.02, P ( A B2 ) ? 0.01, P ( A B3 ) ? 0.01,
故 P( A) ? P( B1 )P( A B1 ) ? P(B2 )P( A B2 ) ? P(B3 )P( A B3 )

? 0.02 ? 0.3 ? 0.01 ? 0.5 ? 0.01 ? 0.2 ? 0.013.

贝叶斯公式
定义 设?为试验E的样本空间, A为E的事件, B1 , B2 , P ( Bi | A) ? , Bn为?的一个划分, 且P ( A) ? 0, , n), 则 , i ? 1, 2, , n. P ( A / Bi ) P ( Bi ) P ( Bi ) ? 0(i ? 1, 2,
n

? P( A | B ) P( B )
j ?1 j j

Bayes公式的意义
? 假设导致事件A发生的“原因”有Bi (i=1,2,…,n) 个。 它们互不相容。

? 现已知事件A确已经发生了,若要估计它是由“原 因”Bi所导致的概率,则可用Bayes公式求出. ? 即可从结果分析原因.

证明

P( Bi A) ?
?

P( A |Bi ) P( Bi ) P( A)
P( Bi ) P( A | Bi )
n

? P( B ) P( A | B )
j ?1 j j

i ? 1, 2,? ,n .

乘法定理: 设 P( A) ? 0, 则有 P( AB) ? P(B A)P( A) ? P( A B)P(B).
P( A) ? P( B1 ) P( A | B1 ) ? P( B2 ) P( A | B2 ) ? ? P( Bn ) P( A | Bn )

例2 贝叶斯公式的应用
某电子设备制造厂所用的元件是由三家元 件制造厂提供的.根据以往的记录有以下的数据 : 元件制造厂 1 2 3 无区别的标志. (1) 在仓库中随机地取一只元件 ,求它是次品的 概率; 次品率 0.02 0.01 0.03 提供元件的份额 0.15 0.80 0.05

设这三家工厂的产品在仓库中是均匀混合的,且

(2) 在仓库中随机地取一只元件,若已知取到的是 次品,为分析此次品出自何厂 , 求此次品出由 三家工厂生产的概率分别是多少.



设 A 表示 " 取到的是一只次品 " ,B i (i ? 1, 2, 3 表示 " 所取到的产品是由第i 家工厂提供的 ". 则 B 1 ,B 2 ,B 3 是样本空间 ?的一个划分 ,
且 P(B 1 ) ? 0.15, P(B 2 ) ? 0.80, P(B 3 ) ? 0.05,

P ( A B1 ) ? 0.02, P ( A B2 ) ? 0.01, P ( A B3 ) ? 0.03.

(1) 由全概率公式得
P( A) ? P( A B1 ) P( B1 ) ? P( A B2 ) P( B2 ) ? P( A B3 ) P( B3 )
? 0.0125.

(2) 由贝叶斯公式得
P ( A B1 ) P ( B1 ) P ( B1 A) ? P ( A)

?

0.02 ? 0.15 0.0125

? 0.24.

P ( A B2 ) P ( B2 ) P ( B2 A) ? ? 0.64, P ( A)

P ( B3 A) ?

P ( A B3 ) P ( B3 ) ? 0.12. P ( A)

故这只次品来自第 2 家工厂的可能性最大 .

先验概率与后验概率

由以往的数据分析得到的概率, 叫做先验概率. 而在得到信息之后再重新加以修正的概率 叫做后验概率.

贝叶斯分类
? 贝叶斯分类器是一个统计分类器。它们能够预测类别所属的 概率,如:一个数据对象属于某个类别的概率。贝叶斯分类 器是基于贝叶斯定理而构造出来的。 ? 对分类方法进行比较的有关研究结果表明:简单贝叶斯分类 器(称为基本贝叶斯分类器)在分类性能上与决策树和神经 网络都是可比的。

? 在处理大规模数据库时,贝叶斯分类器已表现出较高的分类 准确性和运算性能。

贝叶斯分类
? 定义:设X是类标号未知的数据样本。设H为某种假定,如数 据样本 X 属于某特定的类 C 。对于分类问题,我们希望确定 P(H|X),即给定观测数据样本X,假定H成立的概率。贝叶斯 定理给出了如下计算P(H|X)的简单有效的方法:

P( X | H ) P( H ) P( H | X ) ? P( X )
? P(H)是先验概率,或称H的先验概率。P(X|H)代表假设H成立 的情况下,观察到X的概率。 ? P(H| X )是后验概率,或称条件X下H的后验概率。
20

贝叶斯分类
? 先验概率泛指一类事物发生的概率,通常根据历史资料 或主观判断,未经实验证实所确定的概率。 ? 而后验概率涉及的是某个特定条件下一个具体的事物发 生的概率

21

贝叶斯分类
? 例如:P(x1)=0.9: x1-为正常细胞的概率0.9(先验概率) ? P(x2)=0.1: x2-为异常细胞的概率0.1(先验概率)

? 对某个具体的对象 y, P(x1|y ) : 表示 y 的细胞正常的概率 是0.82(后验概率) ? P(x2|y):表示y的细胞异常的概率是0.18(后验概率)

22

朴素贝叶斯分类
? 朴素贝叶斯分类的工作过程如下: ? (1) 每个数据样本用一个n维特征向量X= {x1,x2,……,xn} 表示,分别描述对 n 个属性 A1 , A2 ,……, An 样本的 n 个度 量。 ? (2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样 本X(即没有类标号),分类器将预测X属于具有最高后验 概率(条件X下)的类。也就是说,朴素贝叶斯分类将未知 的样本分配给类Ci(1≤i≤m)当且仅当P(Ci|X)> P(Cj|X), 对任意的 j=1 , 2 ,…, m , j≠i 。这样,最大化 P(Ci|X) 。其 P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理
P(Ci | X ) ? P( X | Ci ) P(Ci ) P( X )

朴素贝叶斯分类(续)
? (3) 由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大即 可。 ? 如果Ci类的先验概率未知,则通常假定这些类是等概率的, 即 P(C1)=P(C2)=…=P(Cm),因此问题就转换为对P(X|Ci)的最 大 化 ( P(X|Ci) 常 被 称 为 给 定 Ci 时 数 据 X 的 似 然 度 , 而 使 P(X|Ci)最大的假设Ci称为最大似然假设)。 ? 否则,需要最大化P(X|Ci)*P(Ci)。注意,类的先验概率可以 用P(Ci)=si/s计算,其中si是类Ci中的训练样本数,而s是训练 样本总数。
24

朴素贝叶斯分类(续)
? (4) 给定具有许多属性的数据集,计算P(X|Ci)的开销可能非 常大。为降低计算 P(X|Ci) 的开销,可以做类条件独立的朴 素假定。
P( AB) ? P( A) P( B)

? 给定样本的类标号,假定属性值相互条件独立,即在属性间, 不存在依赖关系。这样
P( X | Ci ) ? ? P( x k | Ci )
k ?1 n

联合概率分布

25

朴素贝叶斯分类(续)
? (5) 对 未 知 样 本 X 分 类 , 也 就 是 对 每 个 类 Ci , 计 算 P(X|Ci)*P(Ci)。 ? 样本 X 被指派到类 Ci ,当且仅当 P(Ci|X)> P(Cj|X) , 1≤j≤m , j≠i,换言之,X被指派到其P(X|Ci)*P(Ci)最大的类。

26

“打网球”的决定
之前用ID3算法求解的一个例子
No. 天气 气温 湿度 风 类别 No. 天气 气温 湿度 风 类别 1 2 3 4 5 6 7 晴 晴 热 热 高 高 高 无 N 有 N 无 P 无 P 8 9 10 11 12 13 14 晴 晴 雨 晴 适中 高 冷 无 N

正常 无 P

多云 热 雨 雨 雨

适中 正常 无 P 适中 正常 有 P 有 P

适中 高 冷 冷

正常 无 P 正常 有 N 正常 有 P

多云 适中 高 多云 热 雨

正常 无 P 有 N

多云 冷

适中 高

实例
No. 1 2 3 4 5 天气 晴 晴 多云 雨 雨 气温 热 热 热 适中 冷 湿度 高 高 高 高 正常 风 无 有 无 无 无

类别 N N P P P

No.

天气

气温

湿度



类别

8
9 10 11 12 13 14


晴 雨 晴 多云 多云 雨

适中
冷 适中 适中 适中 热 适中


正常 正常 正常 高 正常 高


无 无 有 有 无 有

N
P P P P P N

6
7


多云




正常
正常




N
P

统计结果
天气 P 晴 2/9 N 3/5 温度 P 热 2/9 N 2/5 高 湿度 P 3/9 N 4/5 有风 P 否 6/9 N P 打网球 N 5/14

2/5 9/14

云 4/9
雨 3/9

0/5
2/5

暖 4/9
凉 3/9

2/5
1/5

正常 6/9

1/5

是 3/9

3/5

统计结果
天气 E1 P 晴 2/9 云 4/9 雨 3/9 N 3/5 0/5 2/5 温度 E2 P 热 2/9 暖 4/9 凉 3/9 N 2/5 2/5 1/5 高 湿度 E3 P 3/9 N 4/5 1/5 有风 E4 P 否 6/9 是 3/9 N P 打网球 N 5/14

2/5 9/14 3/5

正常 6/9

对下面的情况做出决策:
天气 温度 湿度 有风 打网球











统计结果
天气 E1 P 晴 2/9 N 3/5 温度 E2 P 热 2/9 N 2/5 高 湿度 E3 P 3/9 N 4/5 有风 E4 P 否 6/9 N P 打网球 D N 5/14

2/5 9/14

云 4/9
雨 3/9

0/5
2/5

暖 4/9
凉 3/9

2/5
1/5

正常 6/9

1/5

是 3/9

3/5

对下面的情况做出决策:
天气 晴 温度 凉 湿度 高 有风 是 打网球 ?

模型: E ? E1 ? E2 ? E3 ? E4
决策: P( D ? no | E) ? P( D ? yes | E)

贝叶斯公式:P( D | E ) ? P( DE ) ?
P( E )

E为第二个表中的 ? 取值、分别计算 P( E | D) P( D) D=yes/no的概率
P( E )

统计结果
天气 E1 P N 温度 E2 P N 湿度 E3 P N 有风 E4 P N 3/5 P 打网球 D N

晴 2/9
云 4/9 雨 3/9

3/5
0/5 2/5

热 2/9
暖 4/9 凉 3/9

2/5
2/5 1/5



3/9

4/5
1/5

否 6/9
是 3/9

2/5 9/14

5/14

正常 6/9

对下面的情况做出决策:
P( D | E ) ? P( DE ) P( E | D) P( D) ? P( E ) P( E )

天气 晴

温度 凉

湿度 高

有风 是

打网球 ?

P( DE ) P( E | D) P( D) ? P( E ) P( E ) P( E1 ? E2 ? E3 ? E4 | yes ) P( yes ) ? P( E ) P( E1 | yes ) P( E2 | yes ) P( E3 | yes ) P ( E4 | yes ) P ( yes ) ? P( E ) P( yes | E ) ?

2 3 3 3 9 ? ? ? ? 0.0053 9 9 9 9 14 P ( yes | E ) ? ? P( E ) P( E )

2 3 3 3 9 ? ? ? ? 0.0053 9 9 9 9 14 ? 已经计算出: P( yes | E ) ? P( E ) P( E ) 3 1 4 3 5 ? ? ? ? 5 5 5 5 14 ? 0.0206 P ( no | E ) ? 同理可计算: P( E ) P( E )

利用公式:

P( yes | E ) ? P(no | E ) ? 1 P(no | E) ? 79.5%

最后得到: P( yes | E ) ? 20.5% 决策:

P( yes | E) ? P(no | E)

不去打球

天气 E1 P N

温度 E2 P N

湿度 E3 P N

有风 E4 P N 3/5 P

打网球 D N

晴 2/9
云 4/9 雨 3/9

3/5
0/5 2/5

热 2/9
暖 4/9 凉 3/9

2/5
2/5 1/5



3/9

5/5
0/5

否 6/9
是 3/9

2/5 9/14

5/14

正常 6/9

对下面的情况做出决策:
天气 云 温度 凉 湿度 正常 有风 是 打网球 ?

作业 (下周一交)
前10个样本作为训练样本,后4个作为测试样本,用Bayes方 法进行决策。
No. 天气 气温 湿度 风 类别 No. 天气 气温 湿度 风 类别 1 2 3 4 5 6 7 晴 晴 热 热 高 高 高 无 N 有 N 无 P 无 P 8 9 10 晴 晴 雨 适中 高 冷 无 N

正常 无 P

多云 热 雨 雨 雨

适中 正常 无 P

适中 高 冷 冷

11 12 13 14



适中 正常 有 P 有 P

正常 无 P 正常 有 N 正常 有 P

多云 适中 高 多云 热 雨

正常 无 P 有 N

多云 冷

适中 高

作业2
按毕业设计论文格式撰写Apriori算法的上机报告 下次上机课之后交


相关文章:
朴素贝叶斯分类概率分析 许健明 1112610116
3.结论可以看到,整个朴素贝叶斯分类分为三个阶段: 第一阶段——准备工作阶段, 这个阶段的任务是为朴素贝叶斯分类做必要的准备, 主要工作 是根据具体情况确定特征...
分类算法综述
其次,重复第一步,直至每个叶节点内的记录都 属于同一类且增长到一棵完整的树...上述是朴素贝叶斯 的工作过程,也是贝叶斯分类算法的判别准则。 在许多场合,朴素...
机器学习实验报告-朴素贝叶斯学习和分类文本
机器学习实验报告朴素贝叶斯学习和分类文本 (2015 年度秋季学期) 一、 实验内容问题:通过朴素贝叶斯学习和分类文本 目标:可以通过训练好的贝叶斯分类器对文本正确分类 ...
加权朴素贝叶斯算法及其weka程序分析20151216A
另外,与一般学术论文不同,本文许多地方采用第 1 人称进行 讲述. 2 局部加权朴素贝叶斯算法及其 Weka 程序分析 1.1 局部加权朴素贝叶斯原则上,贝叶斯定理保证了对...
朴素贝叶斯习题解析
Play Tennis No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No 给定与判定树归纳相同的训练数据, 我们希望使用朴素贝叶斯分类预测一个未知样本的类标 号...
朴素贝叶斯算法C 代码有截图
朴素贝叶斯算法C 代码有截图_计算机软件及应用_IT/计算机_专业资料。朴素贝叶斯...[0] = token; // 将每个词第一个字符赋给数组第一个元素 while ((keyword...
朴素贝叶斯分类器
朴素贝叶斯分类器 Naive Bayesian Classifier C 语言实现 信息电气工程学院 计算本...通过以下代码将分类数据存入数组第 0 行。 printf("该事物可以被分为几种类别...
人工智能实验三朴素贝叶斯分类实验
又因为各特征属性是条件独立的,所以有: 整个朴素贝叶斯分类分为三个阶段: 第一阶段:准备工作阶段, 这个阶段的任务是为朴素贝叶斯分类做必要的准备, 主要工作是根据...
基于朴素贝叶斯模型的两类问题分类
基于朴素贝叶斯模型的两类问题分类_计算机软件及应用_IT/计算机_专业资料。基于...μij exp ? 2σij 2πσij 1 2 式中 uij ——第 i 类样本在第 j ...
R语言朴素贝叶斯分类上机指导
朴素贝叶斯分类上机指导 一、实验目的: 1.掌握矩阵数据的输入,输出,以及矩阵和数据框数据的转换, 认识一下 list 型数据。 2.理解并掌握朴素贝叶斯分类原理。 3....
更多相关标签: