模式识别基础知识_模式识别学什么-程序员宅基地

技术标签: 人工智能  

模式识别基础知识

本文章主要介绍了模式识别的基本概论和统计决策方法(贝叶斯决策)和概率密度函数估计

一、概论

1.1 模式与模式识别

模式:指需要识别且可测量的对象的描述

模式识别:利用机器(计算机)模仿人脑对现实世界各种事物进行描述、分类、判断和识别的过程。

样本:所研究对象的一个个体

样本集:若干样本集合

类或类别:在所有样本上定义的一个子集,处于同一类的样本在我们所关心的某种性质上是不可分的

特征:指用于表征样本的观测

已知样本:指事先知道类别标号的样本

未知样本:指类别标号未知但特征已知的样本

1.2 模式识别的主要方法

实现的方法可以基于知识的方法和基于数据的方法两大类

  • 基于知识的方法:更具人们已知的关于研究对象的知识,整理出若干描述特征与类别间的关系的准则,建立一定的计算机推理系统,对未知样本通过这知识推理决策其类别
    • AI专家系统
    • 句法(结构)模式识别
  • 基于数据的方法:收集一定数量的一直样本,用这些样本作为训练集来训练一定的模式识别机器,使之在训练后能够对未知样本进行分类
    • 统计模式识别的方法
      • 确定样本的特征——收集已知样本——训练模式识别机器——对未知样本进行分类
    • 人工神经网络
    • 支持向量机

模式识别研究范畴

  • 基于数据的模式识别方法适用于已知对象的某些特征与我们所感兴趣的类别性质有关,但无法确切描述这种关系的情况
  • 基于知识的方法是发呢类和特征之间的关系完全可以确切的描述出来
  • 若二者的关系完全随机,即不存在规律性练习,应用模式识别也为u发的到有意义的结果。

1.3 监督模式识别与非监督模式识别

监督模式识别
  • 已知类别,并且能够获得类别已知的训练样本,这种情况下建立分类器的问题属于监督学习问题,称为监督学习
非监督模式识别(聚类)
  • 实现并不知道类别,更没有类别已知的样本,根据样本特征将样本聚成几个类,使属于同一类的样本在一定意义上是相似的,而不同类别之间的样本有较大差异。这种学习过程称作非监督模式识别

1.4 模式识别系统举例

分类器的设计

1.5 模式识别系统的典型构成

一个模式识别系统通常包括原始数据的获取和预处理、特征提取与选择、分类获聚类、后处理四个主要部分

  • 有已知样本情况:监督模式识别

    • 信息获取与预处理——特征提取与选择——分类器设计(训练)

      ​ ——分类决策(识别)

  • 无已知样本情况::非监督模式识别

    • 信息获取与预处理——特征提取与选择——聚类(自学习)——结果解释

监督模式识别和非监督模式识别的区别——训练样本

  • 监督识别需要训练数据,根据训练样本设计分类器
  • 而非监督模式识别不需要训练数据,是根据样本的相似性来进行分类的

特征提取与选择、分类器设计和聚类分析,乙级分类器和聚类结果的性能评价方法等是各种模式识别系统中具有共性的步骤,是整个系统的核心,也是模式识别学科研究的主要内容

二、统计决策方法

2.1 贝叶斯决策基础

  • 两个先验知识:

    • 先验概率:
      P ( w 1 ) 和 P ( w 2 ) P(w_1)和P(w_2) P(w1)P(w2)

    • 类条件概率:
      P ( x ∣ w 1 ) 和 P ( x ∣ w 2 ) P(x|w_1)和P(x|w_2) P(xw1)P(xw2)

  • 后验概率:
    P ( w i ∣ x ) = P ( x ∣ w i ) P ( w i ) P ( x ) P(w_i|x)=\frac{P(x|w_i)P(w_i)}{P(x)} P(wix)=P(x)P(xwi)P(wi)

  • 根据后验概率进行决策,这个决策过程就是贝叶斯决策

  • 先验概率:
    P ( w i ) P(w_i) P(wi)
    预先一直的或者可以估计的模式识别系统位于某种类型的概率。根据大量统计确定某类事物出现的比例,如P(男生)

  • 类条件概率:
    P ( x ∣ w i ) P(x|w_i) P(xwi)
    类别状态为wi时,样本x出现的概率密度

  • 全概率:
    P ( x ) P(x) P(x)
    样本x在所有类别里出现的概率之和,也称为x的全概率在两类问题的情况下:
    p ( x ) = ∑ p ( x ∣ w j ) P ( w j ) , j = 1 , 2 p(x)=\sum p(x|w_j)P(w_j) ,j=1,2 p(x)=p(xwj)P(wj),j=1,2

  • 后验概率:$ P(w_i|x) $

    • 一个具体事物属于某种类别的概率
    • 后验概率涉及一个具体事物,而先验概率是泛指一类事物,因此P(男生|X)和P(男生)是两个不同的概念
  • 贝叶斯公式
    P ( w i ∣ D ) = P ( D ∣ w i ) P ( w i ) P ( D ) P(w_i|D)=\frac{P(D|w_i)P(w_i)}{P(D)} P(wiD)=P(D)P(Dwi)P(wi)

  • 贝叶斯公示的两个创新点:

    • 用概率表示所有形式的不确定性
    • 引入了“先验”与“后验”的概念
  • 贝叶斯决策

    • 在类条件概率和先验概率已知(或者可以估计)的情况下,通过贝叶斯公式比较样本属于两类的后验概率,将类别决策为厚颜概率大的一类,这样做的目的是为了使总体错误率最小

2.2 最小错误率贝叶斯决策

1、最小错误率

错误率是指平均错误率,其表达式为:
P ( e ) = ∫ P ( e , x ) d x = ∫ P ( e ∣ x ) p ( x ) d x P(e)=\int{P(e,x)dx}=\int{P(e|x)p(x)dx} P(e)=P(e,x)dx=P(ex)p(x)dx
对错误率求最小值可以写成:
m i n P ( e ) = ∫ P ( e , x ) d x = ∫ P ( e ∣ x ) p ( x ) d x minP(e)=\int{P(e,x)dx}=\int{P(e|x)p(x)}dx minP(e)=P(e,x)dx=P(ex)p(x)dx
在这里插入图片描述
在这里插入图片描述

2、最小错误率的贝叶斯决策规则的多种等价形式

1) P ( w i ) = m a x P ( w j ∣ x ) − > x ∈ w i P(w_i)=maxP(w_j|x)->x\in w_i P(wi)=maxP(wjx)>xwi

2) p ( x ∣ w i ) P ( w i ) = m a x p ( x ∣ w j ) P ( w j ) — > x ∈ w i p(x|w_i)P(w_i)=max p(x|w_j)P(w_j) —>x\in w_i p(xwi)P(wi)=maxp(xwj)P(wj)>xwi

3) l ( x ) = p ( x ∣ w i ) p ( x ∣ w I ) > P ( w 2 ) P ( w 1 ) − > x ∈ w i l(x)=\frac{p(x|w_i)}{p(x|w_I)}>\frac{P(w_2)}{P(w_1)} ->x\in w_i l(x)=p(xwI)p(xwi)>P(w1)P(w2)>xwi

l ( x ) = p ( x ∣ w i ) p ( x ∣ w I ) < P ( w 2 ) P ( w 1 ) − > x ∈ w i l(x)=\frac{p(x|w_i)}{p(x|w_I)}<\frac{P(w_2)}{P(w_1)} ->x\in w_i l(x)=p(xwI)p(xwi)<P(w1)P(w2)>xwi 其中,l(x)为似然比, P ( w 2 ) P ( w 1 ) \frac{P(w_2)}{P(w_1)} P(w1)P(w2) 为似然比阈值

4) h ( x ) = − ln ⁡ l ( x ) = − ln ⁡ p ( x ∣ w 1 ) + l n p ( x ∣ w 2 ) < ln ⁡ P ( w 1 ) P ( w 2 ) − > x ∈ w 1 h(x)=-\ln l(x)=-\ln p(x|w_1)+ln p(x|w_2)<\ln \frac{P(w_1)}{P(w_2)}->x\in w_1 h(x)=lnl(x)=lnp(xw1)+lnp(xw2)<lnP(w2)P(w1)>xw1

h ( x ) = − ln ⁡ l ( x ) = − ln ⁡ p ( x ∣ w 1 ) + l n p ( x ∣ w 2 ) > ln ⁡ P ( w 1 ) P ( w 2 ) − > x ∈ w 2 h(x)=-\ln l(x)=-\ln p(x|w_1)+ln p(x|w_2)>\ln \frac{P(w_1)}{P(w_2)}->x\in w_2 h(x)=lnl(x)=lnp(xw1)+lnp(xw2)>lnP(w2)P(w1)>xw2

2.3 最小风险贝叶斯决策

1、最小风险贝叶斯决策就是考虑各种错误造成不同时的算是造成的

(1)观察 x x x是d维随机向量 x = [ x 1 , x 2 , . . . , x d ] T x=[x_1,x_2,...,x_d]T x=[x1,x2,...,xd]T

(2)状态空间 Ω \Omega Ω由c个自然状态组成。 Ω = { w 1 , w 2 , . . . w c } \Omega=\{w_1,w_2,...w_c\} Ω={ w1,w2,...wc}

(3)决策空间由a个决策 α , i = { 1 , 2 , . . . , a } 组成 \alpha,i=\{1,2,...,a\}组成 α,i={ 1,2,...,a}组成 γ = { α 1 , α 2 , . . . . , α a } \gamma=\{\alpha_1,\alpha_2,....,\alpha_a\} γ={ α1,α2,....,αa}

a和c不同

(4)损失函数: λ ( α i , w j ) , i = 1 , 2... a , j = 1 , 2 , . . . c \lambda(\alpha_i,w_j),i=1,2...a,j=1,2,...c λ(αi,wj),i=1,2...a,j=1,2,...c

2、条件期望损失

R ( α i ∣ x ) = E [ λ ( α i , w j ) ] = ∑ j = 1 c λ ( α i , w j ) P ( w j ∣ x ) , i = 1 , 2 , . . . a R(\alpha_i|x)=E[\lambda(\alpha_i,w_j)]=\sum_{j=1}^{c}\lambda(\alpha_i,w_j)P(w_j|x),i=1,2,...a R(αix)=E[λ(αi,wj)]=j=1cλ(αi,wj)P(wjx),i=1,2,...a

  • 此式考虑的是对样本x采集表中某一种决策 a i a_i ai时的损失的加权平均值
3、期望风险

R = ∫ R ( α ( x ) ∣ x ) p ( x ) d x R=\int R(\alpha(x)|x)p(x)dx R=R(α(x)x)p(x)dx
期望风险R反应对整个特征空间所有x的取值都采用相应的决策所带来的平均风险;

而条件风险 R ( a i ) ∣ x R(a_i)|x R(ai)x只是反映了对某一x的取值采取决策 a i a_i ai 所带来的风险

如果在采取每一个决策或行动时,都使条件风险最小,则 对所有的x做出决策时,其期望风险也必然最小。

4、最小风险贝叶斯决策规则

如果在采取每一个决策或行动时,都使条件风险最小,则对所有的x做出决策时,其期望风险也必然最小,这样的决策就是最小贝叶斯决策

2.4 贝叶斯分类器

我们对样本进行分类决策的过程其实就是建立分类器的过程

利用贝叶斯原理对样本进行分类的过程就是建立贝叶斯分类器的过程

1、贝叶斯分类器的原理:
  • 通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,选择具有最大后验概率的类作为该对象所属的类

在设计贝叶斯分类器的时候,主要包含两步:

(1)判别函数:用于表达决策测规则的某些函数称为判别函数

(2)决策面:对于c类分类问题,按照决策规则可以把d维特征空间分成c个决策域,将划分决策域的边界称为决策面。

2、两类问题

(1)判别函数
g ( x ) = g 1 ( x ) − g 2 ( x ) g(x)=g_1(x)-g_2(x) g(x)=g1(x)g2(x)

{ g ( x ) > 0 , 决策为 x ∈ w 1 g ( x ) < 0 , 决策为 x ∈ w 2 \begin{cases}g(x)>0,决策为x \in w_1 \\ g(x)<0,决策为x\in w_2\end{cases} { g(x)>0,决策为xw1g(x)<0,决策为xw2

  • 基于最小错误率的判别函数:

    P ( w 1 ∣ x ) = P ( x ∣ w 1 ) P ( w 1 ) P ( x ) P(w_1|x)=\frac{P(x|w_1)P(w_1)}{P(x)} P(w1x)=P(x)P(xw1)P(w1)

a 、 g ( x ) = P ( w 1 ∣ x ) − P ( w 2 ∣ x ) a、g(x)=P(w_1|x)-P(w_2|x) ag(x)=P(w1x)P(w2x)
b 、 g ( x ) = p ( x ∣ w 1 ) P ( w 1 ) − p ( x ∣ w 2 ) P ( w 2 ) b、g(x)=p(x|w_1)P(w_1)-p(x|w_2)P(w_2) bg(x)=p(xw1)P(w1)p(xw2)P(w2)
c 、 g ( x ) = ln ⁡ p ( x ∣ w 1 ) p ( x ∣ w 2 ) + ln ⁡ P ( w 1 ) P ( w 2 ) c、g(x)=\ln \frac{p(x|w_1)}{p(x|w_2)}+\ln \frac{P(w_1)}{P(w_2)} cg(x)=lnp(xw2)p(xw1)+lnP(w2)P(w1)

(2)决策面方程

两个决策区域在决策面上的判别函数是相等的

g ( x ) = 0 g(x)=0 g(x)=0

(3)设计分类器的网络结构

3、多类问题

判别函数——>决策面方程——>设计分类器

(1)判别函数

  • 写出多个判别函数,通常定义一组判别函数 g i ( x ) g_i(x) gi(x) i = 1 , 2 , . . . c i=1,2,...c i=1,2,...c,也就是每一类别都对应一个判别函数。

  • 定义判别规则的时候,如果对于一切j不等于i, g i ( x ) > g j ( x ) g_i(x)>g_j(x) gi(x)>gj(x)都成立,则将x归为 w i w_i wi类。

  • 在最小错误率的判别规则下的判别函数

    g i ( x ) = P ( w i ∣ x ) g_i(x)=P(w_i|x) gi(x)=P(wix)

    g i ( x ) = p ( x ∣ w i ) p ( w i ) g_i(x)=p(x|w_i)p(w_i) gi(x)=p(xwi)p(wi)

    g i ( x ) = ln ⁡ p ( x ∣ w i ) + ln ⁡ P ( w i ) g_i(x)=\ln p(x|w_i)+\ln P(w_i) gi(x)=lnp(xwi)+lnP(wi)

(2)决策面方程

在多类问题里,特征空间被分为多个决策区域,相邻两个决策区域之间是由决策面分隔开的,所以相邻两个决策区域在决策面上的判别函数相等

(3)分类器设计

多类问题的分类器可以看作是一个计算c个判别函数,对c个判别函数进行比较,并选取与最大判别值对应的类别的网络和机器

例题
在这里插入图片描述
在这里插入图片描述

2.5 正态分布时的决策统计

一个贝叶斯分类器的机构可以由类条件概率密度 p ( x ∣ w i ) p(x|w_i) p(xwi)回我先验概率 P ( w i ) P(w_i) P(wi)来决定,而类条件概率密度在统计决策理论中起着重要的作用,在概率密度函数里面,正态分布,也被称为高斯分布 ,是人们研究最多的分布之一。

1、为什么要用正态分布函数
  • 在客观世界中很多随机变量都服从或近似服从正态分布,对很多数据都可以做出正太分布的假设
  • 另一个原因是正态分布在数学上具有很多好的性质,十分有利于数学分析。
2、正态分布的基础知识
1、单变量正态分布

概率密度定义为:
p ( x ) = 1 2 π e x p [ − 1 2 ( x − μ σ ) 2 ] p(x)=\frac{1}{\sqrt{2\pi}}exp[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2 ] p(x)=2π 1exp[21(σxμ)2]
x为一维向量

μ \mu μ为随机变量x的数学期望(均值)
μ = E ( x ) = ∫ − ∞ ∞ x p ( x ) d x \mu=E(x)=\int_{-\infty}^{\infty}xp(x)dx μ=E(x)=xp(x)dx
σ 2 \sigma^2 σ2为随机变量的方差; σ \sigma σ为均方差(标准差)
σ 2 = ∫ − ∞ ∞ ( x − μ ) 2 p ( x ) d x \sigma^2=\int_{-\infty}^{\infty}(x-\mu)^2p(x)dx σ2=(xμ)2p(x)dx

  • 概率密度函数 p ( w i ∣ x ) 或 p ( x ) p(w_i|x)或p(x) p(wix)p(x)完全由两个参数 μ 和 σ \mu和\sigma μσ决定

满足下列关系式:
p ( X ) ≥ 0 − ∞ < x < ∞ ∫ − ∞ ∞ p ( x ) d x = 1 p(X)\geq0 -\infty<x<\infty \\ \int_{-\infty}^{\infty}p(x)dx=1 p(X)0<x<p(x)dx=1

  • 正态分布的样本主要集中在均值附近,其分散程度可以用标准差来表征,越大分散程度越大。
  • 从正态分布的总体中抽取样本,约应95%的样本落在区间 ( μ − 2 σ , μ + 2 σ ) (\mu-2\sigma,\mu+2\sigma) (μ2σ,μ+2σ)
2、多元正态分布

多元正态分布是由均值向量 μ 和 Σ \mu和\Sigma μΣ协方差矩阵完全决定的

(1)多元正态分布的概率密度表示
p ( X ) = 1 ( 2 π ) d 2 ∣ ∑ ∣ 1 2 e x p [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] p(X)=\frac{1}{(2\pi)^\frac{d}{2}|\sum|^\frac{1}{2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1} (x-\mu)] p(X)=(2π)2d211exp[21(xμ)TΣ1(xμ)]
在这里插入图片描述

(2)多元正态分布的性质

  • 多元正太分布由均值向量和协方差矩阵完全决定;

  • 从正态分布总体中抽取的样本大部分落在由 μ 和 Σ \mu和\Sigma μΣ确定的一个区域里,这个区域的中心由均值向量 μ \mu μ决定,区域的大小由协方差矩阵 Σ \Sigma Σ决定

  • 等密度点的轨迹位——超椭球面

    从多元正态分布概率密度函数式可以看出,指数项为常数时,密度值不变(等密度)
    ( x − μ ) T Σ − 1 ( x − μ ) = 常数 p ( X ) = 1 ( 2 π ) d 2 ∣ ∑ ∣ 1 2 e x p [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] (x-\mu)^T\Sigma^{-1}(x-\mu)=常数 \\ p(X)=\frac{1}{(2\pi)^\frac{d}{2}|\sum|^\frac{1}{2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1} (x-\mu)] (xμ)TΣ1(xμ)=常数p(X)=(2π)2d211exp[21(xμ)TΣ1(xμ)]
    上式的解是一个超椭球面。

3、正态分布模型下的最小错误率贝叶斯决策

多类判别函数: g i ( x ) = ln ⁡ p ( x ∣ w i ) + ln ⁡ P ( w i ) g_i(x)=\ln p(x|w_i)+\ln P(w_i) gi(x)=lnp(xwi)+lnP(wi)

正态分布函数: p ( x ) = 1 ( 2 π ) d 2 ∣ ∑ ∣ 1 2 e x p [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] p(x)=\frac{1}{(2\pi)^\frac{d}{2}|\sum|^\frac{1}{2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1} (x-\mu)] p(x)=(2π)2d211exp[21(xμ)TΣ1(xμ)]

判别函数: g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − u i ) − d 2 ln ⁡ 2 π − 1 2 ln ⁡ ∣ Σ i ∣ + ln ⁡ P ( w i ) g_i(x)=-\frac{1}{2}(x-\mu_i)^T\Sigma_i^{-1}(x-u_i)-\frac{d}{2}\ln 2\pi-\frac{1}{2}\ln |\Sigma_i|+\ln P(w_i) gi(x)=21(xμi)TΣi1(xui)2dln2π21lnΣi+lnP(wi)

决策面方程: g i ( x ) = g j ( x ) g_i(x)=g_j(x) gi(x)=gj(x)

第一种情况: Σ = σ 2 I , i = 1 , 2 , L , c \Sigma=\sigma^2I,i=1,2,L,c Σ=σ2I,i=1,2,L,c
  • 每类的协方差矩阵相等并且是对角矩阵,类被各特征间相互独立,具有相等的方差 σ 2 \sigma^2 σ2,它们的协方差元素为0。

  • 从几何上看,各类样本落入以 μ i \mu_i μi为中心,永阳大小的超球体内。

  • 判别函数简化为:
    g i ( x ) = ( x − μ i ) T ( x − μ i ) 2 σ 2 + ln ⁡ P ( w i ) g_i(x)=\frac{(x-\mu_i)^T(x-\mu_i)}{2\sigma^2}+\ln P(w_i) gi(x)=2σ2(xμi)T(xμi)+lnP(wi)
    式中 ( x − μ i ) T ( x − μ ) = ∣ ∣ x − μ i ∣ ∣ 2 = ∑ j = 1 d ( x j − μ i j ) 2 , i = 1 , L , c (x-\mu_i)^T(x-\mu)=||x-\mu_i||^2=\sum_{j=1}^{d}(x_j-\mu_{ij})^2,i=1,L,c (xμi)T(xμ)=∣∣xμi2=j=1d(xjμij)2,i=1,L,c

1、各类的先验概率相等

  • 如果m各类型的先验概率 p ( w i ) , i = 1 , 2 , . . . , m p(w_i),i=1,2,...,m p(wi),i=1,2,...,m都相等,则可忽略判别函数中的 ln ⁡ p ( w i ) \ln p(w_i) lnp(wi)。使判别函数更加简化;
  • 相邻两类的决策面为超平面,并且与两类均值点连线 ( μ i − μ j ) (\mu_i-\mu_j) (μiμj)垂直,它们的交点恰好与 μ i − μ j \mu_i-\mu_j μiμj中点重合
  • 当对某一模式样本x进行分类时,只要计算样本到各类中心(均值向量)的欧氏距离的平方 ∣ ∣ x − μ i ∣ ∣ 2 || x-\mu_i||^2 ∣∣xμi2,然后把x归到 m i n ∣ ∣ x − μ i ∣ ∣ min||x-\mu_i|| min∣∣xμi∣∣的类,这种分类器称为最小距离分类器

2、各类的先验概率不相等

  • 判别函数 g i ( x ) 是 x 的线性函数 g_i(x)是x的线性函数 gi(x)x的线性函数
  • 决策面为由 g i ( x ) − g j ( x ) = 0 g_i(x)-g_j(x)=0 gi(x)gj(x)=0所确定的一个超平面,并且于两类均值点连线 μ i − μ j \mu_i-\mu_j μiμj垂直,它们的交点向先验概率小的那个类型均值点偏移。
  • 决策规则是要求对某个待分类的x,分别计算 g i ( x ) , i = 1 , 2 , . . . , c g_i(x),i=1,2,...,c gi(x),i=1,2,...,c。若: g k ( x ) = m a x g i ( x ) 则决策 x ∈ w k g_k(x)=max g_i(x)则决策x\in w_k gk(x)=maxgi(x)则决策xwk
第二种情况: Σ i = Σ \Sigma_i=\Sigma Σi=Σ
  • 它表示各类的协方差矩阵都相等,但各类的均值向量是任意的;

  • 从几何上来看,相当于各类样本集中于以该类均值为中心同样大小和形状的超椭球内。

  • 此时的判别函数为:
    g i ( x ) = − ( x − μ i ) T Σ − 1 ( x − μ i ) 2 + ln ⁡ P ( w i ) g_i(x)=-\frac{(x-\mu_i)^T\Sigma^{-1}(x-\mu_i)}{2}+\ln P(w_i) gi(x)=2(xμi)TΣ1(xμi)+lnP(wi)

1、各类的先验概率相等:

  • 盘被函数是线性的,如果m各类型的先验概率 p ( w i ) , i = 1 , 2 , . . . , m p(w_i),i=1,2,...,m p(wi),i=1,2,...,m都相等,则可忽略判别函数中的 ln ⁡ p ( w i ) \ln p(w_i) lnp(wi)。使判别函数更加简化;
  • 相邻两类的决策面为超平面,并且与两类均值点连线 ( μ i − μ j ) (\mu_i-\mu_j) (μiμj)垂直,相交于中点但并不与两类均值点连线垂直
  • 决策规则简化为:对x进行分类,只要计算出x到每类样本均值点的马氏距离的平方,最后把x归于距离最小的那个类别

2、各类的先验概率不相等

  • 判别函数是线性的
  • 相邻两类的决策面为超平面,于两类均值点连线 ( μ i − μ j ) (\mu_i-\mu_j) (μiμj)相交,但并不与两类均值点连线垂直,远离可能性较大的均值。
第三种情况: Σ i ≠ Σ \Sigma_i \neq\Sigma Σi=Σ
  • 它表示各类的协方差矩阵不相等,这是最一般的情况

  • 此时的判别函数为:
    d i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 − 1 2 ln ⁡ Σ i + l n P ( w i ) d_i(x)=-\frac{1}{2}(x-\mu_i)^T\Sigma^{-1}-\frac{1}{2}\ln \Sigma_i+lnP(w_i) di(x)=21(xμi)TΣ121lnΣi+lnP(wi)
    在两类问题中,对应的判定面为超二次曲面

三、概率密度函数估计

3.1 引言

1、存在的问题:

  • 不知道先验概率 P ( w i ) P(w_i) P(wi)和类条件概率 p ( x ∣ w i ) p(x|w_i) p(xwi)
  • 估计先验概率 P ( w i ) P(w_i) P(wi)通常没有太大困难;
  • 最大困难在于估计类条件概率密度函数 p ( x ∣ w i ) p(x|w_i) p(xwi),因为训练样本不够多,如果特征的维数较大,会产生比较困难的多重积分计算复杂度问题。
  • 就是要寻找某种有效的方法,能利用现有的信息设计出正确的分类器。

2、问题的解决:

  • 目标:

    利用已知的笼统和模糊的知识+训练样本——>设计分类器

  • 方法:
    利用训练样本估计先验概率和条件密度函数,并把这些估计的结果当作实际的先验概率和条件密度函数,然后再设计分类器。

3、参数估计的方法:

  • 最大似然估计
  • 贝叶斯估计

两种方法的区别:

  • 最大似然估计把待估计的参数看作是确定的量,只是其取值未知;
  • 贝叶斯估计是把待估计的参数看作符合某种先验概率分布的随机变量

4、参数估计的分类

  • 监督参数估计―—样本所属类别(标签)已知,样本的类条件概率密度函数的形式已知,但参数未知(例如,已知高斯分布,但参数或未知),即已知规律但未知参数
  • 非监督参数估计―—已知总体概率密度函数的形式,但样本所属类别未知,要求推断出概率密度函数的某些参数,称为非监督参数估计。

5、参数估计的基本概念

  • 统计量——每一种训练样本都包含着总体的某种信息,一个训练样本集X包含总体的全部信息,针对不同的参数估计要求构造某种函数以便从样本集X中抽取有关信息,这种函数称为统计量。
  • 参数空间——所有未知参数的可能取值的集合称为参数空间,记为 Θ \Theta Θ
  • 点估计、估计量和估计值——估计总体分布的一个或几个具体参数叫点估计。针对某未知参数 θ i \theta_i θi构造一个统计量作为 θ i \theta_i θi估计,称 θ ^ i \widehat\theta_i θ i θ i \theta_i θi的估计量; θ ^ i \widehat\theta_i θ i的值叫做 θ i \theta_i θi的估计值。

3.2最大似然估计

1、最大似然估计的基本问题

​ 在一类中独立地按照概率密度 p ( x ∣ θ ) p(x|\theta) p(xθ)抽取样本集X,用来估计出未知参数 θ \theta θ

  • 基本假设:
    • 参数 θ \theta θ是未知的确定性的量;
    • 样本集按照类别 w i w_i wi分为c个样本子集,这些样本都是从
      类条件概率密度为 p ( x ∣ w j ) p(x|w_j) p(xwj)的总体中独立抽取的。
    • 类条件概率密度 p ( x ∣ w j ) p(x|w_j) p(xwj)具有某种确定的函数形式,只是其中的参数 θ \theta θ未知。
      不同类别的参数在函数上是独立的(非耦合),可以分别对每一类进行处理。

2、基本概念和原理
已知某一类样本集包含N个样本,X={x,x2, …x}待估计的未知参数为0,由于假设样本是独立抽取的,那么
p ( X ∣ θ ) = p ( x 1 , x 2 , . . . . . . . x N ∣ θ ) = ∏ k = 1 N p ( x k ∣ θ ) p(X|\theta)= p(x_1,x_2,.......x_N|\theta)=\prod_{k=1}^{N}p(x_k|\theta) p(Xθ)=p(x1,x2,.......xNθ)=k=1Np(xkθ)

看做是参数 θ \theta θ的函数,称联合概率密度 p ( X ∣ θ ) p(X|\theta) p(Xθ)为样本集X下的似然函数,通常我们把这个函数用 l ( θ ) l(\theta) l(θ)来表示。

为了便于分析(指数分布以及对数函数单调性,还可以定义对数似然函数:
H ( θ ) = ln ⁡ ∏ k = 1 N [ p ( x k ∣ θ ) = ∑ k = 1 N ln ⁡ p ( x k ∣ θ ) H(\theta)= \ln \prod_{k=1}^{N}[p(x_k|\theta)=\sum_{k=1}^{N} \ln p(x _k|\theta) H(θ)=lnk=1N[p(xkθ)=k=1Nlnp(xkθ)

向量参数 θ \theta θ的最大似然估计,就是使 p ( X ∣ θ ) p(X| \theta) p(Xθ)达到最大值的那个参数估计向量 θ ^ \widehat\theta θ

最有可能出现的样本<——>似然函数最大的样本

3、最大似然估计量

最有可能出现的样本就等价于似然函数最大的样本,所以使似然函数值最大的 θ ^ \widehat \theta θ 是样本集X的函数,记作 θ ^ = d ( x 1 , x 2 , … , x N ) \widehat \theta= d(x_1,x_2,… ,x_N) θ =d(x1,x2,,xN),它就是我们要求的最大似然估计量。

估计值

估计值就是使似然函数 l ( θ ) l( \theta) l(θ)最大化所对应的 θ \theta θ值,记作:
θ ^ = a r g m a x l ( θ ) \widehat \theta=arg max l(\theta) θ =argmaxl(θ)

4、极大似然估计的求解

  • 求解方法:根据已知的样本集X,使似然函数取极大值时得到的参数,就是我们要找的估计量。

  • 一维变量参数的求解:

    • 在似然函数连续、可微的条件下,并且只有一个参数变量的情况下,即 θ \theta θ为一维参数,求 θ \theta θ就是求解如下微分方程的解:
      d l ( θ ) / d θ 或 d H ( θ ) / d ( θ ) = 0 dl(\theta)/d\theta 或 dH(\theta)/d(\theta)=0 dl(θ)/dθdH(θ)/d(θ)=0
  • 多维变量参数的求解:

    • 若未知参数不止一个,即是由多个未知参数组成的向量时,求解似然函数的最大值,就需要对参数向量 θ \theta θ的每一维分量分别求偏导,即用下面的梯度算子:
    • 在这里插入图片描述
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_53182191/article/details/128875546

智能推荐

linux里面ping www.baidu.com ping不通的问题_linux桥接ping不通baidu-程序员宅基地

文章浏览阅读3.2w次,点赞16次,收藏90次。对于这个问题我也是从网上找了很久,终于解决了这个问题。首先遇到这个问题,应该确认虚拟机能不能正常的上网,就需要ping 网关,如果能ping通说明能正常上网,不过首先要用命令route -n来查看自己的网关,如下图:第一行就是默认网关。现在用命令ping 192.168.1.1来看一下结果:然后可以看一下电脑上面百度的ip是多少可以在linux里面ping 这个IP,结果如下:..._linux桥接ping不通baidu

android 横幅弹出权限,有关 android studio notification 横幅弹出的功能没有反应-程序员宅基地

文章浏览阅读512次。小妹在这里已经卡了2-3天了,研究了很多人的文章,除了低版本api 17有成功外,其他的不是channel null 就是没反应 (channel null已解决)拜托各位大大,帮小妹一下,以下是我的程式跟 gradle, 我在这里卡好久又没有人可问(哭)![image](/img/bVcL0Qo)public class MainActivity extends AppCompatActivit..._android 权限申请弹窗 横屏

CNN中padding参数分类_cnn “相同填充”(same padding)-程序员宅基地

文章浏览阅读1.4k次,点赞4次,收藏6次。valid padding(有效填充):完全不使用填充。half/same padding(半填充/相同填充):保证输入和输出的feature map尺寸相同。full padding(全填充):在卷积操作过程中,每个像素在每个方向上被访问的次数相同。arbitrary padding(任意填充):人为设定填充。..._cnn “相同填充”(same padding)

Maven的基础知识,java技术栈-程序员宅基地

文章浏览阅读790次,点赞29次,收藏28次。手绘了下图所示的kafka知识大纲流程图(xmind文件不能上传,导出图片展现),但都可提供源文件给每位爱学习的朋友一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长![外链图片转存中…(img-Qpoc4gOu-1712656009273)][外链图片转存中…(img-bSWbNeGN-1712656009274)]

getFullYear()和getYear()有什么区别_getyear和getfullyear-程序员宅基地

文章浏览阅读469次。Date对象取得年份有getYear和getFullYear两种方法经 测试var d=new Date;alert(d.getYear())在IE中返回 2009,在Firefox中会返回109。经查询手册,getYear在Firefox下返回的是距1900年1月1日的年份,这是一个过时而不被推荐的方法。而alert(d.getFullYear())在IE和FF中都会返回2009。因此,无论何时都应使用getFullYear来替代getYear方法。例如:2016年用 getFullYea_getyear和getfullyear

Unix传奇 (上篇)_unix传奇pdf-程序员宅基地

文章浏览阅读182次。Unix传奇(上篇) 陈皓 了解过去,我们才能知其然,更知所以然。总结过去,我们才会知道我们明天该如何去规划,该如何去走。在时间的滚轮中,许许多的东西就像流星一样一闪而逝,而有些东西却能经受着时间的考验散发着经久的魅力,让人津津乐道,流传至今。要知道明天怎么去选择,怎么去做,不是盲目地跟从今天各种各样琳琅满目前沿技术,而应该是去 —— 认认真真地了解和回顾历史。 Unix是目前还在存活的操作系_unix传奇pdf

随便推点

ACwing 哈希算法入门:_ac算法 哈希-程序员宅基地

文章浏览阅读308次。哈希算法:将字符串映射为数字形式,十分巧妙,一般运用为进制数,进制据前人经验,一般为131,1331时重复率很低,由于字符串的数字和会很大,所以一般为了方便,一般定义为unsigned long long,爆掉时,即为对 2^64 取模,可以对于任意子序列的值进行映射为数字进而进行判断入门题目链接:AC代码:#include<bits/stdc++.h>using na..._ac算法 哈希

VS配置Qt和MySQL_在vs中 如何装qt5sqlmysql模块-程序员宅基地

文章浏览阅读952次,点赞13次,收藏27次。由于觉得Qt的编辑界面比较丑,所以想用vs2022的编辑器写Qt加MySQL的项目。_在vs中 如何装qt5sqlmysql模块

【渝粤题库】广东开放大学 互联网营销 形成性考核_画中画广告之所以能有较高的点击率,主要由于它具有以下特点-程序员宅基地

文章浏览阅读1k次。选择题题目:下面的哪个调研内容属于经济环境调研?()题目:()的目的就是加强与客户的沟通,它是是网络媒体也是网络营销的最重要特性。题目:4Ps策略中4P是指产品、价格、顾客和促销。题目:网络市场调研是目前最为先进的市场调研手段,没有任何的缺点或不足之处。题目:市场定位的基本参数有题目:市场需求调研可以掌握()等信息。题目:在开展企业网站建设时应做好以下哪几个工作。()题目:对企业网站首页的优化中,一定要注意下面哪几个方面的优化。()题目:()的主要作用是增进顾客关系,提供顾客服务,提升企业_画中画广告之所以能有较高的点击率,主要由于它具有以下特点

爬虫学习(1):urlopen库使用_urlopen the read operation timed out-程序员宅基地

文章浏览阅读1k次,点赞2次,收藏5次。以爬取CSDN为例子:第一步:导入请求库第二步:打开请求网址第三步:打印源码import urllib.requestresponse=urllib.request.urlopen("https://www.csdn.net/?spm=1011.2124.3001.5359")print(response.read().decode('utf-8'))结果大概就是这个样子:好的,继续,看看打印的是什么类型的:import urllib.requestresponse=urllib.r_urlopen the read operation timed out

分享读取各大主流邮箱通讯录(联系人)、MSN好友列表的的功能【升级版(3.0)】-程序员宅基地

文章浏览阅读304次。修正sina.com/sina.cn邮箱获取不到联系人,并精简修改了其他邮箱代码,以下就是升级版版本的介绍:完整版本,整合了包括读取邮箱通讯录、MSN好友列表的的功能,目前读取邮箱通讯录支持如下邮箱:gmail(Y)、hotmail(Y)、 live(Y)、tom(Y)、yahoo(Y)(有点慢)、 sina(Y)、163(Y)、126(Y)、yeah(Y)、sohu(Y) 读取后可以发送邮件(完..._通讯录 应用读取 邮件 的相关

云计算及虚拟化教程_云计算与虚拟化技术 教改-程序员宅基地

文章浏览阅读213次。云计算及虚拟化教程学习云计算、虚拟化和计算机网络的基本概念。此视频教程共2.0小时,中英双语字幕,画质清晰无水印,源码附件全课程英文名:Cloud Computing and Virtualization An Introduction百度网盘地址:https://pan.baidu.com/s/1lrak60XOGEqMOI6lXYf6TQ?pwd=ns0j课程介绍:https://www.aihorizon.cn/72云计算:概念、定义、云类型和服务部署模型。虚拟化的概念使用 Type-2 Hyperv_云计算与虚拟化技术 教改