【林轩田】机器学习基石（七）——VC维_林轩田机器学习基石-程序员宅基地

Lecture 7: VC Dimension VC维

ppt
video

7.1 Definition of VC Dimension VC维的定义

复习1

上节课，林教授讲到了，当样本 $N$ 足够大，且成长函数 $m_{H}(N)$ 存在断点 $k$ 时，可以概率性地推出 $E_{out} \simeq E_{in}$

即

有 断 点 k 的 m H (N) \leq B (N, k) \leq \sum i = 0 k - 1 (N i) [最 大 为 N k - 1]

$有断点k的m_{H}(N) \le B(N,k) \le \sum_{i=0}^{k-1}\dbinom{N}{i}[最大为N^{k-1}]$

复习2 VC边界

对演算法 $A$ 在数据空间 $D$ 上选择的任何假设 $g$ ，当 $D$ 在统计学意义上足够大时，这个假设是坏假设的几率是

P D [| E o u t (g) - E i n (g) | > ϵ] \leq P D [\exists h \in H, s . t . | E o u t (g) - E i n (g) | > ϵ] \leq 4 m H (2 N) e x p (- 1 8 ϵ 2 N) \leq 4 * (2 N) k - 1 e x p (- 1 8 ϵ 2 N) [如 果 k 存 在 的 话]

$P_{D}[|E_{out}(g)-E_{in}(g)| > \epsilon] \\ \le P_{D}[ \exists h \in H, s.t. |E_{out}(g)-E_{in}(g)| > \epsilon] \\ \le 4m_{H}(2N)exp(-\frac{1}{8}\epsilon^{2}N) \\ \le 4*(2N)^{k-1}exp(-\frac{1}{8}\epsilon^{2}N) [如果k存在的话]$

所以，如果

$m H (N) 有断点 k ， H 是好的假设$ $m_{H}(N)有断点k，H是好的假设$
$N 足够大， D 是好的数据集$ $N足够大，D是好的数据集$
以上两点推出， $E i n ≃ E o u t$ $E_{in} \simeq E_{out}$
如果，演算法 $A$ 选择了一个有小 $E_{in}$ 的 $g$ ， $A$ 是好的演算法

有了上面三条，再加上好运气，我们就学到了好的规律！！

vc维定义

vc维是最大的非断点的正式名称

假设函数 $H$ 的VC维，记为 $d_{VC}(H)$ ，是使得成长函数 $m_{H}(N)=2^N$ 最大的N，即

假设函数 $H$ 可以shatter的最多的输入数量
$d_{vc} = 最小的断点k-1$
如下图，这是上节课提出的几个例子：
所以，如果我们有有限个VC维的话，就可以推出不论选择哪个 $g$ ，都能够保证 $E_{in}(g) \simeq E_{out}(g)$ ，而不用关心
- 演算法 $A$ 长什么样。
- 样本分布 $P$ 长什么样。
- 目标函数 $f$ 长什么样。

7.2 VC dimension for perceptrons 感知器的VC维

矩阵相关

开始之前，我们先复习两个矩阵相关的概念。

逆矩阵

$设A为数域上的一个n阶方针，若在相同数域上存在另一个n阶方阵B，使得 AB = BA = E。$
$则称，B为A的逆矩阵，A为可逆矩阵。$
$注：E为单位矩阵。$

举个例子：

A = [1423]

$A = \left[ \begin{matrix} 1&2\\ 4&3 \end{matrix} \right]$

求 $A$ 的逆矩阵。
解：
假设

B = [\begin{matrix} a & b \\ c & d \end{matrix}]

$B = \left[ \begin{matrix} a&b\\ c&d \end{matrix} \right]$

A * B = [1423] * [a c b d] = [a + 2 c 4 a + 3 c b + 2 d 4 b + 3 d] = [1001]

$A*B = \left[ \begin{matrix} 1&2\\ 4&3 \end{matrix} \right] * \left[ \begin{matrix} a&b\\ c&d \end{matrix} \right] =\\ \left[ \begin{matrix} a+2c&b+2d\\ 4a+3c&4b+3d \end{matrix} \right] = \left[ \begin{matrix} 1&0\\ 0&1 \end{matrix} \right]$
所以，

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ a + 2 c = 1, b + 2 d = 0. 4 a + 3 c = 0 4 b + 3 d = 1,

$\left\{ \begin{array}{lr} a+2c=1, & \\ b+2d=0.\\ 4a+3c=0 \\ 4b+3d=1, & \end{array} \right.$
得到,

B = [- 0.6 0.8 0.4 - 0.2]

$B = \left[ \begin{matrix} -0.6&0.4\\ 0.8&-0.2 \end{matrix} \right]$

线性相关

设 $a_1,a_2,...a_m$ 为一组 $n维向量$ ，若存在一组不全为0的实数 $k_1,k_2,...k_m$ ，使得

k 1 a 1 + k 2 a 2 + k 3 a 3 + . . . + k m a m = 0

$k_1a_1+k_2a_2+k_3a_3+...+k_ma_m = 0$
则称向量组

a1,a2,...,am a 1 , a 2 , . . . , a m $a_1,a_2,...,a_m$ 线性相关，反之，线性无关。

将向量组写成矩阵，如何通过矩阵的性质判断向量组是线性相关还是线性无关呢？

将矩阵进行初等行变换，化为阶梯型矩阵，若非零行的行数等于向量的个数，即矩阵满秩，则为向量组线性无关；若非零行行数小于向量个数，即矩阵非满秩，则向量组线性相关。

感知器的vc维

首先我们来回顾一下二维感知器：

在线性可分的情况下，PLA是可以找到最佳的 $g$ 的，当迭代次数 $T$ 足够大时，我们能保证 $E_{in}(g) = 0$ ；
在之前关于机器学习可行性的论证中，二维线性分割问题的vc维等于3是有限的，在训练样本 $N$ 足够大时， $E_{out}(g) \simeq E_{in}(g)$

所以，我们能推出，在二维线性可分问题中， PLA的 $E_{out}(g) \simeq 0$ 。

现在，我们提出一个问题，PLA在多维情况下仍旧可行吗？

注意到一维的感知机 $d_{vc}=2$ ，二维的感知机 $d_{vc}=3$ ；
猜想， $D$ 维的感知机 $d_{vc}=d+1$

如何验证这个猜想呢？分为两步：

验证 $d_{vc} \ge d+1$
验证 $d_{vc} \le d+1$

首先证明 $d_{vc} \ge d+1$ ，因为 $vc$ 维的定义是，能够被shatter的最大输入数量；如果我们能找到至少1个 $d$ 维的能shatter的最大输入数量是 $d+1$ 的情形，那么就可以说 $d_{vc} \ge d+1$

我们构造一个有 $d+1$ 个inputs的 $d$ 维矩阵：

X = [\begin{matrix} 0 & 0 & 0 & . . . & 0 \\ 1 & 0 & 0 & . . . & 0 \\ 0 & 1 & 0 & . . . & 0 \\ 0 & 0 & 1 & . . . & 0 \\ . . . \\ . . . \\ 0 & 0 & 0 & . . . & 1 \end{matrix}]

$X = \left[ \begin{matrix} 0&0&0&...&0\\ 1&0&0&...&0\\ 0&1&0&...&0\\ 0&0&1&...&0\\ ...\\ ...\\ 0&0&0&...&1\\ \end{matrix} \right]$

第一个input向量代表原点，有d个0；其余d行向量分别代表某一维值为1，其它维值为0的向量。

注意到图中灰色的一列，我们给向量的左边添加一列常数1，代表threshold。

当 $d = 1$ 时:

X = [01]

$X = \left[ \begin{matrix} 0\\ 1 \end{matrix} \right]$
可见

d+1=2 d + 1 = 2 $d+1=2$ 个inputs是shatter的
当

d=2 d = 2 $d=2$ 时：

X = ⎡ ⎣ ⎢ 010001 ⎤ ⎦ ⎥

$X = \left[ \begin{matrix} 0&0\\ 1&0\\ 0&1\\ \end{matrix} \right]$
也就是说在二维平面直角坐标系上，是(0,0),(1,0)和(0,1)三个点，我们在几何上可以很容易证明，这三个点是shatter的。

我们说 $d+1$ 个inputs是shatter的，就是说假设空间中，包含输出 $y$ 的全排列，就是对任意的 $y$ ，

y = ⎡ ⎣ ⎢ ⎢ ⎢ y 1 y 2 . . . y d + 1 ⎤ ⎦ ⎥ ⎥ ⎥

$y=\left[ \begin{matrix} y_1\\ y_2\\ ...\\ y_{d+1}\\ \end{matrix} \right]$
总能找到一个

w w $w$ ，使得

s i g n (w X) = y

$sign(wX)=y$ 成立。

注意到我们构造的矩阵是可逆的，所以 $wX = y \rightarrow w=X^{-1}y$ 总是成立的。

这里我们证明了第一个不等式，即我们找到了d维的d+1个inputs可以被shatter。

如何证明 $d_{vc} <= d+1$ 呢？我们需要证明，对d维的任意 $d+2$ 个输入来说，都是不能被shatter的。

考虑一个二维的例子， $d=2,d+2=4$ ,也就是4行2列的矩阵，我们在左边偷偷再加一列常数1表示threshold，这样就构成了一个4行3列的矩阵。

这四个点在平面直角坐标系上的表示，分别是(0,0)，(1,0),(0,1),(1,1)，根据以前的学习，我们知道这四个点是不能被shatter的。

也就是说，如果我们定好了另外三个点分别是圈、叉、圈，第四个点一定不能是叉，只能是圈，用线性代数表示：

w T x 4 = w T x 2 + w T x 3 - w T x 1 > 0

$w^Tx_4 = w^Tx_2 + w^Tx_3 - w^Tx_1 > 0$

从矩阵的角度来说，如果一个矩阵的行数大于列数，这个矩阵的向量组是线性相关的。

这里假设， $a_n$ 与 $w^Tx_n$ 的符号相同，也就是说，我们假设 $a_1$ 是正的， $a_2,a_3....,a_{d+1}$ 是负的，那么

根据负负得正， $w^Tx_{d+2}$ 一定大于0；也就是说，不存在 $x_{d+2}$ 为叉叉的情况，这样已经证明出， $d+2$ 个inputs是不能被shatter的，所以 $d_{vc} <= d+1$

所以，我们证明了d维的感知机模型， $d_{vc} = d+1$ 。

7.3 Physical Intuition of VC Dimension vc维的直观物理解释

假设的参数 $w$ 代表了自由程度(degrees of freedom)，参数越多，代表假设空间函数的可调节能力越强。
假设的数量， $M=|H|$ ，可以类比成自由程度。
上一小节提到的vc维，可以理解为有效地二元分割的自由程度。

根据经验，虽然不是总这样， $d_{vc}$ 的值和自由参数个数是相等的。

第五节课曾经讨论过 $M$ 和机器学习两个核心问题的关系，将 $M$ 转换为 $d_{vc}$ ，结论类似。

$d_{vc}$ 小时，坏事情发生的概率右边界小，也就是说我们有极高的概率保证 $E_{out} \approx E_{in}$ ，但是同时因为 $d_{vc}$ 较小，可以选择的 $H$ 也少了，所以不能保证 $E_{in}$ 足够小。
反之如是。

所以选择一个合适的 $d_{vc}$ ，或者说合适的假设空间 $H$ ,或者说合适的模型，是十分重要的。

Fun Time问题是，经过原点的也就是说固定 $w_0$ 为0的感知器模型的 $d_{vc}$ 是多少？这个问题可以从自有参数与 $d_{vc}$ 的关系入手，因为自由参数少了一个，所以 $d_{vc}$ 也相应地减1。答案是2，d。

7.4 Interpreting VC Dimension VC维的解释

在深入解释vc维之前，我们先来回顾一下vc边界。vc边界指坏事发生的概率的右边界，用 $\delta$ 表示。

换个说法，好事情发生概率的左边界就是 $1-\delta$ ，即

P D [| E i n (g) - E o u t (g) | \leq ϵ] \geq 1 - δ

$P_{D}[|E_{in}(g) - E_{out}(g)| \le \epsilon] \ge 1- \delta$
用

δ δ $\delta$ 表示

ϵ ϵ $\epsilon$ ，得到

也就是说，在 $1-\delta$ 的概率下：

| E i n (g) - E o u t (g) | \leq 8 N l n (4 ( 2 N ) d v c δ) - - - - - - - - - - - - - \sqrt

$|E_{in}(g)-E_{out}(g)| \le \sqrt{\frac{8}{N}ln(\frac{4(2N)^{d_{vc}}}{\delta})}$
去掉绝对值，

E i n (g) - 8 N l n (4 ( 2 N ) d v c δ) - - - - - - - - - - - - - \sqrt \leq E o u t (g) \leq E i n (g) + 8 N l n (4 ( 2 N ) d v c δ) - - - - - - - - - - - - - \sqrt

$E_{in}(g)-\sqrt{\frac{8}{N}ln(\frac{4(2N)^{d_{vc}}}{\delta})} \le E_{out}(g) \le \\ E_{in}(g)+\sqrt{\frac{8}{N}ln(\frac{4(2N)^{d_{vc}}}{\delta})}$

我们重点关注右边界，使用 $\Omega(N,H,\delta)$ 表示根号项的一大串内容，视为模型复杂度的惩罚项。

左图横轴是 $d_{vc}$ ，纵轴是Error。

随着 $d_{vc}$ 的增大， $E_{in}$ 是减小的。可以这么理解， $d_{vc}$ 增大了，代表假设空间中可供选择的 $g$ 变多了，也就更容易找到小的 $E_{in}$ 。
根据公式， $d_{vc}$ 增大，模型复杂度也在增大。
$E_{out}$ 根据前两个的走势，大致呈现山谷形。

给定一些参数，计算需要训练样本 $N$ 的值，我们发现，理论上样本 $N = 10000d_{vc}$ ，但是经验上， $N=10d_{vc}$ 就可以了。
所以说我们的vc bound是十分宽松的，那它为什么如此宽松呢？原因如图。

本文链接：https://blog.csdn.net/sjz_hahalala479/article/details/81409927

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

使用nginx解决浏览器跨域问题_nginx不停的xhr-程序员宅基地

文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的，浏览器出于安全考虑是禁止的。警告信息如下：不过jQuery对跨域问题也有解决方案，使用jsonp的方式解决，方法如下：$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr

在 Oracle 中配置 extproc 以访问 ST_Geometry-程序员宅基地

文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry，也就是我们所说的使用空间SQL 的方法，官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下，主要就分为以下几个步骤。..._extproc

Linux C++ gbk转为utf-8_linux c++ gbk->utf8-程序员宅基地

文章浏览阅读1.5w次。linux下没有上面的两个函数，需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数，转换过程中受到系统编码类型的影响，需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8

IMP-00009: 导出文件异常结束-程序员宅基地

文章浏览阅读750次。今天准备从生产库向测试库进行数据导入，结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误，google一下，发现可能有如下原因导致imp的数据太大，没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件，向高版本imp导出的dmp文件出错传输dmp文件时，文件损坏解决办法：imp时指定..._imp-00009导出文件异常结束

python程序员需要深入掌握的技能_Python用数据说明程序员需要掌握的技能-程序员宅基地

文章浏览阅读143次。当下是一个大数据的时代，各个行业都离不开数据的支持。因此，网络爬虫就应运而生。网络爬虫当下最为火热的是Python，Python开发爬虫相对简单，而且功能库相当完善，力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页，按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息，通过分析请求信息可以了解请..._初级python程序员能力要求

Spring @Service生成bean名称的规则（当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致）_@service beanname-程序员宅基地

文章浏览阅读7.6k次，点赞2次，收藏6次。@Service标注的bean，类名：ABDemoService查看源码后发现，原来是经过一个特殊处理：当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname

随便推点

二叉树的各种创建方法_二叉树的建立-程序员宅基地

文章浏览阅读6.9w次，点赞73次，收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立

解决asp.net导出excel时中文文件名乱码_asp.net utf8 导出中文字符乱码-程序员宅基地

文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能，如果文件名出现中文，便会以乱码视之。解决方法： fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码

笔记-编译原理-实验一-词法分析器设计_对pl/0作以下修改扩充。增加单词-程序员宅基地

文章浏览阅读2.1k次，点赞4次，收藏23次。第一次实验词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别，找出文件中所有的合法的单词，并给出一定的信息作为最后的结果，用于后续语法分析程序的使用；本实验针对 PL/0 语言的文法、词汇表编写一个词法分析程序，对于每个单词根据词汇表输出： (单词种类, 单词的值) 二元对。词汇表：种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词

android adb shell 权限,android adb shell权限被拒绝-程序员宅基地

文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限

投影仪-相机标定_相机-投影仪标定-程序员宅基地

文章浏览阅读6.8k次，点赞12次，收藏125次。1. 单目相机标定引言相机标定已经研究多年，标定的算法可以分为基于摄影测量的标定和自标定。其中，应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统，在标定过程中，相机拍摄多个角度下（至少两个角度，推荐10~20个角度）的标定板图像（相机和标定板都可以移动），即可对相机的内外参数进行标定。下面介绍张氏标定法（以下也这么称呼）的原理。原理相机模型和单应矩阵相机标定，就是对相机的内外参数进行计算的过程，从而得到物体到图像的投影_相机-投影仪标定

Wayland架构、渲染、硬件支持-程序员宅基地

文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的硬件支持简述：　翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构；一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。内核是从一个输入设备中获取一个事件，并通过 evdev 输入_wayland