机器学习深度研究：特征选择中几个重要的统计学概念_chi2是f值吗-程序员宅基地

技术标签： python 数据分析机器学习深度学习人工智能

机器学习深度研究：特征选择过滤法中几个重要的统计学概念————卡方检验、方差分析、相关系数、p值

问题引出

当我们拿到数据并对其进行了数据预处理，但还不能直接拿去训练模型，还需要选择有意义的特征（即特征选择），这样做有四个好处：

1、避免维度灾难

2、降低学习难度

3、减少过拟合

4、增强对特征和特征值之间的理解

常见的特征选择有三种方法：

过滤法（Filter）：先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。

包装法（Wrapper）：根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。

嵌入法（Embedding）：先使用机器学习模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。

其中，过滤法是最简单，最易于运行和最易于理解的。

过滤法核心思路就是考察自变量和目标变量之间的关联性、相关性，设定阈值，优先选择与目标相关性高的特征。

主要方法：

1、分类问题：卡方检验(chi2)，F检验(f_classif), 互信息(mutual_info_classif)

2、回归问题：相关系数(f_regression), 信息系数(mutual_info_regression)

卡方检验、F检验、互信息、相关系数、信息系数

这些都是统计学领域的概念，在sklearn特征选择中被使用，所以在解释这些概念时，我也重点参考了sklearn文档。

卡方检验百科定义：

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

卡方值 $\chi^{2}$ 计算公式

不要望公式兴叹，其实只需掌握到第一个等号后就行了：A为实际值，T为理论值。

F检验

F检验和方差分析（ANOVA）是一回事，主要用于两个及两个以上样本均数差别的显著性检验。方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个：
(1) 实验条件，即不同的处理造成的差异，称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示，记作 $SS_b$ ，组间自由度 $df_b$ 。

(2) 随机误差，如测量误差造成的差异或个体间的差异，称为组内差异，用变量在各组的均值与该组内变量值之偏差平方和的总和表示，记作 $SS_w$ ，组内自由度 $df_w$ 。

利用f值可以判断假设H0是否成立： $f$ 值越大，大到一定程度时，就有理由拒绝零假设，认为不同总体下的均值存在显著差异。所以我们可以根据样本的某个特征 $x_i$ 的f值来判断特征 $x_i$ 对预测类别的帮助， $f$ 值越大，预测能力也就越强，相关性就越大，从而基于此可以进行特征选择。

互信息(mutual_info_classif/regression)

互信息是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。

两个离散随机变量 X 和 Y 的互信息可以定义为：

相关系数(f_regression)

相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性，结果的取值区间为[-1，1]，-1表示完全的负相关，+1表示完全的正相关，0表示没有线性相关。
$r_i = \frac{(X_i - \bar X_i)^{T}(y - \bar y)}{std(X_i)std(y)}$

$\frac{r_i^2}{1-r_i^2} * (n-2)$

式中 $X_i$ 是代表所有样本的在i号特征上的取值的 $n$ 维列向量，分子上其实两个 $n$ 维列向量的内积，所以 $r_i$ 是一个数值，其实就是样本相关系数。

$f$ 值越大，第i个特征和因变量y之间的相关性就越大，据此我们做特征选择。

P值 (P-value)

P值，也就是常见到的 P-value。P 值是一种概率，指的是在 H0 假设为真的前提下，样本结果出现的概率。如果 P-value 很小，则说明在原假设为真的前提下，样本结果出现的概率很小，甚至很极端，这就反过来说明了原假设很大概率是错误的。通常，会设置一个显著性水平（significance level） $\alpha$ 与 P-value 进行比较，如果 P-value < $\alpha$ ，则说明在显著性水平 $\alpha$ 下拒绝原假设， $\alpha$ 通常情况下设置为0.05。

sklearn特征选择——过滤法

sklearn过滤法特征选择方法

SelectBest 只保留 k 个最高分的特征；
SelectPercentile 只保留用户指定百分比的最高得分的特征；
使用常见的单变量统计检验：假正率SelectFpr，错误发现率selectFdr，或者总体错误率SelectFwe；
GenericUnivariateSelect 通过结构化策略进行特征选择，通过超参数搜索估计器进行特征选择。

SelectKBest按照scores保留K个特征；

SelectPercentile按照scores保留指定百分比的特征；

SelectFpr、SelectFdr和SelectFwe对每个特征使用通用的单变量统计检验；

GenericUnivariateSelect允许使用可配置策略如超参数搜索估计器选择最佳的单变量选择策略。
特征选择指标

使用sklearn中SelectKBest函数进行特征选择，参数中的score_func选择：
分类：chi2----卡方检验

f_classif----方差分析，计算方差分析（ANOVA）的F值 (组间均方 / 组内均方)

mutual_info_classif----互信息，互信息方法可以捕捉任何一种统计依赖，但是作为非参数方法，需要更多的样本进行准确的估计

回归：f_regression----相关系数，计算每个变量与目标变量的相关系数，然后计算出F值和P值

mutual_info_regression----互信息，互信息度量 X 和 Y 共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。

sklearn过滤法特征选择-示例

在sklearn中，可以使用chi2这个类来做卡方检验得到所有特征的卡方值与显著性水平P临界值，我们可以给定卡方值阈值，选择卡方值较大的部分特征。代码如下：

首先import包和实验数据：

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.datasets import load_iris
#导入IRIS数据集
iris = load_iris()

使用卡方检验来选择特征

model1 = SelectKBest(chi2, k=2)#选择k个最佳特征
model1.fit_transform(iris.data, iris.target)#iris.data是特征数据，iris.target是标签数据，该函数可以选择出k个特征

结果输出为：

array([[ 1.4,  0.2],
       [ 1.4,  0.2],
       [ 1.3,  0.2],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.7,  0.4],
       [ 1.4,  0.3],

可以看出后使用卡方检验，选择出了后两个特征。如果我们还想查看卡方检验的p值和得分，可以使用第3步。

查看p-values和scores

model1.scores_  #得分

得分输出为：

array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])

可以看出后两个特征得分最高，与我们第二步的结果一致；

model1.pvalues_  #p-values

p值输出为：

array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26, 2.50017968e-15])

可以看出后两个特征的p值最小，置信度也最高，与前面的结果一致。

本文链接：https://blog.csdn.net/jpld/article/details/111476157

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

使用nginx解决浏览器跨域问题_nginx不停的xhr-程序员宅基地

文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的，浏览器出于安全考虑是禁止的。警告信息如下：不过jQuery对跨域问题也有解决方案，使用jsonp的方式解决，方法如下：$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr

在 Oracle 中配置 extproc 以访问 ST_Geometry-程序员宅基地

文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry，也就是我们所说的使用空间SQL 的方法，官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下，主要就分为以下几个步骤。..._extproc

Linux C++ gbk转为utf-8_linux c++ gbk->utf8-程序员宅基地

文章浏览阅读1.5w次。linux下没有上面的两个函数，需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数，转换过程中受到系统编码类型的影响，需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8

IMP-00009: 导出文件异常结束-程序员宅基地

文章浏览阅读750次。今天准备从生产库向测试库进行数据导入，结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误，google一下，发现可能有如下原因导致imp的数据太大，没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件，向高版本imp导出的dmp文件出错传输dmp文件时，文件损坏解决办法：imp时指定..._imp-00009导出文件异常结束

python程序员需要深入掌握的技能_Python用数据说明程序员需要掌握的技能-程序员宅基地

文章浏览阅读143次。当下是一个大数据的时代，各个行业都离不开数据的支持。因此，网络爬虫就应运而生。网络爬虫当下最为火热的是Python，Python开发爬虫相对简单，而且功能库相当完善，力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页，按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息，通过分析请求信息可以了解请..._初级python程序员能力要求

Spring @Service生成bean名称的规则（当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致）_@service beanname-程序员宅基地

文章浏览阅读7.6k次，点赞2次，收藏6次。@Service标注的bean，类名：ABDemoService查看源码后发现，原来是经过一个特殊处理：当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname

随便推点

二叉树的各种创建方法_二叉树的建立-程序员宅基地

文章浏览阅读6.9w次，点赞73次，收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立

解决asp.net导出excel时中文文件名乱码_asp.net utf8 导出中文字符乱码-程序员宅基地

文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能，如果文件名出现中文，便会以乱码视之。解决方法： fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码

笔记-编译原理-实验一-词法分析器设计_对pl/0作以下修改扩充。增加单词-程序员宅基地

文章浏览阅读2.1k次，点赞4次，收藏23次。第一次实验词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别，找出文件中所有的合法的单词，并给出一定的信息作为最后的结果，用于后续语法分析程序的使用；本实验针对 PL/0 语言的文法、词汇表编写一个词法分析程序，对于每个单词根据词汇表输出： (单词种类, 单词的值) 二元对。词汇表：种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词

android adb shell 权限,android adb shell权限被拒绝-程序员宅基地

文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限

投影仪-相机标定_相机-投影仪标定-程序员宅基地

文章浏览阅读6.8k次，点赞12次，收藏125次。1. 单目相机标定引言相机标定已经研究多年，标定的算法可以分为基于摄影测量的标定和自标定。其中，应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统，在标定过程中，相机拍摄多个角度下（至少两个角度，推荐10~20个角度）的标定板图像（相机和标定板都可以移动），即可对相机的内外参数进行标定。下面介绍张氏标定法（以下也这么称呼）的原理。原理相机模型和单应矩阵相机标定，就是对相机的内外参数进行计算的过程，从而得到物体到图像的投影_相机-投影仪标定

Wayland架构、渲染、硬件支持-程序员宅基地

文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的硬件支持简述：　翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构；一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。内核是从一个输入设备中获取一个事件，并通过 evdev 输入_wayland