【机器学习】解释机器学习模型-程序员宅基地

技术标签: 机器学习  机器学习算法理论与实战  模型可解释  Machine Learning  

无论数据科学解决方案的最终目标如何,最终用户总是更喜欢可解释且易于理解的解决方案。此外,作为数据科学家,您将始终受益于模型的可解释性,以验证和改进您的工作。在这篇博客文章中,我试图解释机器学习中可解释性的重要性,并讨论一些您可以自己试验的简单操作和框架。

关于机器学习的xkcd

 

为什么机器学习中的可解释性很重要?

在传统统计中,我们通过调查整个数据来构建和验证假设。我们构建模型来构建规则,我们可以将这些规则合并到流程的心理模型中。例如,营销公司可以构建一个模型,该模型将营销活动数据与财务数据相关联,以确定什么构成有效的营销活动。
这是一种自上而下的数据科学方法,可解释性是关键,因为它是所定义的规则和流程的基石。由于相关性通常不等于因果关系,因此在制定决策和解释时需要一个可靠的模型理解。

在自下而上的数据科学方法中,我们将业务流程的各个部分委托给机器学习模型。此外,通过机器学习实现了全新的商业创意。自下而上的数据科学通常对应于手动和繁重任务的自动化。制造公司可以例如将传感器放在他们的机器上并执行预测性维护。因此,维护工程师可以更高效地工作,而无需执行昂贵的定期检查。模型可解释性是必要的,以验证模型正在做什么符合您的期望,并允许与用户建立信任并简化从手动过程到自动过程的过渡。

在自上而下的过程中,您可以迭代地构造和验证一组假设。在自下而上的方法中,您尝试通过自下而上解决问题来自动化流程。

 

作为数据科学家,您经常关注微调模型以获得最佳性能。数据科学通常被定义为:'给定带有标签y的数据X,找到具有最小误差的模型'。虽然培训高性能模型的能力对于数据科学家来说是一项关键技能,但重要的是能够从更大的角度看待。数据和机器学习模型的可解释性是数据科学管道实际“有用”中关键的一个方面,它确保模型与您要解决的问题保持一致。虽然在构建模型时尝试使用最先进的技术很容易迷失自己,但能够正确解释您的发现是数据科学过程的重要组成部分。

需要解释模型来验证模型预测的有用性。

 

为什么对模型进行深入分析至关重要?

作为数据科学家,有几个理由关注模型可解释性。虽然这些之间存在重叠,但它们捕获了可解释性的不同动机:

识别并减轻偏见。

偏差可能存在于任何数据集中,由数据科学家来识别并尝试修复它。数据集的大小可能有限,并且可能无法代表整个数据集,或者数据捕获过程可能没有考虑潜在的偏差。在彻底的数据分析之后或当模型预测与模型输入之间的关系被分析时,偏差通常才会变得明显。如果您想了解更多有关不同类型偏见的信息,我强烈推荐以下视频。请注意,解决偏见没有单一的解决方案,但是在解释性方面意识到潜在偏见的关键步骤。

 

其他偏见的例子如下:

例如,word2vec向量包含性别偏见,因为他们已经训练过的语料库中存在固有的偏见。当您使用这些单词嵌入来训练模型时,搜索“技术配置文件”的招聘人员会将女性简历留在堆的底部。

例如,当您在小型手动创建的数据集上训练对象检测模型时,通常情况下图像的宽度太有限。需要在不同环境,不同闪电条件和不同角度的物体的各种图像,以避免仅适合数据中的噪声和不重要元素的模型。

考虑问题的背景。

在大多数问题中,您正在使用的数据集只是您要解决的问题的粗略表示,而机器学习模型通常无法捕获现实任务的完整复杂性。可解释的模型可帮助您理解和解释模型中包含的(未)因素,并在根据模型预测执行操作时考虑问题的上下文。

改善泛化和绩效。

高可解释性通常会导致模型更好地推广。可解释性不是要理解所有数据点的模型的每个细节。固体数据,模型和问题理解的结合对于拥有更好的解决方案是必要的。

道德和法律原因。

在金融和医疗保健等行业中,审核决策流程并确保其不歧视或违反任何法律至关重要。随着GDPR等数据和隐私保护法规的兴起,可解释性变得更加重要。此外,在医疗应用或自动驾驶汽车中,单个不正确的预测可能会产生重大影响,并且能够“验证”模型是至关重要的。因此,系统应该能够解释它是如何达到给定的建议的。

 

解释你的模型

关于模型可解释性的一个共同点是,随着模型复杂性的增加,模型可解释性至少下降得如此之快。特征重要性是解释模型的基本(通常是免费)方法。即使对于诸如深度学习的黑盒模型,也存在提高可解释性的技术。最后,将讨论LIME框架,作为模型分析的工具箱。

特征重要性

  • 广义线性模型

广义线性模型(GLM)都基于以下原则:  
如果您将特征x与模型权重w进行线性组合,并通过壁球函数f提供结果,则可以使用它来预测各种各样的响应变量。GLM的最常见应用是回归(线性回归),分类(逻辑回归)或建模泊松过程(泊松回归)。训练后获得的权重是特征重要性的直接代表,它们为模型内部提供了非常具体的解释。

例如,在构建文本分类器时,您可以绘制最重要的特征并验证模型是否过度拟合噪声。如果最重要的单词与您的直觉(例如名称或停用词)不对应,则可能意味着该模型适合数据集中的噪声,并且在新数据上表现不佳。

TidyTextMining中用于文本可解释性的整洁可视化示例

 

  • 随机森林和SVM

甚至诸如基于树的模型(例如,随机森林)之类的非线性模型也允许获得关于特征重要性的信息。在随机森林中,在训练模型时,特征重要性是免费的,因此它是验证初始假设并确定模型正在学习什么的好方法。基于内核的方法(如SVM)中的权重通常不是特征重要性的非常好的代表。内核方法的优点是,您可以通过将特征投影到内核空间来捕获变量之间的非线性关系。另一方面,仅仅将权重视为特征重要性并不能完成特征交互。

通过查看特征重要性,您可以确定模型正在学习什么。由于这个模型中的许多重要性都被放到了一天中,因此可能值得加入其他基于时间的功能。(Kaggle

 

  • 深度学习

由于参数的剪切数量和提取和组合特征的复杂方法,深度学习模型因其不可解释性而臭名昭着。由于这类模型能够在许多任务上获得最先进的性能,因此许多研究都集中在将模型预测与输入联系起来。

可解释机器学习的研究数量正在快速增长(麻省理工学院)。

特别是当转向处理文本和图像数据的更复杂系统时,很难解释模型实际学习的内容。研究的主要焦点目前主要是将输出或预测与输入数据联系起来并将其关联起来。虽然这在线性模型的背景下相当容易,但对于深度学习网络来说仍然是一个未解决的问题。两种主要方法是基于梯度或基于注意力。

- 在基于梯度的方法中,在向后传递中计算的目标概念的梯度用于产生突出显示输入中用于预测目标概念的重要区域的地图。这通常应用于计算机视觉环境中。

Grad-CAM是一种基于梯度的方法,用于生成视觉字幕。基于输出标题,该方法确定输入图像中的哪些区域是重要的。

- 基于注意的方法通常与顺序数据(例如文本数据)一起使用。除了网络的正常权重之外,还训练注意力量作为“输入门”。这些注意力量决定了最终网络输出中每个不同元素的数量。除了可解释性之外,在例如基于文本的问答的背景下的关注也导致更好的结果,因为网络能够“集中”其注意力。

在回答问题时,可以指出文本中哪些词最重要,以确定问题的答案。

 

Lime

Lime是一个更通用的框架,旨在使“任何”机器学习模型的预测更易于理解。

为了保持与模型无关,LIME通过在本地修改模型的输入来工作。因此,不是试图同时理解整个模型,而是修改特定的输入实例,并监控对预测的影响。在文本分类的上下文中,这意味着例如替换了一些单词,以确定输入的哪些元素影响预测。

 

原文:https://towardsdatascience.com/interpretability-in-machine-learning-70c30694a05f

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/ChenVast/article/details/81975347

智能推荐

18个顶级人工智能平台-程序员宅基地

文章浏览阅读1w次,点赞2次,收藏27次。来源:机器人小妹  很多时候企业拥有重复,乏味且困难的工作流程,这些流程往往会减慢生产速度并增加运营成本。为了降低生产成本,企业别无选择,只能自动化某些功能以降低生产成本。  通过数字化..._人工智能平台

electron热加载_electron-reloader-程序员宅基地

文章浏览阅读2.2k次。热加载能够在每次保存修改的代码后自动刷新 electron 应用界面,而不必每次去手动操作重新运行,这极大的提升了开发效率。安装 electron 热加载插件热加载虽然很方便,但是不是每个 electron 项目必须的,所以想要舒服的开发 electron 就只能给 electron 项目单独的安装热加载插件[electron-reloader]:// 在项目的根目录下安装 electron-reloader,国内建议使用 cnpm 代替 npmnpm install electron-relo._electron-reloader

android 11.0 去掉recovery模式UI页面的选项_android recovery 删除 部分菜单-程序员宅基地

文章浏览阅读942次。在11.0 进行定制化开发,会根据需要去掉recovery模式的一些选项 就是在device.cpp去掉一些选项就可以了。_android recovery 删除 部分菜单

mnn linux编译_mnn 编译linux-程序员宅基地

文章浏览阅读3.7k次。https://www.yuque.com/mnn/cn/cvrt_linux_mac基础依赖这些依赖是无关编译选项的基础编译依赖• cmake(3.10 以上)• protobuf (3.0 以上)• 指protobuf库以及protobuf编译器。版本号使用 protoc --version 打印出来。• 在某些Linux发行版上这两个包是分开发布的,需要手动安装• Ubuntu需要分别安装 libprotobuf-dev 以及 protobuf-compiler 两个包•..._mnn 编译linux

利用CSS3制作淡入淡出动画效果_css3入场效果淡入淡出-程序员宅基地

文章浏览阅读1.8k次。CSS3新增动画属性“@-webkit-keyframes”,从字面就可以看出其含义——关键帧,这与Flash中的含义一致。利用CSS3制作动画效果其原理与Flash一样,我们需要定义关键帧处的状态效果,由CSS3来驱动产生动画效果。下面讲解一下如何利用CSS3制作淡入淡出的动画效果。具体实例可参考刚进入本站时的淡入效果。1. 定义动画,名称为fadeIn@-webkit-keyf_css3入场效果淡入淡出

计算机软件又必须包括什么,计算机系统应包括硬件和软件两个子系统,硬件和软件又必须依次分别包括______?...-程序员宅基地

文章浏览阅读2.8k次。计算机系统应包括硬件和软件两个子系统,硬件和软件又必须依次分别包括中央处理器和系统软件。按人的要求接收和存储信息,自动进行数据处理和计算,并输出结果信息的机器系统。计算机是脑力的延伸和扩充,是近代科学的重大成就之一。计算机系统由硬件(子)系统和软件(子)系统组成。前者是借助电、磁、光、机械等原理构成的各种物理部件的有机组合,是系统赖以工作的实体。后者是各种程序和文件,用于指挥全系统按指定的要求进行..._计算机系统包括硬件系统和软件系统 软件又必须包括

随便推点

进程调度(一)——FIFO算法_进程调度fifo算法代码-程序员宅基地

文章浏览阅读7.9k次,点赞3次,收藏22次。一 定义这是最早出现的置换算法。该算法总是淘汰最先进入内存的页面,即选择在内存中驻留时间最久的页面予以淘汰。该算法实现简单,只需把一个进程已调入内存的页面,按先后次序链接成一个队列,并设置一个指针,称为替换指针,使它总是指向最老的页面。但该算法与进程实际运行的规律不相适应,因为在进程中,有些页面经常被访问,比如,含有全局变量、常用函数、例程等的页面,FIFO 算法并不能保证这些页面不被淘汰。这里,我_进程调度fifo算法代码

mysql rownum写法_mysql应用之类似oracle rownum写法-程序员宅基地

文章浏览阅读133次。rownum是oracle才有的写法,rownum在oracle中可以用于取第一条数据,或者批量写数据时限定批量写的数量等mysql取第一条数据写法SELECT * FROM t order by id LIMIT 1;oracle取第一条数据写法SELECT * FROM t where rownum =1 order by id;ok,上面是mysql和oracle取第一条数据的写法对比,不过..._mysql 替换@rownum的写法

eclipse安装教程_ecjelm-程序员宅基地

文章浏览阅读790次,点赞3次,收藏4次。官网下载下载链接:http://www.eclipse.org/downloads/点击Download下载完成后双击运行我选择第2个,看自己需要(我选择企业级应用,如果只是单纯学习java选第一个就行)进入下一步后选择jre和安装路径修改jvm/jre的时候也可以选择本地的(点后面的文件夹进去),但是我们没有11版本的,所以还是用他的吧选择接受安装中安装过程中如果有其他界面弹出就点accept就行..._ecjelm

Linux常用网络命令_ifconfig 删除vlan-程序员宅基地

文章浏览阅读245次。原文链接:https://linux.cn/article-7801-1.htmlifconfigping <IP地址>:发送ICMP echo消息到某个主机traceroute <IP地址>:用于跟踪IP包的路由路由:netstat -r: 打印路由表route add :添加静态路由路径routed:控制动态路由的BSD守护程序。运行RIP路由协议gat..._ifconfig 删除vlan

redux_redux redis-程序员宅基地

文章浏览阅读224次。reduxredux里要求把数据都放在公共的存储区域叫store里面,组件中尽量少放数据,假如绿色的组件要给很多灰色的组件传值,绿色的组件只需要改变store里面对应的数据就行了,接着灰色的组件会自动感知到store里的数据发生了改变,store只要有变化,灰色的组件就会自动从store里重新取数据,这样绿色组件的数据就很方便的传到其它灰色组件里了。redux就是把公用的数据放在公共的区域去存..._redux redis

linux 解压zip大文件(解决乱码问题)_linux 7za解压中文乱码-程序员宅基地

文章浏览阅读2.2k次,点赞3次,收藏6次。unzip版本不支持4G以上的压缩包所以要使用p7zip:Linux一个高压缩率软件wget http://sourceforge.net/projects/p7zip/files/p7zip/9.20.1/p7zip_9.20.1_src_all.tar.bz2tar jxvf p7zip_9.20.1_src_all.tar.bz2cd p7zip_9.20.1make && make install 如果安装失败,看一下报错是不是因为没有下载gcc 和 gcc ++(p7_linux 7za解压中文乱码

推荐文章

热门文章

相关标签