数据挖掘之分类和预测_weixin_30660027的博客-程序员宝宝

技术标签: 人工智能  数据结构与算法  数据库  

分类用于预测数据对象的离散类别,预测则用于预断 欺诈检测等的方面。

具有代表性的分类的方法 :决策树方法 贝叶斯分类方法 神经网络方法 支持向量机方法 关联分类的方法 最后 将讨论提高分类和预测期准确率的一般性的策略

分类的过程一般是有两个步骤组成的 第一个步骤是模型建立阶段,目的是描述预先定义的数据类或者概念集的分类器。这一步中会使用分类算法分析已有数据来构造分类器。

第二步骤是使用第一步得到的分类器进行分类,从而评估分类器的预测的准确率

预测与分类不同的是 对于需要预测的属性值是连续的 ,而且是有序的,分类所需要预测的属性值是无序的 丽萨的 ,

5.3关于分类和预测的问题--数据预处理问题和分类方法的比较和评估的标准

预处理:数据清理  相关分析 数据转换 (泛化或者是规范数据)

评估准确率的常用的技术:保持方法 随机子抽样  交叉验证 的方法  是基于给定数据的随机抽样的划分

分类的方法第一------决策树的分类

决策树分类器是非常流行的分类的方法 是可以处理高维数据的。

属性选择度量是指的是决策树分类器的分裂的准则  (也就是节点的分裂)选择的标准是要使得在每个非叶子节点进行属性的测试的时候,使得被测元祖的类别的信息是最大化的,保证非叶子节点到达各后代的叶子节点的平均路径是最短的,分类的速度是最快的。

三种属性选择的度量的方法:信息增益  增益率  Gini指标

分析分类器识别不同类元组的情况的时候的有用的工具是成为混淆矩阵,此矩阵可以用于在决策树分类中的属性选择的度量中,判断选择合适的属性进行节点的分裂

一般三种属性选择度量的方法都能够返回一个较好的结果,但是各自选择倾向不同,信息增益倾向于多值数据,增益率克服了多值数据,但是倾向于不平衡的分裂,Gini系数指标偏向于多值属性,而且当类的数目很大时候会出现困难的。另外它还倾向于导致相等大小和相等纯度的划分,也就是说比较于倾向于一种均衡的划分

为什么在大规模的数据挖掘中 决策树被广泛地应用呢?

它相对于其他分类方法有较快的学习速度

生成的决策树能能够很容易转换为简单于理解的分类规则

使用SQL语句对数据库进行访问

它与其他分类方法相比有着可比较的分类准确率。

 

转载于:https://www.cnblogs.com/fxd-address/p/4852464.html

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_30660027/article/details/96279216

智能推荐

Linux 配置ip 子接口 多网卡绑定_centos2015的博客-程序员宝宝_linux配置子网卡

linux系统配置ip地址,图形化界面略过,这里只介绍文本行。做以下设置注意是否有此权限查看当前路由及网关信息:[[email protected] ~]# netstat -rKernel IP routing tableDestination Gateway Genmask Flags MSS Window irtt Iface192.168.1

(Adobe Air) Bring a window to front by clicking the systemTrayIcon_unixboy_xujf的博客-程序员宝宝

Whiledeveloping an AIR application, I had an issue with bringing theapplication to front (above all other windows) when clicking thesystemTrayIcon.Usually, you would use the method:...

虚拟光驱 DAEMON Tools Lite 安装笔记_FerminZhang的博客-程序员宝宝

DAEMON Tools Lite是一个非常棒的虚拟光驱软件。它将帮助我们快速打开ISO文件,当然它能做到的不止这些。本文将介绍如何在Windows 7 x64下安装DAEMON Tools Lite。准备文件DTLite501-0406.exe (来源:http://dl.pconline.com.cn/html_2/1/121/id=1051&pn=0.html)安装过程运行“DTLite

Markdown开发VSCode插件推荐_COCO56(徐可可)的博客-程序员宝宝_vscodemarkdown插件

Markdown All in One该插件用于在编写文档时自动帮我们填充内容,比如支持使用快捷键调整格式,在使用列表时会自动帮我们补全下一项的值,具体可以参考作者该插件的Github仓库Markdown TOC该插件用于生成目录,比如给标题自动添加序号,具体可以参考:完美解决Markdown文件添加目录的问题或者作者该插件的Github仓库Markdown Preview Enhanced该插件用于预览效果,安装完毕之后在右键菜单里会多一个打开侧边预览的选项,更多功能可以参考作者该插件的Git.

VMware虚拟化_一直在路上的十安的博客-程序员宝宝

虚拟化是为一些组件创建基于软件的或虚拟(而不是物理)表现形式的过程。虚拟化可以应用于应用、服务器、存储和网络,它是一种可以为所有规模的企业降低 IT 开销,同时提高效率和敏捷性的最有效方式。

随便推点

JABC 操作_qq513283439的博客-程序员宝宝

package DB;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.util.ArrayList;im

echarts + vue 使用_weixin_42127141的博客-程序员宝宝

<template> <div class="h100p"> <div class="basic_title">监控</div> <div v-for="(item,index) in containerMonitor" :key="index"> ...

每天记录学习的新知识 :使用Glide时,setImageResource/setImageDrawable图片不显示_清风徐来辽的博客-程序员宝宝

记录使用Glide后,需要先 ↓Glide.with(this).clear(photo);再调用setImageResource/setImageDrawable

Orcle 12c 新特性---支持克隆PDB部分表空间_Expect-乐的博客-程序员宝宝

1 说明从12.1.0.2开始,引入了User Tablespaces,简单的说就是可以按表空间(用户创建的)来克隆PDB。比如,当前PDB1中,用户新建了三个表空间tbs1,tbs2,tbs3,那么我们后期测试,可能只需要tbs1表空间中的数据,那么我们可以用USER_TABLESPACES子句来只克隆PDB1中的tbs1表空间,这样大大的缩短了可怜时间和不必要的空间开销。对于拆分数据也很有...

java mail 发件人昵称,Java使用javax.mail发送邮件 解决收件人、发件人名字乱码问题..._男爵兔的博客-程序员宝宝

/*** 格式化 Name 的地址* @param name 名字* @param email Email地址* @return 格式化的地址*/public static String formatAddress(String name, String email) {if (StringHelper.isNullOrEmpty(name)) {return email;}try {retur...

SPSS数据分析_Yang青青的博客-程序员宝宝_spss计算bmi

第一题表1 居民健康状况调查情况 编号 身高 (cm) 体重 (kg) 代谢综合征 性别 胆固醇 (mmol/L) 1 173.0 87.5 0 0 4.17 2 168.0 .

推荐文章

热门文章

相关标签