机器学习Sklearn学习总结_from sklearn.metrics-程序员宅基地

技术标签: 数据分析与数据挖掘  python  机器学习  编程语言  sklearn  人工智能  回归  

Sklearn学习资料推荐:

sklearn中文文档

机器学习入门必看:使用 scikit-learn 构建模型的通用模板

机器学习神器Scikit-Learn保姆教程!

python机器学习_FF_y的博客-程序员宅基地

Python机器学习笔记:常用评估模型指标的用法 

Sklean介绍

 sklearn是机器学习中一个常用的python第三方模块,里面对一些常用的机器学习方法进行了封装,在进行机器学习任务时,并不需要每个人都实现所有的算法,只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。

    机器学习任务通常包括分类(Classification)和回归(Regression),常用的分类器包括SVM、KNN、贝叶斯、线性回归、逻辑回归、决策树、随机森林、xgboost、GBDT、boosting、神经网络NN。常见的降维方法包括TF-IDF、主题模型LDA、主成分分析PCA等等。

 Sklearn速查表

scikit-learn是数据挖掘与分析的简单而有效的工具。依赖于NumPy, SciPy和matplotlib。Scikit-learn 中,所有的估计器都带有 fit() 和 predict() 方法。fit() 用来分析模型参数(拟合),predict() 是通过 fit() 算出的模型参数构成的模型,对解释变量(特征)进行预测获得的值(预测)。

它主要包含以下几部分内容:

  • 从功能来分:
    • classification 分类
    • Regression 回归
    • Clustering 聚类
    • Dimensionality reduction  降维
    • Model selection 模型选择
    • Preprocessing  预处理
  • 从API模块来分:
    • sklearn.base: Base classes and utility function
    • sklearn.cluster: Clustering
    • sklearn.cluster.bicluster: Biclustering
    • sklearn.covariance: Covariance Estimators
    • sklearn.model_selection: Model Selection
    • sklearn.datasets: Datasets
    • sklearn.decomposition: Matrix Decomposition
    • sklearn.dummy: Dummy estimators
    • sklearn.ensemble: Ensemble Methods
    • sklearn.exceptions: Exceptions and warnings
    • sklearn.feature_extraction: Feature Extraction
    • sklearn.feature_selection: Feature Selection
    • sklearn.gaussian_process: Gaussian Processes
    • sklearn.isotonic: Isotonic regression
    • sklearn.kernel_approximation: Kernel Approximation
    • sklearn.kernel_ridge: Kernel Ridge Regression
    • sklearn.discriminant_analysis: Discriminant Analysis
    • sklearn.linear_model: Generalized Linear Models
    • sklearn.manifold: Manifold Learning
    • sklearn.metrics: Metrics
    • sklearn.mixture: Gaussian Mixture Models
    • sklearn.multiclass: Multiclass and multilabel classification
    • sklearn.multioutput: Multioutput regression and classification
    • sklearn.naive_bayes: Naive Bayes
    • sklearn.neighbors: Nearest Neighbors
    • sklearn.neural_network: Neural network models
    • sklearn.calibration: Probability Calibration
    • sklearn.cross_decomposition: Cross decomposition
    • sklearn.pipeline: Pipeline
    • sklearn.preprocessing: Preprocessing and Normalization
    • sklearn.random_projection: Random projection
    • sklearn.semi_supervised: Semi-Supervised Learning
    • sklearn.svm: Support Vector Machines
    • sklearn.tree: Decision Tree
    • sklearn.utils: Utilities

cluster聚类

阅读sklearn.cluster的API,可以发现里面主要有两个内容:一个是各种聚类方法的class如cluster.KMeans,一个是可以直接使用的聚类方法的函数如

sklearn.cluster.k_means(X, n_clusters, init='k-means++', 
    precompute_distances='auto', n_init=10, max_iter=300, 
    verbose=False, tol=0.0001, random_state=None, 
    copy_x=True, n_jobs=1, algorithm='auto', return_n_iter=False)

所以实际使用中,对应也有两种方法。

sklearn.cluster共有9种聚类方法,分别是

  • AffinityPropagation: 吸引子传播
  • AgglomerativeClustering: 层次聚类
  • Birch
  • DBSCAN
  • FeatureAgglomeration: 特征聚集
  • KMeans: K均值聚类
  • MiniBatchKMeans
  • MeanShift
  • SpectralClustering: 谱聚类

拿我们最熟悉的Kmeans举例说明:

采用类构造器,来构造Kmeans聚类器,首先API中KMeans的构造函数为:

sklearn.cluster.KMeans(n_clusters=8,
     init='k-means++', 
    n_init=10, 
    max_iter=300, 
    tol=0.0001, 
    precompute_distances='auto', 
    verbose=0, 
    random_state=None, 
    copy_x=True, 
    n_jobs=1, 
    algorithm='auto'
    )

参数的意义:

  • n_clusters:簇的个数,即你想聚成几类
  • init: 初始簇中心的获取方法
  • n_init: 获取初始簇中心的更迭次数
  • max_iter: 最大迭代次数(因为kmeans算法的实现需要迭代)
  • tol: 容忍度,即kmeans运行准则收敛的条件
  • precompute_distances:是否需要提前计算距离
  • verbose: 冗长模式(不太懂是啥意思,反正一般不去改默认值)
  • random_state: 随机生成簇中心的状态条件。
  • copy_x: 对是否修改数据的一个标记,如果True,即复制了就不会修改数据。
  • n_jobs: 并行设置
  • algorithm: kmeans的实现算法,有:'auto''full''elkan', 其中 'full'表示用EM方式实现

虽然有很多参数,但是都已经给出了默认值。所以我们一般不需要去传入这些参数,参数的。可以根据实际需要来调用。下面给一个简单的例子:

import numpy as np
from sklearn.cluster import KMeans
data = np.random.rand(100, 3) #生成一个随机数据,样本大小为100, 特征数为3

#假如我要构造一个聚类数为3的聚类器
estimator = KMeans(n_clusters=3)#构造聚类器
estimator.fit(data)#聚类
label_pred = estimator.label_ #获取聚类标签
centroids = estimator.cluster_centers_ #获取聚类中心
inertia = estimator.inertia_ # 获取聚类准则的最后值

直接采用kmeans函数:

import numpy as np
from sklearn import cluster
data = np.random.rand(100, 3) #生成一个随机数据,样本大小为100, 特征数为3
k = 3 # 假如我要聚类为3个clusters
[centroid, label, inertia] = cluster.k_means(data, k)
  • 当然其他方法也是类似,具体使用要参考API。(学会阅读API,习惯去阅读API)

classification分类

分类是数据挖掘或者机器学习中最重要的一个部分。不过由于经典的分类方法机制比较特性化,所以好像sklearn并没有特别定制一个分类器这样的class。
常用的分类方法有:

  • KNN最近邻:sklearn.neighbors
  • logistic regression逻辑回归: sklearn.linear_model.LogisticRegression
  • svm支持向量机: sklearn.svm
  • Naive Bayes朴素贝叶斯: sklearn.naive_bayes
  • Decision Tree决策树: sklearn.tree
  • Neural network神经网络: sklearn.neural_network

那么下面以KNN为例(主要是Nearest Neighbors Classification):

KNN

from sklearn import neighbors, datasets

# import some data to play with
iris = datasets.load_iris()
n_neighbors = 15
X = iris.data[:, :2]  # we only take the first two features. We could
                      # avoid this ugly slicing by using a two-dim dataset
y = iris.target

weights = 'distance' # also set as 'uniform'
clf = neighbors.KNeighborsClassifier(n_neighbors, weights=weights)
clf.fit(X, y)

# if you have test data, just predict with the following functions
# for example, xx, yy is constructed test data
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]) # Z is the label_pred

svm:

from sklearn import svm
X = [[0, 0], [1, 1]]
y = [0, 1]

#建立支持向量分类模型
clf = svm.SVC()

#拟合训练数据,得到训练模型参数
clf.fit(X, y)

#对测试点[2., 2.], [3., 3.]预测
res = clf.predict([[2., 2.],[3., 3.]])

#输出预测结果值
print res


#get support vectors
print "support vectors:", clf.support_vectors_

#get indices of support vectors
print "indices of support vectors:", clf.support_ 

#get number of support vectors for each class
print "number of support vectors for each class:", clf.n_support_ 

当然SVM还有对应的回归模型SVR

from sklearn import svm
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]
clf = svm.SVR()
clf.fit(X, y) 
res = clf.predict([[1, 1]])
print res
  • 逻辑回归

from sklearn import linear_model
X = [[0, 0], [1, 1]]
y = [0, 1]
logreg = linear_model.LogisticRegression(C=1e5)

#we create an instance of Neighbours Classifier and fit the data.
logreg.fit(X, y)

res = logreg.predict([[2, 2]])
print res

preprocessing

这一块通常我要用到的是Scale操作。而Scale类型也有很多,包括:

  • StandardScaler
  • MaxAbsScaler
  • MinMaxScaler
  • RobustScaler
  • Normalizer
  • 等其他预处理操作

对应的有直接的函数使用:scale(), maxabs_scale(), minmax_scale(), robust_scale(), normaizer()

例如:

import numpy as np
from sklearn import preprocessing
X = np.random.rand(3,4)


#用scaler的方法
scaler = preprocessing.MinMaxScaler()
X_scaled = scaler.fit_transform(X)


#用scale函数的方法
X_scaled_convinent = preprocessing.minmax_scale(X)

decomposition降维

说一下NMF与PCA吧,这两个比较常用。

import numpy as np
X = np.array([[1,1], [2, 1], [3, 1.2], [4, 1], [5, 0.8], [6, 1]])
from sklearn.decomposition import NMF
model = NMF(n_components=2, init='random', random_state=0)
model.fit(X)

print model.components_
print model.reconstruction_err_
print model.n_iter_

这里说一下这个类下面fit()fit_transform()的区别,前者仅训练一个模型,没有返回nmf后的分支,而后者除了训练数据,并返回nmf后的分支。

PCA也是类似,只不过没有那些初始化参数,如下:

import numpy as np
X = np.array([[1,1], [2, 1], [3, 1.2], [4, 1], [5, 0.8], [6, 1]])
from sklearn.decomposition import PCA
model = PCA(n_components=2)
model.fit(X)

print model.components_
print model.n_components_
print model.explained_variance_
print model.explained_variance_ratio_
print model.mean_
print model.noise_variance_

metrics评估

上述聚类分类任务,都需要最后的评估。

分类

比如分类,有下面常用评价指标与metrics:

  • accuracy_score
  • auc
  • f1_score
  • fbeta_score
  • hamming_loss
  • hinge_loss
  • jaccard_similarity_score
  • log_loss
  • recall_score

下面例子求的是分类结果的准确率:

from sklearn.metrics import accuracy_score
y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
ac = accuracy_score(y_true, y_pred)
print ac
ac2 = accuracy_score(y_true, y_pred, normalize=False)
print ac2

其他指标的使用类似。

回归

回归的相关metrics包含且不限于以下:

  • mean_absolute_error
  • mean_squared_error
  • median_absolute_error

聚类

有以下常用评价指标(internal and external):

  • adjusted_mutual_info_score
  • adjusted_rand_score
  • completeness_score
  • homogeneity_score
  • normalized_mutual_info_score
  • silhouette_score
  • v_measure_score

下面例子求的是聚类结果的NMI(标准互信息),其他指标也类似。

from sklearn.metrics import normalized_mutual_info_score

y_pred = [0,0,1,1,2,2]
y_true = [1,1,2,2,3,3]

nmi = normalized_mutual_info_score(y_true, y_pred)
print nmi

当然除此之外还有更多其他的metrics。参考API。

datasets 数据集

sklearn本身也提供了几个常见的数据集,如iris, diabetes, digits, covtype, kddcup99, boson, breast_cancer,都可以通过sklearn.datasets.load_iris类似的方法加载相应的数据集。它返回一个数据集。采用下列方式获取数据与标签。

from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data 
y = iris.target 

除了这些公用的数据集外,datasets模块还提供了很多数据操作的函数,如load_files, load_svmlight_file,以及很多data generators。

panda.io还提供了很多可load外部数据(如csv, excel, json, sql等格式)的方法。

还可以获取mldata这个repos上的数据集。

python的功能还是比较强大。

当然数据集的load也可以通过自己写readfile函数来读写文件。

其余Sklearn优秀博文推荐:

Python机器学习笔记:sklearn库的学习 - 战争热诚 - 博客园

Python机器学习库——Sklearn_韩明宇-程序员宅基地_python sklearn库

Python机器学习——Sklearn学习笔记_saywhyif的博客-程序员宅基地

从Python开始学AI 在线思维导图

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_36816848/article/details/122540775

智能推荐

java找不到符号解决办法-程序员宅基地

文章浏览阅读1.6w次,点赞11次,收藏15次。一、java找不到符号如果你的代码里没有报错,明明是存在的。但是java报错找不到符号。像下面这样子。二、解决步骤1.清除编码工具缓存本人用的idea, eclipse清除缓存方式有需要的可以百度一下!2.如果是mavne项目的先clean 再package总结提示:一定要package本人刚开始就是知道clean了,没有package导致问题一直没有解决。在此记录一下!...

【Nginx】配置详解_nginx修改配置文件如何生效-程序员宅基地

文章浏览阅读1.3w次,点赞4次,收藏22次。访问到未定义的扩展名的时候,就默认为下载该文件。#服务器并发处理能力,值越大并发能力越强(受自身配置限制)一个http块可以包含多个server块,而一个server块就等于一个虚拟主机。nginx配置最频繁的部分,比如代理,日志,缓存、第三方模块等等。包括文件引入、MIME-TYPE定义,日志自定义、连接超时等等。需要注意的是http块可以包括http全局块和server块。server块又包含全局server块和location块。二、容器部署的项目,配置nginx。2.2,events块。..._nginx修改配置文件如何生效

Unity核心9——3D动画_unity动画-程序员宅基地

文章浏览阅读6.3k次,点赞7次,收藏30次。Has Exit Time:是否有退出时间,如果勾选,当切换动画时,动画一定是播放到下方的 Exit Time(百分比)的时间时才过渡到下一个动画。​ 我们是否可以这样做,比如开枪动画只影响上半身,下半身根据实际情况播放站立,跑动,蹲下动作,通过上下半身播放不同的动画就可以达到动画的组合播放。不同的是有一个上层的图标(Up Base Layer),通过连接该状态来转移到上层状态机的某个状态。主要用于直接从另一个层复制状态过来,在该层中进行修改,另一个层的设置信息都将保留,我们只需要替换状态对应的动画即可。_unity动画

vue-cli(vue脚手架)安装 详细教程_vue脚手架安装步骤-程序员宅基地

文章浏览阅读2.4w次,点赞30次,收藏204次。vue-cli这个构建工具大大降低了webpack的使用难度,支持热更新,有webpack-dev-server的支持,相当于启动了一个请求服务器,给你搭建了一个测试环境,只关注开发就OK。一.安装vue-cli1、 使用npm(需要安装node环境)全局安装webpack,打开命令行工具输入:npm install webpack -g或者(npm install -g webpack),安装完成之后输入 webpack -v,如下图,如果出现相应的版本号,则说明安装成功。注意:webpack 4._vue脚手架安装步骤

postgresql批量插入数据脚本_每日踩坑 2020-11-04 PostgreSQL 批量插入数据-程序员宅基地

文章浏览阅读1k次。一看居然两三个月没写博文了。凑。最近去考了个试,老天保佑吧。今天有个同事跑来问我,我之前写的数据同步工具支不支持 PostgreSQL。然后跟我讲了他的需求。感觉我随手写的小东西开始变成整个部门的标准方案了。。。这让我有点惶恐。君要臣死,臣不得不死啊。那么换驱动,兼容不同的sqlsever,mysql 这些都是老生常谈了。无非就是再加上 PostgreSQL 的驱动而已。但是所有事情要是那么简单就..._incorrect binary data format

解决“av_packet_rescale_ts() ” 找不到标识符 的问题_qt 找不到av_packet_rescale_ts-程序员宅基地

文章浏览阅读1.2k次。参考博客:https://blog.csdn.net/DaveBobo/article/details/79648900编写YUV编码MP4程序,结果出现如下错误:av_packet_rescale_ts() 这个函数,在2.8版本中有,后来升级为什么了?3.2.4版本中,就找不到了,不知道中间经历过什么迭代,就消失了。解决方案:but, 生成的mp4文件,播放的时候花..._qt 找不到av_packet_rescale_ts

随便推点

【Linux】P3 用户与用户组_创建一个名为‘test_user2’的用户,并将 test_user 用户所拥有的权限传 给 tes-程序员宅基地

文章浏览阅读449次。Linux中,怎样初始化超级管理员 root,如何切换超级管理员;怎样创建用户,删除用户,更改用户所在组;怎样创建用户组,怎样删除用户组。_创建一个名为‘test_user2’的用户,并将 test_user 用户所拥有的权限传 给 test_u

poj2142 The Balance(扩展欧几里得算法)_ms. iyo kiffa-australis has a balance and only two-程序员宅基地

文章浏览阅读1.7w次。The BalanceTime Limit: 5000MS Memory Limit: 65536KTotal Submissions: 6423 Accepted: 2832DescriptionMs. Iyo Kiffa-Australis has a balance and only two kinds of wei_ms. iyo kiffa-australis has a balance and only two kinds of weights to measu

假如程序员进军 UI 界?-程序员宅基地

文章浏览阅读155次。点击????方“逆锋起笔”,公众号回复视频教程领取大佬们推荐的学习资料著名的社交新闻站Reddit,在#ProgrammerHumor#的标签下(程序员的幽默)举办了一个“最糟糕音量键设计大赛”,提交的作品简直是震!惊!UI!界!并且其中大部分设计,已经被code了出来,来感受一下吧。➀通过摇骰子得到音量数字才能得到合适的音量▽调音量变成了开奖一样还有这种操作!?➁通过平衡调..._程序员转行ui

MISC:压缩包隐写的破解方法._ctf misc 反复zip包压缩100次-程序员宅基地

文章浏览阅读2.6k次,点赞4次,收藏25次。Misc即杂项,是信息隐藏又称信息伪装,就是通过减少载体的某种冗余,如空间冗余、数据冗余等,来隐藏敏感信息,达到某种特殊的目的。信息隐藏打破了传统密码学的思维范畴,从一个全新的视角审视信息安全。与传统的加密相比,信息隐藏的隐蔽性更强,在信息隐藏中,可以把这两项技术结合起来,先将秘密信息进行加密预处理,然后再进行信息隐藏,则秘密信息的保密性和不可觉察性的效果更佳。_ctf misc 反复zip包压缩100次

Paper reading (七):Recent Advances of deep learning in bioinformatics and computational biology_recent advances in document summarization-程序员宅基地

文章浏览阅读364次。论文题目:Recent Advances of deep learning in bioinformatics and computational biologyscholar 引用:2页数:10发表时间:2019.03发表刊物:frontiers in genetics作者:Binhua Tang1,2*†, Zixiang Pan1†, Kang Yin1 and Asif..._recent advances in document summarization

SSM毕设项目基于HTML5的酒店管理系统72o23(java+VUE+Mybatis+Maven+Mysql)_基于html5混合app开发的酒店管理系统-程序员宅基地

文章浏览阅读372次。Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。SSM毕设项目基于HTML5的酒店管理系统72o23(java+VUE+Mybatis+Maven+Mysql)SSM + mybatis + Maven + Vue 等等组成,B/S模式 + Maven管理等等。2. 使用IDEA/Eclipse/MyEclipse导入项目,修改配置,运行项目;_基于html5混合app开发的酒店管理系统

推荐文章

热门文章

相关标签