python做词云统计_python词频统计,生成词云-程序员宅基地

技术标签: python做词云统计  

本篇博客介绍2个第三方库,中文分词库jieba和词云库WordCloud,我们将完成三个例子:

统计英文词汇频率

统计中文文本词汇频率使用jieba库

生成词云

在正式开始之前,我们先安装两个第三方库:中文分词库jieba和词云库WordCloud

统计英文词汇频率

英文词汇统计十分简单,因为每个单词之间都是用空格分开的的,当然也有一些特殊模号,我们将对整个文本进行噪音处理,然后将其分割成单词,存入字典中,再给词汇按照频率排序,步骤如下:

从文件流 中读取一段全英文文本

将文本用lower()归一化成小写形式

将文本中的特殊符号:;<>"~!@#$%^&*()-+[]|{}/*.,?过滤,替换成空格for ch in ';<>"~!@#$%^&*()-+[]|{}/*.,?':replace

将文本split,划分成单个单词,返回一个列表

遍历这个列表,按照单词=>出现次存入字典中:counts[x]=counts.get(x,0)+1

使用items()返回一个列表,给列表排序

格式化输出这个列表

代码如下:

#coding=gbk

def getText(fileName):

f=open(fileName,'r')

txt=f.read().lower()

for ch in ';<>"~!@#$%^&*()-+[]|{}/*.,?':

txt=txt.replace(ch,' ')

f.close()

return txt

def comp(x):

return x[1]

def main():

txt=getText('English.txt')

words=txt.split()

counts={}

for x in words:

counts[x]=counts.get(x,0)+1

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_35702486/article/details/112010822

智能推荐

pringMVC-程序员宅基地

文章浏览阅读109次。http://elim.iteye.com/category/175984

java使用ssh连接linux服务器执行命令_java ssh连接linux-程序员宅基地

文章浏览阅读1.7k次。可以使用JSch框架来连接SSH服务器并执行命令。JSch是SSH2的一个纯Java实现,它允许你连接到一个sshd服务器,使用端口转发,X11转发,文件传输等等。希望可以帮助到大家。_java ssh连接linux

【easyui】datagrid复合表单-程序员宅基地

文章浏览阅读864次。目的达到下图的效果:datagrid初始化html代码$(document).ready(function () { dataGrid = $('#dataGrid').datagrid({ fit: true, fitColumns: false, border: false, ..._复合表单

预处理指令_编译预处理指令是什么-程序员宅基地

文章浏览阅读448次。前言预处理指令的解释及介绍一、预处理指令程序员所编写的代码并不能被真正的编译器编译,需要一段程序把代码翻译一下翻译的过程叫做预处理指令,负责翻译的程序叫做预处理器,被翻译的代码叫做预处理指令,以#开头的代码都是预处理指令查看预处理过程gcc -E code.c 把预处理的姐夫哦显示到终端gcc -E code.c -o code.i把预处理结果存储到code.i的预处理文件中预处理指令的分类:#include 文件包含#include <> 从系统指定路径查找并导入头文件_编译预处理指令是什么

springboot快速构建mybatisplus项目+问题汇总_userandroleservice.getone-程序员宅基地

文章浏览阅读628次。对比现在常用的mybatis,mybatisPlus可以帮助我们更加专注业务的开发,减少sql文件的编码。下面就使用SpringBoot+ mybatisPlus 构建一个项目。1、构建过程中遇到的问题汇总(1)启动报错问题添加依赖<dependency> <groupId>com.baomidou</groupId> <artifactId>mybatis-plus-boot-starter</artifactId._userandroleservice.getone

卡车拆解不再难:可视化示意图的魔力-程序员宅基地

文章浏览阅读260次,点赞10次,收藏5次。随着科技的飞速发展和工业的不断进步,卡车作为物流运输的核心力量,承担着越来越多的运输任务。然而,当卡车出现故障或需要维护时,复杂的拆解流程往往让人头疼不已。这时,一份清晰易懂的卡车拆解示意图就显得尤为重要。

随便推点

python输出二进制数_Python: 二进制、八进制、十六进制转换或者输出-程序员宅基地

文章浏览阅读4.6k次,点赞6次,收藏21次。为了将整数转换为二进制、八进制或十六进制的文本串,可以分别使用bin() ,oct() 或hex() 函数:>>> x = 1234>>> bin(x)'0b10011010010'>>> oct(x)'0o2322'>>> hex(x)'0x4d2'如果你不想输出0b , 0o 或者0x 的前缀的话,可以使用format() 函数>>> format(x, 'b')'10011010010'>>..._python怎么输出a的二进制,八进制,十六进制

python爬取网页乱码解决方案_python爬取网页特殊字符乱码怎么解决-程序员宅基地

文章浏览阅读199次。importchardetimportrequestsurl='http://www.100253.com/'d1=requests.get(url)codesty=chardet.detect(d1.content)a=d1.content.decode(codesty['encoding'])a.encode('utf-8')_python爬取网页特殊字符乱码怎么解决

单片机 MSP430 G2553 launchpad LCD1602 显示 连线_msp430怎么连线-程序员宅基地

文章浏览阅读2.2k次。一般无特殊计划 买的LCD1602显示屏是5V版本的,不是3.3特殊版本,这时候怎么连线。下图画正方形的2个孔,上面是5V,下面是板子的GND。下图右上角的VCC是3.3V.接线方式:成功:_msp430怎么连线

JAVA 解析 DXF 文件 点线面圆_java dxf-程序员宅基地

文章浏览阅读3k次,点赞5次,收藏11次。一、DXF 文件简介1.人肉解析观察几个具有代表性的 dxf 文件,点、文本、线。使用文本工具直接打开 DXF 文件,可以看到很多字段,这里根据官方文档找规律,找到具有代表性的一些字段如下:点的特点:都是 POINT 开头8 下面对应的图层名称10 下面的是 x 坐标20 下面的是 y 坐标30 下面的是 z 坐标POINT 5668B3301F100AcDbEntity 8井号 6Continuous100AcDbPoint 10398266.5_java dxf

arm交叉编译器-程序员宅基地

文章浏览阅读768次。softfp : armel架构(对应的编译器为gcc-arm-linux-gnueabi)采用的默认值,用fpu计算,但是传参数用普通寄存器传,这样中断的时候,只需要保存普通寄存器,中断负荷小,但是参数需要转换成浮点的再计算。hard : armhf架构(对应的编译器为gcc-arm-linux-gnueabihf)采用的默认值,用fpu计算,传参数也用fpu中的浮点寄存器传,省去了转换, 性能最好,但是中断负荷高。ARM32、小端、Linux工程: arm-none-linux-gnueabihf。_arm交叉编译器

从供应链角度看SOA给软件行业带来的影响-程序员宅基地

文章浏览阅读4.5k次。上一篇文章从麦当劳两种不同的经营管理方式对比现在的软件开发过程和利用了SOA的软件开发过程的不同。从“一条龙运营模式”到“流水线运营模式”可以适应快速变化的市场,提供更加专业的、更高质量的服务,减少投资规模和成本,在产业链的一个环节提高生产率,更加有效的提升资源的利用率。同时,为产业链的并行生产提供了有利的保证,成为推动整个产业向前发展的动力。SOA做为“发动机”为软件行业提供了从一条龙向流水

推荐文章

热门文章

相关标签