python三国演义人物出场统计txt文本_python实例:三国演义TXT文本词频分析-程序员宅基地

技术标签: python三国演义人物出场统计txt文本  

0x00 前言

找不到要写什么东西了!今天有个潭州大牛讲师  说了个  文本词频分析

我基本上就照抄了一遍

中间遇到一些小小的问题 自我百度 填坑补全了  如下 :

效果演示

0x01   准备环境及介绍

python3.x版本   随意

安装jieba库

pip install jieba

jieba三种模式:

1.精准模式 lcut函数,返回一个分词列表

2.全模式

3.搜索引擎模式

词频:

:的键值对

IPO描述 imput output process

输入 :从文件读取三国演义的内容

处理 :采用jiedb进行分词,字典数据结构统计词语出现的频率

输出 :文章中出现最对的前10个词

代码:

第一步:读取文件

第二步:分词

第三步:统计

第四步:排序

介绍完毕了!那么进入实战吧!

0x02 实战

完整代码如下:

1 importjieba2

3 content = open('三国演义.txt', 'r',encoding='utf-8').read()4 words =jieba.lcut(content)#分词

5 excludes={"将军"

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39922769/article/details/111013117

智能推荐

堆分配的内存空间是否连续_为什么堆的空间是不连续的-程序员宅基地

文章浏览阅读1.2w次,点赞15次,收藏30次。malloc分配的内存空间在逻辑上面连续,在物理内存上面不一定连续。堆分配的空间在逻辑地址上是连续的,但在物理地址上是不连续的(因为采用了页式内存管理,windows下有段机制、分页机制),如果逻辑地址空间上已经没有一段连续且足够大的空间,则分配内存失败。_为什么堆的空间是不连续的

Android开发弹框横向进度条,Android实现简洁的APP更新dialog数字进度条-程序员宅基地

文章浏览阅读497次。Android实现简洁的APP更新dialog数字进度条发布时间:2020-09-17 20:54:59来源:脚本之家阅读:92作者:曦笑大海前言:现在一般的Android软件都是需要不断更新的,当你打开某个app的时候,如果有新的版本,它会提示你有新版本需要更新。当有更新时,会弹出一个提示框,点击下载,则在通知来创建一个数字进度条进行下载,下载成功后才到安装界面。效果:开发环境:AndroidS..._android studio 弹框进度

如何验证用户名的唯一性_怎样在海量数据中校验用户名称的唯一性-程序员宅基地

文章浏览阅读2.5k次。如何验证用户名的唯一性创建一个ajax请求的步骤本题考查的是ajax的应用,任何一个ajax的应用都会经历如下的流程:根据构造函数创建一个XMLHtttpRequest对象利用XMLHtttpRequest对象的open方法创建请求,设置请求方式、请求地址以及同步或异步调用XMLHtttpRequest对象的send方法发送请求使用XMLHtttpRequest对象的response..._怎样在海量数据中校验用户名称的唯一性

第三章-模型性能评估-程序员宅基地

文章浏览阅读2.2k次。模型性能评估留出法模型性能评估主要是对模型泛化误差进行评估,需要用测试集来测试模型对新样本的判别能力,然后推测误差作为泛化误差的近似。验证集:验证集一般用于进一步确定模型中的超参数(例如正则项系数、神经网络中隐层的节点个数,k值等)验证集与测试集有什么区别?交叉验证法将数据集分成k个大小相等的互斥子集,取k-1个子集并集作为训练集,1个作为测试集。如图是十次十折交叉验证,每次的训练集..._模型性能评估

html公共部分header与footer如何引入jquery_jq引入公共头部-程序员宅基地

文章浏览阅读929次,点赞2次,收藏4次。html公共部分header与footer如何引入jquery_jq引入公共头部

QT5+OpenGL es2 + eglfs交叉编译安装(续)_qt eglfs-程序员宅基地

文章浏览阅读4k次,点赞3次,收藏31次。qt5.14交叉编译移植。_qt eglfs

随便推点

使用Go语言编写的微服务架构实践-程序员宅基地

文章浏览阅读233次,点赞4次,收藏8次。1.背景介绍在本文中,我们将探讨如何使用Go语言编写微服务架构。微服务架构是一种分布式系统的设计方法,它将应用程序拆分为多个小服务,每个服务都负责处理特定的功能。这种架构有助于提高系统的可扩展性、可维护性和可靠性。Go语言是一种静态类型、编译式、并发性能强的编程语言,它非常适合编写微服务。1. 背景介绍微服务架构是近年来逐渐成为主流的分布式系统设计方法。它的核心思想是将应用程序拆分为多...

【论文速递】COLING 2022 - 联合语言语义和结构嵌入用于知识图补全_joint language semantic and structure embedding fo-程序员宅基地

文章浏览阅读305次。补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同,我们提出将语义与知识三元组的结构信息联合嵌入到知识三元组的自然语言描述中。我们的方法通过针对概率结构化损失微调预训练的语言模型,为补全任务嵌入知识图,其中语言模型的前向传递捕获语义,损失重建结构。我们在各种知识图谱基准上的大量实验已经证明了我们方法的最先进的。我们还表明,由于更好地使用语义,我们的方法可以在低资源状态下显著提高性能。_joint language semantic and structure embedding for knowledge graph completi

一文讲透HTTP缓存之ETag-程序员宅基地

文章浏览阅读1.3w次,点赞17次,收藏46次。无论是前端、后端或者运维同学,在平时的开发工作中,都会和HTTP缓存打交道,大家或多或少都了解HTTP缓存中的ETag字段,它是资源的特定版本的标识符,可以让缓存更高效,并节省带宽。本文系统性的阐述了ETag的起源、生成原理及使用。看完本文后,对于不了解ETag的同学能够知道ETag的来龙去脉,并能马上上手使用;对于熟悉ETag的同学也能做到温故而知新。ETag定义及起源ETag(Entity-Tag,下文简称:ETag)是万维网协议HTTP的一部分,它是 HTTP 为Web 缓存验证提供的多种机.._etag

家庭局域网_看教程,自己搭建家庭监控系统!-程序员宅基地

文章浏览阅读3.7k次。需要的硬件设备:1,一台能运行linux 的电脑或者开发板等2,一个摄像头,usb 接口,mipi接口都可以,能在电脑/开发板中正常工作3,一台群晖服务器本文使用的硬件设备:1,一台x86 电脑2,一个usb摄像头3,一台群晖服务器思路:1,摄像头接入电脑,电脑就可以实时监控家里。2,电脑连接家庭网络,同时提供 http 视频流服务,就可以在家庭局域网内,实时监控家里。可以是手机查看实时..._局域网视频监控系统

C语言实现直接插入排序-程序员宅基地

文章浏览阅读154次。C语言实现直接插入排序_c语言实现直接插入排序

3.u-boot-2013.01 编译流程分析_编译u-boot-2013.01-程序员宅基地

文章浏览阅读2.8k次。u-boot-2013.01完美的支持了pandaboardES开发板,其能够生成MLO和u-boot.img文件,现在来分析一下这两个文件是怎么生成的。1.打开顶层目录下的Makefile,找到424行all,all目标依赖于$(ALL-y),424 all: $(ALL-y) $(SUBDIR_EXAMPLES)继续向上需找,在411行得知需要依赖于CONFIG_SPL宏,411 A_编译u-boot-2013.01

推荐文章

热门文章

相关标签