StanfordCoreNLP从零安装与我遇到的各种坑(使用python)超详细最全截图-程序员宅基地

技术标签: python  python库安装  pycharm  自然语言处理  


真的整理了很久,各位朋友如果觉得有用的请点个赞~谢谢大佬们了!

一、StanfordCoreNLP简介与文档(python)

Stanford NLP 是由斯坦福大学的 NLP 小组开源的 Java 实现的 NLP 工具包,同样对 NLP 领域的各个问题提供了解决办法,可用于依存关系分析、词性标注及句子主语分析、实体识别等等,方便实用~
但是实际的安装使用却不简单。python接口的github地址:https://github.com/Lynten/stanford-corenlp

二、安装

安装步骤很简单,不过要注意自己的电脑环境:

(1)下载安装JDK 1.8及以上版本。 这一点很重要!!!!

注意事项

1、如果本来有java的盆友记得先在控制面板卸载所有的java程序,然后再下载安装新的JDK,我就是没卸载,系统无法识别……
2、安装完成后记得重启编译器,我这里用的是pycharm

开始下载安装

具体地址:oracle官网 https://www.oracle.com/index.html
进入网站后:
在这里插入图片描述
点击左上角的横线菜单:
在这里插入图片描述
在菜单中点击Java:
在这里插入图片描述
进入了java software:
在这里插入图片描述
点击 Technical Details:
在这里插入图片描述
就可以看到最新下载啦,我们一般都是用SE,左下角的就是了,也可以直接点击左边的java se。
在这里插入图片描述
进入页面后是这样的,有不同版本的介绍,点击旁边的download就可以进入下载页面了:
在这里插入图片描述
然后就是选择版本安装啦:
在这里插入图片描述
我这里选择的是win的exe包,习惯使然,大家根据需要下载就行。
Windows默认的安装路径是:C:\Program Files\Java\

配置环境变量

电脑系统:win7
进入计算机,在左上角选择系统属性:
在这里插入图片描述
也可以通过计算机-右键-属性进入:
在这里插入图片描述
点击左边的高级系统设置:
在这里插入图片描述
点击环境变量:
在这里插入图片描述
点击系统变量的新建:
在这里插入图片描述
输入java的jdk包路径:
在这里插入图片描述
编辑系统变量中的path,添加如下自己的jdk包路径中的bin:
例子:C:\Program Files\Java\jdk-13.0.1\bin;
在这里插入图片描述
点击确定,进入命令行,输入java -version,出现如下版本就证明更新成功:
在这里插入图片描述

(2)下载Stanford CoreNLP文件,解压。

官网入口:https://stanfordnlp.github.io/CoreNLP/index.html

下拉,点击下载红色按钮,根据语言的不同,下载不同的model jar。
在这里插入图片描述

(3)(可选) 把语言的模型jar文件,然后放到stanford-corenlp根目录下即可

stanford根目录
中文处理包

(4)使用pip安装stanfordcorenlp

命令:pip install stanfordcorenlp

(5)运行

因为stanfordcorenlp是以先开启服务器,再通过服务器交互进行功能的实现,所以先调试如下代码。
里面的文档路径是你的stanfordcorenlp的安装路径:

from stanfordcorenlp import StanfordCoreNLP
import logging

nlp = StanfordCoreNLP(r'E:\Stanford\stanford-corenlp-full-2018-10-05',lang='zh',quiet=False,logging_level=logging.DEBUG)

参数的意义
logging_level:日志的级别,利用的是logging包,日志级别如下:

	DEBUG: 打印全部的日志,详细的信息
	INFO: 打印INFO,WARNING,ERROR,CRITICAL级别的日志,确认一切按预期运行
	WARNING : 打印WARNING,ERROR,CRITICAL级别的日志
	ERROR:打印ERROR,CRITICAL级别的日志,更严重的问题
	CRITICAL: 打印CRITICAL级别,一个严重的错误,这表明程序本身可能无法继续运行

具体的logging使用可参考:https://www.cnblogs.com/CJOKER/p/8295272.html
lang:语言选择,en, zh, ar, fr, de, es (English, Chinese, Arabic, French, German, Spanish)
具体各种语言支持的功能有不同,请看:https://stanfordnlp.github.io/CoreNLP/human-languages.html
memory:分配的内存。这里注意,通常分配为4g以上,但是实际上不一定用这么多的内存。
quiet:False为显示更详细信息。默认为True。

如果上面的代码运行无错误的话,可以看到端口:http://127.0.0.1:9002 或 http://localhost:9002,这里的端口具体需要自己查看~
在这里插入图片描述
可进入服务器地址查看:
这时候可以直接在网页上进行操作!也证明我们已经成功安装啦!
在这里插入图片描述

命令行开启服务器,程序内调用

命令行输入,开启 CoreNLP服务器

java -mx4g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000

程序内调用

# Use an existing server
nlp = StanfordCoreNLP('http://localhost', port=9000)

(6)具体使用测试代码

英文

# Simple usage
from stanfordcorenlp import StanfordCoreNLP

nlp = StanfordCoreNLP(r'G:\JavaLibraries\stanford-corenlp-full-2018-02-27')

sentence = 'Guangdong University of Foreign Studies is located in Guangzhou.'
print 'Tokenize:', nlp.word_tokenize(sentence)
print 'Part of Speech:', nlp.pos_tag(sentence)
print 'Named Entities:', nlp.ner(sentence)
print 'Constituency Parsing:', nlp.parse(sentence)
print 'Dependency Parsing:', nlp.dependency_parse(sentence)

nlp.close() # Do not forget to close! The backend server will consume a lot memery.

中文

# _*_coding:utf-8_*_

# Other human languages support, e.g. Chinese
sentence = '清华大学位于北京。'

with StanfordCoreNLP(r'G:\JavaLibraries\stanford-corenlp-full-2018-02-27', lang='zh') as nlp:
    print(nlp.word_tokenize(sentence))
    print(nlp.pos_tag(sentence))
    print(nlp.ner(sentence))
    print(nlp.parse(sentence))
    print(nlp.dependency_parse(sentence))

StanfordCoreNLP的具体功能使用

参考:https://stanfordnlp.github.io/CoreNLP/annotators.html

三、 各种坑(报错信息及解决方法)

1. 程序跑了贼久,但是啥都没出现

最后百度了一个能显示stanfordcorenlp日志的方法,这告诉了我们使用新东西一定要看文档,调试很重要!!!

调试结果(出错信息)

出错信息:Could not find the main class: edu.stanford.nlp.pipeline.StanfordCoreNLPServer.

在这里插入图片描述

解决方法

在python的根目录下,找到pip安装的stanfordcorenlp包,在包内有一个文件: corenlp.py
通常路径为:…\python\Lib\site-packages\stanfordcorenlp\corenlp.py
大概在109行的位置,更换localhost为127.0.0.1,如下:
在这里插入图片描述
然后就会变得快很多了~

2.连接强迫关闭

出错信息:urllib3.exceptions.ProtocolError: (‘Connection aborted.’, ConnectionResetError(10054, ‘远程主机强迫关闭了一个现有的连接。’, None, 10054, None))

这个问题可以通过用上面quiet=False的参数来查看日志,我的问题是因为使用的时候内存不足,日志如下:
在这里插入图片描述
看到这里我是绝望的,因为我电脑太渣,只能去找云服务器了,具体的过程我后面成功会再贴上来!

解决方法

云服务器或换内存大的电脑QAQ,是我电脑渣

参考资料

(1)https://blog.csdn.net/zy4321234zx/article/details/88913771
(2)https://www.cnblogs.com/monty12/p/10544524.html
(3)https://blog.csdn.net/JN102/article/details/94866611
(4)https://blog.csdn.net/xyz1584172808/article/details/81940664

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Caramel_c/article/details/103813556

智能推荐

高频交易及化资策与区_hudson river trading-程序员宅基地

文章浏览阅读406次。转 高频交易及量化投资的策略与误区一、高频交易公司和量化投资公司的区别一般来说,高频交易公司和量化投资公司既有联系,又有区别。在美国,人们常说的高频交易公司一般都是自营交易公司,这些公司主要有Getco、Tower Research、Hudson River Trading、SIG、Virtu Financial、Jump Trading、RGM Advisor、Chopper Tradi..._hudson river trading

C语言文件操作相关的函数_c语言与文件处理有关的函数-程序员宅基地

文章浏览阅读865次。文件的打开和关闭文件在读写之前应该先打开文件,在使用结束之后应该关闭文件。在编写程序的时候,在打开文件的同时,都会返回一个FILE*的指针变量指向该文件,也相当于建立了指针和文件 的关系。ANSIC 规定使用fopen函数来打开文件,fclose来关闭文件。FILE * fopen ( const char * filename, const char * mode ); int fcl..._c语言与文件处理有关的函数

java 无法读取文件_java 读取文件,无法显示文件内容,如何解决? 谢谢。-程序员宅基地

文章浏览阅读1.1k次。从来没见过进行文件读取写入时,在写入中需要随机数的,你读取文件就是从一个地方获取输入流,然后将这个输入流写到别的地方,根本不要随机数。给你一个示例://copyafiletoanotherfilebyusingFileReader/FileWriterimportjava.io.*;publicclassTFileRead{publicstaticvoidmain(S..._java复制文件文件没有内容显示

vue引入原生高德地图_前端引入原生地图-程序员宅基地

文章浏览阅读556次,点赞2次,收藏3次。由于工作上的需要,今天捣鼓了半天高德地图。如果定制化开发需求不太高的话,可以用vue-amap,这个我就不多说了,详细就看官网 https://elemefe.github.io/vue-amap/#/zh-cn/introduction/install然而我们公司需要英文版的高德,我看vue-amap中好像没有这方面的配置,而且还有一些其他的定制化开发需求,然后就只用原生的高德。其实原生的引入也不复杂,但是有几个坑要填一下。1. index.html注意,引入的高德js一定要放在头部而_前端引入原生地图

ViewGroup重写大法 (一)-程序员宅基地

文章浏览阅读104次。本文介绍ViewGroup重写,我们所熟知的LinearLayout,RelativeLayout,FrameLayout等等,所有的容器类都是ViewGroup的子类,ViewGroup又继承View。我们在熟练应用这些现成的系统布局的时候可能有时候就不能满足我们自己的需求了,这是我们就要自己重写一个容器来实现效果。ViewGroup重写可以达到各种效果,下面写一个简单的重写一个Vi..._viewgroup 重写

Stm32学习笔记,3万字超详细_stm32笔记-程序员宅基地

文章浏览阅读1.8w次,点赞279次,收藏1.5k次。本文章主要记录本人在学习stm32过程中的笔记,也插入了不少的例程代码,方便到时候CV。绝大多数内容为本人手写,小部分来自stm32官方的中文参考手册以及网上其他文章;代码部分大多来自江科大和正点原子的例程,注释是我自己添加;配图来自江科大/正点原子/中文参考手册。笔记内容都是平时自己一点点添加,不知不觉都已经这么长了。其实每一个标题其实都可以发一篇,但是这样搞太琐碎了,所以还是就这样吧。_stm32笔记

随便推点

Java从零开始 第10.5讲 面向对象的习题课_编写一个测试类booktest,创建几个book对象,并打印它们的字符串表示,同时判断-程序员宅基地

文章浏览阅读197次。面向对象的习题课类的定义员工类Employee求和类Sum类与对象书籍类BookBook类的测试类BookTest异常能扩容的MyList类剪刀石头布转载请注明出处在这一讲中我会给出一些关于面向对象部分的习题,同样希望在不看答案的情况下自己编写,即使看过了答案,也要能够在不看答案的情况下写出来。类的定义员工类Employee定义在同一个公司工作的Employee类,要求其中含有属性:员工的名字,员工的年龄,员工的爱好,员工的公司名(注意当公司更名时,所有员工的公司名都需要更名),工作地点默认为中国(_编写一个测试类booktest,创建几个book对象,并打印它们的字符串表示,同时判断

Spark伪分布安装(依赖Hadoop)_下载spark的hadoop依赖-程序员宅基地

文章浏览阅读6.7k次,点赞7次,收藏14次。一、伪分布安装Spark安装环境:Ubuntu 14.04 LTS 64位+Hadoop2.7.2+Spark2.0.0+jdk1.7.0_761、安装jdk1.7(1)下载jdk-7u76-linux-x64.tar.gz;(2)解压jdk-7u76-linux-x64.tar.gz,并将其移动到/opt/java/jdk路径下(自建);命令:tar -zxvf jdk-_下载spark的hadoop依赖

TCP/IP 是用于因特网 (Internet) 的通信协议_广泛应用在internet中的tcp/ip的网络管理主要使用的是 ____协议。 (填空题)-程序员宅基地

文章浏览阅读6.7k次。计算机通信协议计算机通信协议是对那些计算机必须遵守以便彼此通信的规则的描述。什么是 TCP/IP?TCP/IP 是供已连接因特网的计算机进行通信的通信协议。TCP/IP 指传输控制协议/网际协议 (Transmission Control Protocol / Internet Protocol)。TCP/IP 定义了电子设备(比如计算机)如何连入因特网,以及数据如何在它们之间传输的标准..._广泛应用在internet中的tcp/ip的网络管理主要使用的是 ____协议。 (填空题)

java中的一些经典算法_java中temsize+=1运算-程序员宅基地

文章浏览阅读360次。转自:落尘曦的博客:http://blog.csdn.net/qq_23994787 原文链接:https://blog.csdn.net/qq_23994787/article/details/77951244#_Toc9101经典算法的Java实现(1)河内塔问题: 42(2)费式数列 43(3)巴斯卡(Pascal)三角形 44(4)蒙地卡罗法求 PI 45(..._java中temsize+=1运算

Linux习题简答题_linux中,第一个普通用户的uid为____。-程序员宅基地

文章浏览阅读3.1k次,点赞6次,收藏27次。第一章Q1 简述Linux系统的应用领域 Linux服务器;嵌入式Linux系统;软件开发平台;桌面应用Q2 简述Linux系统的特点 开放性、多用户、多任务、良好的用户界面、设备独立性、丰富的网络功能、可靠的系统安全、良好的可移植性Q3 简述Linux系统的组成 内核、shell、文件系统、应用程序Q4 简述主流的Linux发行版本 Redhat SUSE Oracle CentOS Ubuntu Debian Mandriva Gentoo Slackware Fe_linux中,第一个普通用户的uid为____。

【路径规划】基于matlab粒子群算法新型概率密度无人机作战路径规划【含Matlab源码 2620期】_已知目标出现概率热图matlab无人机路径规划-程序员宅基地

文章浏览阅读183次。粒子群算法新型概率密度无人机作战路径规划完整的代码,方可运行;可提供运行操作视频!适合小白!_已知目标出现概率热图matlab无人机路径规划