在Python中调用Java扩展包：HanLP

最近在研究中文分词及自然语言相关的内容，关注到JAVA环境下的 HanLP ，HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包，支持中文分词（N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注），命名实体识别（中国人名、音译人名、日本人名、地名、实体机构名识别），关键词提取，自动摘要，短语提取，拼音转换，简繁转换，文本推荐，依存句法分析（MaxEnt依存句法分析、神经网络依存句法分析）。

由于自己才疏学浅，对JAVA方面了解不多，所以打算在python环境下进行测试。

让Python可以调用Java程序

JPype是一个能够让 Python 代码方便地调用 Java 代码的工具，JPype并没有像 IKVM （一款可以在.NET环境中运行JAVA代码的工具）那样实现自己的JVM，而是以pipe方式调用原生JVM。所以如果要使用JPype就需要先安装JDK。安装JDK的时必须分清楚位数，如果电脑中的Python的位数是32位，那么JDK也必须32位，如果电脑中的Python是64位，则必须安装64位的JDK。另外环境变量也要设置好。

安装JPype

JPype针对Python会有2个版本：

Python 2.x： JPype Python 3.x： JPype1-py3

可以使用Pip进行安装，或直接下载已经编译好的版本进行安装，安装过程中需要注意，由于源码中有一部分C代码，所以自己编译安装时需要先解决编译工具的问题。

测试JAVA扩展包：HanLP

安装完JPype以后执行JAVA代码就非常的方便，先来一段简单的“Hello World”输出：

importjpype jvmPath = jpype.getDefaultJVMPath() jpype.startJVM(jvmPath) jpype.java.lang.System.out.println("Hello World!") jpype.shutdownJVM()

如果执行的结果如下，则表明安装成功：

HelloWorld! JVMactivityreport: classesloaded: 31 JVMhasbeenshutdown

如果执行结果是这样的：

Traceback (mostrecentcalllast): File "G:/TextAnalysis/java.py", line 5, in <module> startJVM(getDefaultJVMPath()) File "C:\Python27\lib\site-packages\jpype\_core.py", line 44, in startJVM _jpype.startup(jvm, tuple(args), True) RuntimeError: Firstparamtermustbe a string or unicodeatsrc/native/python/jpype_module.cpp:31

很有可能是没有配置JDK的环境变量或安装的JDK的位数与Python的位数不一致。导致 getDefaultJVMPath() 方法返回的是 None 。

下载HanLP 你可以直接下载Portable版的jar ，零配置。也可以使用自定义的HanLP――HanLP由3部分组成：类库hanlp.jar包、模型data包、配置文件hanlp.properties，请前往项目主页下载最新版： https://github.com/hankcs/HanLP/releases 。对于非portable版，下载后，你需要编辑配置文件第一行的root指向data的父目录。

这里，假设新建了一个目录（假定为C:\hanlp），把hanlp.jar和hanlp.properties（portable版的话，仅需一个hanlp-portable.jar）放进去。

Python调用

以下是我的测试：（使用的是Python，与Python3 相比多了 .toString() 这一操作）

#!/usr/bin/env python # -*- coding: utf-8 -*- fromjpypeimport * startJVM(getDefaultJVMPath(), "-Djava.class.path=G:\TextAnalysis\libs\hanlp-portable-1.3.1.jar;G:\TextAnalysis\libs") HanLP = JClass('com.hankcs.hanlp.HanLP') my_words = u'HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包' # 标准分词 print(HanLP.segment(my_words).toString()) #索引分词 IndexTokenizer = JClass('com.hankcs.hanlp.tokenizer.IndexTokenizer') print(IndexTokenizer.segment(my_words).toString()) # 关键词提取 document = u"JPype是一个能够让 Python 代码方便地调用 Java 代码的工具，" \ u"JPype并没有像IKVM（一款可以在.NET环境中运行JAVA代码的工具）那样实现自己的JVM，" \ u"而是以pipe方式调用原生JVM。如果要使用JPype就需要先安装JDK。" print(HanLP.extractKeyword(document, 3).toString()) # 自动摘要 print(HanLP.extractSummary(document, 2).toString()) shutdownJVM()

在Python中调用Java扩展包：HanLP

Trending Articles

SM3268AB 8CE三星量产无法格式化

[下载工具]Think4V utubedown(Youtube高清视频下载工具) v2.1.6 官方版2.1.3

出售: SINE Othello 電源線

博讯｜张磊帮助下，李源潮的儿子被耶鲁录取

FullEventLogView 1.73 免安裝中文版 - 事件檢視器取代工具

同門四角戀？李沛旭喇舌「小郭雪芙」曾智希，蔡淑臻拍完婚紗...怒毀婚

五代RAV4 降車身（機械車位因素）

[攻略] 《魔獸世界》6.2.2 白色魚人蛋再現！來去收編魚人寶寶特基！

jetBrains Product crack 2024 Java based

2013 KUGA 6G轉動方向盤會聽到摳摳摳的異音，有人知道原因嗎?

【豌豆字幕組】[藥屋少女的呢喃（藥師少女的獨語）/ Kusuriya no Hitorigoto][25][繁體][1080P][MP4]

好用的照片后期处理软件【DxO PhotoLab Elite 5.4.0.4765 (x64) 多语言便携版】..

出售: Thixar Silence Plus 啫喱板

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

三條崙討海人故事…重建烏倉寮憶43年前船難

致喬立建設道歉聲明

[一般] 神州全地圖掉寶資料

方易通7862 8/128G 無360 刷機

動感校園小記者・瑪利諾修院學校｜採訪王瑋駿陳晞文帶領試玩風帆

有藍電流行車紀錄器分享文嗎