自然语言处理hanlp的入门基础

  • 时间:
  • 浏览:3
  • 来源:大发彩神安卓下载—大发彩神官方下载

#本配置文件中的路径的根目录,根目录+因此 路径=绝对路径

3、配置文件

#另外data/dictionary/custom/CustomDictionary.txt是个高质量的词库,请何必 删除

3.自动缓存 缓存的全部都是明文词典,而是双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等数据行态。

Webapp/WEB-INF/lib

倒入classpath并去掉 依赖。

data

JRE/lib

用户可不须要自行增删替换,因此不须要句法分析功能一段话,随时可不须要删除model文件夹。

[你好/vl, ,/w, 欢迎/v, 使用/v, HanLP/nx, !/w]

对于Eclipse来讲

快速上手

/Users/hankcs/JavaProjects/HanLP/data/data/dictionary/CoreNatureDictionary.txt加载失败

对于IntelliJ IDEA来讲

CoreStopWordDictionaryPath=data/dictionary/stopwords.txt

 

Web项目一段话可不须要倒入如下位置:

核心词典

因此一切正常,您会得到之类 于如下的输出:

1.HanLP 对词典的数据行态进行了长期的优化,可不须要应对绝大多数场景。哪怕 HanLP 的词典上百兆也太多担心,因此在内存中被精心压缩过。

BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.txt

CoreDictionaryPath=data/dictionary/CoreNatureDictionary.mini.txt

#2元语法词典路径

project/target/classes

project/bin

可选数据集

HanLP 中的数据分为 词典 和 模型 ,其中 词典 是词法分析必需的, 模型 是句法分析必需的,data目录行态如下:

HanLP将数据与任务管理器分离,给予用户自定义的自由。 HanLP由三偏离 组成:HanLP = .jar + data + .properties ,请前往 项目主页 下载你这个个多多 偏离 。

#人名词典路径

├─dictionary

#Windows用户请注意,路径分隔符统一使用/

TraditionalChineseDictionaryPath=data/dictionary/tc/TraditionalChinese.txt

l 内存要求

HanLP 几乎所有的功能都可不须要通过工具类 HanLP 快捷调用,当你想不起来调用最好的最好的办法时,只需键入 HanLP. ,IDE应当会给出提示,并展示HanLP完善的文档。

root=E:/JavaProjects/HanLP/

安装HanLP

此文埋点的基础是建立在hanlp较早版本的基础上的,确实 hanlp的最新1.7版本因此发布,但对于入门来说差别不大!分享一篇比较早的“旧文”给须要的大家!

project/out/production/project

因此

配置文件的作用是告诉HanLP数据包的位置,只需修改第一行

示例配置文件:

 

BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.mini.txt

因此出显了什么的疑问,一般是由路径配置不对而引发的,请根据控制台输出的警告调整。比如:

最后将HanLP.properties倒入classpath即可:

#繁简词典路径

#人名词典转移矩阵路径

#自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一一5个多多 目录,使用“文件名 词性”形式则表示你这个词典的词性默认是该词性。优先级递减。

CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns;data/dictionary/person/nrf.txt nrf

#核心词典路径

1、下载jar

推荐用户始终通过工具类 HanLP 调用,这么做的好处是,将来 HanLP 升级后,用户太多修改调用代码。

#停用词词典路径

说明HanLP.properties中的root项配置不对,应当去掉 后缀 data/,改为:

PersonDictionaryPath=data/dictionary/person/nr.txt

3.在因此 句法分析场景中,须要加载几百兆的模型。因此处在 java.lang.OutOfMemoryError ,则建议使用JVM option -Xms1g -Xmx1g -Xmn512m。

Webapp/WEB-INF/classes

PersonDictionaryTrPath=data/dictionary/person/nr.tr.txt

第一一5个多多 Demo:

Appserver/lib

l 写给正在编译 HanLP 的开发者

2.因此内存非常有限,请使用小词典。 HanLP 默认使用大词典,一块儿提供小词典,请参考配置文件章节。

#同义词词典路径

root=/Users/hankcs/JavaProjects/HanLP/

l 因此选取mini数据包一段话,则须要修改配置文件:

└─model

2、下载数据集

data的 父目录 即可,比如data目录是 /Users/hankcs/Documents/data ,这么 root=/Users/hankcs/Documents/ 。

root=usr/home/HanLP/

1.因此你正在编译运行从Github检出的 HanLP 代码,因此这么下载data,这么首次加载词典/模型会处在一一5个多多 自动缓存 的过程。

System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));

CoreSynonymDictionaryDictionaryPath=data/dictionary/synonym/CoreSynonym.txt

CoreDictionaryPath=data/dictionary/CoreNatureDictionary.txt

2.自动缓存 的目的是为了加速词典载入速率单位,在下次载入时,缓存的词典文件会带来毫秒级的加载速率单位。因此词典体积很大, 自动缓存 会耗费因此 时间,请耐心等待。

所有Demo都处在 com.hankcs.demo 下。