自定义词典
为了保证抽取的准确率,一般会选择自定义词典
形式
词 词频 词性 eg:
如果新加的词汇不知道该怎么设置的话,可以写成:词 3 n
添加形式
默认位置 位于:python目录下的jieba包中有个dict.txt。 例如我的就是,E:\Python36\Lib\site-packages\jieba定义文件目录 在自己的文件下进行词语的遍历 使用:jieba.add_word(‘词’)
加载自定义词库太慢
jieba启动需要完成两件事情:
加载默认词库将默认词库模型 加载到本机缓存,之后每次都从本地缓存中去加载默认词库 缓存文件: jieba.cache 位置:C:\Users\***\AppData\Local\Temp\jieba.cache
我们需要做的:
修改dict.txt文件:按照规范将要添加的词写入dict.txt中删除jieba的本地缓存文件jieba.cache cache文件位置:C:\Users\***\AppData\Local\Temp\jieba.cache删除缓存,重启jieba
这样就搞定啦~
效果
速率从600多秒提高到14秒,效果显著~