jieba分词提高分词速度

    科技2026-01-12  11

    自定义词典

    为了保证抽取的准确率,一般会选择自定义词典

    形式

    词 词频 词性 eg:

    如果新加的词汇不知道该怎么设置的话,可以写成:词 3 n

    添加形式

    默认位置 位于:python目录下的jieba包中有个dict.txt。 例如我的就是,E:\Python36\Lib\site-packages\jieba定义文件目录 在自己的文件下进行词语的遍历 使用:jieba.add_word(‘词’)

    加载自定义词库太慢

    jieba启动需要完成两件事情:

    加载默认词库将默认词库模型 加载到本机缓存,之后每次都从本地缓存中去加载默认词库 缓存文件: jieba.cache 位置:C:\Users\***\AppData\Local\Temp\jieba.cache

    我们需要做的:

    修改dict.txt文件:按照规范将要添加的词写入dict.txt中删除jieba的本地缓存文件jieba.cache cache文件位置:C:\Users\***\AppData\Local\Temp\jieba.cache删除缓存,重启jieba

    这样就搞定啦~

    效果

    速率从600多秒提高到14秒,效果显著~

    Processed: 0.015, SQL: 9