NLP入门(一)词袋模型及句子相似度

    科技2022-07-10  155

    通常,NLP无法处理完整的段落和句子。因此,第一步是分句或者分词。 英语句子,使用NLTK中的word_tokenize函数。 中文句子,jieba分词工具、LTP 注:哈工大语言技术平台(Language Technology Platform, LTP)是哈尔滨工业大学社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP还提供了包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等NLP技术。

    哈工大语言云演示平台:http://www.ltp-cloud.com/ GitHub代码:https://github.com/HIT-SCIR/pyltp 文档:https://pyltp.readthedocs.io/zh_CN/latest/

    安装 我的电脑环境:Windows64位,python 3.6

    python3.5: 链接:https://pan.baidu.com/s/1i15_kRgsoIZCIboDiC0ehg 提取码:odk2 python3.6 链接:https://pan.baidu.com/s/1NbvTJUXK_FdVYV4b8joa1Q 提取码:vw5s

    操作演示环境:pycharm

    下载内容 模型下载:下载最新版的模型ltp_data_v3.4.0 下载地址:http://ltp.ai/download.html 2、下载LTP:pyltp-0.2.1-cp36-cp36m-win_amd64.whl 下载地址:https://www.mlln.cn/2018/01/31/pyltp在windows下的编译安装/pyltp-0.2.1-cp36-cp36m-win_amd64.whl 备注:需要和自己电脑python版本对于,我的是python3.6 安装流程 1、将下载的文件解压(文件夹名称不要用中文) 2、将pyltp-0.2.1-cp36-cp36m-win_amd64.whl拷贝到自己python安装目录下的Scripts文件夹中(我的是D:\softwaredownload\python\Scripts) 3、进入cmd命令行,进入自己python安装目录下的Scripts文件夹中(我的是D:\softwaredownload\python\Scripts)。然后执行命令行:

    pip.exe install pyltp-0.2.1-cp36-cp36m-win_amd64.whl

    注:cmd命令行中切换盘符的命令为:例如想要切换d盘使用 d:即可 到指定的文件夹下命令为:cd 文件夹地址 例如:cd D:\softwaredownload\python\Scripts 4、出现Successfully installed pyltp-0.2.1说明安装成功

    5、检验:进入自己python安装目录下的Scripts文件夹中(我的是D:\python\Scripts)。然后执行命令行:

    pip.exe list

    出现如图所示情况表示安装成功 如果运行完命令未出现scipy库 则单独安装即可使用命令pip install scipy安装即可

    模型文件说明 cws.model 分句模型,单文件 pos.model 词性标注模型,单文件 ner.model 命名实体识别模型,单文件 parser.model 依存句法分析模型,单文件

    Processed: 0.039, SQL: 8