古诗词相关词库

科技2022-07-11 194

相关词库

1、人名语料库： https://github.com/wainshine/Chinese-Names-Corpus wainshine/Chinese-Names-Corpus 人名抽取功能 python package cocoNLP，欢迎试用（可用于中文分词、姓名识别） 2、古诗词库： https://github.com/panhaiqi/AncientPoetry repo 更全的古诗词库 3、同义词库、反义词库、否定词库： https://github.com/panhaiqi/AncientPoetryguotong1988/chinese_dictionary 4、各种中文词向量： https://github.com/Embedding/Chinese-Word-Vectors 中文词向量大全 5、情感波动分析：https://github.com/CasterWx/python-girlfriend-mood/ 词库已整理到本repo的data文件夹中. 本repo项目是一个通过与人对话获得其情感值波动图谱, 内用词库在data文件夹中. 6、中文问答数据集：链接提取码: 2dva 7、句子、QA相似度匹配:MatchZoo https://github.com/NTMC-Community/MatchZoo 文本相似度匹配算法的集合，包含多个深度学习的方法，值得尝试。 8、Texar - Toolkit for Text Generation and Beyond: https://github.com/asyml/texar 基于Tensorflow的开源工具包，旨在支持广泛的机器学习，特别是文本生成任务，如机器翻译、对话、摘要、内容处置、语言建模等 9、中文事件抽取：https://github.com/liuhuanyong/ComplexEventExtraction 中文复合事件抽取，包括条件事件、因果事件、顺承事件、反转事件等事件抽取，并形成事理图谱。 10、NLP太难了系列: https://github.com/fighting41love/hardNLU 11、中文自然语言处理语料/数据集：https://github.com/SophonPlus/ChineseNlpCorpus竞品：THUOCL（THU Open Chinese Lexicon）中文词库 12、分词语料库+代码：百度网盘链接https://pan.baidu.com/share/init?surl=MXZONaLgeaw0_TxZZDAIYQ

提取码: pea6 keras实现的基于Bi-LSTM + CRF的中文分词+词性标注基于Universal Transformer + CRF 的中文分词和词性标注快速神经网络分词包 java version

13、文档图谱自动生成 https://github.com/liuhuanyong/TextGrapher

TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档，将文档进行关键信息提取，进行结构化，并最终组织成图谱组织形式，形成对文章语义信息的图谱化展示 14、基于依存句法与语义角色标注的事件三元组抽取https://github.com/liuhuanyong/EventTriplesExtraction 15、cnocr：用来做中文OCR的Python3包，自带了训练好的识别模型 https://github.com/breezedeus/cnocr 16、中文人物关系知识图谱项目 https://github.com/liuhuanyong/PersonRelationKnowledgeGraph

中文人物关系图谱构建基于知识库的数据回标基于远程监督与bootstrapping方法的人物关系抽取基于知识图谱的知识问答等应用

17、一些关于自然语言的基本模型 https://github.com/lpty/nlp_base 18、中文知识图谱资料、数据及工具 https://github.com/husthuke/awesome-knowledge-graph 19、中文知识图谱：基于百度百科中文页面，抽取三元组信息，构建中文知识图谱 https://github.com/lixiang0/WEB_KG 20、中文命名实体识别：NeuroNER vs. BertNER https://github.com/EOA-AILab/NER-Chinese 21、nlp4han:中文自然语言处理工具集(断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检查 github 22、中文自然语言处理相关的开放任务，数据集, 以及当前最佳结果https://github.com/didi/ChineseNLP 23、brat rapid annotation tool: 序列标注工具http://brat.nlplab.org/index.html 24、大规模中文知识图谱数据：：1.4亿实体 https://github.com/ownthink/KnowledgeGraphData 25、基于BERT的中文命名实体识别 https://github.com/lonePatient/BERT-NER-Pytorch 26、nlp相关的一些论文及代码, 包括主题模型、词向量(Word Embedding)、命名实体识别(NER)、文本分类(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)计算等，涉及到各种与nlp相关的算法，基于keras和tensorflow https://github.com/msgi/nlp-journey 27、Python文本挖掘/NLP实战示例 https://github.com/kavgan/nlp-in-practice 28、Jiagu自然语言处理工具 - 以BiLSTM等模型为基础，提供知识图谱关系抽取中文分词词性标注命名实体识别情感分析新词发现关键词文本摘要文本聚类等功能 https://github.com/ownthink/Jiagu 29、中文关键短语抽取工具https://github.com/dongrixinyu/chinese_keyphrase_extractor 30、基于预训练模型的中文关键词抽取方法https://github.com/sunyilgdx/SIFRank_zh 31、中文 NLP 数据集搜索：https://www.cluebenchmarks.com/dataSet_search.html 32、本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。具体而言，对于每一个数据集，项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。项目地址：https://github.com/CLUEbenchmark/CLUEDatasetSearch

Processed: 0.009, SQL: 9