古诗词相关词库

    科技2022-07-11  88

    相关词库

    1、人名语料库: https://github.com/wainshine/Chinese-Names-Corpus wainshine/Chinese-Names-Corpus 人名抽取功能 python package cocoNLP,欢迎试用(可用于中文分词、姓名识别) 2、古诗词库: https://github.com/panhaiqi/AncientPoetry repo 更全的古诗词库 3、同义词库、反义词库、否定词库: https://github.com/panhaiqi/AncientPoetryguotong1988/chinese_dictionary 4、各种中文词向量: https://github.com/Embedding/Chinese-Word-Vectors 中文词向量大全 5、 情感波动分析:https://github.com/CasterWx/python-girlfriend-mood/ 词库已整理到本repo的data文件夹中. 本repo项目是一个通过与人对话获得其情感值波动图谱, 内用词库在data文件夹中. 6、中文问答数据集:链接 提取码: 2dva 7、句子、QA相似度匹配:MatchZoo https://github.com/NTMC-Community/MatchZoo 文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。 8、Texar - Toolkit for Text Generation and Beyond: https://github.com/asyml/texar 基于Tensorflow的开源工具包,旨在支持广泛的机器学习,特别是文本生成任务,如机器翻译、对话、摘要、内容处置、语言建模等 9、 中文事件抽取:https://github.com/liuhuanyong/ComplexEventExtraction 中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。 10、NLP太难了系列: https://github.com/fighting41love/hardNLU 11、中文自然语言处理 语料/数据集:https://github.com/SophonPlus/ChineseNlpCorpus竞品:THUOCL(THU Open Chinese Lexicon)中文词库 12、分词语料库+代码:百度网盘链接https://pan.baidu.com/share/init?surl=MXZONaLgeaw0_TxZZDAIYQ

    提取码: pea6 keras实现的基于Bi-LSTM + CRF的中文分词+词性标注 基于Universal Transformer + CRF 的中文分词和词性标注 快速神经网络分词包 java version

    13、文档图谱自动生成 https://github.com/liuhuanyong/TextGrapher

    TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示 14、基于依存句法与语义角色标注的事件三元组抽取https://github.com/liuhuanyong/EventTriplesExtraction 15、cnocr:用来做中文OCR的Python3包,自带了训练好的识别模型 https://github.com/breezedeus/cnocr 16、中文人物关系知识图谱项目 https://github.com/liuhuanyong/PersonRelationKnowledgeGraph

    中文人物关系图谱构建 基于知识库的数据回标 基于远程监督与bootstrapping方法的人物关系抽取 基于知识图谱的知识问答等应用

    17、一些关于自然语言的基本模型 https://github.com/lpty/nlp_base 18、中文知识图谱资料、数据及工具 https://github.com/husthuke/awesome-knowledge-graph 19、中文知识图谱:基于百度百科中文页面,抽取三元组信息,构建中文知识图谱 https://github.com/lixiang0/WEB_KG 20、中文命名实体识别:NeuroNER vs. BertNER https://github.com/EOA-AILab/NER-Chinese 21、nlp4han:中文自然语言处理工具集(断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检查 github 22、中文自然语言处理相关的开放任务,数据集, 以及当前最佳结果https://github.com/didi/ChineseNLP 23、brat rapid annotation tool: 序列标注工具http://brat.nlplab.org/index.html 24、大规模中文知识图谱数据::1.4亿实体 https://github.com/ownthink/KnowledgeGraphData 25、基于BERT的中文命名实体识别 https://github.com/lonePatient/BERT-NER-Pytorch 26、nlp相关的一些论文及代码, 包括主题模型、词向量(Word Embedding)、命名实体识别(NER)、文本分类(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)计算等,涉及到各种与nlp相关的算法,基于keras和tensorflow https://github.com/msgi/nlp-journey 27、Python文本挖掘/NLP实战示例 https://github.com/kavgan/nlp-in-practice 28、Jiagu自然语言处理工具 - 以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能 https://github.com/ownthink/Jiagu 29、中文关键短语抽取工具https://github.com/dongrixinyu/chinese_keyphrase_extractor 30、基于预训练模型的中文关键词抽取方法https://github.com/sunyilgdx/SIFRank_zh 31、中文 NLP 数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html 32、本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。 项目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch

    Processed: 0.009, SQL: 8