torchtext.data.utils.get_tokenizer的用法
get_tokenizer函数的作用是创建一个分词器,将语料喂给相应的分词器,可以根据不同分词函数的规则完成分词,分词器支持’basic_english’,‘spacy’,‘moses’,‘toktok’,‘revtok’,'subword’等规则。 其中basic_english是可以直接使用的,spacy需要使用到spacy模块,moses需要使用到sacremoses模块,toktok需要使用到nltk模块,revtok和subword需要使用到revtok模块。 以basic_english来举个例子展示一下用法:
from torchtext.data.utils import get_tokenizer
tokenizer=get_tokenizer('basic_english')
sen='i have a word!'
token=tokenizer(sen)
print(token)
输出
['i', 'have', 'a', 'word', '!']