torchtext.data.utils.get

科技2026-02-04 1

torchtext.data.utils.get_tokenizer的用法

get_tokenizer函数的作用是创建一个分词器，将语料喂给相应的分词器，可以根据不同分词函数的规则完成分词，分词器支持’basic_english’，‘spacy’，‘moses’，‘toktok’，‘revtok’，'subword’等规则。其中basic_english是可以直接使用的，spacy需要使用到spacy模块，moses需要使用到sacremoses模块，toktok需要使用到nltk模块，revtok和subword需要使用到revtok模块。以basic_english来举个例子展示一下用法：

from torchtext.data.utils import get_tokenizer tokenizer=get_tokenizer('basic_english') sen='i have a word!' token=tokenizer(sen) print(token)

输出

['i', 'have', 'a', 'word', '!']

Processed: 0.012, SQL: 9