torchtext.data.utils.get

    科技2026-02-04  1

    torchtext.data.utils.get_tokenizer的用法

    get_tokenizer函数的作用是创建一个分词器,将语料喂给相应的分词器,可以根据不同分词函数的规则完成分词,分词器支持’basic_english’,‘spacy’,‘moses’,‘toktok’,‘revtok’,'subword’等规则。 其中basic_english是可以直接使用的,spacy需要使用到spacy模块,moses需要使用到sacremoses模块,toktok需要使用到nltk模块,revtok和subword需要使用到revtok模块。 以basic_english来举个例子展示一下用法:

    from torchtext.data.utils import get_tokenizer tokenizer=get_tokenizer('basic_english') sen='i have a word!' token=tokenizer(sen) print(token)

    输出

    ['i', 'have', 'a', 'word', '!']
    Processed: 0.012, SQL: 9