torchtext.data.utils¶

get_tokenizer¶

torchtext.data.utils.get_tokenizer(tokenizer, language='en')[原始碼]¶

產生字串句子的斷詞器函數。

參數：

tokenizer – 斷詞器函數的名稱。如果為 None，則返回 split() 函數，該函數按空格分割字串句子。如果為 basic_english，則返回 _basic_english_normalize() 函數，該函數首先對字串進行標準化，然後按空格分割。如果為可調用函數，則返回該函數。如果為斷詞器函式庫（例如 spacy、moses、toktok、revtok、subword），則返回相應的函式庫。
language – 預設為 en

範例

>>> import torchtext
>>> from torchtext.data import get_tokenizer
>>> tokenizer = get_tokenizer("basic_english")
>>> tokens = tokenizer("You can now install TorchText using pip!")
>>> tokens
>>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']

ngrams_iterator¶

torchtext.data.utils.ngrams_iterator(token_list, ngrams)[原始碼]¶

返回一個迭代器，該迭代器產生給定的標記及其 ngrams。

參數：

token_list – 標記列表
ngrams – ngrams 的數量。

範例

>>> token_list = ['here', 'we', 'are']
>>> list(ngrams_iterator(token_list, 2))
>>> ['here', 'here we', 'we', 'we are', 'are']

torchtext.data.utils¶

get_tokenizer¶

ngrams_iterator¶

文件

教學

資源