• 文件 >
  • torchtext.data.utils
捷徑

torchtext.data.utils

get_tokenizer

torchtext.data.utils.get_tokenizer(tokenizer, language='en')[原始碼]

產生字串句子的斷詞器函數。

參數:
  • tokenizer – 斷詞器函數的名稱。如果為 None,則返回 split() 函數,該函數按空格分割字串句子。如果為 basic_english,則返回 _basic_english_normalize() 函數,該函數首先對字串進行標準化,然後按空格分割。如果為可調用函數,則返回該函數。如果為斷詞器函式庫(例如 spacy、moses、toktok、revtok、subword),則返回相應的函式庫。

  • language – 預設為 en

範例

>>> import torchtext
>>> from torchtext.data import get_tokenizer
>>> tokenizer = get_tokenizer("basic_english")
>>> tokens = tokenizer("You can now install TorchText using pip!")
>>> tokens
>>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']

ngrams_iterator

torchtext.data.utils.ngrams_iterator(token_list, ngrams)[原始碼]

返回一個迭代器,該迭代器產生給定的標記及其 ngrams。

參數:
  • token_list – 標記列表

  • ngrams – ngrams 的數量。

範例

>>> token_list = ['here', 'we', 'are']
>>> list(ngrams_iterator(token_list, 2))
>>> ['here', 'here we', 'we', 'we are', 'are']

文件

存取 PyTorch 的完整開發者文件

檢視文件

教學

取得適用於初學者和進階開發者的深入教學

檢視教學

資源

尋找開發資源並獲得問題解答

檢視資源