torchtext.data.utils¶
get_tokenizer¶
- torchtext.data.utils.get_tokenizer(tokenizer, language='en')[原始碼]¶
產生字串句子的斷詞器函數。
- 參數:
tokenizer – 斷詞器函數的名稱。如果為 None,則返回 split() 函數,該函數按空格分割字串句子。如果為 basic_english,則返回 _basic_english_normalize() 函數,該函數首先對字串進行標準化,然後按空格分割。如果為可調用函數,則返回該函數。如果為斷詞器函式庫(例如 spacy、moses、toktok、revtok、subword),則返回相應的函式庫。
language – 預設為 en
範例
>>> import torchtext >>> from torchtext.data import get_tokenizer >>> tokenizer = get_tokenizer("basic_english") >>> tokens = tokenizer("You can now install TorchText using pip!") >>> tokens >>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']