tokenizers 库相关参数
介绍 tokenizers 库的四大方法与参数使用
方法
输入
输出
作用层级
是否支持批量
是否自动 padding/truncation
常用场景
tokenizer.tokenize — 分词接口
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Hello, I'm reading Transformers."
tokens = tokenizer.tokenize(text)
print(tokens)['hello', ',', 'i', "'", 'm', 'reading', 'transformers', '.']tokenizer.encode — 文本 → token IDs
tokenizer.decode — token IDs → 文本
tokenizer(…) — 完整的模型输入构建接口
四种方法的对照代码
Tokenizer 主要参数表
参数名
类型
默认值
功能分类
专业解释
attention_mask 的作用
Last updated
Was this helpful?