- 移除 Pipeline 内置去重逻辑及 dedup_signature 工具函数 - 删除 ProcessingConfig.deduplicate 字段 - builder 返回 'sequence' 替代 'ids',与 dataset 层统一 - pipeline 纯透传,泛型处理任意 key 补齐默认值 |
||
|---|---|---|
| .. | ||
| __init__.py | ||
| chat_template.py | ||
| tokenizer.py | ||
- 移除 Pipeline 内置去重逻辑及 dedup_signature 工具函数 - 删除 ProcessingConfig.deduplicate 字段 - builder 返回 'sequence' 替代 'ids',与 dataset 层统一 - pipeline 纯透传,泛型处理任意 key 补齐默认值 |
||
|---|---|---|
| .. | ||
| __init__.py | ||
| chat_template.py | ||
| tokenizer.py | ||