AstrAI/astrai/tokenize
ViperEkura 01ce1fb9e3 refactor : Pipeline 去除去重,ids 重命名为 sequence,泛型透传
- 移除 Pipeline 内置去重逻辑及 dedup_signature 工具函数
- 删除 ProcessingConfig.deduplicate 字段
- builder 返回 'sequence' 替代 'ids',与 dataset 层统一
- pipeline 纯透传,泛型处理任意 key 补齐默认值
2026-05-31 15:14:27 +08:00
..
__init__.py chore: 优化未使用的模块 2026-04-06 09:54:17 +08:00
chat_template.py refactor : Pipeline 去除去重,ids 重命名为 sequence,泛型透传 2026-05-31 15:14:27 +08:00
tokenizer.py fix: 移除多余 request 参数并增强 tokenizer 健壮性 2026-05-17 12:52:18 +08:00