AstrAI/astrai
ViperEkura 01ce1fb9e3 refactor : Pipeline 去除去重,ids 重命名为 sequence,泛型透传
- 移除 Pipeline 内置去重逻辑及 dedup_signature 工具函数
- 删除 ProcessingConfig.deduplicate 字段
- builder 返回 'sequence' 替代 'ids',与 dataset 层统一
- pipeline 纯透传,泛型处理任意 key 补齐默认值
2026-05-31 15:14:27 +08:00
..
config refactor : Pipeline 去除去重,ids 重命名为 sequence,泛型透传 2026-05-31 15:14:27 +08:00
dataset fix : 修复 created 时间戳、bin 多 shard 覆盖与文档遗漏 2026-05-30 23:03:42 +08:00
inference fix : 修复 created 时间戳、bin 多 shard 覆盖与文档遗漏 2026-05-30 23:03:42 +08:00
model refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
parallel fix : FSDP 优化器顺序、温度除零、调度器静默死亡、ref模型设备 2026-05-29 21:57:44 +08:00
preprocessing refactor : Pipeline 去除去重,ids 重命名为 sequence,泛型透传 2026-05-31 15:14:27 +08:00
tokenize refactor : Pipeline 去除去重,ids 重命名为 sequence,泛型透传 2026-05-31 15:14:27 +08:00
trainer fix : FSDP 优化器顺序、温度除零、调度器静默死亡、ref模型设备 2026-05-29 21:57:44 +08:00
__init__.py release : v1.3.7 2026-05-29 17:46:03 +08:00
factory.py refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
protocols.py refactor: 重构训练后端为 Executor 模式 2026-05-24 20:35:44 +08:00
serialization.py feat : load_json/load_safetensors 支持 broadcast,跨节点分布式加载 2026-05-28 20:44:58 +08:00