AstrAI/astrai
ViperEkura 138c5bcc08 feat : 添加 JSONL 预处理管线
- Pipeline 模板, Reader 加 transform 加 Writer 可组合
- 自动检测 JSONL 格式, 支持 messages 文本 prompt 加 response 三种
- chat 数据通过 apply_chat_template 适配, 自动生成 loss_mask
- 输出对齐 Store 和 DatasetFactory, 直接用于训练
- 默认 bin 格式, CLI 入口 scripts/tools/preprocess.py
2026-05-30 17:12:42 +08:00
..
config feat : checkpoint 支持保存 config.json 2026-05-28 20:21:51 +08:00
dataset refactor: 删除数据流中的 JSONStore 2026-05-28 15:54:26 +08:00
inference fix : FSDP 优化器顺序、温度除零、调度器静默死亡、ref模型设备 2026-05-29 21:57:44 +08:00
model refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
parallel fix : FSDP 优化器顺序、温度除零、调度器静默死亡、ref模型设备 2026-05-29 21:57:44 +08:00
tokenize fix: 移除多余 request 参数并增强 tokenizer 健壮性 2026-05-17 12:52:18 +08:00
trainer fix : FSDP 优化器顺序、温度除零、调度器静默死亡、ref模型设备 2026-05-29 21:57:44 +08:00
__init__.py release : v1.3.7 2026-05-29 17:46:03 +08:00
factory.py refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
preprocess.py feat : 添加 JSONL 预处理管线 2026-05-30 17:12:42 +08:00
protocols.py refactor: 重构训练后端为 Executor 模式 2026-05-24 20:35:44 +08:00
serialization.py feat : load_json/load_safetensors 支持 broadcast,跨节点分布式加载 2026-05-28 20:44:58 +08:00