AstrAI/astrai
ViperEkura 02a7cb9fa0 feat : preprocessing 支持 DPO/GRPO 多输出格式
- InputConfig 新增 sources 字段驱动多输出映射
- SectionedMaskBuilder 提取 _process_sections/_build_multi 模板方法
- Pipeline 泛化 accumulate 逻辑处理多 key 结果
- 测试拆分为 config/builder/pipeline 三文件,纯函数风格
2026-06-03 10:32:10 +08:00
..
config feat : preprocessing 支持 DPO/GRPO 多输出格式 2026-06-03 10:32:10 +08:00
dataset fix : 修复存储层 rglob 死锁、DDP LOCAL_RANK 绑定 2026-06-02 01:01:00 +08:00
inference fix : 修复 created 时间戳、bin 多 shard 覆盖与文档遗漏 2026-05-30 23:03:42 +08:00
model refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
parallel refactor : 移除 LocalStrategy._clear_env 冗余清理 2026-06-02 11:40:45 +08:00
preprocessing feat : preprocessing 支持 DPO/GRPO 多输出格式 2026-06-03 10:32:10 +08:00
tokenize refactor : Pipeline 去除去重,ids 重命名为 sequence,泛型透传 2026-05-31 15:14:27 +08:00
trainer feat : TrainConfig 支持 val_split 从训练集自动切分验证集 2026-06-02 20:33:40 +08:00
__init__.py release : v1.3.7 2026-05-29 17:46:03 +08:00
factory.py refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
protocols.py refactor: 重构训练后端为 Executor 模式 2026-05-24 20:35:44 +08:00
serialization.py feat : load_json/load_safetensors 支持 broadcast,跨节点分布式加载 2026-05-28 20:44:58 +08:00