AstrAI/astrai/trainer
ViperEkura 4145d35e3c refactor: 检查点加载重构,路径替代对象传递
- model: nn.Module -> model_fn 工厂函数,spawn 边界只传字符串
- Trainer.train(resume_dir=path) — Checkpoint 不再通过 pickle 传递
- TrainContextBuilder.with_resume_dir(path) — 自动检测 meta.json 分流 resume/from-scratch
- CheckpointCallback: 拆分 state_dict 收集(全 rank)与磁盘写入(rank-0),修复 FSDP 死锁
- serialization: load_torch 支持 broadcast,消除 _load_extra/_load_torch_broadcast
- optimizer/scheduler 恢复逻辑内联到 build(),在 executor.prepare() 之后执行
- pyproject.toml: ruff exclude build/ 避免 CI 扫描构建产物
2026-05-27 20:15:29 +08:00
..
__init__.py feat: 新增 Muon 优化器 2026-05-17 16:44:03 +08:00
metric_util.py feat: 训练中新增验证循环 2026-05-17 16:12:42 +08:00
optim.py perf: Muon step 改用 torch._foreach_* 批处理并移除 NS 迭代的冗余 bf16 转换 2026-05-23 19:50:12 +08:00
schedule.py feat: 优化工厂模式的实现 2026-04-04 15:49:46 +08:00
strategy.py feat: 新增FSDP并行后端 2026-05-25 19:43:14 +08:00
train_callback.py refactor: 检查点加载重构,路径替代对象传递 2026-05-27 20:15:29 +08:00
train_context.py refactor: 检查点加载重构,路径替代对象传递 2026-05-27 20:15:29 +08:00
trainer.py refactor: 检查点加载重构,路径替代对象传递 2026-05-27 20:15:29 +08:00