AstrAI

History

ViperEkura a548d4553e fix: 断点续训恢复优化器/调度器状态及采样器剩余长度 - 使用Checkpoint.load()替代手动加载model.safetensors，恢复optimizer/scheduler状态 - TrainContextBuilder从checkpoint.extra恢复优化器和调度器state_dict - ResumableDistributedSampler.__len__返回剩余样本数而非总数 - 训练前对state_dict置空避免mp.spawn pickle 7GB大对象		2026-05-26 13:50:25 +08:00
..
__init__.py	feat: 新增 Muon 优化器	2026-05-17 16:44:03 +08:00
metric_util.py	feat: 训练中新增验证循环	2026-05-17 16:12:42 +08:00
optim.py	perf: Muon step 改用 torch._foreach_* 批处理并移除 NS 迭代的冗余 bf16 转换	2026-05-23 19:50:12 +08:00
schedule.py	feat: 优化工厂模式的实现	2026-04-04 15:49:46 +08:00
strategy.py	feat: 新增FSDP并行后端	2026-05-25 19:43:14 +08:00
train_callback.py	fix: ProgressBar默认输出到stdout	2026-05-26 13:27:05 +08:00
train_context.py	fix: 断点续训恢复优化器/调度器状态及采样器剩余长度	2026-05-26 13:50:25 +08:00
trainer.py	refactor: 重构训练后端为 Executor 模式	2026-05-24 20:35:44 +08:00