AstrAI/astrai
ViperEkura a548d4553e fix: 断点续训恢复优化器/调度器状态及采样器剩余长度
- 使用Checkpoint.load()替代手动加载model.safetensors,恢复optimizer/scheduler状态
- TrainContextBuilder从checkpoint.extra恢复优化器和调度器state_dict
- ResumableDistributedSampler.__len__返回剩余样本数而非总数
- 训练前对state_dict置空避免mp.spawn pickle 7GB大对象
2026-05-26 13:50:25 +08:00
..
config feat: 新增NTK-Aware RoPE缩放支持 2026-05-25 21:22:07 +08:00
dataset fix: 断点续训恢复优化器/调度器状态及采样器剩余长度 2026-05-26 13:50:25 +08:00
inference fix: ProgressBar默认输出到stdout 2026-05-26 13:27:05 +08:00
model feat: 新增NTK-Aware RoPE缩放支持 2026-05-25 21:22:07 +08:00
parallel feat: 新增FSDP并行后端 2026-05-25 19:43:14 +08:00
tokenize fix: 移除多余 request 参数并增强 tokenizer 健壮性 2026-05-17 12:52:18 +08:00
trainer fix: 断点续训恢复优化器/调度器状态及采样器剩余长度 2026-05-26 13:50:25 +08:00
__init__.py fix: 修复 to_dict list 类型丢失与 OpenAI stop 参数失效 2026-05-19 21:07:07 +08:00
factory.py refactor: 工厂 kwargs 过滤及组件参数清理 2026-05-16 16:47:41 +08:00
protocols.py refactor: 重构训练后端为 Executor 模式 2026-05-24 20:35:44 +08:00
serialization.py feat: ProgressBarCallback 支持日志行输出到 stdout 2026-05-19 19:12:38 +08:00