AstrAI/astrai
ViperEkura 3ab4f237e5 refactor: 重构训练后端为 Executor 模式
- backend.py → executor.py,BaseTrainingBackend → BaseExecutor
- 新增 NoneExecutor(单卡)和 DDPExecutor(DDP,world_size=1 自动降级)
- 新增 GradientState 分离梯度同步状态,AccumOptimizer/AccumScheduler 包裹拦截
- 新增 astrai/protocols.py:OptimizerProtocol/SchedulerProtocol 结构子类型
- TrainContext.backend → executor,TrainConfig 移除 parallel_wrapper/state_dict_fn,新增 parallel_mode/executor_kwargs
- 训练循环用 accumulate() 包裹,on_optimizer_step 命名约定=gate
- scripts/tools/train.py 移除 ddp_wrap/prepare_checkpoint,新增 --parallel_mode
2026-05-24 20:35:44 +08:00
..
config refactor: 重构训练后端为 Executor 模式 2026-05-24 20:35:44 +08:00
dataset feat: 数据集加载时校验必填字段 2026-05-17 11:50:38 +08:00
inference fix: decode后task_extend失败时提前中止,scheduler崩溃时通知waiting任务 2026-05-20 19:23:13 +08:00
model refactor: Transformer更名为AutoRegressiveLM并新增EmbeddingEncoder 2026-05-17 15:29:20 +08:00
parallel refactor: 重构训练后端为 Executor 模式 2026-05-24 20:35:44 +08:00
tokenize fix: 移除多余 request 参数并增强 tokenizer 健壮性 2026-05-17 12:52:18 +08:00
trainer refactor: 重构训练后端为 Executor 模式 2026-05-24 20:35:44 +08:00
__init__.py fix: 修复 to_dict list 类型丢失与 OpenAI stop 参数失效 2026-05-19 21:07:07 +08:00
factory.py refactor: 工厂 kwargs 过滤及组件参数清理 2026-05-16 16:47:41 +08:00
protocols.py refactor: 重构训练后端为 Executor 模式 2026-05-24 20:35:44 +08:00
serialization.py feat: ProgressBarCallback 支持日志行输出到 stdout 2026-05-19 19:12:38 +08:00