AstrAI

Commit Graph

Author	SHA1	Message	Date
ViperEkura	4145d35e3c	refactor: 检查点加载重构，路径替代对象传递 - model: nn.Module -> model_fn 工厂函数，spawn 边界只传字符串 - Trainer.train(resume_dir=path) — Checkpoint 不再通过 pickle 传递 - TrainContextBuilder.with_resume_dir(path) — 自动检测 meta.json 分流 resume/from-scratch - CheckpointCallback: 拆分 state_dict 收集（全 rank）与磁盘写入（rank-0），修复 FSDP 死锁 - serialization: load_torch 支持 broadcast，消除 _load_extra/_load_torch_broadcast - optimizer/scheduler 恢复逻辑内联到 build()，在 executor.prepare() 之后执行 - pyproject.toml: ruff exclude build/ 避免 CI 扫描构建产物	2026-05-27 20:15:29 +08:00
ViperEkura	836e02a166	docs: 同步 architecture/inference/training 文档至实际代码，CLI 补充 fsdp 选项 - 修正 ProtocolHandler 架构：concrete + ResponseBuilder(ABC) 策略模式 - 修正训练循环 scheduler.step() 在 sync_gradients 块内 - 修正组合/聚合关系：注入组件改为 o--，删除不持有引用的关联 - --parallel_mode CLI choices 加入 fsdp - nprocs > 1 且 parallel_mode=none 时 raise error	2026-05-26 19:37:00 +08:00
ViperEkura	1d26aa2e93	fix: 禁用DDP static_graph避免PyTorch 2.7.1下no_sync与backward冲突 - static_graph=True时DDP.no_sync() + loss.backward()触发expect_autograd_hooks_内部断言 - PyTorch 2.7.1中no_sync上下文切换与静态图hook状态管理存在兼容性bug - 将static_graph设为False恢复梯度累积正常执行 - find_unused_parameters保持False（模型无不参与计算的参数）	2026-05-26 15:08:01 +08:00
ViperEkura	a548d4553e	fix: 断点续训恢复优化器/调度器状态及采样器剩余长度 - 使用Checkpoint.load()替代手动加载model.safetensors，恢复optimizer/scheduler状态 - TrainContextBuilder从checkpoint.extra恢复优化器和调度器state_dict - ResumableDistributedSampler.__len__返回剩余样本数而非总数 - 训练前对state_dict置空避免mp.spawn pickle 7GB大对象	2026-05-26 13:50:25 +08:00
ViperEkura	3ab4f237e5	refactor: 重构训练后端为 Executor 模式 - backend.py → executor.py，BaseTrainingBackend → BaseExecutor - 新增 NoneExecutor（单卡）和 DDPExecutor（DDP，world_size=1 自动降级） - 新增 GradientState 分离梯度同步状态，AccumOptimizer/AccumScheduler 包裹拦截 - 新增 astrai/protocols.py：OptimizerProtocol/SchedulerProtocol 结构子类型 - TrainContext.backend → executor，TrainConfig 移除 parallel_wrapper/state_dict_fn，新增 parallel_mode/executor_kwargs - 训练循环用 accumulate() 包裹，on_optimizer_step 命名约定=gate - scripts/tools/train.py 移除 ddp_wrap/prepare_checkpoint，新增 --parallel_mode	2026-05-24 20:35:44 +08:00
ViperEkura	7621f05d3f	docs: AdamW beta 默认值改为 (0.9, 0.95) - 与 Muon 优化器的 AdamW 子优化器保持一致 - 同步更新 train.py/training.md/params.md/README	2026-05-17 17:08:31 +08:00
ViperEkura	97c7ac0f4f	refactor: Transformer更名为AutoRegressiveLM并新增EmbeddingEncoder - AutoRegressiveLM 注册名改为 autoregressive_lm - 新增 EmbeddingEncoder 支持 mean/cls/last pooling - ModelConfig 增加 pooling_type / normalize_embeddings 字段 - 导入、注释、测试全部同步更新	2026-05-17 15:29:20 +08:00
ViperEkura	c241a5dcef	refactor: 优化并行训练配置与启动管理 - 配置新增 start_method 支持 spawn/fork/forkserver 选择 - 启动方式 mp.spawn 改为 mp.start_processes，支持 daemon=True - validate() 改为基于 metadata 的反射式校验，不再硬编码字段列表 - CLI 新增 --start_method 参数	2026-05-17 12:33:10 +08:00
ViperEkura	8a11a7d444	fix: 修复训练脚本两处参数传递问题 - prepare_checkpoint 增加 DDP 判断，单卡时不访问 .module - dpo_beta 改为 beta，对齐 DPOStrategy 参数名	2026-05-17 11:04:40 +08:00
ViperEkura	e1638a7ade	fix: 修正AdamW超参数默认值与文档示例 - 交换adamw_beta1/adamw_beta2默认值：beta1=0.95, beta2=0.99 - label_smoothing默认值改为0.05 - 文档示例统一更新：train_type=pt, weight_decay=0.01 - 移除文档中过时的strategy default标注	2026-05-16 22:46:17 +08:00
ViperEkura	f91bfee33e	refactor: Config序列化统一BaseConfig基类 - 新增astrai/config/base.py，提供to_dict/from_dict基类 - 统一命名：load/save → from_file/to_file - Checkpoint.meta合并训练配置到meta.json - sys.stderr.warn → warnings.warn - from_file改为classmethod	2026-05-16 22:06:39 +08:00
ViperEkura	d7a7f570ed	refactor: 训练循环改为两重迭代并统一参数命名 - 训练循环从三重(epoch→batched→batch)改为二重(epoch→batch) - batch_size → batch_per_device, accumulation_steps → grad_accum_steps - scheduler 移入 step block 对齐 optimizer 更新步 - GradientClippingCallback 改用 on_step_begin 避免零梯度裁剪 - 移除 _train_impl 误导性的 -> Checkpoint 标注 - total_steps 修除为向下取整并精简为一行 - warmup_steps 改为 warmup_ratio (默认0.05)	2026-05-16 21:27:35 +08:00
ViperEkura	026d1fc33d	fix: total_steps 改用 ceiling 匹配实际步数原公式全用 floor 少算 optimizer step，改用逐层 ceiling （ceil_div via (a+b-1)//b）对齐 DDP sampler padding + DataLoader drop_last=False 尾批 + batched 尾组截断。	2026-05-16 17:53:18 +08:00
ViperEkura	7242eedbf4	fix: 学习率调度按 optimizer step 计数并防止 warmup 越界 - total_steps 除以 accumulation_steps，匹配 optimizer.step() 频率 - warmup_steps 用 min 截断，避免 lr_decay_steps 为负	2026-05-16 17:07:36 +08:00
ViperEkura	9d5e9fa6c4	perf: DDP 加 gradient_as_bucket_view/static_graph/broadcast_buffers，AdamW fused - gradient_as_bucket_view=True 零拷贝梯度归并 - static_graph=True 跳过每轮 bucket 重建 - broadcast_buffers=False 省 buffer 广播 - AdamW fused=True 融合优化器 kernel	2026-05-15 15:30:24 +08:00
ViperEkura	b98c9cefdc	refactor: 移除 device_ids 参数设计，统一通过 CUDA_VISIBLE_DEVICES 控制 GPU 分配；更新 README 训练示例 - setup.py: 移除 device_ids 参数，setup_parallel 直接用 rank 作为设备索引 - train_config.py: 移除 device_ids 字段 - trainer.py: 不再传递 device_ids - train.py: ddp_wrap 用 get_rank() 直接取值 - README.md, README-zh-CN.md: 训练示例改为多行命令风格，去掉参数表格	2026-05-09 14:55:43 +08:00
ViperEkura	283bcaf2ff	fix: 修复 CLI 参数缺失/重复、device_ids 越界、generate 参数名不一致、scheduler 时序、非流式截断等 bug - train.py: 补上 --batch_size、--grpo_clip_eps，删除 3 处重复 --group_size - generate.py: --model_dir 改为 --param_path 对齐 README - automodel.py: from_pretrained 新增 strict 参数（默认 True） - parallel/setup.py: 修复 device_ids 索引越界 - train_callback.py: scheduler.step() 移至 on_step_end - test_train_strategy.py: 测试中补 optimizer.step() - engine.py: 非流式改为循环等待所有任务完成，补 remove_task 清理 - scheduler.py: Task 添加 _pages_freed 标志，杜绝双重释放 - trainer.py: accumulation_steps=0 时 clamp 为 1 - tokenizer.py: save_pretrained 添加 _tokenizer is None 检查 - benchmark.py: 修复 ModelConfig 过时 import 路径 - inference/__init__.py: 修复 stale docstring	2026-05-09 14:36:42 +08:00
ViperEkura	bc7c82977e	feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表 - train.py 新增 --train_type=grpo 及参数 (--grpo_clip_eps, --grpo_kl_coef, --group_size, --grpo_sync_interval, --start_epoch) - GRPOStrategy 统一 on-policy 模式，ratio = exp(logπ_θ - logπ_ref)，PPO 裁剪目标，sync_interval 自动同步 ref_model - ChatCompletionRequest 新增 top_k 参数，不再硬编码 - 补充 README 完整训练参数表（含此前缺失的 max_grad_norm / adamw / window_size / stride 等）	2026-05-09 12:22:33 +08:00
ViperEkura	f2ffdf60d0	chore: 修改错误拼写	2026-04-06 10:37:19 +08:00
ViperEkura	39766aa1dc	chore: 修改类名，优化导入顺序	2026-04-05 22:27:57 +08:00
ViperEkura	fc278d17ab	feat: 实现模型动态注册机制	2026-04-05 19:38:12 +08:00
ViperEkura	9c31d78a22	chore: 将data 模块命名为dataset	2026-04-04 16:16:27 +08:00
ViperEkura	e97536758f	refactor: 优化工厂模式结构	2026-04-04 11:33:58 +08:00
ViperEkura	70d52935f0	fix: 修复参数问题	2026-04-03 23:34:21 +08:00
ViperEkura	0852b852f8	refactor: 优化参数传递，清理导入样式	2026-04-03 22:06:32 +08:00
ViperEkura	4ead0a20cf	chore: 修改文件夹结构	2026-03-31 10:14:08 +08:00

26 Commits