Commit Graph

  • 1c2ff05a6d docs : 三轮深度验证修复文档与代码不一致 main ViperEkura 2026-05-30 21:40:25 +0800
  • 31ae2deeba refactor : BaseConfig 提供 from_json/to_json,嵌套 config 自动反序列化 ViperEkura 2026-05-30 21:02:16 +0800
  • 69207e2c57 refactor : 基于声明式 JSON 配置的预处理管线重构 ViperEkura 2026-05-30 20:44:25 +0800
  • 138c5bcc08 feat : 添加 JSONL 预处理管线 ViperEkura 2026-05-30 17:04:17 +0800
  • a923e0a23a fix : 修复 MMLU 评测脚本数据源和依赖 ViperEkura 2026-05-30 16:51:24 +0800
  • f521a30b22 fix : FSDP 优化器顺序、温度除零、调度器静默死亡、ref模型设备 ViperEkura 2026-05-29 21:57:44 +0800
  • d4451f6afb fix : 并行训练 state_dict 收集与训练/推理并发缺陷 ViperEkura 2026-05-29 21:12:24 +0800
  • a3275423a4 release : v1.3.7 ViperEkura 2026-05-29 17:42:38 +0800
  • b37c3d000c docs : 同步文档与实际代码 ViperEkura 2026-05-28 21:01:14 +0800
  • 6031020e37 feat : load_json/load_safetensors 支持 broadcast,跨节点分布式加载 ViperEkura 2026-05-28 20:44:58 +0800
  • c424dfc293 feat : checkpoint 支持保存 config.json ViperEkura 2026-05-28 20:17:49 +0800
  • 3a28e52e98 fix : start_epoch/start_batch 由用户参数决定,不再被 checkpoint 覆盖 ViperEkura 2026-05-28 18:24:22 +0800
  • e371908b54 fix : 保存 checkpoint 时 unwrap DDP/FSDP 避免 module. 前缀 ViperEkura 2026-05-28 18:10:04 +0800
  • 7c99da155c refactor: 删除数据流中的 JSONStore ViperEkura 2026-05-28 15:53:52 +0800
  • 629e72385b fix : 修复存储层 bug,JSON 切换为 JSONL,补齐测试覆盖 ViperEkura 2026-05-28 15:29:46 +0800
  • 0a708fff24 docs : 更新架构文档与 storage 注释,同步 Store 重构 ViperEkura 2026-05-28 14:36:18 +0800
  • 6e150ea6d0 refactor : Storage 层重构为 Store,移除 Fetcher 中间层,支持多段数据与显式长度 ViperEkura 2026-05-28 14:20:30 +0800
  • cb8dcb97ea refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 ViperEkura 2026-05-28 13:57:06 +0800
  • 2d5dc93b3d fix : 修正类型标注与统一 CLI 参数命名 ViperEkura 2026-05-27 20:48:53 +0800
  • 4145d35e3c refactor: 检查点加载重构,路径替代对象传递 ViperEkura 2026-05-27 20:06:44 +0800
  • 34c6c45bd6 feat: 初步实现 MMLU 评测脚本 ViperEkura 2026-05-26 20:19:11 +0800
  • e9def84ce7 fix : perplexity.py left padding 导致 batch>1 时 PPL 计算错误 ViperEkura 2026-05-26 19:59:22 +0800
  • 836e02a166 docs: 同步 architecture/inference/training 文档至实际代码,CLI 补充 fsdp 选项 ViperEkura 2026-05-26 19:36:39 +0800
  • b558e61f63 refactor: 简化 _disable_random_init,scheduler 移入同步块 ViperEkura 2026-05-26 17:05:25 +0800
  • 65ab69543b refactor: 统一序列化层,消除分散的 I/O 路径 ViperEkura 2026-05-26 16:29:22 +0800
  • 1d26aa2e93 fix: 禁用DDP static_graph避免PyTorch 2.7.1下no_sync与backward冲突 ViperEkura 2026-05-26 15:08:01 +0800
  • a548d4553e fix: 断点续训恢复优化器/调度器状态及采样器剩余长度 ViperEkura 2026-05-26 13:50:25 +0800
  • dd1b39f435 fix: ProgressBar默认输出到stdout ViperEkura 2026-05-26 13:27:05 +0800
  • 94d6e713e9 test: 补充推理协议层单测覆盖 ViperEkura 2026-05-26 00:21:18 +0800
  • 47c37e4876 refactor: 推理协议层重构为策略/建造者模式 ViperEkura 2026-05-26 00:07:12 +0800
  • 737585a32a feat: 新增NTK-Aware RoPE缩放支持 ViperEkura 2026-05-25 21:20:10 +0800
  • a4688021bf feat: 新增LoRA微调模块 ViperEkura 2026-05-25 20:11:25 +0800
  • 7df6eb9211 feat: 新增FSDP并行后端 ViperEkura 2026-05-25 19:43:14 +0800
  • 82a3f2626f docs: 更新文档与代码同步(Executor/训练循环/参数) ViperEkura 2026-05-24 22:17:49 +0800
  • 7fa69572c0 fix: 测试日志写入临时目录避免冗余文件 ViperEkura 2026-05-24 20:54:59 +0800
  • 3ab4f237e5 refactor: 重构训练后端为 Executor 模式 ViperEkura 2026-05-24 20:25:58 +0800
  • 8cbf3f36e2 feat: 新增训练后端工厂框架 ViperEkura 2026-05-24 15:13:44 +0800
  • 0594ce1017 perf: Muon step 改用 torch._foreach_* 批处理并移除 NS 迭代的冗余 bf16 转换 ViperEkura 2026-05-23 19:50:12 +0800
  • ff509ff39f fix: decode后task_extend失败时提前中止,scheduler崩溃时通知waiting任务 ViperEkura 2026-05-20 19:23:13 +0800
  • 785d65436c fix: 修复 to_dict list 类型丢失与 OpenAI stop 参数失效 v1.3.6 ViperEkura 2026-05-19 21:00:40 +0800
  • 64be81b7b3 feat: ProgressBarCallback 支持日志行输出到 stdout - serialization 和 metric_logger 的 timestamp 统一使用 ISO 8601 格式 - ProgressBarCallback 新增 log_interval/file 参数,默认输出到 sys.stdout ViperEkura 2026-05-19 19:12:38 +0800
  • 45479b5731 feat: metric 参数通过 TrainConfig 传递 ViperEkura 2026-05-19 17:47:06 +0800
  • e0a3337c22 docs: 更新视频链接 ViperEkura 2026-05-19 17:34:01 +0800
  • 812238060b fix: docker-compose UID/GID 添加默认值,修复 docker.sh logs 命令 ViperEkura 2026-05-18 14:24:00 +0800
  • 14b0d56197 fix: 修复无法创建子进程的问题 - mp.start_processes daemon=False ViperEkura 2026-05-17 23:43:12 +0800
  • 6c8533f1d2 docs: 修正文档中类名/字段名与代码不一致之处 ViperEkura 2026-05-17 20:23:12 +0800
  • 2c2697390d feat: 新增 GradientCheckpointingCallback ViperEkura 2026-05-17 18:20:33 +0800
  • 7621f05d3f docs: AdamW beta 默认值改为 (0.9, 0.95) ViperEkura 2026-05-17 17:07:01 +0800
  • 10ebd7211f feat: 新增 Muon 优化器 ViperEkura 2026-05-17 16:42:58 +0800
  • 42a391f0fb feat: 训练中新增验证循环 ViperEkura 2026-05-17 16:09:27 +0800
  • 97c7ac0f4f refactor: Transformer更名为AutoRegressiveLM并新增EmbeddingEncoder ViperEkura 2026-05-17 15:03:50 +0800
  • 8f1b32f2b6 fix: 移除多余 request 参数并增强 tokenizer 健壮性 ViperEkura 2026-05-17 12:51:31 +0800
  • c241a5dcef refactor: 优化并行训练配置与启动管理 ViperEkura 2026-05-17 12:32:15 +0800
  • 44dab27fdc feat: 数据集加载时校验必填字段 ViperEkura 2026-05-17 11:50:38 +0800
  • a44fd22a99 fix: 修复训练与模型参数传递问题 ViperEkura 2026-05-17 11:20:13 +0800
  • 8a11a7d444 fix: 修复训练脚本两处参数传递问题 ViperEkura 2026-05-17 11:04:40 +0800
  • 1d54491809 refactor: 改用递归子模块 init 替代统一 normal_(0.006) ViperEkura 2026-05-17 10:44:18 +0800
  • ad9f4d9cf6 refactor: generate_ar 改用流式输出并去除冗余注释 ViperEkura 2026-05-17 10:23:42 +0800
  • e1638a7ade fix: 修正AdamW超参数默认值与文档示例 ViperEkura 2026-05-16 22:46:17 +0800
  • f91bfee33e refactor: Config序列化统一BaseConfig基类 ViperEkura 2026-05-16 22:06:39 +0800
  • d7a7f570ed refactor: 训练循环改为两重迭代并统一参数命名 ViperEkura 2026-05-16 21:27:35 +0800
  • 7dea929788 refactor: checkpoint 按 HF 方式存独立 .pt 文件,callback 接管恢复 ViperEkura 2026-05-16 18:21:19 +0800
  • 026d1fc33d fix: total_steps 改用 ceiling 匹配实际步数 ViperEkura 2026-05-16 17:53:18 +0800
  • 7242eedbf4 fix: 学习率调度按 optimizer step 计数并防止 warmup 越界 ViperEkura 2026-05-16 17:07:36 +0800
  • 04c0dc7a47 refactor: Storage 改用工厂模式,server reload 接入 uvicorn ViperEkura 2026-05-16 17:00:26 +0800
  • 48a53121ba refactor: 工厂 kwargs 过滤及组件参数清理 ViperEkura 2026-05-16 16:47:41 +0800
  • 0ba8c70ce1 fix: 修复 MLA 多个 bug 并缩小测试模型参数 - MLA kv_b_proj 输出维度和 q_rope 切分偏移修复 - 打通 MLA 配置从 ModelConfig 到 DecoderBlock 的传递路径 - rope_theta 配置不再被忽略,MLA 使用 qk_rope_head_dim - tie_weight 使用 is True 避免 None 隐式生效 - norm_eps/rope base 类型标注修正 - 测试模型参数缩小 (dim=8, head_dim=4) - 新增 6 种架构配置 × 2 场景的前向传播测试 ViperEkura 2026-05-16 14:56:01 +0800
  • 3d12a03909 docs : 拆分文档并补充类图缺失类和关系线 ViperEkura 2026-05-15 23:13:03 +0800
  • c169659611 docs: 修正 assets/docs/ 类图、数据流、参数文档及贡献指南 ViperEkura 2026-05-15 22:45:37 +0800
  • e12f1a7ee5 feat: BaseModelConfig + DeepSeekMoE + 工厂模式替代 if/else ViperEkura 2026-05-15 20:34:52 +0800
  • ef25efffa2 refactor: 拆分 module.py 为 components 子包 ViperEkura 2026-05-15 20:08:36 +0800
  • 19532440b4 chore: 版本号升至 1.3.5 v1.3.5 ViperEkura 2026-05-15 18:15:59 +0800
  • 9096e413c3 refactor: RotaryEmbedding 合并 cos/sin 为单一复数缓存 ViperEkura 2026-05-15 18:02:16 +0800
  • 9d5e9fa6c4 perf: DDP 加 gradient_as_bucket_view/static_graph/broadcast_buffers,AdamW fused ViperEkura 2026-05-15 15:30:24 +0800
  • 08dde46778 fix: 修复训练循环 step/backward 顺序,重构为三重循环嵌套 ViperEkura 2026-05-15 14:44:44 +0800
  • 513f1f7826 perf: waiting_queue 改用 deque,pull_candidates 从 O(n²) 降到 O(1) ViperEkura 2026-05-14 21:38:00 +0800
  • e3382f6bb5 fix: 修复推理引擎 batch decode 中多项正确性与并发问题 ViperEkura 2026-05-14 21:27:05 +0800
  • f0339022c1 fix: batch 推理示例添加 chat template 和 system prompt ViperEkura 2026-05-14 20:59:01 +0800
  • d8da2cf17c docs: 修复文档中与源码不符的类名、方法签名和模块归属 ViperEkura 2026-05-14 20:26:02 +0800
  • 205b40bd28 refactor: 重构 cache 和 inference 参数体系,分离存储与分配 ViperEkura 2026-05-14 19:47:11 +0800
  • 18fe6e9339 refactor: 消除多处重复模式,统一工厂和参数传递 ViperEkura 2026-05-14 18:00:50 +0800
  • 2196c34c52 refactor: 重构 inference 模块架构,引入设计模式并分组文件 ViperEkura 2026-05-14 17:42:37 +0800
  • 466c2e1efd fix: process_attention_mask 中 expand 后的 inplace 写导致 alias 报错 ViperEkura 2026-05-14 16:30:31 +0800
  • 7e26d848ab perf: apply_rotary_emb 改用复数乘法 ViperEkura 2026-05-14 16:16:08 +0800
  • ed95ef245c perf: 消除 RotaryEmbedding.forward 中 position_ids GPU 同步 ViperEkura 2026-05-14 15:53:21 +0800
  • 6d6ef99e66 perf: 消除 PagedCache.write 中的 position_ids GPU 同步,解码提速 15% ViperEkura 2026-05-14 15:37:48 +0800
  • a8e2a1ba45 docs: 修正文档中与源码不符的类名、方法签名和模块归属 ViperEkura 2026-05-14 15:04:53 +0800
  • 6269bacfc3 refactor: decode 按页分桶批处理,position_ids 改为 per-task 构建 ViperEkura 2026-05-14 14:22:11 +0800
  • c0effc9f5b refactor: 位置编码改用 position_ids [B,S],简化 attention mask 构建 ViperEkura 2026-05-14 13:26:31 +0800
  • df0845e916 chore: 解耦 Executor/Scheduler/TaskManager,修复 stop 页泄漏,移除 ServerState 全局单例 ViperEkura 2026-05-12 13:44:55 +0800
  • 7440e9c809 style: 重命名 test_scheduler_concurrency 为 test_scheduler ViperEkura 2026-05-12 12:24:36 +0800
  • 7d4029c2a4 test: inference 模块补全单元测试,cache/sample/engine/task ViperEkura 2026-05-12 12:17:57 +0800
  • 0ca6c9e6eb test: 增加 13 个边界条件测试,不需要 base_test_env 的函数移除该参数 ViperEkura 2026-05-12 11:47:30 +0800
  • 6e49d27057 fix: MultiSegmentFetcher 空 dict 崩溃 + BaseDataset assert 替换为显式 raise ViperEkura 2026-05-12 11:41:45 +0800
  • 5203b7f53e perf: 测试优化,model 改为 session 共享,scheduler 用 Event 替代 sleep ViperEkura 2026-05-12 11:33:02 +0800
  • 5889179c54 refactor: 抽取 BaseStorage 存储抽象,支持 JSON 原始文本数据加载 ViperEkura 2026-05-12 11:17:24 +0800
  • 38e18fdfd3 refactor: PagedCache Facade 模式,提取 PagePool/PrefixCache/TaskTable ViperEkura 2026-05-11 15:21:55 +0800
  • 4753958f92 refactor: 页状态移入 PagedCache,Task 纯化为域对象 ViperEkura 2026-05-11 14:42:39 +0800
  • 73d6cc0f26 refactor: TaskManager 剥离页管理,STOP 移至 task.py ViperEkura 2026-05-11 14:04:31 +0800
  • 317ed90bac refactor: 拆分 scheduler 为 TaskManager + Executor ViperEkura 2026-05-11 13:50:11 +0800