AstrAI

Commit Graph

Author	SHA1	Message	Date
ViperEkura	dc7d2cfbca	refactor : FastAPI 懒加载单例，消除模块级副作用 - import astrai.inference 不再在模块加载时创建 FastAPI 实例 - 路由移至 APIRouter；get_app() 首次调用时懒构造单例 - _create_engine 和 run_server 的 param_path 改为必填 - 更新测试改用 get_app() 替代模块级 app	2026-06-04 15:52:27 +08:00
ViperEkura	b36a78c612	test : SFT 测试数据补全 position_ids 字段 - dummy_data 添加 position_ids 匹配 required_keys	2026-06-04 14:01:04 +08:00
ViperEkura	985d940db6	feat : 数据流水拼接策略支持 position_ids 预计算 - OutputConfig.position_ids_mode 三种模式控制边界策略 - pipeline._flush() 按配置生成扁平 position_ids 数组 - SFTDataset 在 __getitem__ 中返回 position_ids - SFTStrategy 将 position_ids 传入 model.forward()	2026-06-04 13:56:19 +08:00
ViperEkura	5e73ca20aa	feat : train CLI 新增 val_split/val_step/metrics/log 参数 - --val_split 从训练集按比例切分验证集 - --val_step 控制验证间隔 optimizer step 数 - --metrics 自定义日志指标列表，默认 loss lr - --log_dir / --log_interval 控制日志输出目录和频率	2026-06-03 14:31:22 +08:00
ViperEkura	438dc10391	fix : MMLU eval 使用 chat template 格式匹配 SFT 训练数据 - 原 prompt 为纯文本格式，与 SFT chat template 不匹配导致模型输出随机 - 新增 apply_chat() 将 MMLU prompt 包装为 user/assistant 对话格式 - choice_text 改为单字母（去掉空格前缀）适配模板输出 - 5-shot 时 few-shot 示例作为独立 user/assistant 轮次插入	2026-06-03 11:59:42 +08:00
ViperEkura	615ba5d8ef	feat : 新增 HumanEval pass@k 代码生成评测 - InferenceEngine.generate() 批量生成 n 个补全 - 正则提取函数体 + 停止符截断 - multiprocessing sandbox 执行 + timeout 保护 - 标准无偏 pass@k 公式 (1, 10, 100)	2026-06-03 10:52:32 +08:00
ViperEkura	02a7cb9fa0	feat : preprocessing 支持 DPO/GRPO 多输出格式 - InputConfig 新增 sources 字段驱动多输出映射 - SectionedMaskBuilder 提取 _process_sections/_build_multi 模板方法 - Pipeline 泛化 accumulate 逻辑处理多 key 结果 - 测试拆分为 config/builder/pipeline 三文件，纯函数风格	2026-06-03 10:32:10 +08:00
ViperEkura	9fe2121743	feat : TrainConfig 支持 val_split 从训练集自动切分验证集 - val_split 比例从 dataset 中划出验证集，用 random_seed 固定随机切分 - 若 val_dataset 已显式设置则跳过自动切分	2026-06-02 20:33:40 +08:00
ViperEkura	0422d6d38e	refactor : 移除 LocalStrategy._clear_env 冗余清理 - setup_parallel 已覆盖所有环境变量写入，无需前置清空	2026-06-02 11:40:45 +08:00
ViperEkura	9b416c1bbb	refactor : 并行启动 Strategy 模式重构，local_rank 解耦 - setup_parallel 接收 local_rank 参数，不再读环境变量推导 - TorchrunStrategy 从 env 读取 LOCAL_RANK，LocalStrategy 用 rank - _detect_launcher() 分级检测替代内联 RANK 检查 - _run_single_rank 统一入口，消除 _run_single/_run_multi 重复 - 优雅退出：except BaseException 终止子进程并 re-join - gradient_checkpointing_modules 判定提取到外部变量	2026-06-02 11:22:24 +08:00
ViperEkura	d6899100ac	Merge pull request #17 from yegroup001/main 增加多机DDP	2026-06-02 10:29:07 +08:00
yegroup001	0deee48602	feat : 训练脚本新增 gradient_checkpointing 与多机 DDP 参数	2026-06-02 01:01:00 +08:00
yegroup001	746a1475b2	fix : 修复存储层 rglob 死锁、DDP LOCAL_RANK 绑定	2026-06-02 01:01:00 +08:00
ViperEkura	01ce1fb9e3	refactor : Pipeline 去除去重，ids 重命名为 sequence，泛型透传 - 移除 Pipeline 内置去重逻辑及 dedup_signature 工具函数 - 删除 ProcessingConfig.deduplicate 字段 - builder 返回 'sequence' 替代 'ids'，与 dataset 层统一 - pipeline 纯透传，泛型处理任意 key 补齐默认值	2026-05-31 15:14:27 +08:00
ViperEkura	14f83cbdac	perf : 预编译 Jinja2 Template，避免每次 render 重新构建	2026-05-31 14:50:16 +08:00
ViperEkura	dbe5891201	refactor : 统一 SectionedMaskBuilder，支持可配置 dtype - 三合一 MaskBuilder，移除 chat/instruction/text，统一为 sections 配置 - OutputConfig 增加 dtype 字段 (per-key，默认 int32) - 移除 from __future__ import annotations - 测试适配新配置格式	2026-05-31 14:24:10 +08:00
ViperEkura	2a65c3314c	fix : 修复 created 时间戳、bin 多 shard 覆盖与文档遗漏 - openai.py/anthropic.py: created 从 0 改为 int(time.time()) - openai.py: ChatCompletionRequest 不支持参数非默认值时 warning - pipeline.py: bin 多 shard 使用子目录避免静默覆盖 - storage.py: MmapStore/detect_format 支持多 shard 聚合加载 - architecture.md: mermaid 类图新增 Pipeline 类 - preprocessing.md: 新增多 shard 输出布局与 Python API 示例 - protocol.py: docstring "6 methods" 改为 "5 methods"	2026-05-30 23:03:42 +08:00
ViperEkura	1c2ff05a6d	docs : 三轮深度验证修复文档与代码不一致 - architecture.md: 修正 unwrap_model 返回类型、Config Optional 标注、方法签名错误、类名错误 - training.md: 补充 on_error 回调、修正训练循环顺序、补全策略参数、model.safetensors - inference.md: 修正 GenerationRequest 参数顺序、async 语法、KVCache 描述、temperature 约束 - dataflow.md: 补充 Store.load/fetch 流程、修正可选参数默认值 - README/params: 多 GPU 示例补全 --parallel_mode、文档表补充 preprocessing.md - preprocessing.md: Chat 模式算法补全 BOS token 步骤	2026-05-30 21:41:06 +08:00
ViperEkura	31ae2deeba	refactor : BaseConfig 提供 from_json/to_json，嵌套 config 自动反序列化 - from_json/to_json 上提至 BaseConfig，所有子类自动继承 - _coerce 新增 dict 到 BaseConfig 子类的递归反序列化，消除子类 from_dict 重载 - PipelineConfig 等子类仅声明字段，零样板代码 - 测试 tokenizer 改为自包含 BPE（含 chat template），不依赖 params/ 目录 - 特殊 token 改用 ASCII 字符，兼容所有平台	2026-05-30 21:04:19 +08:00
ViperEkura	69207e2c57	refactor : 基于声明式 JSON 配置的预处理管线重构 - 用工厂注册的 MaskBuilder（chat/instruction/text）替换硬编码的 _transform_* 方法 - mask 规则以 role-to-action 映射声明在配置中，与 chat_template 完全解耦 - 单次编码 + role-span 追踪替代两次编码 + 长度差计算 mask 的方式 - 支持多轮对话训练：所有 assistant 轮次参与训练，而非仅最后一轮 - 新建 astrai.preprocessing 包（builder.py + pipeline.py），删除 astrai/preprocess.py - CLI 精简为 --config 参数，所有参数通过 PipelineConfig JSON 配置 - 新增 PipelineConfig、InputConfig、ProcessingConfig、OutputConfig dataclass - 文档：assets/docs/preprocessing.md - 27 个测试覆盖 mask builder、pipeline、配置序列化、工厂注册	2026-05-30 20:45:09 +08:00
ViperEkura	138c5bcc08	feat : 添加 JSONL 预处理管线 - Pipeline 模板, Reader 加 transform 加 Writer 可组合 - 自动检测 JSONL 格式, 支持 messages 文本 prompt 加 response 三种 - chat 数据通过 apply_chat_template 适配, 自动生成 loss_mask - 输出对齐 Store 和 DatasetFactory, 直接用于训练 - 默认 bin 格式, CLI 入口 scripts/tools/preprocess.py	2026-05-30 17:12:42 +08:00
ViperEkura	a923e0a23a	fix : 修复 MMLU 评测脚本数据源和依赖 - 数据源改为 Berkeley data.tar（GitHub zip 不含数据文件） - urllib 替换为 requests，支持代理下载 - zip 解压替换为 tar，增加目录 flatten 逻辑 - 添加 model.eval() 确保推理模式正确	2026-05-30 16:51:24 +08:00
ViperEkura	f521a30b22	fix : FSDP 优化器顺序、温度除零、调度器静默死亡、ref模型设备 - executor: use_orig_params 硬编码 True，FSDP 不替换 Parameter 对象 - strategy: DPO/GRPO ref 模型创建后移到 device - sample: TemperatureStrategy clamp 1e-8，engine 验证改为 >0 - scheduler: 异常不 re-raise 避免 daemon 静默死亡，stop() 发回调给 waiting 任务	2026-05-29 21:57:44 +08:00
ViperEkura	d4451f6afb	fix : 并行训练 state_dict 收集与训练/推理并发缺陷 - FSDPExecutor: unwrap_model 返回全量 state_dict (state_dict_type FULL)；use_orig_params=True - DDPExecutor/BaseExecutor: unwrap_model 统一返回 model.module.state_dict() / model.state_dict() - CheckpointCallback: 走 executor.unwrap_model 拿完整 state_dict - strategy.py: 移除 FSDP/DDp 依赖；create_ref_model(model_fn, state_dict) 纯函数 - TrainContextBuilder: 传递 model_fn + executor 到 strategy - GRPOStrategy.sync_ref_model: 通过 executor.unwrap_model 获取完整权重 - TaskManager.wait_for_tasks: 锁内检查队列，消除 clear/set 竞态 - ProtocolHandler: stop token 不再计入 completion_tokens（流式/非流式）	2026-05-29 21:12:52 +08:00
ViperEkura	a3275423a4	release : v1.3.7 Features - FSDP parallel backend with zero-redundancy sharded training - LoRA fine-tuning module with low-rank adapter injection and persistence - NTK-Aware RoPE dynamic scaling, extending context window limit - MMLU evaluation script for standardized model knowledge assessment - load_json/load_safetensors broadcast mechanism for cross-node distributed loading Refactors - Storage layer refactored to Store pattern, removed Fetcher layer, supporting multi-segment data with explicit length - Training backend refactored to Executor pattern (none/ddp/fsdp), decoupling parallel logic - Inference protocol layer refactored to Strategy/Builder pattern with independent OpenAI/Anthropic responders - Unified serialization layer, eliminating scattered I/O paths - Removed JSONStore from data pipeline, unified to H5/Bin dual format - Simplified _disable_random_init, moved scheduler into sync block - Removed -> None return annotations, split FSDP parameters Fixes - Disabled DDP static_graph to prevent no_sync/backward conflict under PyTorch 2.7.1 - Checkpoint resume restores optimizer/scheduler state and sampler remaining length - Unwrap DDP/FSDP on checkpoint save to avoid module. prefix - start_epoch/start_batch determined by user args, no longer overridden by checkpoint - Left padding in perplexity.py causing incorrect PPL with batch>1 - Storage multi-segment bug, switched JSON to JSONL - Early abort on task_extend failure after decode, notify waiting tasks on scheduler crash Docs - Synced architecture/training/inference/dataflow/params docs to actual code Tests - Completed inference protocol layer unit test coverage - Added LoRA module tests - Filled storage layer test gaps	2026-05-29 17:46:03 +08:00
ViperEkura	b37c3d000c	docs : 同步文档与实际代码 - 移除 JSONStore 引用（该类不存在） - 修正 Store.load() 和 DatasetFactory.load() 签名（无 tokenizer 参数） - 修正 TrainContextBuilder.with_resume_dir() 命名 - 修正 Checkpoint config 字段和 meta.json 描述 - 修正 ProtocolHandler.handle() 异步签名 - 修正采样继承图（平行子类，非线性） - 修正训练循环：回调移入 accumulate 块内 - 更新文档日期至 2026-05-28	2026-05-28 21:01:47 +08:00
ViperEkura	6031020e37	feat : load_json/load_safetensors 支持 broadcast，跨节点分布式加载 - load_json/load_safetensors/load_state_dict 新增 broadcast 参数 - broadcast=True 时 rank-0 读取后 broadcast_object_list 分发到所有 rank - load_state_dict 改为逐张量 broadcast，避免大模型 pickle 内存瓶颈 - 删除 _get_meta/_get_config wrapper，Checkpoint.load 直接调用 load_json - 参数注解 str \| Path 统一为 Union[str, Path]	2026-05-28 20:44:58 +08:00
ViperEkura	c424dfc293	feat : checkpoint 支持保存 config.json - Checkpoint.save 写入独立的 config.json（模型架构参数） - Checkpoint.load 读取 config.json，恢复时覆盖 context.model_config - TrainContext 新增 model_config 字段，builder 从 resume_dir/config.json 加载 - BaseConfig.to_dict 支持 tuple 和嵌套 dataclass（如 LoRAConfig） - 删除 _get_meta/_get_config wrapper，直接使用 load_json	2026-05-28 20:21:51 +08:00
ViperEkura	3a28e52e98	fix : start_epoch/start_batch 由用户参数决定，不再被 checkpoint 覆盖	2026-05-28 18:24:22 +08:00
ViperEkura	e371908b54	fix : 保存 checkpoint 时 unwrap DDP/FSDP 避免 module. 前缀 - 移除 state_dict_fn 参数 - _save_checkpoint 中先 unwrap_model 再 state_dict()	2026-05-28 18:10:04 +08:00
ViperEkura	7c99da155c	refactor: 删除数据流中的 JSONStore - 移除 JSONStore 及相关函数，训练框架不再依赖 tokenizer - Store 层只保留 H5Store 和 MmapStore 两种后端	2026-05-28 15:54:26 +08:00
ViperEkura	629e72385b	fix : 修复存储层 bug，JSON 切换为 JSONL，补齐测试覆盖 - save_bin/load_bin: save_json/load_json 替换为直接 json.dump/json.load，修复致命 bug - _normalize: 空 cum 列表 guard，防止 IndexError - load_json: 改为仅支持 JSONL 逐行解析 (json.loads)，移除 .json 支持 - detect_format: 只匹配 .jsonl，不再匹配 .json - save_json: 输出扩展名改为 .jsonl - GRPODataset.__getitem__: 补齐 .to(dtype=torch.long/bool) 与其他数据集一致 - load_bin: np.memmap mode='r+' 消除 PyTorch 不可写 tensor 警告 - 新增 16 个测试: bin roundtrip, mmap load, 空 key, JSONL 多行/文本, GRPO dtype/load, detect_format bin/jsonl, fetch multi-key/越界, json_to_bin 转换, DPO from JSONL, 显式 storage_type	2026-05-28 15:29:46 +08:00
ViperEkura	0a708fff24	docs : 更新架构文档与 storage 注释，同步 Store 重构 - architecture.md: 类图/关系线全部更新 (BaseStorage→Store, StorageFactory→StoreFactory, 新增 MmapStore) - architecture.md: 移除 BaseSegmentFetcher/MultiSegmentFetcher 类图与关系 - dataflow.md: 管线加入 .bin 格式, Store._data + _cum 架构 - storage.py: module docstring 改用缩进式注释风格	2026-05-28 14:36:18 +08:00
ViperEkura	6e150ea6d0	refactor : Storage 层重构为 Store，移除 Fetcher 中间层，支持多段数据与显式长度 - 合并 BaseStorage + MultiSegmentFetcher + BaseSegmentFetcher 三层为 Store ABC - Store._data 直接持有 Dict[str, List[Tensor]]，不做强制拼接避免 OOM - _fetch_key 统一用 bisect 跨段切片，单段多段同一路径 - _length 显式存储（min total across keys），__len__ 返回 O(1) - MmapStore/H5Store/JSONStore 统一走 _normalize() 注册分段并预计算累积长度 - 所有 I/O 函数 (save_h5/load_h5/json_to_bin 等) 保持不变	2026-05-28 14:23:49 +08:00
ViperEkura	cb8dcb97ea	refactor : 移除 -> None 返回值标注，拆分 FSDP 参数，新增 mmap 数据集存储 - 删除所有 def 函数 -> None 返回值类型标注 - FSDPExecutor 参数从 **kwargs 拆为显式声明，None 值自动过滤 - 新增 MmapStorage (bin) 存储后端，基于 numpy.memmap 零拷贝加载 - 新增 save_bin/load_bin/json_to_bin 工具函数 - detect_format 支持 bin 格式自动检测	2026-05-28 13:57:06 +08:00
ViperEkura	2d5dc93b3d	fix : 修正类型标注与统一 CLI 参数命名 - AutoRegressiveLM.forward 返回类型标注 -> Dict[str, Tensor] - EmbeddingEncoder 移除冗余 position_ids 自动创建 - CLI 脚本模型目录参数统一为 --param_path	2026-05-27 20:49:44 +08:00
ViperEkura	4145d35e3c	refactor: 检查点加载重构，路径替代对象传递 - model: nn.Module -> model_fn 工厂函数，spawn 边界只传字符串 - Trainer.train(resume_dir=path) — Checkpoint 不再通过 pickle 传递 - TrainContextBuilder.with_resume_dir(path) — 自动检测 meta.json 分流 resume/from-scratch - CheckpointCallback: 拆分 state_dict 收集（全 rank）与磁盘写入（rank-0），修复 FSDP 死锁 - serialization: load_torch 支持 broadcast，消除 _load_extra/_load_torch_broadcast - optimizer/scheduler 恢复逻辑内联到 build()，在 executor.prepare() 之后执行 - pyproject.toml: ruff exclude build/ 避免 CI 扫描构建产物	2026-05-27 20:15:29 +08:00
ViperEkura	34c6c45bd6	feat: 初步实现 MMLU 评测脚本 - 支持 few-shot (log-likelihood ranking) 与 zero-shot - 自动下载 Hendrycks MMLU 数据集 - --device / --dtype 可配置，默认 GPU bf16	2026-05-26 20:23:31 +08:00
ViperEkura	e9def84ce7	fix : perplexity.py left padding 导致 batch>1 时 PPL 计算错误	2026-05-26 19:59:57 +08:00
ViperEkura	836e02a166	docs: 同步 architecture/inference/training 文档至实际代码，CLI 补充 fsdp 选项 - 修正 ProtocolHandler 架构：concrete + ResponseBuilder(ABC) 策略模式 - 修正训练循环 scheduler.step() 在 sync_gradients 块内 - 修正组合/聚合关系：注入组件改为 o--，删除不持有引用的关联 - --parallel_mode CLI choices 加入 fsdp - nprocs > 1 且 parallel_mode=none 时 raise error	2026-05-26 19:37:00 +08:00
ViperEkura	b558e61f63	refactor: 简化 _disable_random_init，scheduler 移入同步块 - _disable_random_init: enable=False 提前返回，dict 推导替代空字典 - scheduler.step() 移入 sync_gradients 守卫内	2026-05-26 17:05:25 +08:00
ViperEkura	65ab69543b	refactor: 统一序列化层，消除分散的 I/O 路径 - Checkpoint 改为 @dataclass，内聚 save/load 方法 - 提取 save_safetensors/load_safetensors/save_json/load_json 共享工具 - 新增 save_model/load_model_config/load_model_weights 模块函数 - automodel 和 lora 统一委托到 serialization 模块	2026-05-26 16:44:40 +08:00
ViperEkura	1d26aa2e93	fix: 禁用DDP static_graph避免PyTorch 2.7.1下no_sync与backward冲突 - static_graph=True时DDP.no_sync() + loss.backward()触发expect_autograd_hooks_内部断言 - PyTorch 2.7.1中no_sync上下文切换与静态图hook状态管理存在兼容性bug - 将static_graph设为False恢复梯度累积正常执行 - find_unused_parameters保持False（模型无不参与计算的参数）	2026-05-26 15:08:01 +08:00
ViperEkura	a548d4553e	fix: 断点续训恢复优化器/调度器状态及采样器剩余长度 - 使用Checkpoint.load()替代手动加载model.safetensors，恢复optimizer/scheduler状态 - TrainContextBuilder从checkpoint.extra恢复优化器和调度器state_dict - ResumableDistributedSampler.__len__返回剩余样本数而非总数 - 训练前对state_dict置空避免mp.spawn pickle 7GB大对象	2026-05-26 13:50:25 +08:00
ViperEkura	dd1b39f435	fix: ProgressBar默认输出到stdout - file参数默认值改为None, 内部用 or sys.stdout 兜底 - 清理inference API中未使用的import (Optional, time, field) - 删除test_protocol中未使用的ctx变量	2026-05-26 13:27:05 +08:00
ViperEkura	94d6e713e9	test: 补充推理协议层单测覆盖 - StopChecker、GenContext、StopInfo 单测 - OpenAIResponseBuilder / AnthropicResponseBuilder 全部方法 - Anthropic 停止序列裁剪逻辑（含 unyielded 边界） - GenerationRequest 参数校验含负值边界 - Scheduler prefill 短路验证	2026-05-26 00:21:52 +08:00
ViperEkura	47c37e4876	refactor: 推理协议层重构为策略/建造者模式 - ProtocolHandler 改为具体类，格式化委托给 ResponseBuilder - 新增 api/protocols/ 目录，含 OpenAIResponseBuilder、AnthropicResponseBuilder - GenContext、StopInfo 参数对象替代 StreamContext - 消除 Builder 的实例可变状态（accumulated、_yielded） - SSE 工具和停止检测收归 ProtocolHandler 统一管理 - prepare() 方法合并原来的 build_prompt、create_response_id - 参数校验去重：仅 GenerationRequest.init 负责校验 - Prefill 阶段提前短路完全命中的缓存任务	2026-05-26 00:12:57 +08:00
ViperEkura	737585a32a	feat: 新增NTK-Aware RoPE缩放支持 - RotaryEmbedding接受rope_scaling配置,自动计算scaled base - AutoRegressiveLMConfig和EncoderConfig新增rope_scaling字段	2026-05-25 21:22:07 +08:00
ViperEkura	a4688021bf	feat: 新增LoRA微调模块 - LoRALinear基于register_parameter托管base weight，state_dict路径不变 - inject_lora/merge_lora/save_lora/load_lora完备封装 - 24个单元测试覆盖注入、合并、存取、边界场景	2026-05-25 20:15:31 +08:00
ViperEkura	7df6eb9211	feat: 新增FSDP并行后端 - FSDPExecutor通过**fsdp_kwargs直传FSDP参数 - unwrap_model同时支持DDP和FSDP - parallel_mode新增fsdp选项	2026-05-25 19:43:14 +08:00

1 2 3 4 5 ...

404 Commits All Branches Search

404 Commits

All Branches