AstrAI/astrai
ViperEkura 629e72385b fix : 修复存储层 bug,JSON 切换为 JSONL,补齐测试覆盖
- save_bin/load_bin: save_json/load_json 替换为直接 json.dump/json.load,修复致命 bug
- _normalize: 空 cum 列表 guard,防止 IndexError
- load_json: 改为仅支持 JSONL 逐行解析 (json.loads),移除 .json 支持
- detect_format: 只匹配 *.jsonl,不再匹配 *.json
- save_json: 输出扩展名改为 .jsonl
- GRPODataset.__getitem__: 补齐 .to(dtype=torch.long/bool) 与其他数据集一致
- load_bin: np.memmap mode='r+' 消除 PyTorch 不可写 tensor 警告
- 新增 16 个测试: bin roundtrip, mmap load, 空 key, JSONL 多行/文本, GRPO dtype/load, detect_format bin/jsonl, fetch multi-key/越界, json_to_bin 转换, DPO from JSONL, 显式 storage_type
2026-05-28 15:29:46 +08:00
..
config refactor: 检查点加载重构,路径替代对象传递 2026-05-27 20:15:29 +08:00
dataset fix : 修复存储层 bug,JSON 切换为 JSONL,补齐测试覆盖 2026-05-28 15:29:46 +08:00
inference refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
model refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
parallel refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
tokenize fix: 移除多余 request 参数并增强 tokenizer 健壮性 2026-05-17 12:52:18 +08:00
trainer refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
__init__.py fix: 修复 to_dict list 类型丢失与 OpenAI stop 参数失效 2026-05-19 21:07:07 +08:00
factory.py refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00
protocols.py refactor: 重构训练后端为 Executor 模式 2026-05-24 20:35:44 +08:00
serialization.py refactor : 移除 -> None 返回值标注,拆分 FSDP 参数,新增 mmap 数据集存储 2026-05-28 13:57:06 +08:00