- save_bin/load_bin: save_json/load_json 替换为直接 json.dump/json.load,修复致命 bug - _normalize: 空 cum 列表 guard,防止 IndexError - load_json: 改为仅支持 JSONL 逐行解析 (json.loads),移除 .json 支持 - detect_format: 只匹配 *.jsonl,不再匹配 *.json - save_json: 输出扩展名改为 .jsonl - GRPODataset.__getitem__: 补齐 .to(dtype=torch.long/bool) 与其他数据集一致 - load_bin: np.memmap mode='r+' 消除 PyTorch 不可写 tensor 警告 - 新增 16 个测试: bin roundtrip, mmap load, 空 key, JSONL 多行/文本, GRPO dtype/load, detect_format bin/jsonl, fetch multi-key/越界, json_to_bin 转换, DPO from JSONL, 显式 storage_type |
||
|---|---|---|
| .. | ||
| data | ||
| inference | ||
| module | ||
| parallel | ||
| trainer | ||
| conftest.py | ||