AstrAI/astrai/dataset
ViperEkura 629e72385b fix : 修复存储层 bug,JSON 切换为 JSONL,补齐测试覆盖
- save_bin/load_bin: save_json/load_json 替换为直接 json.dump/json.load,修复致命 bug
- _normalize: 空 cum 列表 guard,防止 IndexError
- load_json: 改为仅支持 JSONL 逐行解析 (json.loads),移除 .json 支持
- detect_format: 只匹配 *.jsonl,不再匹配 *.json
- save_json: 输出扩展名改为 .jsonl
- GRPODataset.__getitem__: 补齐 .to(dtype=torch.long/bool) 与其他数据集一致
- load_bin: np.memmap mode='r+' 消除 PyTorch 不可写 tensor 警告
- 新增 16 个测试: bin roundtrip, mmap load, 空 key, JSONL 多行/文本, GRPO dtype/load, detect_format bin/jsonl, fetch multi-key/越界, json_to_bin 转换, DPO from JSONL, 显式 storage_type
2026-05-28 15:29:46 +08:00
..
__init__.py refactor : Storage 层重构为 Store,移除 Fetcher 中间层,支持多段数据与显式长度 2026-05-28 14:23:49 +08:00
dataset.py fix : 修复存储层 bug,JSON 切换为 JSONL,补齐测试覆盖 2026-05-28 15:29:46 +08:00
sampler.py fix: 断点续训恢复优化器/调度器状态及采样器剩余长度 2026-05-26 13:50:25 +08:00
storage.py fix : 修复存储层 bug,JSON 切换为 JSONL,补齐测试覆盖 2026-05-28 15:29:46 +08:00