AstrAI/scripts/tools
ViperEkura 138c5bcc08 feat : 添加 JSONL 预处理管线
- Pipeline 模板, Reader 加 transform 加 Writer 可组合
- 自动检测 JSONL 格式, 支持 messages 文本 prompt 加 response 三种
- chat 数据通过 apply_chat_template 适配, 自动生成 loss_mask
- 输出对齐 Store 和 DatasetFactory, 直接用于训练
- 默认 bin 格式, CLI 入口 scripts/tools/preprocess.py
2026-05-30 17:12:42 +08:00
..
benchmark.py refactor: Transformer更名为AutoRegressiveLM并新增EmbeddingEncoder 2026-05-17 15:29:20 +08:00
evaluate_mmlu.py fix : 修复 MMLU 评测脚本数据源和依赖 2026-05-30 16:51:24 +08:00
generate.py docs: 修正文档中与源码不符的类名、方法签名和模块归属 2026-05-14 15:04:53 +08:00
perplexity.py fix : 修正类型标注与统一 CLI 参数命名 2026-05-27 20:49:44 +08:00
preprocess.py feat : 添加 JSONL 预处理管线 2026-05-30 17:12:42 +08:00
server.py fix : 修正类型标注与统一 CLI 参数命名 2026-05-27 20:49:44 +08:00
train.py refactor: 检查点加载重构,路径替代对象传递 2026-05-27 20:15:29 +08:00