- Pipeline 模板, Reader 加 transform 加 Writer 可组合 - 自动检测 JSONL 格式, 支持 messages 文本 prompt 加 response 三种 - chat 数据通过 apply_chat_template 适配, 自动生成 loss_mask - 输出对齐 Store 和 DatasetFactory, 直接用于训练 - 默认 bin 格式, CLI 入口 scripts/tools/preprocess.py |
||
|---|---|---|
| .. | ||
| benchmark.py | ||
| evaluate_mmlu.py | ||
| generate.py | ||
| perplexity.py | ||
| preprocess.py | ||
| server.py | ||
| train.py | ||