AstrAI/scripts/tools
ViperEkura 69207e2c57 refactor : 基于声明式 JSON 配置的预处理管线重构
- 用工厂注册的 MaskBuilder(chat/instruction/text)替换硬编码的 _transform_* 方法
- mask 规则以 role-to-action 映射声明在配置中,与 chat_template 完全解耦
- 单次编码 + role-span 追踪替代两次编码 + 长度差计算 mask 的方式
- 支持多轮对话训练:所有 assistant 轮次参与训练,而非仅最后一轮
- 新建 astrai.preprocessing 包(builder.py + pipeline.py),删除 astrai/preprocess.py
- CLI 精简为 --config 参数,所有参数通过 PipelineConfig JSON 配置
- 新增 PipelineConfig、InputConfig、ProcessingConfig、OutputConfig dataclass
- 文档:assets/docs/preprocessing.md
- 27 个测试覆盖 mask builder、pipeline、配置序列化、工厂注册
2026-05-30 20:45:09 +08:00
..
benchmark.py refactor: Transformer更名为AutoRegressiveLM并新增EmbeddingEncoder 2026-05-17 15:29:20 +08:00
evaluate_mmlu.py fix : 修复 MMLU 评测脚本数据源和依赖 2026-05-30 16:51:24 +08:00
generate.py docs: 修正文档中与源码不符的类名、方法签名和模块归属 2026-05-14 15:04:53 +08:00
perplexity.py fix : 修正类型标注与统一 CLI 参数命名 2026-05-27 20:49:44 +08:00
preprocess.py refactor : 基于声明式 JSON 配置的预处理管线重构 2026-05-30 20:45:09 +08:00
server.py fix : 修正类型标注与统一 CLI 参数命名 2026-05-27 20:49:44 +08:00
train.py refactor: 检查点加载重构,路径替代对象传递 2026-05-27 20:15:29 +08:00