AstrAI/scripts/tools
ViperEkura 34c6c45bd6 feat: 初步实现 MMLU 评测脚本
- 支持 few-shot (log-likelihood ranking) 与 zero-shot
- 自动下载 Hendrycks MMLU 数据集
- --device / --dtype 可配置,默认 GPU bf16
2026-05-26 20:23:31 +08:00
..
benchmark.py refactor: Transformer更名为AutoRegressiveLM并新增EmbeddingEncoder 2026-05-17 15:29:20 +08:00
evaluate_mmlu.py feat: 初步实现 MMLU 评测脚本 2026-05-26 20:23:31 +08:00
generate.py docs: 修正文档中与源码不符的类名、方法签名和模块归属 2026-05-14 15:04:53 +08:00
perplexity.py fix : perplexity.py left padding 导致 batch>1 时 PPL 计算错误 2026-05-26 19:59:57 +08:00
server.py refactor: 重构 inference 模块架构,引入设计模式并分组文件 2026-05-14 17:42:37 +08:00
train.py docs: 同步 architecture/inference/training 文档至实际代码,CLI 补充 fsdp 选项 2026-05-26 19:37:00 +08:00