原公式全用 floor 少算 optimizer step,改用逐层 ceiling (ceil_div via (a+b-1)//b)对齐 DDP sampler padding + DataLoader drop_last=False 尾批 + batched 尾组截断。 |
||
|---|---|---|
| .. | ||
| benchmark.py | ||
| generate.py | ||
| perplexity.py | ||
| server.py | ||
| train.py | ||
原公式全用 floor 少算 optimizer step,改用逐层 ceiling (ceil_div via (a+b-1)//b)对齐 DDP sampler padding + DataLoader drop_last=False 尾批 + batched 尾组截断。 |
||
|---|---|---|
| .. | ||
| benchmark.py | ||
| generate.py | ||
| perplexity.py | ||
| server.py | ||
| train.py | ||