docs: AdamW beta 默认值改为 (0.9, 0.95)

- 与 Muon 优化器的 AdamW 子优化器保持一致
- 同步更新 train.py/training.md/params.md/README
This commit is contained in:
ViperEkura 2026-05-17 17:07:01 +08:00
parent 10ebd7211f
commit 7621f05d3f
5 changed files with 14 additions and 14 deletions

View File

@ -90,8 +90,8 @@ nohup python scripts/tools/train.py \
--warmup_ratio=0.05 \ --warmup_ratio=0.05 \
--max_lr=1e-4 \ --max_lr=1e-4 \
--max_grad_norm=1.0 \ --max_grad_norm=1.0 \
--adamw_beta1=0.95 \ --adamw_beta1=0.9 \
--adamw_beta2=0.99 \ --adamw_beta2=0.95 \
--adamw_weight_decay=0.01 \ --adamw_weight_decay=0.01 \
--window_size=2048 \ --window_size=2048 \
--ckpt_interval=10000 \ --ckpt_interval=10000 \

View File

@ -96,8 +96,8 @@ nohup python scripts/tools/train.py \
--warmup_ratio=0.05 \ --warmup_ratio=0.05 \
--max_lr=1e-4 \ --max_lr=1e-4 \
--max_grad_norm=1.0 \ --max_grad_norm=1.0 \
--adamw_beta1=0.95 \ --adamw_beta1=0.9 \
--adamw_beta2=0.99 \ --adamw_beta2=0.95 \
--adamw_weight_decay=0.01 \ --adamw_weight_decay=0.01 \
--window_size=2048 \ --window_size=2048 \
--ckpt_interval=10000 \ --ckpt_interval=10000 \

View File

@ -25,8 +25,8 @@
| Parameter | Description | Default | | Parameter | Description | Default |
|-----------|-------------|---------| |-----------|-------------|---------|
| `--adamw_beta1` | AdamW beta1 | 0.95 | | `--adamw_beta1` | AdamW beta1 | 0.9 |
| `--adamw_beta2` | AdamW beta2 | 0.99 | | `--adamw_beta2` | AdamW beta2 | 0.95 |
| `--adamw_weight_decay` | AdamW weight decay | 0.01 | | `--adamw_weight_decay` | AdamW weight decay | 0.01 |
### Data Loading ### Data Loading
@ -81,8 +81,8 @@ nohup python scripts/tools/train.py \
--warmup_ratio=0.05 \ --warmup_ratio=0.05 \
--max_lr=1e-4 \ --max_lr=1e-4 \
--max_grad_norm=1.0 \ --max_grad_norm=1.0 \
--adamw_beta1=0.95 \ --adamw_beta1=0.9 \
--adamw_beta2=0.99 \ --adamw_beta2=0.95 \
--adamw_weight_decay=0.01 \ --adamw_weight_decay=0.01 \
--window_size=2048 \ --window_size=2048 \
--ckpt_interval=10000 \ --ckpt_interval=10000 \

View File

@ -196,8 +196,8 @@ nohup python scripts/tools/train.py \
--warmup_ratio=0.05 \ --warmup_ratio=0.05 \
--max_lr=1e-4 \ --max_lr=1e-4 \
--max_grad_norm=1.0 \ --max_grad_norm=1.0 \
--adamw_beta1=0.95 \ --adamw_beta1=0.9 \
--adamw_beta2=0.99 \ --adamw_beta2=0.95 \
--adamw_weight_decay=0.01 \ --adamw_weight_decay=0.01 \
--window_size=2048 \ --window_size=2048 \
--ckpt_interval=10000 \ --ckpt_interval=10000 \

View File

@ -69,14 +69,14 @@ def parse_args() -> argparse.Namespace:
parser.add_argument( parser.add_argument(
"--adamw_beta1", "--adamw_beta1",
type=float, type=float,
default=0.95, default=0.9,
help="Beta values for AdamW optimizer.", help="Beta1 for AdamW optimizer.",
) )
parser.add_argument( parser.add_argument(
"--adamw_beta2", "--adamw_beta2",
type=float, type=float,
default=0.99, default=0.95,
help="Beta values for AdamW optimizer.", help="Beta2 for AdamW optimizer.",
) )
parser.add_argument( parser.add_argument(
"--adamw_weight_decay", "--adamw_weight_decay",