feat : TrainConfig 支持 val_split 从训练集自动切分验证集

- val_split 比例从 dataset 中划出验证集，用 random_seed 固定随机切分 - 若 val_dataset 已显式设置则跳过自动切分
2026-06-02 20:33:07 +08:00 · 2026-06-02 20:33:07 +08:00 · 9fe2121743
parent 0422d6d38e
commit 9fe2121743
2 changed files with 25 additions and 6 deletions
--- a/astrai/config/train_config.py
+++ b/astrai/config/train_config.py
@ -118,6 +118,12 @@ class TrainConfig(BaseConfig):
    val_dataset: Optional[Dataset] = field(
        default=None, metadata={"help": "Dataset for validation."}
    )
+    val_split: Optional[float] = field(
+        default=None,
+        metadata={
+            "help": "Ratio to split from training dataset for validation (e.g. 0.05). Ignored if val_dataset is set."
+        },
+    )
    val_step: int = field(
        default=1000,
        metadata={"help": "Number of optimizer steps between validation runs."},
--- a/astrai/trainer/train_context.py
+++ b/astrai/trainer/train_context.py
@ -2,8 +2,9 @@ from dataclasses import dataclass, field
 from pathlib import Path
 from typing import Optional, Self

+import torch
 import torch.nn as nn
-from torch.utils.data import DataLoader
+from torch.utils.data import DataLoader, random_split

 from astrai.config.train_config import TrainConfig
 from astrai.dataset import ResumableDistributedSampler
@ -108,15 +109,27 @@ class TrainContextBuilder:
        context.optimizer = cfg.optimizer_fn(model)
        context.scheduler = cfg.scheduler_fn(context.optimizer)

+        train_dataset = cfg.dataset
+        val_dataset = cfg.val_dataset
+
+        if val_dataset is None and cfg.val_split is not None:
+            n_total = len(cfg.dataset)
+            n_val = max(1, int(n_total * cfg.val_split))
+            n_train = n_total - n_val
+            generator = torch.Generator().manual_seed(cfg.random_seed)
+            train_dataset, val_dataset = random_split(
+                cfg.dataset, [n_train, n_val], generator=generator
+            )
+
        sampler_offset = context.iteration * cfg.batch_per_device
        sampler = ResumableDistributedSampler(
-            data_source=cfg.dataset,
+            data_source=train_dataset,
            start_epoch=context.epoch,
            start_iter=sampler_offset,
            seed=cfg.random_seed,
        )
        context.dataloader = DataLoader(
-            cfg.dataset,
+            train_dataset,
            batch_size=cfg.batch_per_device,
            sampler=sampler,
            num_workers=cfg.num_workers,
@ -124,16 +137,16 @@ class TrainContextBuilder:
            prefetch_factor=cfg.prefetch_factor,
        )

-        if cfg.val_dataset is not None:
+        if val_dataset is not None:
            val_sampler = ResumableDistributedSampler(
-                data_source=cfg.val_dataset,
+                data_source=val_dataset,
                start_epoch=0,
                start_iter=0,
                seed=cfg.random_seed,
                shuffle=False,
            )
            context.val_dataloader = DataLoader(
-                cfg.val_dataset,
+                val_dataset,
                batch_size=cfg.batch_per_device,
                sampler=val_sampler,
                num_workers=cfg.num_workers,