feat: 新增训练后端工厂框架

- BaseTrainingBackend 定义 prepare/accumulate/unwrap_model 抽象 - DDPTrainingBackend 支持全部 DDP 参数并通过 BackendFactory 注册 - unwrap_model 改为实例方法，由子类各自实现
2026-05-24 15:13:44 +08:00 · 2026-05-24 15:13:44 +08:00 · 8cbf3f36e2
parent 0594ce1017
commit 8cbf3f36e2
2 changed files with 193 additions and 0 deletions
--- a/astrai/parallel/init.py
+++ b/astrai/parallel/init.py
@ -1,3 +1,9 @@
 from astrai.parallel.backend import (
    AccumOptimizer,
    AccumScheduler,
    BackendFactory,
    BaseTrainingBackend,
 )
 from astrai.parallel.module import ColumnParallelLinear, RowParallelLinear
 from astrai.parallel.setup import (
    get_current_device,
@ -17,4 +23,8 @@ __all__ = [
    "spawn_parallel_fn",
    "RowParallelLinear",
    "ColumnParallelLinear",
    "BackendFactory",
    "BaseTrainingBackend",
    "AccumOptimizer",
    "AccumScheduler",
 ]
--- a/astrai/parallel/backend.py
+++ b/astrai/parallel/backend.py
@ -0,0 +1,183 @@
 """Unified training backend — parallel strategy + gradient accumulation."""
 import contextlib
 import logging
 from abc import ABC, abstractmethod
 from contextlib import contextmanager
 from typing import Optional, Tuple
 import torch
 import torch.nn as nn
 from torch.nn.parallel import DistributedDataParallel as DDP
 from torch.optim import Optimizer
 from torch.optim.lr_scheduler import LRScheduler
 from torch.utils.data import DataLoader
 from astrai.factory import BaseFactory
 from astrai.parallel.setup import get_rank, get_world_size
 logger = logging.getLogger(__name__)
 class AccumOptimizer:
    def __init__(self, optimizer: Optimizer, backend: "BaseTrainingBackend"):
        self.optimizer = optimizer
        self._backend = backend
    def step(self, closure=None):
        if self._backend._sync_gradients:
            self.optimizer.step(closure)
    def zero_grad(self):
        if self._backend._sync_gradients:
            self.optimizer.zero_grad()
    @property
    def param_groups(self):
        return self.optimizer.param_groups
    def state_dict(self):
        return self.optimizer.state_dict()
    def load_state_dict(self, d):
        self.optimizer.load_state_dict(d)
 class AccumScheduler:
    def __init__(self, scheduler: LRScheduler, backend: "BaseTrainingBackend"):
        self.scheduler = scheduler
        self._backend = backend
    def step(self):
        if self._backend._sync_gradients:
            self.scheduler.step()
    def state_dict(self):
        return self.scheduler.state_dict()
    def load_state_dict(self, d):
        self.scheduler.load_state_dict(d)
    def get_last_lr(self):
        return self.scheduler.get_last_lr()
 class BaseTrainingBackend(ABC):
    def __init__(self, grad_accum_steps: int = 1):
        self.grad_accum_steps = max(grad_accum_steps, 1)
        self._step: int = 0
        self._sync_gradients: bool = True
    def prepare(
        self,
        model: nn.Module,
        optimizer: Optional[Optimizer] = None,
        dataloader: Optional[DataLoader] = None,
        scheduler: Optional[LRScheduler] = None,
    ) -> Tuple[
        nn.Module, Optional[Optimizer], Optional[DataLoader], Optional[LRScheduler]
    ]:
        model = self._prepare_model(model)
        if optimizer is not None:
            optimizer = AccumOptimizer(optimizer, self)
        if scheduler is not None:
            scheduler = AccumScheduler(scheduler, self)
        return model, optimizer, dataloader, scheduler
    @abstractmethod
    def _prepare_model(self, model: nn.Module) -> nn.Module:
        pass
    def _no_sync(self, model: nn.Module):
        return contextlib.nullcontext()
    @contextmanager
    def accumulate(self, model: nn.Module):
        self._step += 1
        self._sync_gradients = self._step % self.grad_accum_steps == 0
        if not self._sync_gradients:
            with self._no_sync(model):
                yield
        else:
            yield
    def backward(self, loss: torch.Tensor):
        loss.backward()
    def unwrap_model(self, model: nn.Module) -> nn.Module:
        return model
    @property
    def use_distributed(self) -> bool:
        return get_world_size() > 1
 class BackendFactory(BaseFactory[BaseTrainingBackend]):
    pass
@BackendFactory.register("single")
 class SingleDeviceBackend(BaseTrainingBackend):
    def _prepare_model(self, model: nn.Module) -> nn.Module:
        return model
@BackendFactory.register("ddp")
 class DDPTrainingBackend(BaseTrainingBackend):
    def __init__(
        self,
        grad_accum_steps: int = 1,
        dim: int = 0,
        broadcast_buffers: bool = True,
        init_sync: bool = True,
        process_group=None,
        bucket_cap_mb: int = 25,
        find_unused_parameters: bool = False,
        check_reduction: bool = False,
        gradient_as_bucket_view: bool = False,
        static_graph: bool = False,
        delay_all_reduce_named_params=None,
        param_to_hook_all_reduce=None,
        mixed_precision=None,
        device_mesh=None,
    ):
        super().__init__(grad_accum_steps=grad_accum_steps)
        self._ddp_kwargs = dict(
            dim=dim,
            broadcast_buffers=broadcast_buffers,
            init_sync=init_sync,
            process_group=process_group,
            bucket_cap_mb=bucket_cap_mb,
            find_unused_parameters=find_unused_parameters,
            check_reduction=check_reduction,
            gradient_as_bucket_view=gradient_as_bucket_view,
            static_graph=static_graph,
            delay_all_reduce_named_params=delay_all_reduce_named_params,
            param_to_hook_all_reduce=param_to_hook_all_reduce,
            mixed_precision=mixed_precision,
            device_mesh=device_mesh,
        )
    def _prepare_model(self, model: nn.Module) -> nn.Module:
        if not self.use_distributed:
            logger.warning("DDP backend selected but world_size=1, model not wrapped")
            return model
        local_rank = get_rank()
        model = DDP(
            model,
            device_ids=[local_rank],
            output_device=local_rank,
            **self._ddp_kwargs,
        )
        logger.info("Model wrapped with DDP (world_size=%d)", get_world_size())
        return model
    def _no_sync(self, model: nn.Module):
        if isinstance(model, DDP):
            return model.no_sync()
        return contextlib.nullcontext()
    def unwrap_model(self, model: nn.Module) -> nn.Module:
        if isinstance(model, DDP):
            return model.module
        return model