107 lines
5.1 KiB
TeX
107 lines
5.1 KiB
TeX
% !TEX TS-program = xelatex
|
||
% !TEX encoding = UTF-8 Unicode
|
||
% !Mode:: "TeX:UTF-8"
|
||
|
||
\documentclass{resume}
|
||
%\usepackage{zh_CN-Adobefonts_external} % Simplified Chinese Support using external fonts
|
||
%\usepackage{zh_CN-Adobefonts_internal} % Simplified Chinese Support using system fonts
|
||
\usepackage{xeCJK}
|
||
\setCJKmainfont[BoldFont=SimHei,ItalicFont=KaiTi]{SimSun}
|
||
\setCJKsansfont{SimHei}
|
||
\setCJKmonofont{FangSong}
|
||
\usepackage{linespacing_fix} % disable extra space before next section
|
||
\usepackage{cite}
|
||
|
||
\begin{document}
|
||
\pagenumbering{gobble} % suppress displaying page number
|
||
|
||
\name{孔星权}
|
||
|
||
\basicInfo{
|
||
\email{3081035982@qq.com} \textperiodcentered\
|
||
\phone{(+86) 18715797956} \textperiodcentered\
|
||
\github[ViperEkura]{https://github.com/ViperEkura} }
|
||
|
||
\section{\faGraduationCap\ 教育背景}
|
||
\datedsubsection{\textbf{西南石油大学}(双一流) \;\;\;\; 软件工程}{2023 -- 至今}
|
||
|
||
|
||
\section{\faUsers\ 实习/项目经历}
|
||
|
||
\datedsubsection{\textbf{AstrAI - 轻量级 LLM 训练推理框架}}{2025年2月 -- 至今}
|
||
\begin{onehalfspacing}
|
||
\begin{itemize}
|
||
\item 项目简介:1B 参数规模从零手写大语言模型框架,支持训练推理一体化,基于 8 卡 L20 完成全流程训练与推理优化
|
||
\item 承担工作:
|
||
\begin{itemize}
|
||
\item 搭建 Decoder-only Transformer 架构,完成预训练、SFT、DPO/GRPO 等算法实现,项目架构经两次重构迭代
|
||
\item 实现 KVCache 推理加速、Continuous Batching 等推理优化策略
|
||
\item 组件化模块封装与优化器扩展,代码模块化程度高,支持灵活扩展
|
||
\end{itemize}
|
||
\item 项目链接:
|
||
\begin{itemize}
|
||
\item GitHub: \href{https://github.com/ViperEkura/AstrAI}{ViperEkura/AstrAI}
|
||
\item 技术简介视频(1w+ 播放):\href{https://www.bilibili.com/video/BV1fuLB6yEj6}{BV1fuLB6yEj6}
|
||
\end{itemize}
|
||
\end{itemize}
|
||
\end{onehalfspacing}
|
||
|
||
\datedsubsection{\textbf{ASC26 - 具身世界模型 UnifoLM-WMA 推理优化}}{2026年1月 -- 2026年3月}
|
||
\begin{onehalfspacing}
|
||
\begin{itemize}
|
||
\item 项目简介:基于扩散模型(DDIM)的具身智能世界模型 UnifoLM-WMA-0 推理优化,目标将"思考-行动"延迟从分钟级压缩至秒级
|
||
\item 承担工作:
|
||
\begin{itemize}
|
||
\item 低精度推理:对比 FP16 与 BF16 数值精度(FP16 尾数位 10bit vs BF16 7bit),选择 FP16 进行权重转换与 autocast 推理,内存占用减半,单次迭代从 68s 降至 29s
|
||
\item 数据搬运优化:将 Attention Mask 构造从 CPU 移至 GPU 端,消除跨设备数据拷贝瓶颈,单次迭代降低约 4s
|
||
\item 冷启动优化:通过上下文管理器禁用 nn.init 随机初始化,模型实例化阶段跳过无效参数填充,减少冷启动延迟
|
||
\item 其他尝试:评估 DeepCache 特征缓存策略,因 PSNR 过低(<25dB)未纳入最终方案
|
||
\end{itemize}
|
||
\item 竞赛成绩:全国二等奖,迭代时间从 68s 降至约 24s,取得约 \textbf{2.8 倍}加速
|
||
\end{itemize}
|
||
\end{onehalfspacing}
|
||
|
||
\datedsubsection{\textbf{先导杯 - 基于异构平台的卷积算子优化}}{2024年7月 -- 2024年11月}
|
||
\begin{onehalfspacing}
|
||
\begin{itemize}
|
||
\item 项目简介:基于异构平台的卷积算子优化,在国产 DCU 上提升多模态大模型训练速度,聚焦半精度浮点数在异构计算平台上的性能表现,利用并行计算技术加速卷积运算
|
||
\item 承担工作:
|
||
\begin{itemize}
|
||
\item 基于 Winograd 算法实现卷积算子,利用共享内存与寄存器优化减少数据搬运开销
|
||
\item 通过 swizzle 优化 bank conflict,相较原始朴素实现取得加速效果
|
||
\end{itemize}
|
||
\item 竞赛成绩:先导杯优胜奖,相较原始朴素实现取得 \textbf{7 倍}加速
|
||
\end{itemize}
|
||
\end{onehalfspacing}
|
||
|
||
% Reference Test
|
||
%\datedsubsection{\textbf{Paper Title\cite{zaharia2012resilient}}}{May. 2015}
|
||
%An xxx optimized for xxx\cite{verma2015large}
|
||
%\begin{itemize}
|
||
% \item main contribution
|
||
%\end{itemize}
|
||
|
||
|
||
\section{\faCogs\ IT 技能}
|
||
\begin{itemize}[parsep=0.5ex]
|
||
\item 编程语言:Python、C/C++
|
||
\item 并行编程与异构计算:CUDA、HIP、OpenMP 等多层次并行编程模型
|
||
\item 深度学习:PyTorch 框架,熟悉 LLM 训练/推理全流程(预训练、SFT、RL、KVCache 优化等),了解 Transformer、扩散模型等主流架构原理
|
||
\item 性能分析与优化:NVIDIA Nsight Compute/Systems、GPU 算子优化(共享内存/寄存器优化、bank conflict 消除、内存池预分配)
|
||
\end{itemize}
|
||
|
||
\section{\faTrophy\ 获奖情况}
|
||
\datedline{ASC26世界大学生超级计算机竞赛全国二等奖}{2026年1月-2026年3月}
|
||
\datedline{ASC25世界大学生超级计算机竞赛全国二等奖}{2025年1月-2025年2月}
|
||
\datedline{全国大学生数学建模竞赛省二等奖}{2025年9月}
|
||
\datedline{第二届开放原子大赛-Tecorigin 算子开发任务挑战赛三等奖}{2024年9月-2024年12月}
|
||
\datedline{中国大学生系统能力设计大赛-先导杯优胜奖}{2024年7月-2024年11月}
|
||
\datedline{蓝桥杯全国软件和信息技术专业人才大赛-人工智能赛全国三等奖}{2024年4月}
|
||
|
||
|
||
%% Reference
|
||
%\newpage
|
||
%\bibliographystyle{IEEETran}
|
||
%\bibliography{mycite}
|
||
\end{document}
|