resume/resume-zh_CN.tex

107 lines
5.1 KiB
TeX
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

% !TEX TS-program = xelatex
% !TEX encoding = UTF-8 Unicode
% !Mode:: "TeX:UTF-8"
\documentclass{resume}
%\usepackage{zh_CN-Adobefonts_external} % Simplified Chinese Support using external fonts
%\usepackage{zh_CN-Adobefonts_internal} % Simplified Chinese Support using system fonts
\usepackage{xeCJK}
\setCJKmainfont[BoldFont=SimHei,ItalicFont=KaiTi]{SimSun}
\setCJKsansfont{SimHei}
\setCJKmonofont{FangSong}
\usepackage{linespacing_fix} % disable extra space before next section
\usepackage{cite}
\begin{document}
\pagenumbering{gobble} % suppress displaying page number
\name{孔星权}
\basicInfo{
\email{3081035982@qq.com} \textperiodcentered\
\phone{(+86) 18715797956} \textperiodcentered\
\github[ViperEkura]{https://github.com/ViperEkura} }
\section{\faGraduationCap\ 教育背景}
\datedsubsection{\textbf{西南石油大学}(双一流) \;\;\;\; 软件工程}{2023 -- 至今}
\section{\faUsers\ 实习/项目经历}
\datedsubsection{\textbf{AstrAI - 轻量级 LLM 训练推理框架}}{2025年2月 -- 至今}
\begin{onehalfspacing}
\begin{itemize}
\item 项目简介1B 参数规模从零手写大语言模型框架,支持训练推理一体化,基于 8 卡 L20 完成全流程训练与推理优化
\item 承担工作:
\begin{itemize}
\item 搭建 Decoder-only Transformer 架构完成预训练、SFT、DPO/GRPO 等算法实现,项目架构经两次重构迭代
\item 实现 KVCache 推理加速、Continuous Batching 等推理优化策略
\item 组件化模块封装与优化器扩展,代码模块化程度高,支持灵活扩展
\end{itemize}
\item 项目链接:
\begin{itemize}
\item GitHub: \href{https://github.com/ViperEkura/AstrAI}{ViperEkura/AstrAI}
\item 技术简介视频1w+ 播放):\href{https://www.bilibili.com/video/BV1fuLB6yEj6}{BV1fuLB6yEj6}
\end{itemize}
\end{itemize}
\end{onehalfspacing}
\datedsubsection{\textbf{ASC26 - 具身世界模型 UnifoLM-WMA 推理优化}}{2026年1月 -- 2026年3月}
\begin{onehalfspacing}
\begin{itemize}
\item 项目简介基于扩散模型DDIM的具身智能世界模型 UnifoLM-WMA-0 推理优化,目标将"思考-行动"延迟从分钟级压缩至秒级
\item 承担工作:
\begin{itemize}
\item 低精度推理:对比 FP16 与 BF16 数值精度FP16 尾数位 10bit vs BF16 7bit选择 FP16 进行权重转换与 autocast 推理,内存占用减半,单次迭代从 68s 降至 29s
\item 数据搬运优化:将 Attention Mask 构造从 CPU 移至 GPU 端,消除跨设备数据拷贝瓶颈,单次迭代降低约 4s
\item 冷启动优化:通过上下文管理器禁用 nn.init 随机初始化,模型实例化阶段跳过无效参数填充,减少冷启动延迟
\item 其他尝试:评估 DeepCache 特征缓存策略,因 PSNR 过低(<25dB未纳入最终方案
\end{itemize}
\item 竞赛成绩:全国二等奖,迭代时间从 68s 降至约 24s取得约 \textbf{2.8 倍}加速
\end{itemize}
\end{onehalfspacing}
\datedsubsection{\textbf{先导杯 - 基于异构平台的卷积算子优化}}{2024年7月 -- 2024年11月}
\begin{onehalfspacing}
\begin{itemize}
\item 项目简介:基于异构平台的卷积算子优化,在国产 DCU 上提升多模态大模型训练速度,聚焦半精度浮点数在异构计算平台上的性能表现,利用并行计算技术加速卷积运算
\item 承担工作:
\begin{itemize}
\item 基于 Winograd 算法实现卷积算子,利用共享内存与寄存器优化减少数据搬运开销
\item 通过 swizzle 优化 bank conflict相较原始朴素实现取得加速效果
\end{itemize}
\item 竞赛成绩:先导杯优胜奖,相较原始朴素实现取得 \textbf{7 倍}加速
\end{itemize}
\end{onehalfspacing}
% Reference Test
%\datedsubsection{\textbf{Paper Title\cite{zaharia2012resilient}}}{May. 2015}
%An xxx optimized for xxx\cite{verma2015large}
%\begin{itemize}
% \item main contribution
%\end{itemize}
\section{\faCogs\ IT 技能}
\begin{itemize}[parsep=0.5ex]
\item 编程语言Python、C/C++
\item 并行编程与异构计算CUDA、HIP、OpenMP 等多层次并行编程模型
\item 深度学习PyTorch 框架,熟悉 LLM 训练/推理全流程预训练、SFT、RL、KVCache 优化等),了解 Transformer、扩散模型等主流架构原理
\item 性能分析与优化NVIDIA Nsight Compute/Systems、GPU 算子优化(共享内存/寄存器优化、bank conflict 消除、内存池预分配)
\end{itemize}
\section{\faTrophy\ 获奖情况}
\datedline{ASC26世界大学生超级计算机竞赛全国二等奖}{2026年1月-2026年3月}
\datedline{ASC25世界大学生超级计算机竞赛全国二等奖}{2025年1月-2025年2月}
\datedline{全国大学生数学建模竞赛省二等奖}{2025年9月}
\datedline{第二届开放原子大赛-Tecorigin 算子开发任务挑战赛三等奖}{2024年9月-2024年12月}
\datedline{中国大学生系统能力设计大赛-先导杯优胜奖}{2024年7月-2024年11月}
\datedline{蓝桥杯全国软件和信息技术专业人才大赛-人工智能赛全国三等奖}{2024年4月}
%% Reference
%\newpage
%\bibliographystyle{IEEETran}
%\bibliography{mycite}
\end{document}