关于我
我是 NVIDIA 的高级计算架构师,专注于在 Hopper、Blackwell 和 Rubin 等前沿 GPU 上加速深度学习软件栈。
目前,我主要从事深度学习编译器的开发和端到端训练性能优化。研究兴趣涵盖编译器优化、高性能计算和 AI 系统,致力于将前沿深度学习模型推向业界领先的性能水平。
业余时间,我对新兴的深度学习算法保持浓厚兴趣,包括具身智能、AI4Science、大语言模型和 AI4Graphics。此外,我热爱摄影,喜欢徒步旅行,探索各地的自然风光。
🔨 深度学习编译器
参与的编译器项目:
- Triton-to-TileIR (2024–2025): 连接 Triton 和 CuTile 生态系统 [代码]
- CuTile (2023–至今): 实现优化 Pass 和 Bug 修复 [代码] [博客] [GTC]
- Fuser (2022): 支持 gather、scatter、index_select 等图操作 [代码] [博客]
🚀 深度学习模型
生产系统的训练优化:
- OpenFold2 (2023): MLPerf Training HPC 基准测试,v3.1 轮次 [代码] [博客] [论文]
- GPT-3 (2023): MLPerf Training 基准测试,v4.0 轮次 [megatron-lm] [nemo]
- GNN (2022): 为 PyG 社区添加 TorchScript 支持 [代码]
⚡ 高性能计算核函数
GPU 计算优化:
- SpMM (2021): 🏆 Graph Challenge 冠军 [代码] · [论文] [报道]
- K-Truss (2021): [论文]
📬 联系方式
欢迎通过 GitHub 或邮件 cs.xinjie@gmail.com 联系我