关于我

我是 NVIDIA 的高级计算架构师，专注于在 Hopper、Blackwell 和 Rubin 等前沿 GPU 上加速深度学习软件栈。

目前，我主要从事深度学习编译器的开发和端到端训练性能优化。研究兴趣涵盖编译器优化、高性能计算和 AI 系统，致力于将前沿深度学习模型推向业界领先的性能水平。

业余时间，我对新兴的深度学习算法保持浓厚兴趣，包括具身智能、AI4Science、大语言模型和 AI4Graphics。此外，我热爱摄影，喜欢徒步旅行，探索各地的自然风光。

🔨 深度学习编译器

参与的编译器项目：

Triton-to-TileIR (2024–2025): 连接 Triton 和 CuTile 生态系统 [代码]
CuTile (2023–至今): 实现优化 Pass 和 Bug 修复 [代码] [博客] [GTC]
Fuser (2022): 支持 gather、scatter、index_select 等图操作 [代码] [博客]

🚀 深度学习模型

生产系统的训练优化：

OpenFold2 (2023): MLPerf Training HPC 基准测试，v3.1 轮次 [代码] [博客] [论文]
GPT-3 (2023): MLPerf Training 基准测试，v4.0 轮次 [megatron-lm] [nemo]
GNN (2022): 为 PyG 社区添加 TorchScript 支持 [代码]

⚡ 高性能计算核函数

GPU 计算优化：

SpMM (2021): 🏆 Graph Challenge 冠军 [代码] · [论文] [报道]
K-Truss (2021): [论文]

📬 联系方式

欢迎通过 GitHub 或邮件 cs.xinjie@gmail.com 联系我