关于我

我是 NVIDIA 的高级计算架构师,专注于在 Hopper、Blackwell 和 Rubin 等前沿 GPU 上加速深度学习软件栈。

目前,我主要从事深度学习编译器的开发和端到端训练性能优化。研究兴趣涵盖编译器优化、高性能计算和 AI 系统,致力于将前沿深度学习模型推向业界领先的性能水平。

业余时间,我对新兴的深度学习算法保持浓厚兴趣,包括具身智能、AI4Science、大语言模型和 AI4Graphics。此外,我热爱摄影,喜欢徒步旅行,探索各地的自然风光。


🔨 深度学习编译器

参与的编译器项目:

  • Triton-to-TileIR (2024–2025): 连接 Triton 和 CuTile 生态系统 [代码]
  • CuTile (2023–至今): 实现优化 Pass 和 Bug 修复 [代码] [博客] [GTC]
  • Fuser (2022): 支持 gather、scatter、index_select 等图操作 [代码] [博客]

🚀 深度学习模型

生产系统的训练优化:

⚡ 高性能计算核函数

GPU 计算优化:


📬 联系方式

欢迎通过 GitHub 或邮件 cs.xinjie@gmail.com 联系我