职位描述
1、参与深度学习训练底层框架研发, 负责超大规模训练技术在公司实际业务场景中的计算效率优化;
2、超大规模训练场景下,探索前沿的分布式系统设计,包括不限于通信优化、内存优化、计算优化等;
3、线上大规模训练任务稳定性、易用性维护;
4、负责 PyTorch 2.0/TorchDynamo/TorchInductor/Triton 等相关算子开发和性能优化工作;
职位要求
1、编程能力扎实,熟悉 C++/Python,熟悉常见数据结构和设计模式;
2、熟悉计算机系统原理,理解硬件机制;
3、熟悉深度学习基本原理和 AI 框架 (TensorFlow/PyTorch/JAX等), 有对 Pytorch 二次开发经验者优先
4、熟悉深度学习框架优化/问题定位相关工具链基本原理, 有二次开发经验者优先 拥有高性能计算或模型优化经验和兴趣 (CUDA/Triton/OpenMP);
5、有acm、noi、kaggle等各类竞赛获奖经历者优先;
6、热爱技术、有较强的学习能力、复杂问题归纳梳理能力.
...