岗位职责:
1、负责大语言模型的研发与优化,包括模型架构、训练方法和调优策略等;
2、基于大语言模型,提升各类业务领域自然语言处理下游任务,例如文本分类、关键词提取等;
3、与业务部门合作,为各个业务场景定制大语言模型训练和部署方案,提升业务效果;
4、关注前沿技术,跟进业内最新研究进展和应用趋势,提出创新思路和方向;
5、优化现有大语言模型相关工具和平台,提高模型训练、部署和维护效率,降低成本,提升服务稳定性。
任职要求:
1、本科及以上学历,计算机相关专业优先,良好的沟通与表达和团队协作能力;
2、熟悉至少一种深度学习框架(PaddlePaddle、PyTorch、TensorFlow、Caffe等);
...
3、熟练使用Linux系统,熟练使用c++、python等语言,精通常用算法和数据结构,对常见的机器学习、深度学习算法有较强的实践能力;
4、对大模型分布式训练有经验,熟悉DeepSpeed/Megatron/ColossalAI等加速框架,熟悉数据并行DP,流水线并行PP,模型张量并行MP等3D并行技术;
5、熟悉transformer算子加速、混合精度训练、recompute、TVM编译器等技术
6、对OPT/BLOOM/LLaMA/GLM等大模型训练的稳定性、收敛性有了解或实践
show more
岗位职责:
1、负责大语言模型的研发与优化,包括模型架构、训练方法和调优策略等;
2、基于大语言模型,提升各类业务领域自然语言处理下游任务,例如文本分类、关键词提取等;
3、与业务部门合作,为各个业务场景定制大语言模型训练和部署方案,提升业务效果;
4、关注前沿技术,跟进业内最新研究进展和应用趋势,提出创新思路和方向;
5、优化现有大语言模型相关工具和平台,提高模型训练、部署和维护效率,降低成本,提升服务稳定性。
任职要求:
1、本科及以上学历,计算机相关专业优先,良好的沟通与表达和团队协作能力;
2、熟悉至少一种深度学习框架(PaddlePaddle、PyTorch、TensorFlow、Caffe等);
3、熟练使用Linux系统,熟练使用c++、python等语言,精通常用算法和数据结构,对常见的机器学习、深度学习算法有较强的实践能力;
4、对大模型分布式训练有经验,熟悉DeepSpeed/Megatron/ColossalAI等加速框架,熟悉数据并行DP,流水线并行PP,模型张量并行MP等3D并行技术;
5、熟悉transformer算子加速、混合精度训练、recompute、TVM编译器等技术
6、对OPT/BLOOM/LLaMA/GLM等大模型训练的稳定性、收敛性有了解或实践