职位概述:
我们正在替一家知名科技企业的香港研究院寻找一位在具身智能(Embodied AI)领域经验丰富、充满激情的资深研究员。您将负责设计、开发和优化核心算法与系统,使机器人能够通过视觉和语言理解任务意图,感知并建模复杂的三维环境,并生成精确、鲁棒的动作策略来执行物理操作。您的核心工作将围绕多模态感知、空间认知与机器人操作决策的融合展开。
核心职责:
- 具身智能模型开发与部署 (VLA + Robotics Focus):
- 研究、设计、实现和优化 Vision-Language-Action (VLA) 模型,使机器人能够理解自然语言指令(包括复杂、多步骤任务),结合视觉场景理解,生成可执行的动作规划和控制策略(Manipulation Planning & Control)。
- 开发将大型语言模型(LLMs)和视觉基础模型(VFMs)的能力有效落地到真实机器人操作任务(如抓取、装配、灵巧操作)的技术方案。
- 解决具身场景下的关键挑战,如场景理解、动作表示学习、指令-动作对齐、长时任务规划、操作失败恢复等。
- 动态场景感知与理解 (Video Processing & Event Detection):
- 开发先进的视频理解算法,实现实时的事件检测、活动识别和目标跟踪,用于机器人在动态变化环境中的情境感知。
- 设计模型以理解时间序列上的视觉信息流,识别关键状态变化(如物体移动、遮挡、人的动作意图),为机器人决策提供实时感知输入。
- 探索视频数据驱动的世界模型(World Models)在预测环境动态和机器人动作后果中的应用。
- 三维环境重建与空间定位导航 (3D Modeling & vSLAM):
- 设计、实现和优化基于视觉的 3D 场景重建(3D Reconstruction)与稠密建图(Dense Mapping) 技术,为机器人构建精确、丰富的环境几何与语义模型。
- 开发和部署高性能、鲁棒的视觉 SLAM (vSLAM) / Visual-Inertial Odometry (VIO) 系统,确保机器人在复杂、多变环境中的精确定位。
- 将重建的3D模型与vSLAM系统紧密集成到机器人的导航(Navigation)和操作(Manipulation) 流程中,支持基于场景几何和语义信息的任务执行。
- 系统集成与验证:
- 将上述感知、理解、建模、规划与控制模块集成到真实的机器人平台(如机械臂、移动机器人、人形机器人)上。
- 设计并执行全面的仿真与真实世界实验,评估系统性能,识别瓶颈,并进行迭代优化。
- 解决实际部署中的工程挑战,如传感器标定、实时性、鲁棒性、计算效率等。
任职要求:
- 教育背景: 计算机科学、机器人学、人工智能、电子工程、应用数学或相关领域的硕士或博士学位。
- 核心技术经验 (必须):
- 具身智能/机器人学习: 在机器人操作(Manipulation)、VLA模型、模仿学习(Imitation Learning)、强化学习(RL)应用于机器人等方面有扎实的理论基础和实际项目经验。
- 计算机视觉: 精通深度学习在计算机视觉中的应用,特别是视频理解(动作识别、事件检测、时序建模)、3D视觉(点云处理、3D重建、深度估计)。
- vSLAM & 3D重建: 深入理解SLAM/VIO原理(如ORB-SLAM, VINS, DSO等),有实际开发或优化vSLAM系统和/或稠密3D重建(如NeRF, TSDF, Point-based methods) 的经验。
- 编程能力: 精通 Python,熟练掌握 PyTorch 或 TensorFlow 等深度学习框架。熟练掌握 C++ 用于性能关键模块开发。
- 实践经验 (强烈倾向):
- 有在真实物理机器人平台(如UR, Franka, Kuka, Fetch, Spot, Unitree等)上部署和调试复杂感知-决策-控制算法的经验。
- 有处理大规模、多模态(图像、视频、深度、IMU、语言指令)机器人数据集的经验。
- 熟悉机器人操作系统(ROS/ROS2)。
- 软技能:
- 出色的解决问题能力和分析能力。
- 强大的学习能力和探索前沿技术的热情。
- 良好的沟通能力和团队协作精神。
- 动手能力强,能独立推进项目并解决工程挑战。
优先考虑条件:
- 在顶级会议(如 RSS, CoRL, ICRA, IROS, CVPR, ICCV, ECCV, NeurIPS, ICML)上发表过与具身智能、机器人学习、计算机视觉、SLAM相关的论文。
- 在开源机器人/视觉项目(如 Habitat, iGibson, Isaac Sim, Open3D, etc.)中有显著贡献。
- 有大型多模态模型(LMMs)微调或应用经验。
- 有分布式训练、模型优化(如量化、剪枝)或边缘部署经验。