关于公司
一家专注于向量数据库研发的全球领先人工智能(AI)数据处理公司。
关于团队
研发团队
关于岗位职责
作为该核心引擎团队的一员,你将负责构建下一代面向 AI 应用的“高性能非结构化数据+全文”混合检索基础设施。你将主导该系统在复杂属性过滤、倒排索引及全文检索领域的架构升级,对标并超越主流搜索引擎在云原生场景下的性能表现,解决 PB 级数据下高并发、低延迟的混合查询挑战。
1. 核心研发职责
1.1查询引擎内核研发:负责系统核心查询引擎的研发,设计并实现高性能的数据查询引擎、索引算法及相关存储格式。
...
1.2 云原生全文搜索子系统:研发适用于分布式云架构的全文检索子系统,实现并优化分词(Tokenization)、相关性打分(BM25/TF-IDF)、短语查询、重排(Rerank)等核心功能。
2. 混合检索架构与优化
2.1 多模态查询链路设计:设计“向量+标量+全文”的混合查询链路,优化查询规划器(Query Planner)和成本模型(Cost Model),实现不同索引路径的智能选择与执行计划优化。
2.2 复杂查询一致性:解决结构化与非结构化数据混合查询中的数据一致性、过滤下推(Filter Pushdown)及预计算问题。
3. 高性能计算与系统演进
3.1 性能极限调优:针对海量数据的索引构建与查询进行性能调优,利用 SIMD 指令集、内存布局优化、高效压缩算法等技术提升系统的吞吐量,降低延时和资源消耗。
3.2 资源调度管理:解决冷热分离、多租户隔离下的搜索资源隔离和调度问题。
4. 开源生态与技术影响力
4.1 开源社区深度参与:积极参与相关开源社区,主导全文检索和属性过滤相关功能设计的撰写与评审。
4.2 前沿技术探索:跟踪学术界与工业界在信息检索(IR)领域的前沿进展,提升团队在搜索技术领域的影响力。
关于职位要求
1. 基础素质与经验
1.1 拥有3年以上数据库内核或搜索引擎内核研发经验,具备扎实的算法与数据结构功底。
1.2 具有主流基础设施项目开发经验,深度参与过以下至少一项技术体系的研发或贡献:
(1)搜索引擎内核方向: 深入理解 Lucene、ElasticSearch、Solr、Tantivy 或 Bleve 的内部实现原理。熟悉倒排索引结构、FST (Finite State Transducer)、Posting List压缩算法(如 Roaring Bitmap, Frame of Reference)、Segment Merge 机制等。
(2)数据库查询引擎方向: 熟悉数据库内核开发,有 Query Optimizer(查询优化器)或 Execution Engine(执行引擎)开发经验,理解 Volcano 模型、向量化执行等概念。
2. 分布式系统能力
2.1 理解分布式系统的核心问题,如 Sharding 策略、副本机制、分布式事务及一致性协议。
2.2 熟悉主流大数据或搜索架构(如 ClickHouse, Doris, StarRocks, Splunk 等)中的索引与查询实现者优先。
【加分项】
1. 有基于 Tantivy (Rust) 进行二次开发的经验。
2. 熟悉 NLP 基础技术,了解分词器(Tokenizer)、停用词处理及多语言支持方案。
3. 熟悉向量数据库原理,了解 ANN 索引(HNSW, DiskANN)与标量索引的联合查询优化。
4. 在 Apache Lucene/Solr 或其他知名开源数据库/搜索项目中有核心代码贡献 (Committer/PMC) 者优先。