FALCONN的索引构建过程非常快,百万量级的数据,维度如果是128维,其构建索引时间大概2-3min的样子,实时搜索可以做到几毫秒的响应时间。总之,这是小白菜见过的构建索引时间最短查询响应时间也极快的ANN工具库。
另外谈一下数据规模问题。对于小数据集和中型规模的数据集(几个million-几十个million), FALCONN和 NMSLIB 是一个非常不错的选择,如果对于大型规模数据集(几百个million以上),基于矢量量化的 Faiss 是一个明智的选择。关于这方面的讨论,可以参阅小白菜参阅的讨论 benchmark。
参考
[1]. 图像检索:再叙ANN Search
[2]. KD树和LSH局部敏感哈希
[3]. 浅谈KNN算法与KD树
[4]. Nmslib高维空间最近邻逼近搜索算法介绍
[5]. nmslib github