近日,陕振沛博士最新研究成果“DF-LSH:An efficient Double Filters Locality Sensitive Hashing for approximate nearest neighbor search”在国际权威期刊《Engineering Applications of Artificial Intelligence》(中国科学院1区,影响因子7.5<IF=7.5>)上发表。
该研究成果聚焦于局部敏感哈希(LSH)作为一种高效的随机化技术,已成为高维近似最近邻搜索领域的核心工具,在大规模推荐系统和信息检索等实际应用中发挥着关键作用。然而,传统LSH算法因哈希函数的随机性,常面临产生大量假阳性的问题,这不仅增加了检索这些假阳性所需的查询开销,还显著影响了整体检索效率。针对这一问题,近期对LSH变体虽提出了更严格的搜索方案或采用更紧凑的哈希码来识别合格候选项,但随着候选节点数量的增加,查询性能往往呈现下降趋势,难以满足日益增长的高维数据处理需求。
为有效解决上述问题,团队创新性地提出了双重过滤局部敏感哈希方案(DF-LSH)。该方案通过双重过滤机制,旨在实现高维数据集的高效近似最近邻搜索。具体而言,DF-LSH首先利用布隆过滤器学习数据感知哈希函数,通过智能降低误报率,为后续检索奠定坚实基础。随后,方案进一步利用随机投影的几何特性进行二次过滤,确保在减少假阳性的同时,保持检索的准确性和高效性。
实验结果表明,DF-LSH在各类高维数据集上均展现出卓越的查询精度与效率。相较于传统LSH技术,DF-LSH在保持相同查询精度的同时,平均查询时间最高可缩短约45倍,为高维近似最近邻搜索领域提供了全新的解决方案。这一突破性进展不仅提升了检索效率,也为大规模数据处理和信息检索任务提供了有力支持。(论文链接:https://webofscience.clarivate.cn/wos/woscc/full-record/WOS:001469921000001)
该研究得到了国家自然科学基金委员会项目(62261034)、中央高校基本科研业务费专项资金(20720181004)和贵州省教育厅项目(黔教合KY字[2022] 054)等项目的资助。数学与统计学院陕振沛博士第一作者,厦门大学信息学院张德福、雷云琪博士为通讯作者。(供稿/杨应明 编辑校对/张克 审核/杨光强)

图一:不同大小和维度的Audio、Mnist及Trevi数据集上,随机选取四个查询时,碰撞次数与得分之间的关系

图二:不同方法的查询准确率对比










