大道至简:极智嘉联合马来西亚大学、英国Surrey大学提出全新数据哈希检索算法

1, 十月 2024

近日,人工智能领域全球顶级旗舰会议NeurIPS 2021最终接收论文名单重磅公布。极智嘉AI研究院联合马来西亚大学、英国Surrey大学的研究成果在人工智能顶级学术会议NeurIPS 2021上成功发表,充分印证了极智嘉在AI领域的强劲实力备受学术权威认可!

 

封面图-Nov-25-2021-02-06-02-66-AM

 

国际神经信息处理系统大会NeurIPS (Conference and Workshop on Neural Information Processing Systems)是人工智能领域全球顶级的旗舰会议,会议的竞赛也是全球最高水平的人工智能算法竞赛。该会议主要展示机器学习与计算神经科学领域的最新研究进展,其细分主题包括深度学习、计算机视觉和优化稀疏等众多理论方向。

 

作为全球AMR引领者,极智嘉凭借着稳定可靠的机器人及系统,结合优秀的软件和AI算法,持续领跑行业智慧物流变革。在每年的“双11”、6·18及黑色星期五等大促活动中,如何在海量库存列表中快速匹配订单洪峰的需求是每个商家都面临的挑战,因此高效准确的库存和订单存储、查询系统必不可缺

 

极智嘉AI研究院入选论文One Loss for All: Deep Hashing with a Single Cosine Similarity based Learning Objective提出了全新数据哈希检索算法,可以高效保障“双11”等大促极限场景下的库存和订单查询匹配。除此之外,该算法还可以将海量数据进行哈希化压缩,节约数据存储空间,降低企业IT运维成本。

 

哈希检索算法的具体流程如图1所示。首先,利用骨架网络提取数据特征,进行数据维度转换。然后,利用二值正交化标签与特征数据进行坐标变换,使得欧式空间的特征能够在哈希空间进行比较。最后,利用交叉熵来进行数据分类处理,完成数据哈希化过程。

 

文章配图01

▲图1 算法流程及余弦相似度计算

 

传统算法在欧式空间将数据变换到哈希空间,之后进行数据间的比较或进行哈希化,为此需要使用不同的损失函数来组合评价。与此相比,新算法以余弦相似度为基础提出一种全新的优化方案,仅使用一种损失函数进行评价,同时不要求特殊网络设计与训练技巧,以一种大道至简的方式实现。具体来说,本算法将原始数据通过特征变换,重新在单位化的欧氏空间进行余弦相似度比较。通过利用余弦相似度打通了哈希空间与欧氏空间的联系。

 

如下面公式所示,左侧为哈希空间表示了数据点在哈希空间的相似度,公式右侧为相同数据点在单位化后的欧氏空间的余弦相似度。因此,该算法可以直接通过在欧式空间的操作完成数据在哈希空间的转换与比较,清晰的反应了数据在变换后哈希空间的情况,并且对计算机在欧式空间的计算更加有利。因此,极大的优化了计算效力与检索精度,化繁为简。

 

文章配图02

 

新算法的分类显著性可由图2所示。左侧为直接基于欧式空间的优化模型,中间及右侧为论文提出方案。可以看出在使用余弦相似度评估之后,类比之间的差异被放大,并且在新空间内具备方向性。

 

文章配图03

▲图2 交叉熵与余弦相似度的特征分离程度比较

 

哈希检索算法在ImageNet、COCO、WIDE等公开数据集上性能表现大幅提升,其中部分数据集比之前的算法检索精度提升20%左右。新算法预期将大幅提升极智嘉处理海量数据及数据挖掘的能力,更好的服务客户的实际业务运转。

 

文章配图04

▲实验结果与对比

 

论文链接:https://arxiv.org/abs/2109.14449

工程代码:https://github.com/kamwoh/orthohash