终于,「最近邻搜索」有通用方法了

news/2024/7/1 3:06:55

作者:Kevin Hartnett

编译:Bing

如果你打算开一家咖啡馆,你一定想知道:“附近最近的一家咖啡馆在哪?”了解这些信息有助于应对商业竞争。

这种现象是计算机科学中广泛研究的问题,称为“最近邻搜索”。它的问题是,给定数据集和新的数据点,数据集中哪个数据离新数据点最近?这个问题出现的场景非常丰富,可以是基因搜索、图像查询,或者音乐推荐。

但是最近邻问题并不像咖啡馆那么容易解决。过去几十年,很多计算机科学家都在致力于寻找更好的解决办法。与此同时,他们还要解决随之而来的复杂情况,例如不同数据集对“相近”有着不同的定义。

现在,一个五人小组提出了开创性的解决办法,他们在两篇论文中(一篇已于4月发表,另一篇还未出炉)提出了解决复杂数据最近邻问题的通用方法。

麻省理工学院的计算机科学家、最近邻搜索领域的重要任务Piotr Indyk表示:“这是首个用单一算法捕捉大量空间的结果。”

不同的距离
我们已经习惯了用一种方法定义距离,常常会忽视其他方式。通常,我们用“欧几里得距离”测量距离,即在两点之间测量直线的距离。但在有些情况下,这样的测量方式就说不通了。例如在街道网格中,就需要用到曼哈顿距离了,直线距离5英里的目的地,可能需要走3英里之后转90°,再继续走4英里才能到达。

另外,还可以用非地理的术语表示距离。比如Facebook上的两名用户、两部电影、两组基因之间的距离怎么计算?在这些问题上,“距离”表示的是两个物体之间的相似程度。

有关距离的测量尺度有很多,例如两组基因,生物学家会用“编辑距离(edit distance)”来比较二者。这样一来,两组基因序列之间的距离就是从一组基因转换到另一组所需要添加、删除、插入、替换的数字。

编辑距离和欧几里得距离是两种完全不同的距离测量方法,二者是不能相互替代的。但是这样的情况对研究最近邻算法的科学家们来说很棘手,能有效计算一种距离的算法在另一种情况下就无法工作了。

在夹缝中求生存
为了找到最近邻,标准方法是将数据分成好几份。假设你的数据就像在牧场中吃草的奶牛,给分散在草场中的牛群画不同的圆圈,现在进来了一头新奶牛,问它会落在哪个圆圈里?可以肯定的是,这头新奶牛的最近邻一定也在这个圈里。

然后重复这一过程,不断进行细分。最终会得到一个只包含两头牛的区域,这样就找到了最近邻。
终于,「最近邻搜索」有通用方法了
现在,算法能够完成这一过程,好的算法还会将这一任务完成得又快又好。这里“好”的标准可以理解成,算法不会得出最近邻与新数据不在一个圈子里的结果。

近些年来,科学家们提出了多种分割数据的算法。对于低维数据(即每个数据点仅由少量的值定义,例如牧场中牛的位置),算法在解决最近邻问题时会生成Voronoi图。

对于高维数据(每个数据点可能有成百上千个值),Voronoi图要计算起来就十分费力了。所以科学家们用“局部敏感哈希(LSH)算法”对数据进行分割,这种算法于1998年由Indyk和Rajeev Motwani共同提出。LSH算法是随机对数据进行分类的,这使得它速度很快,但精确度较低。算法最终并不是找到确切的最近邻点,而是告诉你最近邻与已有数据的确切距离。(可以想象成在电影推荐时,推荐结果并不是最佳的,而是那些还不错的。)

上世纪90年代末,计算机科学家们提出的LSH算法以特殊的距离尺度对最近邻问题给出大致的解决方案。这些LSH算法都非常具体,无法通用。

“你可以为欧几里得距离或曼哈顿距离设计非常高效的算法。但是我们没有一种技术能在多种距离上通用,”Indyk说道。

受制于这种困境,科学家们想了一种应变方法:通过嵌入,在没有好的算法的距离标准之上“覆盖”一种距离尺度。但是这样的结果往往不准确,有的时候嵌入根本无法完成。所以他们仍需要想出一种合适的通用方法。

惊人的结果
在这项新研究开始之际,科学家们回过头思考当初具体的最近邻算法追求的目标是什么。他们提出了一个更宽泛的问题:对距离尺度来说,阻碍一款好的最近邻算法出现的原因是什么?

他们想原因可能与在寻找最近邻时复杂的“扩展图(expander graph)”有关。扩展图是一群由线条连接起来的点。这些图都有它们自己的距离尺度,图中两点之间的距离是你从一点到另一点所经过的最少线段。可以将其想象成社交网络中的各种人脉关系。

扩展图有两个明显矛盾的特点:它联系广泛,所以如果想切断与某一点的联系,就要切断之间的线段。但同时,大多数点都和其他的点相连。所以,最终有些点会越来越远。

这样的特征造成的结果是,在扩展图上可以很快地进行最近邻搜索,而将数据点分割的过程可以看成将最近的两点分开。

“任何分割扩展图的方法都会切断很多线,分开很多相近的点,”论文作者之一Waingarten说道。

从左至右:Alexandr Andoni、Ilya Razenshteyn、Erik Waingarten
2016年夏天,Andoni、Nikolov、Razenshteyn和Waingarten认为,是不可能存在对最近邻算法有效的扩展图的。但他们真正想证明的是,好的最近邻算法同样也不存在于其他距离尺度中。

他们证明的方法是在这些距离尺度中嵌入扩展尺度。这样一来,他们可以确定这些尺度有类似扩展图的无法工作的特征。

这四位科学家找到普林斯顿大学的Assaf Naor,他是一名数学家,同时也是计算机科学家,此前的研究非常适合回答有关扩展图的问题。他们询问了有关扩展图嵌入到其他距离类型中的问题,但答案并非所期望的那样,Assaf给出了完全相反的回答。

Naor证明,扩展图并不能嵌入到多种距离尺度中,研究者将这一论断作为基础,接着这个逻辑链条开始思考:如果扩展图不能嵌入到其他尺度,那么一个好的数据分割方法一定存在(因为他们证明扩展图的特征是阻碍良好数据分割的障碍)。因此,良好最近邻算法可能存在。

他们将发现结果写在第一篇论文中,而第二篇论文本月也即将发表。Waingarten表示:“第一篇论文证明了确实存在一种方法能良好地进行数据分割,但没有给出如何快速完成的方案。在第二篇论文中会详细解释。”

同时,这项新研究第一次用通用的方法对高维数据进行最近邻搜索。“任何尺度空间都可以用该算法实现最近邻搜索,”Waingarten说。

转载于:https://blog.51cto.com/yixianwei/2160504


http://lihuaxi.xjx100.cn/news/237332.html

相关文章

DOM---文档对象模型(Document Object Model)的基本使用

一、DOM简介  文档对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。它是一种与平台和语言无关的应用程序接口(API),它可以动态地访问程序和脚本,更新其内容、结构和www文档的风格(目…

区块链密码学

链客,专为开发者而生,有问必答! 此文章来自区块链技术社区,未经允许拒绝转载。 区块链密码学11 一 、概念 主要介绍非对称加密的一些概念。 公钥、私钥:均可加密或解密。私钥用来解密和签名,给自己用的…

想要学好Go语言的必须知道的一个小技巧

2019独角兽企业重金招聘Python工程师标准>>> 由于我转Go语言比较早,很多认识我的,转Go或学习Go的同学遇到问题,经常会过来问我,然后,我发现。 除了学习Go语言可以看那些资料,这个问题以外&#…

服务器云ide_语言服务器协议如何影响IDE的未来

服务器云ideThe release of Visual Studio Code single-handedly impacted the developer ecosystem in such a way that theres no going back now. Its open source, free, and most importantly, a super powerful tool. Visual Studio Code的发布以一种无可匹敌的方式对开发…

商品秒杀,防并发解决思路

我们在做电商项目的时候,经常会遇到抢购秒杀的问题&#xff0c;综合来说主要是两个问题 一&#xff0c;高并发情况下对数据库产生的压力 二&#xff0c;如何避免超卖(库存< 0)的情况。 针对这两个问题来谈下解决思路 一,缓解数据库压力 用 缓存就可以解决 例如redis,memecac…

在CentOS7上部署Apache Mesos

概述 Apache Mesos是一款基于多资源&#xff08;内存、磁盘、CPU、端口等&#xff09;调度的开源集群管理套件&#xff0c;能使容错和分布式系统更加容易。 工作原理 Apache Mesos采用了Master/Slave结构来简化设计&#xff0c;将Master做得尽可能轻量级&#xff0c;仅保存了各…

EOS是什么

链客&#xff0c;专为开发者而生&#xff0c;有问必答&#xff01; 此文章来自区块链技术社区&#xff0c;未经允许拒绝转载。 EOS是什么 EOS&#xff1a;EOS可以理解为Enterprise Operation System&#xff0c;即为商用分布式应用设计的一款区块链操作系统。EOS是EOS软件引入…

java学习路线图(2018年最新版)

最近有些网友问我如何自学 Java 后端&#xff0c;还有些是想从别的方向想转过来&#xff0c;但都不太了解 Java 后端究竟需要学什么&#xff0c;究竟要从哪里学起&#xff0c;哪些是主流的 Java 后端技术等等&#xff0c;导致想学&#xff0c;但又很迷茫&#xff0c;不知从何下…