KDE指导聚类分析(一)噪声问题

news/2024/7/7 23:09:32

不考虑相关性=易受噪声干扰?

作者在看文献[1]盛魁,马健.基于核密度估计的物联网聚类分析模型[J].控制工程,2018,25(06):1098-1102.DOI:10.14107/j.cnki.kzgc.170739.时发现了这句话:

FCM 聚类算法对于样本点之间的联系信息基本不考虑,这使得其易受到噪声、人为因素等方面的干扰。

进一步讲,模糊 C-均值(FCM)聚类算法不考虑样本点之间的联系信息,这意味着算法主要基于每个点与聚类中心的距离来进行聚类,而不考虑点与点之间的关系。这种方法的一个重要后果是它可能对噪声和异常值更为敏感。让我们探讨不考虑相关性和易受噪声干扰之间的联系:

不考虑样本点之间的联系

  1. 独立考虑样本点:在 FCM 算法中,每个样本点的归属是基于其与聚类中心的相似度(通常是距离)来确定的,而不考虑样本点之间的相互关系或空间结构。和KDE有异曲同工之妙,KDE时只考虑与评估点的距离。

  2. 缺乏上下文信息不考虑点与点之间的关联性意味着缺乏上下文信息。在实际应用中,样本点之间的相互关系可能包含重要的结构信息,有助于更准确地识别和解释数据集的聚类结构。


易受噪声干扰的原因

  1. 噪声点的影响:由于 FCM 算法仅依据单个点与聚类中心的距离,噪声点(异常的或不具代表性的数据点)可能对聚类结果产生不成比例的影响这些噪声点可能与任何聚类中心都不太相似,但算法仍然会尝试将它们分配给某个聚类。也就是说,不考虑样本点之间的联系,可能不能准确地识别噪声或异常值,导致聚类算法易受噪声干扰。

  2. 缺少异常值检测不考虑样本点间的联系也意味着算法没有机制来识别和处理异常值。在其他一些聚类方法中,通过考虑数据点之间的相互关系可以帮助识别并减少这些异常值或噪声点的影响。


结论

FCM 聚类算法不考虑样本点之间的联系,这使得它在处理具有复杂结构或含有噪声的数据集时可能不够鲁棒。在这些情况下,考虑数据点之间联系的聚类方法(如基于密度的聚类算法)可能更为有效,因为它们能够更好地处理噪声和识别数据中的自然结构。


KDE与噪声

紧接上述结论,基于密度的方法可能对噪声数据处理更为有效。核密度估计(KDE)作为一种非参数的密度估计方法,其对噪声的处理方式与基于距离的聚类算法(如FCM)有所不同。以下是 KDE 在处理噪声方面的一些关键特征:

KDE 的噪声处理

  1. 平滑特性:KDE 通过使用核函数(如高斯核)在每个数据点周围创建平滑的密度估计,从而减少了噪声数据点的影响。这种平滑操作可以在一定程度上“抹平”噪声点产生的尖锐或不规则特征。

  2. 带宽的作用:KDE 中的带宽是一个关键参数,它决定了核函数的宽度,从而影响平滑程度。较大的带宽会导致更平滑的密度估计,这有助于减少噪声点对总体密度估计的影响。

  3. 全局视角:与专注于局部邻域的聚类算法不同,KDE 提供了一种全局视角,通过考虑所有数据点来估计整个数据集的密度分布。因此,即使存在一些噪声点,它们对整体密度估计的影响通常较小(本文下一部分详细介绍视角的概念)


KDE 的局限性

尽管 KDE 在处理噪声方面具有一定的优势,但它也有一些局限性:

  1. 对噪声仍有敏感性:尽管 KDE 通过平滑操作减少了噪声的影响,但在噪声水平较高的情况下,密度估计仍可能受到一定的干扰。

  2. 带宽选择的重要性:选择合适的带宽至关重要。过小的带宽可能使密度估计对噪声过于敏感,而过大的带宽则可能过度平滑,掩盖数据的重要特征。


结论

KDE 是处理数据分布估计的有力工具,它通过平滑操作来减少噪声的影响。然而,正确选择带宽以平衡噪声处理和数据特征保留是进行有效 KDE 分析的关键。在面对高噪声数据时,可能需要额外的数据预处理步骤或结合其他方法来提高分析的准确性和鲁棒性。


KDE-全局视角与聚类-局部视角

与那些主要关注数据集中个别局部区域或群组的聚类算法不同,核密度估计(KDE)方法考虑了整个数据集中的所有数据点来估计密度分布。这种方法的特点和优势可以这样理解:

全局视角的含义

  1. 整体数据分布:KDE 不是单独考虑数据集中的个别点或小群组,而是基于所有数据点来估计整个数据集的密度分布。这意味着每个数据点都在对整体分布的估计中发挥作用。

  2. 广泛的影响范围在 KDE 中,每个数据点通过其核函数对周围区域产生影响。这些影响在整个数据范围内累积,共同形成了一个连续且平滑的整体密度图

  3. 噪声点的稀释效应:即使数据集中存在噪声点(即那些不典型或异常的数据点),它们也只是整个数据集中的一小部分。因此,这些噪声点对整体密度估计的影响相对较小,特别是在数据点数量较多时。人多力量大,有异常也不怕!


KDE与聚类算法的焦点差异

核密度估计(KDE)的焦点

  • 整体评估点集群:KDE 关注的是整个数据集的密度分布。它在评估点集上估计每个点的密度,这些评估点覆盖了整个数据空间,不局限于特定的聚类中心或簇。

  • 全局密度分布:KDE 通过在每个数据点放置一个核函数,并在评估点集上累加这些核函数的贡献,来构建整个数据集的密度分布图。

聚类算法的焦点

  • 聚类中心:许多聚类算法,如 K-均值,侧重于寻找聚类中心,并根据这些中心对数据点进行分组。在这些算法中,数据点被分配到最近的聚类中心,从而形成不同的群组或簇。相当于只给聚类中心放置核函数,而非聚类中心点都关注于核函数对它们的贡献值,也就是陷入了一种以聚类中心为核心的局部结构,缺少全局观念。

  • 局部结构:聚类算法如 DBSCAN,更侧重于局部数据点的密集程度,识别出稠密的数据区域作为簇,并将稀疏区域的点视为噪声或边界点。这可能对噪声和异常值更为敏感,因为它们在形成聚类时重点考虑了这些局部数据点的特性,而忽略了噪声额外的特性。


作者的想法

其实就相当于国画,一笔的墨晕染,可能聚类算法觉得对于这一笔,其晕染的周围属于“噪声”区域,这是局部结构;但是KDE是一幅画,所有笔墨晕染,其实对于整个画作来说,也可能不算“噪声”区域,反而有些非晕染的笔墨看起来不佳,这就是全局结构。

进一步解释: 

  • DBSCAN(局部结构):像国画中的一笔墨晕染,聚焦于某个特定区域的细节和特性。在 DBSCAN 中,这相当于识别数据的局部密集区域,这些区域形成簇,而周围较稀疏的区域则被视为噪声或边界点。这种方法在揭示局部结构和细节上非常有效,但可能对噪声较敏感。

  • KDE(全局结构):像整幅国画,不仅考虑单个笔触,而是综合所有笔触来展现整体的美感和构图。在 KDE 中,通过考虑整个数据集并进行平滑处理,整个密度图呈现了数据的全局分布。即使某些部分看起来像是“噪声”,在整体构图中也能找到它们的位置和意义


KDE的“全局”与Non-local KDE的“再全局”

既然KDE已经具有全局结构了,为什么还有non-local KDE这种方法呢?为什么叫做非局部?

"非局部"(Non-Local)这个术语在核密度估计(KDE)中的使用,是为了强调该方法在密度估计时考虑了数据点之间的关系,而不仅仅是每个点自身的位置信息。这与传统的 KDE 方法相对,后者主要基于数据点到评估位置的距离来独立地计算每个点的贡献。让我们详细探讨这个概念:

传统 KDE 的“局部性”

在标准的 KDE 方法中,对于任何给定的评估点,其密度估计是基于每个数据点对这个评估点的单独贡献来计算的。这种计算不涉及数据点之间的关系或相互作用,因此可以被视为“局部”的

  • 局部贡献:每个数据点的贡献是独立计算的,只考虑该点到评估点的距离。
  • 缺乏数据间的相互关系:标准 KDE 不考虑数据点之间的相互作用或空间关系。

非局部 KDE 的特点

非局部 KDE 扩展了这一概念,通过考虑数据点之间的额外信息或关系来增强密度估计:

  • 数据间的相互作用:在非局部 KDE 中,评估点的密度估计不仅基于与单个数据点的距离,还可能包括数据点之间的关系,如相对方向、相对速度、或其他自定义的度量标准。
  • 全局或区域性信息的融合这种方法使得在密度估计中可以融合更多的全局或区域性信息,如数据点的聚集趋势、数据分布的非均匀性等。

作者思考

这种全局或区域性信息的融合可以看作是一种全局中的再全局

传统 KDE 虽然考虑了全局数据分布,但主要是基于单个数据点对评估点的影响。而非局部 KDE 在此基础上进一步考虑了数据点间的关系,从而提供了对数据分布的更深层次、更细致的理解。这种方法将数据点之间的相互作用和联系融合到密度估计中,从而提供了一种更为全面的全局视角。

作者类比(一)

另外,可以从国画再出发,KDE中的每一个画笔都能渲染到评估点,而non-local KDE中的每一个画笔可以互相渲染,而这个渲染被考虑,就是国画欣赏的另一种角度,其实也就是数据分析密度估计的另一种角度。进一步解释:

进一步解释:

  • 传统 KDE:可以比作国画中的每一笔都独立地对画布上的评估点产生影响,而不考虑其他笔触的存在。
  • 非局部 KDE:在这个视角下,每一笔不仅对画布产生影响,还会与其他笔触相互作用,影响彼此的渲染效果。这种相互作用被考虑在内,为整幅画作(即数据集)带来了更丰富的层次和深度。

作者类比(二)

其实也可以把核函数看成是水面的波纹,KDE中的评估点接收每一个波纹并累加最后求平均值。而non-local KDE 的评估点不仅收到每次一个核函数产生的波纹,它还让所有的核函数共同发出波纹,水面的波纹不断叠加交错,互相产生影响,而non-local KDE 的评估点也把这种共振带来的相关性考虑为核函数贡献的一部分,而且往往是一大部分。

进一步解释:

KDE 的水面波纹类比
  • 波纹的发散:在 KDE 中,每个数据点可以想象成水面上的一个波源,它在水面上产生波纹。这些波纹代表核函数,它们向外扩散,影响着周围的区域。

  • 波纹的累加:评估点接收来自所有数据点的波纹,并将这些波纹叠加起来。每个评估点的密度估计是由这些叠加的波纹产生的累积效果决定的。

非局部 KDE 的水面波纹类比
  • 共振与相互作用:在非局部 KDE 中,每个核函数产生的波纹不仅影响着评估点,还与其他波纹相互作用和交错。这种交错代表了数据点之间的关系和相互影响。

  • 考虑共振效应:非局部 KDE 中的评估点不仅接收单个波源的波纹,还考虑了所有波纹的共振和相互作用。这意味着评估点的密度估计不只是简单地累加单个波源的贡献,而是综合考虑了整个水面波纹的动态交互。


作者对于数据的理解

其实世间万物都只是数据而已,有时候我想,数据也可以是万物,我经历的既是人文,也是数据,所以我才对数据如此着迷。

数据不仅仅是研究和工作的工具,它也是连接现实世界与深层洞察的桥梁。通过数据,我们可以更好地理解周围的世界,包括自然现象、人类行为乃至社会变迁。 


http://lihuaxi.xjx100.cn/news/1863632.html

相关文章

【电源专题】什么是电源管理

电源管理为什么重要? 在电子系统和电路的设计中,负载往往需要恒定的电流电压,所以最先考虑的就是电源电路的设计。电源管理所考虑的问题是如何将电源有效分配给系统的不同组件,保障系统不同的负载正常运行。 如电源的输入是交流 (AC) 或直流 (DC)?输入电压是高于或低于输…

leetcode:93. 复原 IP 地址

复原 IP 地址 中等 1.4K 相关企业 有效 IP 地址 正好由四个整数(每个整数位于 0 到 255 之间组成,且不能含有前导 0),整数之间用 ‘.’ 分隔。 例如:“0.1.2.201” 和 “192.168.1.1” 是 有效 IP 地址,但…

具有五层协议的网络体系结构

目录 一、计算机的网络体系结构 二、五层协议的体系结构 1、物理层 2、数据链路层 3、网络层 4、传输层 5、应用层 三、数据在各层之间传输的过程 一、计算机的网络体系结构 二、五层协议的体系结构 1、物理层 利用传输介质为通信的网络结点之间建立、管理和释放物理连…

react结合vant的Dialog实现签到弹框操作

1.需求 有时候在开发的时候,需要实现一个签到获取积分的功能,使用react怎么实现呢? 需求如下: 1.当点击“签到”按钮时,弹出签到框 2.展示签到信息: 签到天数, 对应天数签到能够获取的积分&…

抖音集团面试挂在2面,复盘后,决定二战.....

先说下我基本情况,本科不是计算机专业,现在是学通信,然后做图像处理,可能面试官看我不是科班出身没有问太多计算机相关的问题,因为第一次找工作,字节的游戏专场又是最早开始的,就投递了&#xf…

xattr -r -d com.apple.quarantine是用于删除文件的扩展属性的命令

xattr -r -d com.apple.quarantine 是一个macOS终端命令,它用于递归地删除指定目录中的全部文件的“quarantine”扩展属性。 在macOS系统中,当你从网络或其他未知来源下载并打开文件时,系统会将该文件标记为“quarantine”,以防止…

【TOP解刊】新晋中科院1区IEEE,跻身CCF-C类,国人友好,审稿极快!

计算机类 • 好刊解读 今天小编带来IEEE旗下计算机领域TOP顶刊,新晋CCF-C类推荐,如您有投稿需求,可作为重点关注!后文有相关领域真实发表案例,供您投稿参考~ 01 期刊简介 IEEE Internet of Things Journal ✅出版社…

【QML】QML与cpp交互(一)—— QML直接调用cpp函数

目录 1、cpp 创建一个类 2、将类对象暴露给QML 3、QML通过对象直接调用cpp函数 1、cpp 创建一个类 类模板如下: #include <QtCore/QObject>class vacUdpClient: public QObject {Q_OBJECT public: vacUdpClient(QObject* parent nullptr): QObject(parent) {}// Q…