KDE指导聚类分析（一）噪声问题

不考虑相关性=易受噪声干扰？

作者在看文献[1]盛魁,马健.基于核密度估计的物联网聚类分析模型[J].控制工程,2018,25(06):1098-1102.DOI:10.14107/j.cnki.kzgc.170739.时发现了这句话：

FCM 聚类算法对于样本点之间的联系信息基本不考虑，这使得其易受到噪声、人为因素等方面的干扰。

进一步讲，模糊 C-均值（FCM）聚类算法不考虑样本点之间的联系信息，这意味着算法主要基于每个点与聚类中心的距离来进行聚类，而不考虑点与点之间的关系。这种方法的一个重要后果是它可能对噪声和异常值更为敏感。让我们探讨不考虑相关性和易受噪声干扰之间的联系：

不考虑样本点之间的联系

独立考虑样本点：在 FCM 算法中，每个样本点的归属是基于其与聚类中心的相似度（通常是距离）来确定的，而不考虑样本点之间的相互关系或空间结构。和KDE有异曲同工之妙，KDE时只考虑与评估点的距离。
缺乏上下文信息：不考虑点与点之间的关联性意味着缺乏上下文信息。在实际应用中，样本点之间的相互关系可能包含重要的结构信息，有助于更准确地识别和解释数据集的聚类结构。

易受噪声干扰的原因

噪声点的影响：由于 FCM 算法仅依据单个点与聚类中心的距离，噪声点（异常的或不具代表性的数据点）可能对聚类结果产生不成比例的影响。这些噪声点可能与任何聚类中心都不太相似，但算法仍然会尝试将它们分配给某个聚类。也就是说，不考虑样本点之间的联系，可能不能准确地识别噪声或异常值，导致聚类算法易受噪声干扰。
缺少异常值检测：不考虑样本点间的联系也意味着算法没有机制来识别和处理异常值。在其他一些聚类方法中，通过考虑数据点之间的相互关系可以帮助识别并减少这些异常值或噪声点的影响。

结论

FCM 聚类算法不考虑样本点之间的联系，这使得它在处理具有复杂结构或含有噪声的数据集时可能不够鲁棒。在这些情况下，考虑数据点之间联系的聚类方法（如基于密度的聚类算法）可能更为有效，因为它们能够更好地处理噪声和识别数据中的自然结构。

KDE与噪声

紧接上述结论，基于密度的方法可能对噪声数据处理更为有效。核密度估计（KDE）作为一种非参数的密度估计方法，其对噪声的处理方式与基于距离的聚类算法（如FCM）有所不同。以下是 KDE 在处理噪声方面的一些关键特征：

KDE 的噪声处理

平滑特性：KDE 通过使用核函数（如高斯核）在每个数据点周围创建平滑的密度估计，从而减少了噪声数据点的影响。这种平滑操作可以在一定程度上“抹平”噪声点产生的尖锐或不规则特征。

带宽的作用：KDE 中的带宽是一个关键参数，它决定了核函数的宽度，从而影响平滑程度。较大的带宽会导致更平滑的密度估计，这有助于减少噪声点对总体密度估计的影响。

全局视角：与专注于局部邻域的聚类算法不同，KDE 提供了一种全局视角，通过考虑所有数据点来估计整个数据集的密度分布。因此，即使存在一些噪声点，它们对整体密度估计的影响通常较小。（本文下一部分详细介绍视角的概念）

KDE 的局限性

尽管 KDE 在处理噪声方面具有一定的优势，但它也有一些局限性：

对噪声仍有敏感性：尽管 KDE 通过平滑操作减少了噪声的影响，但在噪声水平较高的情况下，密度估计仍可能受到一定的干扰。

带宽选择的重要性：选择合适的带宽至关重要。过小的带宽可能使密度估计对噪声过于敏感，而过大的带宽则可能过度平滑，掩盖数据的重要特征。

结论

KDE 是处理数据分布估计的有力工具，它通过平滑操作来减少噪声的影响。然而，正确选择带宽以平衡噪声处理和数据特征保留是进行有效 KDE 分析的关键。在面对高噪声数据时，可能需要额外的数据预处理步骤或结合其他方法来提高分析的准确性和鲁棒性。

KDE-全局视角与聚类-局部视角

与那些主要关注数据集中个别局部区域或群组的聚类算法不同，核密度估计（KDE）方法考虑了整个数据集中的所有数据点来估计密度分布。这种方法的特点和优势可以这样理解：

全局视角的含义

整体数据分布：KDE 不是单独考虑数据集中的个别点或小群组，而是基于所有数据点来估计整个数据集的密度分布。这意味着每个数据点都在对整体分布的估计中发挥作用。
广泛的影响范围：在 KDE 中，每个数据点通过其核函数对周围区域产生影响。这些影响在整个数据范围内累积，共同形成了一个连续且平滑的整体密度图。
噪声点的稀释效应：即使数据集中存在噪声点（即那些不典型或异常的数据点），它们也只是整个数据集中的一小部分。因此，这些噪声点对整体密度估计的影响相对较小，特别是在数据点数量较多时。人多力量大，有异常也不怕！

KDE与聚类算法的焦点差异

核密度估计（KDE）的焦点

整体评估点集群：KDE 关注的是整个数据集的密度分布。它在评估点集上估计每个点的密度，这些评估点覆盖了整个数据空间，不局限于特定的聚类中心或簇。
全局密度分布：KDE 通过在每个数据点放置一个核函数，并在评估点集上累加这些核函数的贡献，来构建整个数据集的密度分布图。

聚类算法的焦点

聚类中心：许多聚类算法，如 K-均值，侧重于寻找聚类中心，并根据这些中心对数据点进行分组。在这些算法中，数据点被分配到最近的聚类中心，从而形成不同的群组或簇。相当于只给聚类中心放置核函数，而非聚类中心点都关注于核函数对它们的贡献值，也就是陷入了一种以聚类中心为核心的局部结构，缺少全局观念。
局部结构：聚类算法如 DBSCAN，更侧重于局部数据点的密集程度，识别出稠密的数据区域作为簇，并将稀疏区域的点视为噪声或边界点。这可能对噪声和异常值更为敏感，因为它们在形成聚类时重点考虑了这些局部数据点的特性，而忽略了噪声额外的特性。

作者的想法

其实就相当于国画，一笔的墨晕染，可能聚类算法觉得对于这一笔，其晕染的周围属于“噪声”区域，这是局部结构；但是KDE是一幅画，所有笔墨晕染，其实对于整个画作来说，也可能不算“噪声”区域，反而有些非晕染的笔墨看起来不佳，这就是全局结构。

进一步解释：

DBSCAN（局部结构）：像国画中的一笔墨晕染，聚焦于某个特定区域的细节和特性。在 DBSCAN 中，这相当于识别数据的局部密集区域，这些区域形成簇，而周围较稀疏的区域则被视为噪声或边界点。这种方法在揭示局部结构和细节上非常有效，但可能对噪声较敏感。
KDE（全局结构）：像整幅国画，不仅考虑单个笔触，而是综合所有笔触来展现整体的美感和构图。在 KDE 中，通过考虑整个数据集并进行平滑处理，整个密度图呈现了数据的全局分布。即使某些部分看起来像是“噪声”，在整体构图中也能找到它们的位置和意义。

KDE的“全局”与Non-local KDE的“再全局”

既然KDE已经具有全局结构了，为什么还有non-local KDE这种方法呢？为什么叫做非局部？

"非局部"（Non-Local）这个术语在核密度估计（KDE）中的使用，是为了强调该方法在密度估计时考虑了数据点之间的关系，而不仅仅是每个点自身的位置信息。这与传统的 KDE 方法相对，后者主要基于数据点到评估位置的距离来独立地计算每个点的贡献。让我们详细探讨这个概念：

传统 KDE 的“局部性”

在标准的 KDE 方法中，对于任何给定的评估点，其密度估计是基于每个数据点对这个评估点的单独贡献来计算的。这种计算不涉及数据点之间的关系或相互作用，因此可以被视为“局部”的：

局部贡献：每个数据点的贡献是独立计算的，只考虑该点到评估点的距离。
缺乏数据间的相互关系：标准 KDE 不考虑数据点之间的相互作用或空间关系。

非局部 KDE 的特点

非局部 KDE 扩展了这一概念，通过考虑数据点之间的额外信息或关系来增强密度估计：

数据间的相互作用：在非局部 KDE 中，评估点的密度估计不仅基于与单个数据点的距离，还可能包括数据点之间的关系，如相对方向、相对速度、或其他自定义的度量标准。
全局或区域性信息的融合：这种方法使得在密度估计中可以融合更多的全局或区域性信息，如数据点的聚集趋势、数据分布的非均匀性等。

作者思考

这种全局或区域性信息的融合可以看作是一种全局中的再全局：

传统 KDE 虽然考虑了全局数据分布，但主要是基于单个数据点对评估点的影响。而非局部 KDE 在此基础上进一步考虑了数据点间的关系，从而提供了对数据分布的更深层次、更细致的理解。这种方法将数据点之间的相互作用和联系融合到密度估计中，从而提供了一种更为全面的全局视角。

作者类比（一）

另外，可以从国画再出发，KDE中的每一个画笔都能渲染到评估点，而non-local KDE中的每一个画笔可以互相渲染，而这个渲染被考虑，就是国画欣赏的另一种角度，其实也就是数据分析密度估计的另一种角度。进一步解释：

进一步解释：

传统 KDE：可以比作国画中的每一笔都独立地对画布上的评估点产生影响，而不考虑其他笔触的存在。
非局部 KDE：在这个视角下，每一笔不仅对画布产生影响，还会与其他笔触相互作用，影响彼此的渲染效果。这种相互作用被考虑在内，为整幅画作（即数据集）带来了更丰富的层次和深度。

作者类比（二）

其实也可以把核函数看成是水面的波纹，KDE中的评估点接收每一个波纹并累加最后求平均值。而non-local KDE 的评估点不仅收到每次一个核函数产生的波纹，它还让所有的核函数共同发出波纹，水面的波纹不断叠加交错，互相产生影响，而non-local KDE 的评估点也把这种共振带来的相关性考虑为核函数贡献的一部分，而且往往是一大部分。

进一步解释：

KDE 的水面波纹类比

波纹的发散：在 KDE 中，每个数据点可以想象成水面上的一个波源，它在水面上产生波纹。这些波纹代表核函数，它们向外扩散，影响着周围的区域。
波纹的累加：评估点接收来自所有数据点的波纹，并将这些波纹叠加起来。每个评估点的密度估计是由这些叠加的波纹产生的累积效果决定的。

非局部 KDE 的水面波纹类比

共振与相互作用：在非局部 KDE 中，每个核函数产生的波纹不仅影响着评估点，还与其他波纹相互作用和交错。这种交错代表了数据点之间的关系和相互影响。
考虑共振效应：非局部 KDE 中的评估点不仅接收单个波源的波纹，还考虑了所有波纹的共振和相互作用。这意味着评估点的密度估计不只是简单地累加单个波源的贡献，而是综合考虑了整个水面波纹的动态交互。