非监督学习

news/2024/7/5 1:57:07

聚类Clustering

查看大量数据点,自动找到彼此相关或相似的数据点

K-means算法

原理

1.随机选择点,找聚类的中心位置。将点分配给簇质心
2.移动簇质心
在这里插入图片描述
在这里插入图片描述
不断重复这两个步骤
在这里插入图片描述

优化目标

在这里插入图片描述
成本函数=失真函数distortion
在每次迭代中,失真成本函数应该下降或者保持不变

初始化K-means

在这里插入图片描述
在这里插入图片描述
在顶部选择不错的集群,不太优越的局部最小值在底部
和局部最小的个数有关,只要随机后跳出较小的局部最小域,就是一次优化

选择聚类数量K

Elbow method

使用各种K值运行K-means,将成本函数/失真函数J绘制为数字的函数集群

发现异常事件

异常检测算法会查看未标记的正常事件数据集,从而学会检测异常事件,发出危险信号
在这里插入图片描述

密度估计检测异常

为X的概率建立一个模型,找出具有高/低概率的特征X1和X2,
在这里插入图片描述
这种类型的欺诈检测既用于查找虚假账户,也经常使用这种算法来尝试识别金融欺诈,例如是否存在非常不寻常的购买模式。也用于制造业,监视集群和数据中心的计算机

高斯正态分布

在这里插入图片描述
当一个特征或数量关系受到多个相关或不相关的因素共同影响时,它一定服从正态分布

异常检测算法

密度估计

在这里插入图片描述
在这里插入图片描述

开发与评估异常检测系统

实数评估

如果能以某种方式快速改变算法,比如改变特征或改变一个参数,并且有一种计算数字的方法可以告诉你算法是好是坏,那么它使决定是否坚持对算法的更改变得容易得多。
尽管主要讨论的是未标记数据,但稍微改变一下这个假设,并假设我们有些标记数据,通常包括少量以前观察到的异常。
在这里插入图片描述
相当于用无标注的训练集训练出一个特定均值和方差的正态分布,并默认两端的极值是不正常的。再通过测试集来调整阈值,使得阈值之上的都是正常的,阈值之外的都是不正常的。
在这里插入图片描述

这种替代方案的缺点是,在调整算法后,没有公平的方法来判断它在未来示例中的实际效果如何,因为没有测试集。但是当数据集很小的时候,特别是有异常的数量时,数据集很小,这可能是最好的选择
在这里插入图片描述

异常检测与监督学习对比

在这里插入图片描述
本质区别:一个反向排除,一个正向学习
异常检测试图找到全新的正面示例,这些示例可能与以前见过的任何东西都不一样
监督学习会查看正面示例,并尝试确定未来示例是否与已经看到的正面示例相似

选择使用什么特征

在这里插入图片描述
非高斯分布→高斯分布
对训练集转换后,交叉验证和测试集数据也应用相同的转化
训练模型,再查看算法未能检测到交叉验证集中的哪些异常


http://lihuaxi.xjx100.cn/news/1267418.html

相关文章

举例说明什么是随机梯度下降算法

随机梯度下降算法(Stochastic Gradient Descent, SGD)是一种优化算法,用于求解机器学习和深度学习中的目标函数的最小值。它是标准梯度下降算法的一个变种,主要区别在于每一次更新权重时只使用一个训练样本,而不是整个…

RK3288 Android8.1添加EC25

首先拿到供应商提供的so库,将so放到vendor\rockchip\common\phone\lib下 修改对应的phone.mk,将so库移动指定位置(Android7以下移动到system/lib,android8以后移动到vendor/lib) CUR_PATH : vendor/rockchip/common#############…

元数据驱动架构的官方数据空间设计

淘宝开放平台是阿里与外部生态互联互通的重要开放途径,通过开放的产品技术把阿里经济体一系列基础服务,像水、电、煤一样输送给我们的商家、开发者、社区媒体以及其他合作伙伴,推动行业的定制、创新、进化, 并最终促成新商业文明生态圈。 开放…

双向交错CCM图腾柱无桥单相PFC学习仿真与实现(2)SOGI_PLL学习仿真总结

目录 前言 SOGI基本原理 锁相环基本原理 仿真实现及说明 总结 前言 前面总结了双向交错CCM图腾柱无桥单相PFC系统实现,后面把问题细分,关于SOGI锁相环的应用和学习在这里总结下。 双向交错CCM图腾柱无桥单相PFC学习仿真与实现(1&#x…

C++ 新的类型转换

文章目录 前言一、静态转换(static_cast)二、动态转换(dynamic_cast):三、常量转换(const_cast):四、重新解释转换(reinterpret_cast):总结 前言 …

FPGA BGA 芯片植球 - PCB焊盘与钢网和锡球

BGA 芯片植球,BGA芯片焊盘是0.6 PCB 焊盘是0.5 ,钢网与锡球的选择 选择正确的锡膏球尺寸是根据BGA芯片焊盘和PCB焊盘的尺寸来确定的。通常,锡膏球的直径应略小于焊盘的直径,以确保焊膏能够适当地涂覆焊盘而不超出其边缘。 考虑到…

把金融航母开进智能峡湾,总共分几步?

试想一下,有这么一家街头小店。夫妻两个勤奋经营,诚信待客,广受街里街坊的欢迎。他们流水稳定,蒸蒸日上,商业信誉很好,甚至是非物质文化遗产的传承者。这样一家店,在扩大经营,拓展业…

​LeetCode解法汇总5-正则表达式匹配​

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣 描述: 你有一个用于表示一片土地的整数矩阵land,该矩阵中每个点的值代表对…