【深度学习】再谈向量化

news/2024/7/7 20:19:28

前言

        向量化是一种思想,不仅体现在可以将任意实体用向量来表示,更为突出的表现了人工智能的发展脉络。向量的演进过程其实都是人工智能向前发展的时代缩影。

1.为什么人工智能需要向量化

        电脑如何理解一门语言?电脑的底层是二进制也就是0和1,所有的文字,音频和视频都是一串数字, 这结构很简单,但是有一个问题,没有规律。比如我们使用一个32位的数字代表“苹”,使用另一个32位的数字代表“果”,那么“苹果”在电脑中就是一串0和1组成的数。

        电脑并不知道这串数字代表的是一个水果。科学家在对字母或者汉字编码的时候,只考虑到了存储和显示的需要,并不会顾及他的实际意义。举例说明:美的编号是39,丑是40,爱是41,宇宙的答案是42,数字和文字生拉硬套的表示,之间不存在任何联系,也就无法承载文字本身的意义。所以,电脑既不记录意义,也不理解意义。

         非人工智能时代,电脑只是我们存储和处理信息的一种工具,就如同存储和处理食物的冰箱和锅一样,他们并不需要认识冰激凌和鱼香肉丝,使用它们的人认识冰激凌,知道怎么做鱼香肉丝就可以了,但是人工智能时代,我们需要电脑自己处理现实世界的信息,人工智能需要自己解决问题,以机器翻译为例,本质上是两种不同的语言对应同一个实际意义,AI需要自己找到这种对应关系,才能进行翻译。

        也就是说,电脑需要了解语言的实际意义。如何理解呢?答案是向量化。

2.如何向量化

        那什么是向量化呢?简单来说,就是将你想要表示的东西变成一组数字的组合。举一个简单的例子,如何用数字来定义一个人?可以尝试给他设置各种衡量维度。

        比如我们用[0,180,75,20] 来表示一个人,并给予每个维度以对应的解释。第一维代表性别、第二维表示身高、第三维代表体重、第四维代表年龄,这样通过一组4维数组就表示出一位身高为180,体重位75KG,年龄为20岁的男性。另外还可以扩展维度表示,将【性别,身高,体重,年龄,胸围,腰围,臀围,体脂率,肤色,发色,爱好,学历,收入...】,维度越多,那对一个人的定义就越准确。

 3.向量化后的优势

        那向量化后的表示有什么好处呢? 1.方便电脑处理。2.向量化后的空间,展现了一定的规律。

        我们以身高和体重为维度,通过这些维度筛选出来的人([180,76]),跟我们定义的人([180,75])的相似度就越高。在坐标中与你距离最近的人,也就是和你最相似的人。而我们增加更多的维度,那衡量标准就越多,在更高维度的坐标系中,我们就能够通过空间关系,理解每个人的特征。

        同样对于词语的表示,我们也通过向量化,只不过是词语的向量化更加的抽象,表示它的维度也更不容易被总结出来,但如果我们同样把他们放在一个很高维度的坐标里,那意义相近的词语,他们的空间就会越接近。

        向量是可以计算的,当我们把词语放进向量空间后,国王的向量减去男人的向量再加上女人的向量,得出的向量值和女王或者王后的位置非常接近,这说明了在一个合适的维度坐标中,词语之间的空间关系反映了他们在现实世界中的实际关系。

4.总结

        向量化于人工智能时代而言,有着里程碑式的意义。人工智能与向量化,就如同西方与耶路撒冷。


http://lihuaxi.xjx100.cn/news/1433784.html

相关文章

图解java.util.concurrent并发包源码系列——深入理解ReentrantReadWriteLock读写锁,看完可以吊打面试官

图解java.util.concurrent并发包源码系列——深入理解ReentrantReadWriteLock读写锁,看完可以吊打面试官 ReentrantReadWriteLock的作用ReentrantReadWriteLock的原理ReentrantReadWriteLock源码解析构造方法获取写锁和读锁对象计算读锁被持有数和写锁被持有数的位移…

网页爬虫中常用代理IP主要有哪几种?

各位爬虫探索者,你是否有想过在网页爬虫中使用代理IP来规避限制实现数据自由?在这篇文章中,作为一名IP代理产品供应商,我将为你揭示常见的网页爬虫代理IP类型,让你在爬虫的世界中游刃有余! 一、免费公开代理…

umi快速搭建中后台管理系统(命令行创建和区块开发的区别)

后台管理系统 命令行创建新项目命令行效果图配置文件package.json umi3构建区块readme.md主页面页面布局页面布局的一些参数总结 区块开发步骤三级目录 命令行创建新项目 命令行 1、 npm i ant-design/pro-cli -g 2、 pro create demo_spacemv_managementsys 3、 umi 3 simpl…

从一道面试题来学习前台进程和后台进程、孤儿进程和僵尸进程

1、面试题介绍 以前面试,面试官问了一个问题,大意是: 我们在终端中,通过执行 python main.py 命令,会启动一台前台进程直到程序结束。现在我还是想通过执行 python main.py ,启动一个后台进程,…

Java【Spring】使用注解, 更简单的存储和获取 Bean

文章目录 前言一、存储 Bean1, 配置文件2, 五大类注解Bean 的命名规则 3, 方法注解Bean 的命名规则 二、获取 Bean1, 属性注入2, Setter 注入3, 构造方法注入4, Autowired 和 Resource 的区别5, 同一个类型的多个 Bean 注入问题 总结 前言 各位读者好, 我是小陈, 这是我的个人主…

innovus 报告多边形floorplan的boundary坐标

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球 历史文章: 常用dbGet命令 dbGet快速入门 使用"Cut Rectilinear"功能可以​调整floorplan形状,使其变成非矩形多边形(polygon)。​ …

MySQL_DQL语句(查询语句以及常用函数)

基础查询 不带条件的查询查询多个字段 语法: #查询指定字段的数据 SELECT 字段1, 字段2, 字段3 ... FROM 表名 ; #查询表中全部字段的数据 SELECT * FROM 表名 ;案例:查询表中所有信息数据 SELECT * FROM employee;案例:查询表中姓名和性别…

javascript数据类型与引用类型的区别以及原始值详解

基本数据类型介绍 在JavaScript中,数据类型可以分为基本数据类型与引用数据类型.其中基本数据类型包括 Undefined,Null,Boolean,Number,String5种数据类型,在ES6中新增了两种基本的数据类型,Symbol,bigint 引用类型有Object,Function,Array,Date,RegExp等 这两种类型区别简略…