沐神AI(NLP部分)

news/2024/7/5 3:54:19

NLP

  • authro:yzzheng
  • date:2023年02月08日

P51-序列模型

序列数据,有时序结构的数据,例如电影的评价随时间变化而变化。音乐、语言、文本和视频都是连续的,标题“狗咬人”和“人咬狗”完全不一样

统计工具

条件建模
条件建模
抽象
抽象

计算总的概率方法 马尔可夫模型简单化了条件概率的计算方法 马尔可夫假设 引入潜变量,计算 , 这个是一个模型,会 潜变量

总结:

  • 时序模型中,当前数据跟之前观察到的数据相关
  • 自回归模型使用自身过去数据来预测未来
  • 马尔科夫模型假设简化了概率计算模型,假设当前数据只与最近少数数据相关
  • 潜变量模型使用潜变量来概括历史信息

P52-文本预处理

把文本当作一个时序信息,核心思想是把词变成能够训练的东西

  • (1)每个文本许可被拆分成一个标记列表tokenize
  • (2)构造一个字典(Vocabulary),用来将字符串类型的标记映射到从0开始的数字索引
  • (3)把序列变成一个id list

P53-语言模型

给定文本序列 ,语言模型的目标是估计联合概率 (1)使用计数来建模 相当于一个联合概率 计数模型

(2)N元语法(n-gram模型) 马尔可夫假设,最大的好处就是计算量少了 N-gram模型

总结:

  • 语言模型就是用来估计文本序列的联合概率
  • 使用统计方法时常采用N元语法

本文由 mdnice 多平台发布


http://lihuaxi.xjx100.cn/news/836921.html

相关文章

C语言手写-植物大战僵尸

植物大战僵尸,是一个非常经典的小游戏,初学者从零开始,开发一个自己的植物大战僵尸,还是非常值得期待的!可以作为自己的课设,也可以用来快速提升自己的项目开发能力。项目效果(详细视频教程点这…

使用Canal实现mysql binlog增量订阅数据

目录 前言 简单原理 1.mysql数据库开启Binlog模式 1.docker 安装 canal 服务端 3.实现canal客户端 前言 是由公司业务改造搜索功能,使用ES搜索引擎中间件,那么我们需要将mysql中的数据同步至ES服务中,最总选择使用alibaba的canal增量订…

PT100温度采集电路设计

PT100是正温度系数的热敏电阻,顾名思义,随着温度的升高,电阻的阻值变大;相反,如果随着温度的升高,电阻的阻值变小,就是负温度系数的热敏电阻。之所以叫做PT100,是因为在0度时其阻值为…

【JavaEE】Java中复杂的Synchronized关键字

目录 一、synchronized的特性 (1)互斥 (2)刷新内存 (3)可重入 二、synchronized的使用 (1)修饰普通方法 (2)修饰静态方法 (3)修…

nohup后台启动程序jar包的时候进行定时按时间日期分割日志

在springboot应用开发中,常用jar方式进行部署,用nohup后台启动,这样生成的日志文件会越来越大,导致日志文件打开很慢,不方便后续问题的定位和解决。所以需要对日志进行分割,下面主要介绍按日期分割日志。话…

Python:每日一题之观光公交(前缀和)

题目描述 风景迷人的小城 Y 市,拥有 n 个美丽的景点。由于慕名而来的游客越来越多,Y 市特意安排了一辆观光公交车,为游客提供更便捷的交通服务。观光公交车在第 0 分钟出现在 1 号景点,随后依次前往 2、3、4……n 号景点。从第 i…

Linux设置开机自启keepalived+nginx服务

目录: 目录 背景: 分析过程: 解决方案: 解决方案一: 解决方案二: 背景: 在工作突发遇见了Linux虚拟机所在的宿主机重启了,虚拟机上部署nginxkeepalived服务,但是…

Hudi(21):Hudi集成Flink之核心原理分析

目录 0. 相关文章链接 1. 数据去重原理 1.1. 消息版本新旧 1.2. 攒消息阶段的去重 1.3. 写 parquet 增量消息的去重 1.4. 跨 partition 的消息去重 2. 表写入原理 2.1. 数据写入分析 2.2. 数据压缩 2.3. 数据清理 2.4. Job图 3. 表读取原理 0. 相关文章链接 Hudi文…