数据仓库 Apache Hive

news/2024/7/7 18:41:24

一、数据分析

1、数据仓库

    数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。

    数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support)。

思考:

1、假如你现在手里有200w,当下的时间点去投资口罩生成,你做不做?能不能赚钱?

2、假如你是公司营销总监,是否愿意招聘女主播进行短视频带货直播销售?

1.1、数仓专注分析

    数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统。

    同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用。

    这也是为什么叫“仓库”,而不叫“工厂”的原因。

数据仓库为何而来,解决什么问题的?

结论:为了分析数据而来,分析结果给企业决策提供支撑。

数据驱动决策的制定。

    联机事务处理系统(OLTP):其主要任务是执行联机事务处理。关系型数据库(RDBMS)是OLTP典型应用,比如:Oracle、MySQL、SQL、SQL Server等

OLTP环境开展分析可行吗?可以,但是没必要

    OLTP系统的核心是面向业务,支持业务,支持事务。所有的业务操作可以分为读、写两种操作,一般来说读的压力明显大于写的压力。如果在OLTP环境直接开展各种分析,有以下问题需要考虑:

    1、数据分析也是对数据进行读取操作,会让读取压力倍增

    2、OLTP仅存储数周或数月的数据

    3、数据分散在不同系统不同表中,字段类型属性不统一。

数据仓库面世

    1、当分析所涉及数据规模较小的时候,在业务低峰期时可以在OLTP系统上开展直接分析。

    2、但为了更好的进行各种规模的数据分析,同时也不影响OLTP系统运行,此时需要构建一个集成统一的数据分析平台。该平台的目的很简单:面向分析,支持分析,并且和OLTP系统解耦合。

    3、基于这种需求,数据仓库的雏形开始在企业中出现了。

数据仓库的构建

    数仓是一个用于存储、分析、报告的数据系统,目的是构建面向分析的集成化数据环境。我们把这种面向分析、支持分析的系统称之为OLAP(联机分析处理)系统。当然数据仓库是OLAP系统的一种实现。

1.2、数仓主要特征

    1、面向主题(Subject-Oriented):主题是一个抽象的概念,是较高层次上数据综合、归类并进行分析利用的抽象。

    2、集成性(Integrated):主题相关的数据通常会分布在多个操作型系统中,彼此分散、独立、异构。需要集成到数仓主题下要统一源数据中所有矛盾之处(如字段的同名异义、异名同义、单位不统一、字长不一致等等) 

    业务系统(ETL:抽取、转换、加载)===>数仓。

    3、非易失性(Non-Volatile):也叫非易变性。数据仓库是分析数据的平台,而不是创造数据的平台。我们是通过数仓去分析数据中的规律,而不是去创造修改其中的规律。因此数据进入数据仓库后,它便稳定且不会改变。数据仓库中一般有大量的查询操作,但修改和删除操作很少。

    4、时变性(Time-Variant):数据仓库包含各种粒度的历史数据,数据可能与某个特定日期、星期、月份、季度或者年份有关。当业务变化后会失去时效性。因此数据仓库的数据需要随着时间更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。

1.3、数据仓库主流开发语言--SQL

2、Apache Hive

Hadoop分布式文件系统(一)

请记住,你当下的结果,由过去决定;你现在的努力,在未来见效;
不断学习才能不断提高!磨炼,不断磨炼自己的技能!学习伴随我们终生!
生如蝼蚁,当立鸿鹄之志,命比纸薄,应有不屈之心。
乾坤未定,你我皆是黑马,若乾坤已定,谁敢说我不能逆转乾坤?
努力吧,机会永远是留给那些有准备的人,否则,机会来了,没有实力,只能眼睁睁地看着机会溜走。


http://lihuaxi.xjx100.cn/news/1971026.html

相关文章

Pandas实战100例 | 案例 71: 计算值的频率

案例 71: 计算值的频率 知识点讲解 在数据分析中,了解数据集中各个值的频率是非常有用的。Pandas 的 value_counts 方法可以用于计算 DataFrame 或 Series 中各个值的出现频率。 计算值的频率: 使用 value_counts 方法可以计算 DataFrame 或 Series 中每个唯一值…

现代工程科技杂志现代工程科技杂志社现代工程科技编辑部2023年第21期目录

能源科技 配网故障停电原因及改进对策研究 上官安琪 110kV变电站电气自动化技术及应用策略 陈祥 变电运维误操作事故预控措施分析 高翔;韦婉 智能变电站变电运维安全与设备维护探究 温亮亮;覃万全 110kV变电站电气设计及其防雷保护案例研析 谢旭平 变电运维…

轻量应用服务器Lighthouse_香港轻量服务器_海外轻量服务器-腾讯云

腾讯云轻量应用服务器开箱即用、运维简单的轻量级云服务器,CPU内存带宽配置高并且价格特别便宜,大带宽,但是限制月流量,轻量2核2G3M带宽62元一年、2核2G4M优惠价118元一年,540元三年、2核4G5M带宽218元一年&#xff0c…

二十三、关于vite项目中无法使用minio的解决方案

问题背景 项目需要上传大文件,既然是大文件,如果一次性进行读取发送、接收都是不可取的,很容易导致内存问题。所以对于大文件上传,就一定要实现切片上传、断点续传。如果自己实现相对比较麻烦,但好消息是我们的文件服务使用了开源的minio作为对象存储服务,并且minio也提…

Pytorch各种Dropout层应用于详解

目录 torch框架Dropout functions详解 dropout 用途 用法 使用技巧 参数 数学理论公式 代码示例 alpha_dropout 用途 用法 使用技巧 参数 数学理论公式 代码示例 feature_alpha_dropout 用途 用法 使用技巧 参数 数学理论 代码示例 dropout1d 用途 用…

Linux 使用PS命令掌握进程管理

在Linux系统中,进程管理是系统管理员和开发人员必备的技能之一。而PS命令作为进程管理的重要工具,可以帮助我们查看和监控系统中运行的进程。本文将详细解析PS命令的使用方法和输出结果,帮助读者全面掌握进程管理的利器。 PS命令概述&#xf…

服务器感染了.DevicData-P-XXXXXXXX勒索病毒,如何确保数据文件完整恢复?

引言: 在当今数字化时代,勒索病毒已成为网络安全威胁的一个严峻问题。其中,.DevicData-P-XXXXXXXX 勒索病毒以其恶意加密文件的手段引起了广泛关注。本文将介绍该病毒的特点、数据恢复方法以及如何预防遭受其攻击。 如不幸感染这个勒索病毒&…

【Docker构建MySQL8.0镜像】

Docker构建MySQL8.0镜像 部署流程1. 拉取docker镜像2. 创建数据卷,存放MySQL数据3. 启动MySQL镜像4. 初始化sql放入MySQL镜像5. 执行MySQL脚本6. MySQL镜像打包7. MySQL镜像迁移 部署流程 1. 拉取docker镜像 docker pull mysql:8.0.35拉取成功后就可以看到镜像了&…