【Spark系列5】Dataframe下常用算子API

【Spark系列5】Dataframe下常用算子API

news/2024/7/7 21:39:05

Apache Spark DataFrame API 提供了丰富的方法来处理分布式数据集。以下是一些常见的 DataFrame API 类别和方法，但这不是一个完整的列表，因为 API 非常广泛。这些方法可以分为几个主要类别：

转换操作（Transformations）

这些方法不会立即执行，但会返回一个新的 DataFrame，通常用于构建计算的执行计划。

select(): 选择一列或多列。
filter(), where(): 根据给定的条件过滤行。
groupBy(): 根据某一列或多列对数据进行分组。
sort(), orderBy(): 根据一列或多列对数据进行排序。
join(): 将两个 DataFrame 根据指定的条件连接起来。
union(): 合并两个 DataFrame 的行。
withColumn(): 添加一个新列或替换一个现有列。
withColumnRenamed(): 重命名一个列。
drop(): 删除一列或多列。
distinct(): 返回一个只包含不同行的新 DataFrame。
groupBy().agg(): 分组后的聚合操作。
pivot(): 用于创建数据透视表。
window(): 定义窗口函数。
withWatermark(): 用于流数据处理中的事件时间。

动作操作（Actions）

这些方法会触发实际的计算过程，并返回结果到驱动程序或写入存储系统。

show(): 打印 DataFrame 的前几行。
count(): 返回 DataFrame 中的行数。
first(), head(): 返回 DataFrame 中的第一行。
collect(): 收集 DataFrame 的所有数据到驱动程序中的一个数组。
take(): 返回 DataFrame 的前 n 行。
toPandas(): 将 DataFrame 转换为 Pandas DataFrame（仅适用于能够适应单个机器内存的数据集）。
write(): 将 DataFrame 写入外部存储系统，如 HDFS、S3、数据库等。
save(): 将 DataFrame 保存为文件。

输入和输出（I/O）

read(): 用于读取数据成为 DataFrame。
write(): 用于将 DataFrame 写出到文件系统、数据库等。

缓存和持久化

cache(): 将 DataFrame 缓存到内存中。
persist(): 将 DataFrame 以指定的存储级别缓存。
unpersist(): 从缓存中移除 DataFrame。

其他操作

explain(): 打印出 DataFrame 的执行计划。
printSchema(): 打印出 DataFrame 的 schema 信息。
schema: 返回 DataFrame 的 schema。
columns: 返回 DataFrame 的列名列表。
dtypes: 返回列名和数据类型的列表。

UDFs（用户定义函数）

udf(): 定义一个新的用户定义函数。

Spark SQL

createOrReplaceTempView(): 创建一个临时视图，可以用 SQL 查询。
sql(): 执行 SQL 查询。

这些方法只是 Spark DataFrame API 的一部分。Spark 的 API 经常更新和扩展，具体的方法和功能可能会随着版本的不同而有所变化。为了获得最新和最完整的 API 列表，你应该查看官方的 Spark 文档。

-------

http://lihuaxi.xjx100.cn/news/2000015.html

相关文章

Glide完全解读

Glide完全解读

一，概述 glide作为android流行的图片加载框架，笔者认为有必要对此完全解读。glide提供了三级缓存、生命周期Destroy后自动移除缓存、自动适配ImageView，以及提供了各种对图片修饰的操作，如剪裁等。本文通过最简单的使用&#xff…

阅读更多...

STM32——ADC

STM32——ADC

STM32——ADC 1.ADC介绍 ADC是什么？ 全称：Analog-to-Digital Converter，指模拟/数字转换器! ADC性能指标量程：能测量的电压范围分辨率：ADC能辨别的最小模拟量，通常以输出二进制数的位数表示&#xf…

阅读更多...

大创项目推荐题目：基于深度学习卷积神经网络的花卉识别 - 深度学习机器视觉

大创项目推荐题目：基于深度学习卷积神经网络的花卉识别 - 深度学习机器视觉

文章目录 0 前言1 项目背景2 花卉识别的基本原理3 算法实现3.1 预处理3.2 特征提取和选择3.3 分类器设计和决策3.4 卷积神经网络基本原理 4 算法实现4.1 花卉图像数据4.2 模块组成 5 项目执行结果6 最后 0 前言 🔥 优质竞赛项目系列，今天要分享的是基…

阅读更多...

【Spring连载】使用Spring Data访问Redis（一）----快速指南

【Spring连载】使用Spring Data访问Redis（一）----快速指南

【Spring连载】使用Spring Data访问Redis（一）----快速指南一、导入依赖二、Hello World程序一、导入依赖在pom.xml文件加入如下依赖就可以下载到spring data redis的jar包了： <dependency><groupId>org.springframework.boot…

阅读更多...

npm安装下载修改镜像源

npm安装下载修改镜像源

问题描述一 npm install 时，报错：npm ERR! network request to https://registry.npmjs.org/postcss-pxtorem failed, reason: connect ETIMEDOU，这是因为默认npm安装会请求国外的镜像源，导致下载缓慢容易断开请求下载失败的 np…

阅读更多...

Flink 添加 / 部署 Jar 包的若干注意事项

Flink 添加 / 部署 Jar 包的若干注意事项

Flink 添加 / 部署 Jar 包可根据 Jar 包的声明周期、作用范围选择不同的附属方式，从实际应用上来看，可以分成以下几种场景： 普遍使用的框架或基础设施级别的 Jar 包，例如 Kafka、Hive、Hudi 等 Connector 的Jar 包，应…

阅读更多...

Windows断开映射磁盘提示“此网络连接不存在”，并且该磁盘直在资源管理器中

Windows断开映射磁盘提示“此网络连接不存在”，并且该磁盘直在资源管理器中

1、打开注册表编辑器快捷键winR 打开“运行”， 输入 regedit 2、删除下列注册表中和无法移除的磁盘相关的选项 \HKEY_CURRENT_USER\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\MountPoints2\ 3、打开“任务管理器”，重新启动“Windows资源…

阅读更多...

刷力扣题过程中发现的不熟的函数

刷力扣题过程中发现的不熟的函数

C中不熟的函数 1.memset() 头文件：<string.h> void *memset(void *s,int c,unsigned long n); 为指针变量s所指的前n个字节的内存单元填充给定的int型数值c 如： int a[10]; memset(a,0,sizeof(a)); //将数组a中的数全部赋值为02.sort() &#…

阅读更多...

最新文章