5. spark 参数问题

news/2024/7/8 4:03:12

官网地址:spark 参数

在代码中设置参数

spark-default.conf < 命令行< 代码内部设置参数, 对于一常用的参数可以放在配置文件,对于一些个性化参数则通过 命令行传递比较好。

命令行

命令行传递参数,有一些快捷方式,比如 --driver-memory 类似的参数, 其实这只是对特别常用的参数做了额外的精简化, 除此之外还有另一种最底层的传递方式那就是 --conf k=v

Spark Properties

Spark Properties 控制大多数应用程序设置,并可为每个应用程序单独配置。支持的参数可以在本文最上方的连接处找到

val conf = new SparkConf()
             .setMaster("local[2]")
             .setAppName("CountingSheep")
            .set("任意支持的key","value")
val sc = new SparkContext(conf)

动态加载参数

动态加载参数,意思就是通过命令行动态的为程序设置运行参数,这也是最为灵活的一种。也是开发中最常见的,一般需要以下两个步骤。

  1. 代码中要有
    val sc = new SparkContext(new SparkConf())
    val sc = new SparkContext(conf)
    这样命令行传递的参数会被sparkConf 对象接收,自动设置。
  2. 命令行传递参数
    命令行传递有两种写法,一种是快捷方式,通过spark-submit --help 可以查到支持的快捷方式,比如spark-submit --name test, 这就将我们的程序名称设置为了test, 除此之外就是用–conf k=v 这种方式支持所有的底层参数, 比如上面的写法可以改成:
    spark-submit --conf spark.app.name=test 这两种写法是等效的。所有的快捷方式都有对应的底层方式
    再举几个例子:
    –conf spark.executor.memory=2g
    –conf spark.driver.memory=2g
    等同于
    –driver-memory 4g
    –executor-memory 2g
    文章开始的连链接就是官网支持的所有底层参数, 感兴趣的可以查看。
    下面是我常用的命令仅供参考:
spark-submit 
--master yarn
-deploy-mode cluster 
--class com.boke.entry.Main 
--conf spark.shuffle.service.enabled=true   #开启shuffer
--conf spark.dynamicAllocation.enabled=False #是否开启动态资源分配
--conf spark.dynamicAllocation.minExecutors=1 #最小分配数量
--conf spark.dynamicAllocation.maxExecutors=4 #最大分配数量
--conf spark.dynamicAllocation.executorIdleTimeout=60s #超时检测
--conf spark.dynamicAllocation.initialExecutors=3 #初始化分配数量
--conf spark.driver.memory=2g #等同于--driver-memory
--conf spark.executor.memory=2g # 等同于--executor-memory
--conf spark.executor.instances=4# 等同于--num-executors
--conf spark.app.name=SparkTest # 等同于 --name SparkTest
--conf spark.yarn.jars=hdfs://xxx:9000/yarn-jars/*.jar 
/usr/local/alg/graph-algorithm-1.0-SNAPSHOT.jar 

重点说下 spark.yarn.jars 这个参数的意思是放弃读取spark安装目录下的…/jars/目录,转而读取hadoop的目录,要求将
spark安装目录中的…/jars/下的所有jar包上传到指定的hdfs目录,此目录也可以放别的依赖jar
比如jdbc的包,或者任何你代码中用到的第三方的jar,好处是jar容易管理, 打包的时候不需要将第三方的依赖jar打进去, 只需要源码包即可,
注意我的集群用的是9000端口,你可能用的是8020。
请在hdfs-site.xml 找到:

   <property>
        <name>dfs.namenode.rpc-address.hdfs-cluster.nn1</name>
        <value>xxx:9000</value>
    </property>

目前大多数的集群都是8020端口


http://lihuaxi.xjx100.cn/news/1538447.html

相关文章

点云从入门到精通技术详解100篇-基于光谱共焦系统的三维点云数据处理

目录 前言 国内外研究现状 点云基础和相关技术研究 2.1 点云数据格式 2.1.1 LAS 格式

蚂蚁发布金融大模型:两大应用产品支小宝2.0、支小助将在完成备案后上线

9月8日&#xff0c;在上海举办的外滩大会上&#xff0c;蚂蚁集团正式发布金融大模型。据了解&#xff0c;蚂蚁金融大模型基于蚂蚁自研基础大模型&#xff0c;针对金融产业深度定制&#xff0c;底层算力集群达到万卡规模。该大模型聚焦真实的金融场景需求&#xff0c;在“认知、…

浅谈UI自动化测试

最近一直在学习python&#xff0c;正好部门技术结构调整&#xff0c;就开始了点工向UI自动化测试的转变&#xff0c;我要说瞌睡来了就掉枕头么&#xff1f; 不过还好&#xff0c;可以将python的学习成果在自动化测试中实践。。。 1、about自动化测试 定义&#xff1a;把人为驱…

1-3 AUTOSAR软件架构

目录 一、简介 二、基础软件层 BSW 2.1 微控制器抽象层 2.2 ECU抽象层 2.3 复杂的驱动程序 2.4 服务层 三、运行时环境 RTE 四、应用软件层 SWC 一、简介 分层架构是实现软硬件分离的关键&#xff0c;它使汽车嵌入式系统控制软件开发者摆脱了以往 ECU 软件开发与验证时…

mysql数据库增量备份方案、备份计划(InsCode AI 创作助手)

一、备份计划 以下是MySQL数据库增量备份的一般计划&#xff1a; 创建完整备份&#xff1a;在自动备份计划开始前&#xff0c;先创建一次完整备份。这个备份将包含所有数据和表结构。保存增量备份&#xff1a;在每次备份计划完成后&#xff0c;保存增量备份。这个备份将包含从…

Matlab图像处理-腐蚀

基本概念 形态学(Morphology)一词通常代表生物学的一个分支&#xff0c;它是研究动物和植物的形态和结构的学科。我们在这里使用同一词语表示数学形态学的内容&#xff0c;将数学形态学(Mathematical Morphology)作为工具从图像中提取对于表达和描述区域形状有用的图像分量&am…

C# Onnx Yolov8 Seg 分割

效果 项目 代码 using Microsoft.ML.OnnxRuntime; using Microsoft.ML.OnnxRuntime.Tensors; using OpenCvSharp; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System…

目标检测YOLO实战应用案例100讲-毫米波辐射图像去模糊重建与目标检测(续)

目录 3.3基于RSRN模型的毫米波辐射图像去模糊重建方法 3.3.2非线性映射 3.3.3多尺度模糊提取