容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

news/2024/7/1 3:11:53

摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。

容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

(二):Kubernetes如何助力Spark大数据分析

概述

本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合,允许Spark分布式内存计算,机器学习集群对云上的大数据直接进行分析和保存结果。

先决条件

你已经通过阿里云容器服务创建了一个Kubernetes集群,详细步骤参见创建Kubernetes集群

从容器服务控制台创建一个Spark OSS实例

使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例

1 登录 https://cs.console.aliyun.com/
2 点击 “应用目录”
3 选择 "spark-oss", 点击 “参数”

图片描述

  1. 给你的应用一个名字, e.g. spark-oss-online2
  2. (必选)填写你的oss_access_key_id和oss_access_key_secret
Worker:# set OSS access keyID and secretoss_access_key_id: <Your sub-account>oss_access_key_secret: <your key_secret of sub-account>

3.(可选)修改工作节点数目 Worker.Replicas: 3

图片描述

4 点击 “部署”
5 点击 “Kubernetes 控制台”,查看部署实例

图片描述

6 点击 服务, 查看外部端点, 点击URL访问Spark集群
图片描述

图片描述

7 测试Spark集群

1.打开一个spark-shell

kubectl get pod | grep worker

spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m

spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m

kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs --  /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077

粘贴下列代码,使用Spark测试OSS的读写性

// Save RDD to OSS bucket
val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2"))
stringRdd.saveAsTextFile("oss://eric-new/testwrite12")// Read data from OSS bucket
val lines = sc.textFile("oss://eric-new/testwrite12")
lines.take(10).foreach(println)

Test Strings
Test String2

CLI 命令行操作

Setup keys and deploy spark cluster in one command

export OSS_ID=<your oss id>
export OSS_SECRET=<your oss secrets>helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss
kubectl get svc| grep oss
myspark-oss-master   ClusterIP      172.19.9.111    <none>          7077/TCP         2m
myspark-oss-webui    LoadBalancer   172.19.13.1     120.55.104.27   8080:30477/TCP   2m

原文链接

干货好文,请关注扫描以下二维码:
图片描述


http://lihuaxi.xjx100.cn/news/273443.html

相关文章

【python教程入门学习】Python爬虫入门学习:网络爬虫是什么

网络爬虫又称网络蜘蛛、网络机器人&#xff0c;它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页&#xff0c;并将所需要的数据抓取下来。通过对抓取的数据进行处理&#xff0c;从而提取出有价值的信息。 认识爬虫 我们所熟悉的一系列搜…

再见QQ,再见QQ游戏!

整套源码包括&#xff1a;SQLServer数据库安装文件、数据库建库建表sql、服务器端整套源码&#xff08;含完整核心引擎源码&#xff09;、105种客户端游戏类型。这套源码含有的游戏类型如下&#xff1a;代码编译和部署方式整套源码我已经全部整理好了&#xff0c;服务端各个服务…

“干掉” Date,Java8 LocalDate 真香!

点击上方“方志朋”&#xff0c;选择“设为星标”回复”666“获取新整理的面试文章# 简介伴随 lambda表达式、streams 以及一系列小优化&#xff0c;Java 8 推出了全新的日期时间API。Java处理日期、日历和时间的不足之处&#xff1a;将 java.util.Date 设定为可变类型&#xf…

快车 FlashGet 3.1 修正版(1057)

快车 FlashGet 3.1 修正版(1057) SM发布于 2009-06-25 23:43:23| 2326 次阅读 字体&#xff1a;大 小 打印预览感谢VxuE的投递快车(FlashGet)是互联网上最流行,使用人数最多的一款下载软件.采用多服务器超线程技术、全面支持多种协议,具有优秀的文件管理功能.快车是绿色软件,无…

html5 strongeaseinout,Canvas開發庫封裝

一、Canvas第三方類庫1、常見的第三方類庫konva.jsbody{margin:0;}//創建舞台var stagenew Konva.Stage({container:"#box",width:window.innerWidth,height:window.innerHeight});//創建層var layernew Konva.Layer({});stage.add(layer);//創建圖形var starnew Kon…

关于百度编辑器UEditor在asp.net中的使用方法!

为了完成自己想要的功能效果&#xff0c;在项目中使用到了百度编辑器&#xff0c;为了搞明白&#xff0c;苦心学习查资料搞了整整一天&#xff0c;总结一下。 在asp.net 的项目中目前我觉得有两种情况&#xff0c;一种是没有使用模板页的&#xff0c;一种是使用了模板页的&…

GPT-2仅是“反刍”知识,真正理解语言还要改弦更张

作者 | Gary Marcus译者 | 泓技编辑 | 夕颜出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;【导读】OpenAI的GPT-2正被广泛地讨论&#xff0c;无论是《纽约客》还是《经济学人》&#xff0c;我们都能看到有关它的话题。关于自然和人工智能&#xff0c;它想…

thinkphp5项目--企业单车网站(七)

thinkphp5项目--企业单车网站&#xff08;七&#xff09; 项目地址 fry404006308/BicycleEnterpriseWebsite: Bicycle Enterprise Websitehttps://github.com/fry404006308/BicycleEnterpriseWebsite 一、css样式&#xff1a;float和margin-right <div class"radio &qu…