spark - 程序员宅基地

spark sql和spark core之间的关系

这几天一直在学spark模块之间的关系，但是一直不清楚dataframe、RDD、dataset这几种数据结构之间的关系，也不清楚要写代码的话从哪里找文档，后面接触了spark sql之后一下子就明白了。本来以为Spark SQL只是用来写...

Spark入门- Spark运行Local本地模式

标签：大数据 spark

一、Spark单机模式部署 Spark版本： spark-2.4.7-bin-hadoop2.7 1、安装配置JDK环境 2、下载Spark 官网下载http://spark.apache.org/ 然后上传到LInux服务器上 3、解压 tar -zxvf spark-2.4.7-bin-hadoop2.7.tgz ...

spark 运行自带样例SparkPi、spark-examples报错

标签：大数据 hadoop spark

./spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ../examples/jars/spark-examples_2.12-3.10.1.jar 10 scala> spark-submit --class org.apache.spark.examples.SparkPi --...

Ubuntu下安装Spark3.2.0教程

标签： ubuntu spark hadoop

文章目录前言一、安装Spark1. 下载压缩包并解压2. 安装Spark3. 配置环境变量4. 修改配置文件二、验证Spark安装及错误处理1. 运行Spark实例2. 启动Spark shell三、总结前言 Spark 的安装需要建立在 Hadoop 的之上...

Spark自带example

标签： spark

Spark自带examples案例 1.SparkPi 在SPARK_HOME目录下运行如下命令： bin/run-example org.apache.spark.examples.SparkPi 结果如下图所示：到此，案例成功运行，运行结果为：Pi is roughly 3.1402157010785055 2...

spark 安装详细步骤

标签： spark 大数据 scala

3、在目录/home/hadoop/software下解压：tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz。4、进入conf目录,复制文件cp spark-env.sh.template spark-env.sh。6、cd 切换到sbin目录下使用 ./start-all.sh 命令。5、vim ...

spark操作Redis

标签： redis spark 数据库

需求：需要通过spark对redis里面的数据进行实时读写实现方案：通过建立连接池，在每台机器上单独建立连接，进行操作 1、利用lazy val的方式进行包装 class RedisSink(makeJedisPool: () => JedisPool) ...

CentOS 搭建Spark完全分布式环境

标签： spark 分布式 centos

文章目录一、安装 Spark1. 解压安装包2. 配置环境变量二、配置 spark1. 修改 spark-env.sh 文件2. 修改 slaves 文件2. 修改 spark-defaults.conf 文件三、节点配置 spark1. 传输文件2. 修改 spark-env.sh 文件四、...

Spark3.2教程（一）Windows10搭建Spark3.2.0

标签： spark scala big data

目前Spark官方提供的最新版本3.2.0，是2021年10月份发布，但是该版本搭建Windows下环境，在使用spark-shell时，会报以下错误，尚无解决方案。退而求其次，使用Spark3.1.2，则完全正常。本次搭建环境，所使用到的...

Springboot+Spark(http请求调用spark api，并以集群模式运行)

标签： spark spring boot

Springboot+Spark

Spark性能优化之SparkUI

SparkUI其实信息量非常大，而且是需要不断去加深理解Spark内容才能理解内容的，涉及到作业优化，找原因才是最关键，而对于Spark作业来说读懂Sparkui的信息，更加是关键中的关键。

部署：hive on spark报错Failed to execute spark task(Failed to submit Spark work, please retry later)...

标签： hive spark 大数据

hive on spark

Spark 参数设置

标签： spark

Spark系统的性能调优是一个很复杂的过程，需要对Spark以及Hadoop有足够的知识储备。从业务应用平台（Spark）、存储（HDFS）、操作系统、硬件等多个层面都会对性能产生很大的影响。借助于多种性能监控工具，我们可以...

2015 Spark技术峰会-Spark优化及实践经验分享-黄洁

标签： Spark 内存管理 IO提升计算优化机器学习

英特尔大数据技术中心研发经理黄洁在OpenCloud 2015大会Spark专场的演讲PPT：Spark优化及实践经验分享，就Spark的内存管理、IO提升和计算优化3个方面进行了详细讲解。对于Spark，黄洁表示，它将成为大数据的一个重要...

spark_0108

标签： spark 大数据 hadoop

Spark单节点部署 1. 找到安装文件 1 find / -name spark*.tgz 2. 解压文件到指定目录 1 tar -zxvf ~/experiment/file/spark-2.2.0-bin-hadoop2.7.tgz -C /opt 3. 重命名 1 mv /opt/spark-2.2.0-bin-hadoop2.7 /...

用VSCode开发Spark应用

标签： vscode spark intellij-idea

通常Spark普遍使用Jet Brain的Idea，用Idea建立本地服务器并进行测试开发，使用起来还相对不错，可以借力Idea强大而便捷的功能，使得开发应用相对得心应手。然而最近一直考虑远程服务器的搭建并建立开发环境，发现...

基于spark的机器学习项目实战

标签： spark spark streaming spark安装

本课程所需掌握的技术：java、scala、IK、Hdfs、Spark ml、Spark Streaming、Spark SQL、Kafka、Zookeeper、Mongodb、Spring-Data-Mongodb，由于每个技术需要掌握的程度不一样，对于我们用到的一些开源技术，课程...

Spark大数据分析与实战：基于Spark框架实现TopN

标签：分布式计算 spark 大数据

Spark大数据分析与实战：基于Spark框架实现TopN 基于Spark框架实现TopN 一、实验背景：基于Spark框架实现TopN 二、实验目的：获取蜀国武将中武力值最高的5位，即通过分布式计算框架实现从原始数据查询出武力最高...

Linux -Spark安装

标签： spark linux big data

1、使用fz上传spark压缩包到/app/tools/ 2、进入tools目录 cd /app/tools/ 使用ls查看 3、解压文件 tar -zxvf spark-2.4.1-bin-hadoop2.7.tgz ![在这里插入图片描述]...

Hive on Spark配置

标签： hive

Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是Spark SQL语法，Spark负责采用RDD执行。 2. Hive on Spark配置 1）兼容性说明注意：官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive

Spark Streaming的操作实践

标签： spark big data kafka

实验内容与要求： 1． Spark Streaming基本知识总结 ...是Spark软件栈中一个用于流计算的组件，它将数据流沿时间轴分片，再交给Spark对分片的数据进行批处理，所以SparkStreaming并没有真正地实现流计算，但也能满

Spark大数据技术与应用第一章Spark简介与运行原理

标签： spark 大数据

Spark大数据技术与应用第一章Spark简介与运行原理 1.Spark是2009年由马泰·扎哈里亚在美国加州大学伯克利分校的AMPLab实验室开发的子项目，经过开源后捐赠给Aspache软件基金会，成为了Apache Spark。由Scala语言...

Spark1：概述

标签： hadoop spark big data

Spark1：概述一、概述二、Spark与Hadoop的对比1.从组成上来看2.从框架上来看3.从功能上来看①数据存储内存②Spark比Hadoop更通用③容错性④可用性三、Spark总体流程1.整体架构①Spark Core②Spark SQL③Spark ...

Spark优化篇：RBO/CBO

标签： spark

Adaptive Query Execution（AQE）在之前的版本里已经有所实现，但是之前的框架存在一些缺陷，导致使用不是很多，在Spark3.0中Databricks（Spark初创团队创建的大数据与AI智能公司）和Intel的工程师合作，解决了相关...

Spark执行流程详解

标签： spark big data 大数据

1、在命令行执行提交命令时，在spark-submit脚本中，调用了SparkSubmit类中的mainMethod.invoke方法，这个类通过反射，调用我们自定义的类。 2、我们自定义类中的main方法开始执行，初始化了SparkConf和...

运行Spark-shell报错：File does not exist: hdfs://mycluster/spark_historylog

标签： spark 大数据

执行spark-shell报错 [root@hadoop101 conf]# spark-shell 2.报错 Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). 2020-...

Spark 内存模型

标签： Spark 内存模型

文章目录环境参数Executor 内存划分堆内内存（On-Heap Memory）堆外内存（Off-...spark.executor.memory ：JVM On-Heap 内存（堆内内存），在使用 spark submit 提交的时候，可以通过配置 --executor-memory 来对这个

Spark：failed to launch: nice -n 0 /opt/spark/bin/spark-class org.apache.spark.deploy.worker.

标签： spark

node03: failed to launch: nice -n 0 /opt/spark/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://node01:7077 node03: full log in /opt/spark/logs/spark-root-org.apache....

Spark下载与入门

标签： spark scala big data

目录1 下载Spark2 Spark中的Python shell3 Spark核心概念4 独立应用5 总结 1 下载Spark 下载和解压缩，首选下载预编译版本的Spark，访问：Spark download，选择包类型为：“Pre-built for Apache Hadoop 3.2 and ...

Hadoop和Spark简单概述

标签： spark 大数据

文章目录Hadoop和Spark概述一. 简单说说Hadoop1. Hadoop的产生背景2. Hadoop核心技术二. 简单说说Spark1. Spark的官方定义2. Spark的核心技术3. Spark的内置项目4. Spark的生态体系5. Spark的特点6. Spark的用户和...

”spark“ 的搜索结果

spark sql和spark core之间的关系

Spark入门- Spark运行Local本地模式

spark 运行自带样例SparkPi、spark-examples报错

Ubuntu下安装Spark3.2.0教程

Spark自带example

spark 安装详细步骤

spark操作Redis

CentOS 搭建Spark完全分布式环境

Spark3.2教程（一）Windows10搭建Spark3.2.0

Springboot+Spark(http请求调用spark api，并以集群模式运行)

Spark性能优化之SparkUI

部署：hive on spark报错Failed to execute spark task(Failed to submit Spark work, please retry later)...

Spark 参数设置

2015 Spark技术峰会-Spark优化及实践经验分享-黄洁

spark_0108

用VSCode开发Spark应用

基于spark的机器学习项目实战

Spark大数据分析与实战：基于Spark框架实现TopN

Linux -Spark安装

Hive on Spark配置

Spark Streaming的操作实践

Spark大数据技术与应用第一章Spark简介与运行原理

Spark1：概述

Spark优化篇：RBO/CBO

Spark执行流程详解

运行Spark-shell报错：File does not exist: hdfs://mycluster/spark_historylog

Spark 内存模型

Spark：failed to launch: nice -n 0 /opt/spark/bin/spark-class org.apache.spark.deploy.worker.

Spark下载与入门

Hadoop和Spark简单概述

推荐文章