spark - 程序员宅基地

Spark DPP(动态分区裁剪)导致的DataSourceScanExec NullPointerException问题分析以及解决

本文基于spark 3.1.2,且运行在yarn模式下最近在调试 spark sql的时候遇到了空指针的问题，如下： Caused by: java.lang.NullPointerException at org.apache.spark.sql.execution.DataSourceScanExec.$init$...

【Spark】SparkCore入门解析（一）

标签： spark

一、Spark简介【1】什么是Spark? Apache Spark是用于大规模数据处理的统一分析引擎，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序【2】Spark特点运行速度快：Spark有先进的...

spark数据处理databrickssparkknowl

标签： spark数据处理databri

spark数据处理databrickssparkknowledgebase共22页.pdf.zip

基于Spark+Hive实现用户画像分析系统（含价值度、忠诚度、流失预警、活跃度等分析模型）.zip

标签： spark hive

毕业设计课程设计项目开发系统开发 Spark 机器学习大数据算法源码毕业设计课程设计项目开发系统开发 Spark 机器学习大数据算法源码毕业设计课程设计项目开发系统开发 Spark 机器学习大数据算法 ...

在YARN上运行Spark的常用配置参数讲解

标签： spark yarn 参数配置

本文针对在YARN上运行Spark的常用配置参数进行讲解 1. 在yarn上启动spark application 确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群(客户端)配置文件的目录。这些configs用于写入HDFS并连接YARN ...

Spark on Yarn详解

标签： spark

Spark on Yarn详解 Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区别只是–master的时候不一样。...

spark数据处理sparkinmemorycluster

标签： spark数据处理sparkin

spark数据处理sparkinmemoryclustercomputingforiterativeandinteractiveapplications共43页.pdf.zip

毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip

标签：毕业设计 hadoop spark 大数据金融商贸

毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip

SparkCore、SparkSQL、SparkStreaming三者之间的区别和联系

标签： spark

【SparkCore、SparkSQL、SparkStreaming三者之间的区别和联系

Spark3.1.2单机安装部署

标签： spark 大数据 hadoop

spark3.1.2 单机安装部署概述 Spark是一个性能优异的集群计算框架，广泛应用于大数据领域。类似Hadoop，但对Hadoop做了优化，计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代运算的...

Spark-机器学习（4）回归学习之逻辑回归

标签：机器学习 spark 回归

今天的文章，我们来学习我们回归中的逻辑回归，并带来简单案例，学习用法。希望大家能有所收获。同时，希望我的文章能帮助到每一个正在学习的你们。也欢迎大家来我的文章下交流讨论，共同进步。

python开发spark步骤

标签： spark 大数据分布式

主要是获取sparkcontext对象，基于对象作为执行环境入口。通过submit客户端工具进行提交，代码中不要设置master。代码中的文件要所有节点都要能访问到，可以是分布式文件系统。

Java-Spark系列1-spark概述

标签： spark big data Spark概述

大数据技术栈二.Spark概述2.1 MapReduce框架局限性2.2 Hadoop生态圈中的各种框架2.3 Spark2.3.1 Spark的优势2.3.2 Spark特点2.3.3 SPRAK 2 新特性一.大数据技术栈如下图，当前的一个大数据技术栈: 如上所示: ...

spark环境配置

标签： spark 大数据

mv spark-2.1.2-bin-hadoop2.7 ./spark 解压到目标目录即完成安装， spark 解压后主要包含如下子目录： bin/ (工具程序目录) conf/ (配置文件目录) jars/ (scala Jar 包目录) python/ (python package 目录) ...

SparkStreaming经典 demo

标签： spark 大数据

在短视频流行的当下，推荐引擎扮演着极其重要的角色，而要想达到最佳的推荐效果，推荐引擎必须依赖用户的实时反馈。所谓实时反馈，其实就是我们习以为常的点赞、评论、转发等互动行为，不过，这里需要突出的，是一个...

ClickHouse 单机安装及基础知识与 Spark 应用

标签： clickhouse spark 数据库

ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。在传统的行式数据库系统中，数据按如下顺序存储：处于同一行中的数据总是被物理的存储在一起。常见的行式数据库系统有：MySQL、Postgres等。...

Spark -- 读取mysql的4种方式和各自的应用场景

标签： mysql spark 数据库

spark read mysql

漫谈大数据 - Spark on Hive & Hive on Spark

标签： sql hive spark

Spark on Hive & Hive on Spark你分清了吗

大数据Spark--运行环境和架构

标签：大数据 spark

Spark 集群的独立部署环境中，不需要依赖其他的资源调度框架，自身就实现了资源调度的功能，所以环境中还有其他两个核心组件：Master和Worker，这里的Master是一个进程，主要负责资源的调度和分配，并进行集群的监控...

spark-3.4.3-bin-hadoop3.tgz

标签： spark 大数据

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点...

hive on spark 配置和 spark on hive

标签： spark hive

Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。 Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是SparkSQL语法，...

Spark的操作实践

标签： spark big data scala

1.Spark基本知识总结 2.Spark的操作实践： 2.1 Spark的安装部署 2.2 Scala语言编程实践 2.3 基于Spark shell的WordCount实践 2.4 基于IDEA+Maven的Spark编程实践 2.5 pySpark实践 1. Spark基本知识的总结 Spark借鉴...

Spark-Shell操作

标签： spark 大数据 scala

Spark-Shell操作 spark-shell简述 spark-shell是REPL（Read-Eval-Print Loop，交互式解释器），它为我们提供了交互式执行环境，表达式计算完成以后就会立即输出结果，而不必等到整个程序运行完毕，因此可以及时...

spark读写clickhouse

标签： spark scala big data

spark读取clickhouse数据一：这种jdbc的连接加载的是全量表数据 val prop = new java.util.Properties prop.setProperty("user", "default") prop.setProperty("password", "123456") prop.setProperty("driver...