”大数据/Spark“ 的搜索结果

     对于窄依赖而言,由于窄依赖实质是指父RDD的分区最多被一个子RDD使用,在此情况下出现部分计算的错误,由于计算结果的数据只与依赖的父RDD的相关数据有关,所以不需要重新计算所有数据,只重新计算出错部分的数据...

     大数据之spark on k8s spark on k8s架构解析 1.k8s的优点 k8s是一个开源的容器集群管理系统,可以实现容器集群的自动化部署、自动扩缩容、维护等功能。 1、故障迁移 2、资源调度 3、资源隔离 4、负载均衡 5、跨平台...

     大数据Spark实战视频培训教程:本课程内容涉及,Spark虚拟机安装、Spark表配置、平台搭建、快学Scala入门、Spark集群通信、任务调度、持久化等实战内容。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室...

     Spark 集群的独立部署环境中,不需要依赖其他的资源调度框架,自身就实现了资源调度的功能,所以环境中还有其他两个核心组件:Master 和 Worker,这里的 Master 是一个进程,主要负责资源的调度和分配,并进行集群的...

     大数据分为离线和实时数据 Hive仅是离线数据 sparkStreaming 和 Flink 是实时数据工具 spark衍生出各种工具,其核心是mr的优化 Hive(核心功能:SQL=>Spark、对象(databases,table,column/type)) SQL => ...

     Spark简介 Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎。 Spark主要由五部分组成: Spark Core Spark Core 中提供了 Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL, Spark...

     spark学习课件,让你深入浅出学习spark。Spark是Hadoop MapReduce的替代方案。MapReudce不适合迭代和交互式任务,Spark主要为交互式查询和迭代算法设计,支持内存存储和高效的容错恢复。Spark拥有MapReduce具有的...

     Hadoop的Yarn框架比Spark框架诞生的晚,所以Spark自己也设计了一套资源调度框架。区别1、MR是基于磁盘,spark是基于内存2、MR的task是进程3、spark的task是线程,在executor进程里执行的线程。4、MR在Container里...

10  
9  
8  
7  
6  
5  
4  
3  
2  
1