大数据入门-大数据技术概述(一)-程序员宅基地

技术标签: hive  大数据理论  hdfs  hadoop  大数据  实时大数据  

目录

大数据入门系列文章

1.大数据入门-大数据是什么

一、概念

二、技术详解

1.基础架构:Hadoop

2.分布式文件系统:HDFS

3.数据仓库:Hive

4.存储引擎:Kudu

5.分布式数据库:HBase

三、其他

大数据入门系列文章

1.大数据入门-大数据是什么


大数据入门系列文章

你知道什么是大数据吗,请走传送门。

1.大数据入门-大数据是什么

1.大数据入门-大数据是什么

一、概念

大数据技术是指在构架大数据平台的时候需要的技术。包含存储系统,数据库,数据仓库,资源调度,查询引擎,实时框架等。下面以我目前所了解到的一些技术做简要介绍。目前之介绍简单概念。

二、技术详解

1.基础架构:Hadoop

1.架构

2.简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

2.分布式文件系统:HDFS

1.HDFS架构

2.简介

指被设计成适合运行在通用硬件上的分布式文件系统。

3.特点

HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

3.数据仓库:Hive

1.架构

2.简介

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

3.特点

执行过程走MapReduce比较慢,处理规模大,可扩展性高,加载模式为读时模式。后面就MapReduce会做专门的解释。

4.存储引擎:Kudu

1.架构

2.简介

Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。

3.特点

支持随机读写,支持OLAP 分析,太多列查询时性能下降,跟关系型数据有点类似。其存储文件不在HDFS上面,有自己的存储文件系统。

5.分布式数据库:HBase

1.架构

2.简介

HBase是一个开源的非关系型分布式数据库,它参考了谷歌的BigTable建模,实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。

3.特点

高可靠、高性能、面向列、可伸缩。

1.架构

2.简介

Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。

3.特点

流处理特性、API支持、Libraries支持、整合支持。

三、其他

以上就是我目前涉及到的部分技术,下一篇出Zookpeer、Yarn、Spark、Impala、Kafka、Flume。

大数据入门系列文章

你知道什么是大数据吗,请走传送门。

1.大数据入门-大数据是什么

1.大数据入门-大数据是什么

如果你觉得这篇文章对您有帮助,请关注点赞加收藏,想要了解更多请关注公众号联系博主,祝您生活愉快,身心健康!

备注:以上资源来自网络,侵删。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/helongqiang/article/details/119282811

智能推荐

如何在一个正交相机下,控制物体切换透视/正交渲染_unity 正交相机 控制-程序员宅基地

文章浏览阅读246次。如何在一个正交相机下,控制物体切换透视/正交渲染_unity 正交相机 控制

优肯UK5604-52TC交换机配置vlan pppoe汇聚实现流量汇聚-程序员宅基地

文章浏览阅读359次。注意:存在vlans那边一定要输入vlan的端口范围,然后允许的vlans要和前面的对应。_uk5604-52tc

vue3(ts)类型“EventTarget”上不存在属性“value”-程序员宅基地

文章浏览阅读5.1k次,点赞5次,收藏4次。e.target在ts下的类型断言_类型“eventtarget”上不存在属性“value”

【python--读取csv文件统计店铺有关信息】-程序员宅基地

文章浏览阅读436次,点赞9次,收藏8次。python练习题

rpm,yum,sed相关总结_rpm sed-程序员宅基地

文章浏览阅读4.4k次。一.练习1.每12小时备份并压缩/etc/目录至/backup目录中,保存文件名格式为,"/etc-年-月-日-时-分.tar.gz"[root@sakura ~]# mkdir /backup[root@sakura ~]# crontab -e[root@sakura ~]# crontab -l0 */12 * * * /usr/bin/tar -zcf /backup/etc-$..._rpm sed

Python 合并同一文件夹下所有Excel_xlsx文件_一键合并同一文件夹所有excel代码-程序员宅基地

文章浏览阅读909次,点赞2次,收藏5次。无_一键合并同一文件夹所有excel代码

随便推点

在SQL Server 2005里面把表移动到另外一个filegroup里(ZT,经翻译)-程序员宅基地

文章浏览阅读121次。在SQL Server 2005里面, alter table新增了一个move to 选项,可以将table移动到另外一个filegroup里面,其原理为:删除一个表的cluster index时, SQL Server会将数..._alter table on test_filegroup

C++ 类封装案例设计-立方体类_c++封装设计案例 立方体类-程序员宅基地

文章浏览阅读653次。通过一个封装案例来巩固前面所学的类和对象一、设计步骤1、创建立方体类2、设计属性3、设计行为 获取立方体面积和体积3、分别利用全局函数和成员函数 判断两个立方体是否相等二、代码实现#include <iostream>using namespace std;class Cube {public: //设置长度 void set_l(int l) { m_l = l; } //设置宽度 void set_w(int w) { m_w = w;_c++封装设计案例 立方体类

element table 多选分页回显实现时遇到的问题_el table分页编辑时回显问题-程序员宅基地

文章浏览阅读400次。element table 多选分页回显实现时遇到的问题_el table分页编辑时回显问题

DevOps在电商系统中的实践与优化-程序员宅基地

文章浏览阅读296次,点赞10次,收藏7次。DevOps在电商系统中的实践与优化作者: 禅与计算机程序设计艺术1. 背景介绍电子商务系统是当今互联网时代最重要的应用之一。随着电商行业的飞速发展,电商系统也面临着越来越多的挑战:用户量激增,对系统性能、可扩展性提出了更高要求

Android KK上对ALC5616调试笔记——音量调节-程序员宅基地

文章浏览阅读2.2k次。Created with Raphaël 2.1.0大致流程是,模拟数据通过 line in 输入到ALC5616,经过寄存器 MX-0Fh (INL & INR Volume Control) 调节音量以后输入给ADC,ADC内部还有一次调节音量的机会,可以通过设置寄存器 MX-1Ch (Stereo1 ADC Digital Volume Control) 来实现。_alc5616调试

Kubernetes kubectl 命令自动补全_kubectl tab联系-程序员宅基地

文章浏览阅读1.0k次。k8s 命令自动补全yum install -y bash-completionsource /usr/share/bash-completion/bash_completionsource <(kubectl completion bash)echo “source <(kubectl completion bash)” >> ~/.bashrc..._kubectl tab联系

推荐文章

热门文章

相关标签