大数据理论体系_大数据的基本理论体系-程序员宅基地

技术标签: 大数据理论体系  大数据  

序言

2018~2021 年期间,笔者阅读了200+大数据相关的书籍和专栏。

本专栏为笔者,在多年读书笔记的基础上,结合自身的大数据开发心得体会,呕心沥血之作。

来点关注吧,万分感谢!

本专栏姊妹篇

1000个问题搞定大数据技术体系

100个问题搞定Java虚拟机

技术分享 PPT

这里分享一下笔者曾经使用过的关于大数据怎样入门的技术分享 PPT:

大数据从0到1 .pptx

目录结构

  1. 大数据是什么?
  2. 大数据有哪些特征?
  3. 大数据和云计算有什么关系?
  4. 大数据和人工智能有什么关系?
  5. 大数据是如何发展起来的?
  6. 大数据处理的基本流程是什么?
  7. 数据质量如何评测?
  8. 什么是ETL?
  9. 大数据开发主要做什么?
  10. 大数据技术框架有哪些类型?
  11. 为什么说数据不动代码动?移动计算比移动数据更划算?
  12. DAG对大数据处理有什么好处?
  13. 批处理和流处理如何区分? 有边界数据和无边界数据如何区分?
  14. 批处理中如何提高CPU利用率?
  15. 什么是事件时间和处理时间?
  16. Workflow设计模式指的什么?
  17. 分布式锁是什么?如何实现?
  18. 分布式事务是什么?如何实现?
  19. 分布式锁和分布式事务有什么区别?
  20. CAP定理是什么?
  21. BASE理论是什么?
  22. 分布式系统有哪些衡量指标?
  23. 一致性模型有哪些?
  24. SLA是什么?
  25. 如何预估系统QPS?
  26. 你怎么看待发布订阅模式的?
  27. 发布与订阅模式和观察者模式有什么不同?
  28. 分布式系统数据分片有哪些方式?
  29. 一致性哈希是什么?
  30. 为什么要将数据序列化?
  31. 数据压缩算法该如何选择?
  32. 分布式系统中序列化框架该如何选择?
  33. Protobuf是什么?
  34. Apache Thrift是什么?
  35. Apache Avro是什么?
  36. Kryo是什么?
  37. 列式存储和行式存储有什么区别?
  38. 列式存储格式该如何选择?
  39. ORCFile是什么?
  40. Parquet是什么
  41. 数据仓库是什么?
  42. 数据仓库与数据库的区别?
  43. OLTP和OLAP的区别?
  44. 数据仓库是如何分层的?
  45. 数据仓库是如何建模的?
  46. 什么是事实表和维度表?
  47. 什么是商业智能(BI)?
  48. 从系统架构角度出发,服务器该如何分类?
  49. MPPDB是什么?
  50. MPPDB和Hadoop有什么区别?
  51. 数据仓库应该选择哪种服务器架构?
  52. 并行计算模型有哪些?
  53. BSP和MapReduce有什么区别?
  54. OLAP有哪些实现方法?
  55. Cube技术是什么?
  56. NoSQL是什么?
  57. 负载均衡是什么?
  58. 负载均衡算法有哪些?
  59. 分布式系统中转发如何实现?
  60. 大数据资源调度框架有什么作用?
  61. 资源调度有什么技术难点?
  62. 多租户技术是什么?
  63. 你认为传统的Yarn、Mesos调度方案存在哪些缺陷?
  64. 什么是倒排索引?
  65. 什么是企业数据?
  66. 什么是数据湖?为什么需要数据湖?
  67. 数据湖中数据的生命周期是怎样的?
  68. 数据仓库、数据集市和数据湖有什么区别?
  69. 什么是Lambda架构?
  70. 什么是Kappa架构?
  71. 如何将Lambda架构应用到数据湖?数据湖中的功能模块有哪些?
  72. 企业数据湖面临哪些挑战?
  73. RAID技术到底是什么?
  74. 为什么需要工作流调度系统?
  75. 为什么要有消息队列/消息引擎系统?
  76. 什么是云原生数据库?
  77. 数据库领域的未来发展趋势是怎样的?

参考文献

  1. 极客时间专栏《从0开始学大数据》李智慧
  2. 极客时间专栏《大规模数据处理实战》蔡元楠
  3. 《云计算中的大数据技术与应用》 梁凡著
  4. 《大数据开发与应用》青岛英谷教育科技股份有限公司,山东工商学院编著
  5. 《大数据技术体系详解:原理、架构与实战》董西成著
  6. 《Hadoop大数据挖掘从入门到进阶实战:视频教学版》邓杰编著
  7. 《大数据架构详解:从数据获取到深度学习》朱洁,罗华霖编著
  8. 《Kafka权威指南》(美)妮哈・纳克海德( Neha Narkhede),(美)格温・沙皮拉( Gwen Shapira) (美)托德・帕利诺( Todd Paino)著;薛命灯译》/(美)妮哈・纳克海德( Neha Narkhede),(美)格温・沙皮拉( Gwen Shapira) (美)托德・帕利诺( Todd Paino)著;薛命灯译
  9. 《Hadoop大数据技术原理与应用》黑马程序员编著
  10. 《企业数据湖》(印)汤姆斯・约翰(Tomcy John),(印)潘卡・米斯拉(Pankaj Misra)著张世武,李想,张浩林译
  11. 《大数据技术及应用探究》胡沛,韩璞著
  12. 《Hadoop & Spark大数据开发实战》肖睿、雷刚跃主编
  13. CS-Notes
  14. ClickHouse官网
  15. ClickHouse深度揭秘
  16. 什么是分布式事务以及有哪些解决方案?
  17. 分布式理论(二)——Base 理论
  18. 分布式系统衡量指标
  19. 百度百科 顺序一致性模型
  20. 通俗易懂 强一致性、弱一致性、最终一致性、读写一致性、单调读、因果一致性 的区别与联系
  21. 分布式系统学习——数据分片
  22. 带着问题学习分布式系统之数据分片
  23. 百度百科 一致性哈希
  24. Apache Thrift系列详解(一) - 概述与入门
  25. 初探Protostuff的使用
  26. 高性能的序列化与反序列化:kryo的简单使用
  27. 大数据小视角2:ORCFile与Parquet,开源圈背后的生意
  28. 新一代列式存储格式Parquet
  29. Parquet的那些事(一)基本原理
  30. 再来聊一聊Parquet 列式存储格式
  31. MPP(大规模并行处理)简介
  32. MPP架构
  33. 百度百科 NoSQL
  34. 大数据里常见的几种压缩格式压缩
  35. zstd,未来可期的数据压缩算法
  36. Is zstd splitabble in hadoop/spark/etc?
  37. 阿里云李飞飞:什么是云原生数据库
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Shockang/article/details/115609804

智能推荐

C# 模糊搜索-程序员宅基地

文章浏览阅读2.9k次。private void txt_Select_SelectionChanged(object sender, RoutedEventArgs e) { try { //初始化变量(接收条件) string strSelect = ""; string strContent = ..._c# 模糊搜索

提升Python运行效率的小窍门_python 提升赋值效率-程序员宅基地

文章浏览阅读2.9k次,点赞2次,收藏7次。说起Python,作为一门大热的编程语言,它简单易学、语法优美,自身拥有丰富强大的库,而且应用范围也是十分广泛。毫无疑问,Python 确实有用很多的优点,每一个优点看起来都非常吸引人。但是,Python 并不是没有缺点的,最主要的缺点之一就是Python 的执行速度不够快。针对这个问题,下面为大家搜集了6个可以提高Python运行效率的小窍门。窍门一:关键代码使用外部功能包Pytho..._python 提升赋值效率

Marching Cubes算法在点云重建中的简单应用_from skimage.measure import marching_cubes_lewiner-程序员宅基地

文章浏览阅读199次。Marching Cubes算法是由Lorensen和Cline于1987年提出的,它通过将空间划分为小的体素(voxel),并根据每个体素内部的点的状态来决定网格的生成。点云重建是计算机图形学中的一个重要问题,其目标是从离散的点云数据中生成连续的三维模型。其中一种常用的方法是Marching Cubes算法,它可以将点云数据转换为网格表示,从而实现对点云进行可视化、分析和处理。以上代码中,我们首先根据点云数据计算出体素网格的大小,并创建一个与之对应的空网格。这里只是一个简单的示例,供大家参考。_from skimage.measure import marching_cubes_lewiner

matlab批量txt文件导入,跪求大神给码。。。!!!!!!!!!_matlab大量导入txt文件-程序员宅基地

文章浏览阅读4.7k次。怎么批量导入txt,我只会一个一个导入。查了别人写的好多代码还是不能用。。。求大神_matlab大量导入txt文件

Python如何调用ixchariot进行吞吐量测试_python调用 chariot-程序员宅基地

文章浏览阅读714次。在上述代码中,您需要将 ixchariot_path 和 test_script_path 替换为您系统上实际的IxChariot安装路径和测试脚本路径。请确保您已正确安装IxChariot,并且测试脚本路径是有效的。要使用Python调用IxChariot进行吞吐量测试,您可以使用 subprocess 模块来执行IxChariot的TCL命令行。请注意,IxChariot的具体用法和命令行参数可能因版本而异,请根据您使用的IxChariot版本和测试需求进行相应的调整。_python调用 chariot

【目标检测算法系列】一、R-CNN算法_rcnn算法的缺点-程序员宅基地

文章浏览阅读2k次。R-CNN 是第一个成功将深度学习应用到目标检测上的算法,也是后续Fast R-CNN , Faster R-CNN等系列算法的鼻祖一、R-CNN整体架构R-CNN的全貌如下图所示它主要分为4个模块候选区域(region proposal)提取 一个大型的CNN网络用来特征提取 使用SVM分类模型进行类别分类 使用回归(Regression)模型进行具体定位具体R..._rcnn算法的缺点

随便推点

剑指Offer---2021/7/21-程序员宅基地

文章浏览阅读1.6w次,点赞2次,收藏3次。剑指Offer---2021/7/21刷题记录

java 8 默认接口实现_java 8 接口 默认实现-程序员宅基地

文章浏览阅读166次。_java 8 接口 默认实现

搭建国密SSL开发测试环境_国密ssl实验室-程序员宅基地

文章浏览阅读7.6k次,点赞10次,收藏33次。国密算法包含了一系列的加密算法,用途广泛,可以用于软硬件加密、签名等地方。我主要研究国密算法在SSL/TLS/HTTPS通信中的应用,这会涉及到客户端和服务器端,最典型的用例就是浏览器访..._国密ssl实验室

NEUOJ 竞赛训练 C语言谭浩强习题 C-谭浩强-3.7 题解_oj上有谭浩强练习题-程序员宅基地

NEUOJ竞赛训练C语言谭浩强习题C-谭浩强-3.7题解:将字符串 China 通过后移4位的方式进行加密。

Android编程获取手机型号,本机电话号码,sdk版本及firmware版本号(即系统版本号)...-程序员宅基地

文章浏览阅读50次。Android开发平台中,可通过TelephonyManager 获取本机号码。TelephonyManager phoneMgr=(TelephonyManager)this.getSystemService(Context.TELEPHONY_SERVICE);txtPhoneNumber.setText(phoneMgr.getLine1Number())..._android8.1 system_property_get("ro.serialno 获取不到值

虚拟直播的发展带来的影响有哪些?_虚拟直播之于游戏行业 是偶然还是必然-程序员宅基地

文章浏览阅读70次。虚拟直播将塑造出许多新的形象实现,成为数字新时代人类生存和生活方式的一部分,如数字化形象、品牌基因化、某种格局的逻辑化和静态图像的动态化。虚拟直播产业将成为未来细分市场中不可或缺的一部分,随着消费群体对虚拟主播的认知和接受度不断提高,虚拟直播市场将不断扩大,创新空间也将更加广阔。虚拟直播以其独特的魅力和新奇的展示方式,逐渐影响着社会文化和消费习惯,成为近年来网络文化中不可忽视的一部分。预计虚拟直播将在未来有更广阔的发展空间,推动互联网文化创新与突破,成为数字娱乐和社交互动的新潮流。随着网络与科技的发展,_虚拟直播之于游戏行业 是偶然还是必然