大数据理论体系_大数据的基本理论体系-程序员宅基地

技术标签: 大数据理论体系  大数据  

序言

2018~2021 年期间,笔者阅读了200+大数据相关的书籍和专栏。

本专栏为笔者,在多年读书笔记的基础上,结合自身的大数据开发心得体会,呕心沥血之作。

来点关注吧,万分感谢!

本专栏姊妹篇

1000个问题搞定大数据技术体系

100个问题搞定Java虚拟机

技术分享 PPT

这里分享一下笔者曾经使用过的关于大数据怎样入门的技术分享 PPT:

大数据从0到1 .pptx

目录结构

  1. 大数据是什么?
  2. 大数据有哪些特征?
  3. 大数据和云计算有什么关系?
  4. 大数据和人工智能有什么关系?
  5. 大数据是如何发展起来的?
  6. 大数据处理的基本流程是什么?
  7. 数据质量如何评测?
  8. 什么是ETL?
  9. 大数据开发主要做什么?
  10. 大数据技术框架有哪些类型?
  11. 为什么说数据不动代码动?移动计算比移动数据更划算?
  12. DAG对大数据处理有什么好处?
  13. 批处理和流处理如何区分? 有边界数据和无边界数据如何区分?
  14. 批处理中如何提高CPU利用率?
  15. 什么是事件时间和处理时间?
  16. Workflow设计模式指的什么?
  17. 分布式锁是什么?如何实现?
  18. 分布式事务是什么?如何实现?
  19. 分布式锁和分布式事务有什么区别?
  20. CAP定理是什么?
  21. BASE理论是什么?
  22. 分布式系统有哪些衡量指标?
  23. 一致性模型有哪些?
  24. SLA是什么?
  25. 如何预估系统QPS?
  26. 你怎么看待发布订阅模式的?
  27. 发布与订阅模式和观察者模式有什么不同?
  28. 分布式系统数据分片有哪些方式?
  29. 一致性哈希是什么?
  30. 为什么要将数据序列化?
  31. 数据压缩算法该如何选择?
  32. 分布式系统中序列化框架该如何选择?
  33. Protobuf是什么?
  34. Apache Thrift是什么?
  35. Apache Avro是什么?
  36. Kryo是什么?
  37. 列式存储和行式存储有什么区别?
  38. 列式存储格式该如何选择?
  39. ORCFile是什么?
  40. Parquet是什么
  41. 数据仓库是什么?
  42. 数据仓库与数据库的区别?
  43. OLTP和OLAP的区别?
  44. 数据仓库是如何分层的?
  45. 数据仓库是如何建模的?
  46. 什么是事实表和维度表?
  47. 什么是商业智能(BI)?
  48. 从系统架构角度出发,服务器该如何分类?
  49. MPPDB是什么?
  50. MPPDB和Hadoop有什么区别?
  51. 数据仓库应该选择哪种服务器架构?
  52. 并行计算模型有哪些?
  53. BSP和MapReduce有什么区别?
  54. OLAP有哪些实现方法?
  55. Cube技术是什么?
  56. NoSQL是什么?
  57. 负载均衡是什么?
  58. 负载均衡算法有哪些?
  59. 分布式系统中转发如何实现?
  60. 大数据资源调度框架有什么作用?
  61. 资源调度有什么技术难点?
  62. 多租户技术是什么?
  63. 你认为传统的Yarn、Mesos调度方案存在哪些缺陷?
  64. 什么是倒排索引?
  65. 什么是企业数据?
  66. 什么是数据湖?为什么需要数据湖?
  67. 数据湖中数据的生命周期是怎样的?
  68. 数据仓库、数据集市和数据湖有什么区别?
  69. 什么是Lambda架构?
  70. 什么是Kappa架构?
  71. 如何将Lambda架构应用到数据湖?数据湖中的功能模块有哪些?
  72. 企业数据湖面临哪些挑战?
  73. RAID技术到底是什么?
  74. 为什么需要工作流调度系统?
  75. 为什么要有消息队列/消息引擎系统?
  76. 什么是云原生数据库?
  77. 数据库领域的未来发展趋势是怎样的?

参考文献

  1. 极客时间专栏《从0开始学大数据》李智慧
  2. 极客时间专栏《大规模数据处理实战》蔡元楠
  3. 《云计算中的大数据技术与应用》 梁凡著
  4. 《大数据开发与应用》青岛英谷教育科技股份有限公司,山东工商学院编著
  5. 《大数据技术体系详解:原理、架构与实战》董西成著
  6. 《Hadoop大数据挖掘从入门到进阶实战:视频教学版》邓杰编著
  7. 《大数据架构详解:从数据获取到深度学习》朱洁,罗华霖编著
  8. 《Kafka权威指南》(美)妮哈・纳克海德( Neha Narkhede),(美)格温・沙皮拉( Gwen Shapira) (美)托德・帕利诺( Todd Paino)著;薛命灯译》/(美)妮哈・纳克海德( Neha Narkhede),(美)格温・沙皮拉( Gwen Shapira) (美)托德・帕利诺( Todd Paino)著;薛命灯译
  9. 《Hadoop大数据技术原理与应用》黑马程序员编著
  10. 《企业数据湖》(印)汤姆斯・约翰(Tomcy John),(印)潘卡・米斯拉(Pankaj Misra)著张世武,李想,张浩林译
  11. 《大数据技术及应用探究》胡沛,韩璞著
  12. 《Hadoop & Spark大数据开发实战》肖睿、雷刚跃主编
  13. CS-Notes
  14. ClickHouse官网
  15. ClickHouse深度揭秘
  16. 什么是分布式事务以及有哪些解决方案?
  17. 分布式理论(二)——Base 理论
  18. 分布式系统衡量指标
  19. 百度百科 顺序一致性模型
  20. 通俗易懂 强一致性、弱一致性、最终一致性、读写一致性、单调读、因果一致性 的区别与联系
  21. 分布式系统学习——数据分片
  22. 带着问题学习分布式系统之数据分片
  23. 百度百科 一致性哈希
  24. Apache Thrift系列详解(一) - 概述与入门
  25. 初探Protostuff的使用
  26. 高性能的序列化与反序列化:kryo的简单使用
  27. 大数据小视角2:ORCFile与Parquet,开源圈背后的生意
  28. 新一代列式存储格式Parquet
  29. Parquet的那些事(一)基本原理
  30. 再来聊一聊Parquet 列式存储格式
  31. MPP(大规模并行处理)简介
  32. MPP架构
  33. 百度百科 NoSQL
  34. 大数据里常见的几种压缩格式压缩
  35. zstd,未来可期的数据压缩算法
  36. Is zstd splitabble in hadoop/spark/etc?
  37. 阿里云李飞飞:什么是云原生数据库
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Shockang/article/details/115609804

智能推荐

拿到一个待检测的站或给你一个网站,你觉得应该先做什么?-程序员宅基地

文章浏览阅读2.1k次,点赞3次,收藏14次。拿到一个待检测的站或给你一个网站,你觉得应该先做什么?一、信息收集1.获取域名的whois信息,获取注册者邮箱姓名电话等。2.通过站长之家、明小子、k8等查询服务器旁站以及子域名站点,因为主站一般比较难,所以先看看旁站有没有通用性的cms或者其他漏洞。3、通过DNS域传送漏洞、备份号查询、SSl证书、APP、微信公众号、暴力破解、DNS历史记录、K8 C段查询、Jsfinder、360或华为威胁情报、证书序列号获取企业域名与ip。4.通过Nmap、Wappalyzer、御剑等查看服务器操作系统版本

springboot 大文件分片上传、断点续传和秒传-程序员宅基地

文章浏览阅读2.6k次,点赞2次,收藏17次。springboot测试项目——文件的普通上传、分片上传、断点续传和秒传实现。

MFC日期时间拾取控件和月历控件_mfc中cdatetimectrl重绘-程序员宅基地

文章浏览阅读3.1k次,点赞2次,收藏10次。一、日期时间拾取控件CDateTimeCtrl 1.属性值 Day States 将某一天的显示变为粗体 Multi Select 允许用户在控件中选择日期范围,否则只允许选择一个日期 No Today Circle 不用红色圈定今天的日期 No Today 在控件的下边不再显示今天的日期 Week Numbers 在控件的每行左边显示周数 2.基本操作 日期时间拾取控件可改变月历对_mfc中cdatetimectrl重绘

Python爬取城市二手房数据-程序员宅基地

文章浏览阅读3.4k次,点赞2次,收藏56次。今天要分享的教程是爬取各大城市的二手房数据,抛开以前的文章不谈,下面的内容应该足够你实现这篇爬虫。以下是正文:1. 确定目标今天我们的目标官网链接是:https://www.lianjia..._二手房数据统计python

python 关于私有属性和私有方法_有关python的私有属性-程序员宅基地

文章浏览阅读253次。私有属性和私有方法 python对于类的成员没有严格的访问控制限制,这与其他面向对象语言有区别,关于私有属性和私有方法,有如下要点: 1.通常我们约定,两个下划线开头的属性是私有的(private),其他为公共的(public)。 2.类内部可以访问私有属性(方法) 3.类外部不能直接访问私有属性(方法) 4.类外部可以通过“_类名__私有属性(方法)名“访问私有属性(方法)【注】:方法本质上也是属性!只不过是可以通过()执行而已,所..._有关python的私有属性

idea导入项目,Lombok插件安装了,但是无get set方法_导入了lomlook 还是没有get set-程序员宅基地

文章浏览阅读411次。排查步骤:1.保证安装了Lombok插件2.保证导入了Lombok jar包3.是否勾选了配置项_导入了lomlook 还是没有get set

随便推点

【ffmpeg】ffmpeg avformat_open_input返回失败的解决办法_avformat_open_input返回值-5-程序员宅基地

文章浏览阅读2.5k次。很多朋友在使用新版本的ffmpeg时,都遇到了avformat_open_input返回失败的问题。在下也遇到了此问题。在stackoverflow上搜了一下,解决方法如下。在调用avformat_open_input之前,先调用如下接口初始化一下即可。av_register_all();这算是新版本ffmpeg代码流程的一个变化了。老版本的ffmpeg,代码流程如下:avcodec_..._avformat_open_input返回值-5

leetcode454.四数相加II_四数相加2-程序员宅基地

文章浏览阅读81次。https://leetcode-cn.com/problems/4sum-ii/用Hashmap来存数据相加的值,先上我的思路进阶1.四阶暴力扫描,哈哈哈哈哈肯定不可能2.二阶扫,把数组a和数组b的值加起来存进map1,数组c和数组d的值加起来存进map2,然后遍历map1,判断map2中是否存在 (0-map1[i]),时间复杂度O(n^2),空间复杂度O(n^2),但是比较麻烦,3次二阶遍历。3.先把数组a和数组b进行遍历,存进map里,在遍历数组c和数组d的时候,每次都判断一下(0-_四数相加2

完美解决 appium-desktop 一运行就停止运行_appium desktop打开2个断开被关闭一个-程序员宅基地

文章浏览阅读4k次。这个问题困扰了我1天多的时间,终于被我发现问题的所在了,安装jdk的时候它还会安装一个jre,可以看看jdk同级目录下有没有jre,如果没有那么重新安装一下就解决了_appium desktop打开2个断开被关闭一个

(新版)通过java程序,给微信发送消息_如何通过程序收发微信信息-程序员宅基地

文章浏览阅读2.9k次。之前写过一篇使用飞鸽快信给自己的微信发送消息的示例。https://blog.csdn.net/xcxzzx01/article/details/80461086两年多过去了,飞鸽快信已改名捷易快信,相关的接口也已升级,故重新写一篇博客,以方便广大网友。1. 捷易快信网站地址http://jy.erpit.cn/2. 实现方式,依赖的jar包没变,只是接口参数变了。代码如下:package com.xxx.xxx;import java.time.LocalDateTime;i._如何通过程序收发微信信息

java 微信公众号支付demo 微信企业支付到个人用户、微信公众号企业付款到个人零钱,微信提现到零钱_企业付款零钱 返回空 demo-程序员宅基地

文章浏览阅读4.1k次。微信提现到零钱(微信内部交易,不需要手续费)价格格式错误:可能是价格经过计算后.doubleValue了一下 最后价格是 200.00 企业付款签名错误:和支付的时候签名的参数有出入(搞了半天,最后到看了一段php代码后做了一下调整。OK了)参考PHP博客:http://blog.csdn.net/sinat_35861727/article/details/72843383Map<S..._企业付款零钱 返回空 demo

面向智能任务的语义通信:理论、技术和挑战_语义通信的研究现状-程序员宅基地

文章浏览阅读2k次。面向智能任务的语义通信:理论、技术和挑战_语义通信的研究现状