读懂BI商业智能与大数据应用的区别_weixin_30790841的博客-程序员宝宝

技术标签: 人工智能  数据库  大数据  

之所以要区分大数据应用与BI(商业智能),是因为大数据应用与BI、数据挖掘等,并没有一个相对完整的认知。

BI(BusinessIntelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

伴随着BI的发展,是ETL,数据集成平台等概念的提出。ETL,Extraction Transformation Loading,数据提取、转换和加载,数据集成平台主要功能对各种业务数据进行抽取和相关转化,以此来满足BI、数据仓库对数据格式和内容挖掘的要求。

数据集成平台的基础工作与ETL有很大的相似性,其主要功能是实现不同系统不同格式数据地抽取,并且按照目标需求转化成为相应的格式。数据集成开始是点对点的,慢慢地发现这种模式对于系统之间,不同所有权的企业数据流向以及数据标准控制很难,为此,诞生了对统一企业数据平台的需求,来实现企业级之间的数据交互。

数据集成平台就像网络中Hub,可以连接所有应用系统,实现系统之间数据的互通有无。数据集成平台以BI、数据仓库需求而产生,现在已经跨越了最初的需求,上升到了一个更高的阶段。

如今大数据应用更多关注非结构化数据,更多谈论互联网,Twitter、Facebook、博客等非结构化数据,如此理解大数据应用,显然就有些走偏了。结构化数据也属于大数据,且呈现出相同的特点和特征,如数据量大,增长越来越快,对数据处理要求高等。

结构化数据是广义大数据中含金量或者价值密度最高的一部分数据,与之相比,非结构化数据含金量高但价值密度低。在Hadoop平台出现之前,没有人谈论大数据。数据应用主要是结构化数据,多采用IBM、HP等老牌厂商的小型机或服务器设备。

采用传统方法处理这些价值密度低的非结构化数据,被认为是不值得的,因为其产出实在是有限。Hadoop平台出现之后,提供了一种开放的、廉价的、基于普通商业硬件的平台,其核心是分布式大规模并行处理,从而为非结构化数据处理创造条件。

大数据应用的数据来源应该包括结构化数据,如各种数据库、各种结构化文件、消息队列和应用系统数据等,其次才是非结构化数据,又可以进一步细分为两部分,一是社交媒体,如Twitter、Facebook、博客等产生的数据,包括用户点击的习惯/特点,发表的评论,评论的特点,网民之间的关系等,这些都构成了大数据来源。另外一部分数据,也是数据量比较大的数据,就是机器设备以及传感器所产生的数据。以电信行业为例,CDR、呼叫记录,这些数据都属于原始传感器数据,主要来自路由器或者基站。此外,手机的置传感器,各种手持设备、门禁系统,摄像头、ATM机等,其数据量也非常巨大。

对于分析大数据的工具,目前所有的分析工具都侧重于结构化分析,例如针对社交媒体评论方向的分析,根据特定的词频或者语义,通过统计正面/负面评论的比例,来确定评论性质。如果有一个应用系统是接收结构化数据的,例如一个分析系统,接收这些语义就可以便于分析。

让大数据应用落地,其中的关键在于与行业应用的深度融合。

公安行业的视频影像处理是一个特定应用领域,传统BI、ETL工具拿这些数据没有办法,采用分布式Hadoop进行处理能够带来很好的效益,因为Hadoop可以处理数据量足够大。公安行业实际上已采集了大量视频影像数据,利用这些数据,可以追踪一个嫌疑犯的行踪,什么时间在全国哪些地区出现过。这些应用不可能单纯依靠人的力量,需要借助人脸识别、图像识别技术、模式处理,数据压缩等技术,需要海量处理软件,抓出相关特征,帮助公安人员提高工作效率。

在电信行业,计费系统实际上是对各种数据进行整合后的结果,是一个缩小的数据。借助大数据应用,运营商可以原始大数据进行分析,例如分析传感器数据是否有异常,从而判断设备异常等,这些都是一些用传统BI工具无法实现的分析,其结果往往会出乎意料,帮助运营商提高服务水平以及用户的满意度。

在互联网行业,通过分析手机上网轨迹,可以分析了解客户群,了解用户的偏好,此外,获取地理位置的信息,也具有特定价值。

从这些行业大数据应用分析来看,一个是视频影像处理,一个是日志分析,另外一个是处理特定文件格式的分析处理,彼此之间显然没有任何通用性的特点,其共同点就是利用了廉价的大数据处理平台。

转载于:https://www.cnblogs.com/wanggs/p/5863317.html

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_30790841/article/details/98130788

智能推荐

JDK、JRE、JVM和javac的关系_24只羊羊羊的博客-程序员宝宝_javac在jdk还是jre中

    .java为Java的源文件后缀,编写的代码需要写在.java文件中。    Javac编译器,用于读取Java源代码,并将其编译成字节代码。经过javac编译后形成.class,是字节码文件。    Java虚拟机(JVM)运行.class文件从而实现程序的运行。    1、JVM——java virtual machine,就是我们常说的java虚拟机,它是整个java实现...

Unsupervised Feature Learning via Non-Parametric Instance Discrimination_ML_NI_CSU的博客-程序员宝宝

论文地址:Unsupervised Feature Learning via Non-Parametric Instance Discriminationgithub代码:NCE代码摘要:在有标签数据上训练的神经网络分类器能够很好的捕捉图片间的视觉相似性。文章假设:我们能通过训练基于实例(将每一个样本视为单独的类别)的分类器代替基于类别的分类器,得到可以捕捉视觉相似性的特征表达。我们将其总结...

JavaScript忍者秘籍--学习笔记_waterwatermelon的博客-程序员宝宝

chapter 3 函数函数都一个name属性表示函数的名字。命名函数和匿名函数的区别?变量提升 声明(var)会被提升,初始化不会被提升。函数的作用域是指声明该函数的整个函数范围。arguments 参数–类数组this参数依赖函数调用的方式。调用上下文(invocation context)构造器的超能力1.创建一个新的空对象2.传递给构造器的对象是this参数(即刚刚创建的...

同桌的你之程序员版[摘]_weixin_33681778的博客-程序员宝宝

2019独角兽企业重金招聘Python工程师标准>>> ...

linux简单常用命令及个人总结_Pippo_Liang的博客-程序员宝宝

1.命令提示符[[email protected] ~]#  : 其中root为当前用户名,localhost为主机名,~为当前所在目录,#超级用户提示符,$普通用户提示符。5.cd:进入目录        选项:~ 回到家目录 , - 回到上次目录 ,..回到上级目录  .进入当前目录2.ls [选项] [参数]:查看目录的内容。       选项 :-a 显示所有文件,包括隐藏文件,

JS 里的数据类型(一)_方小圆的博客-程序员宝宝

7种类型数值(Number),基本类型字符串(String),基本类型布尔(Boolean),基本类型null,基本类型undefined,基本类型symbol,基本类型数值JS内部,所有数字都是以64位浮点数形式储存,即使整数也是如此。所以,1与1.0是相同的,是同一个数。JS底层没有整数,所以某些运算只有整数才能完成,此时 JavaScript 会自动把64位浮点数,转...

随便推点

数据结构之通用树结构的实现_顾小豆的博客-程序员宝宝_树结构实现

之前我们讲了树的定义和操作,这节我们讲一下如何实现这些操作。既然要考虑如何实现,那就得说说树的存储结构。大家都知道树是非线性数据结构,显然我们无法用数组来表示树的逻辑结构。那我们应该怎么办呢?通过什么来表示呢?其实可以设计结构体数组对结点间的关系进行表述。如下图所示:从上图发现,将根结点的双亲定义为-1,表示其没有双亲;将根的孩子结点的双亲定义为0,表示其双亲是根结点;将根结点孩子1的孩子结点的双...

时间序列预测方法汇总:从理论到实践(附Kaggle经典比赛方案)_PaperWeekly的博客-程序员宝宝

作者 | Light学校 | 中国科学院大学研究方向 | 机器学习时间序列是我最喜欢研究的一种问题,这里我列一下时间序列最常用的方法,包括理论和实践两部分。理论部分大多是各路神仙原创的高...

windbg命令_ken_scott的博客-程序员宝宝

windbg命令linux下使用ulimit -S -c unlimited命令,可以使程序崩溃时生成core文件,使用gdb exec_file core_file就可以查看崩溃的程序,接着使用bt就基本可以定位触发崩溃的代码段windows下没有这么方便,但可以使用procexp和windbg来达到相同的目的,程序崩溃后,可以打开procexp,然后在procexp中选择崩溃的程序,右

斯坦福大学自然语言处理第三课“最小编辑距离(Minimum Edit Distance)”_绝对不要看眼睛里的郁金香的博客-程序员宝宝

一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。课件汇

七宗罪之病态的加班_普通网友的博客-程序员宝宝

0 奇怪的事情王小宝今年刚刚大学毕业,经过两轮简单的面试之后,进入了本地一家拥有20多名研发人员的IT企业,终于成为了心目中一直崇拜、向往的程序员。第一天上班,起了个大早,怀着激动的心情,迈着坚实的步伐第一个来到公司,等了十来分钟后才有人过来开门,接着是安排工位、领取入职材料,员工相互介绍,加了公司的微信群,终于入座,松了口气,心里想着,以后我就要在这个地方发光发热了,大干一场了,对自己的第一...

推荐文章

热门文章

相关标签