大数据圈的那些名词盘点
发布时间:2022-11-12 10:46:48 所属栏目:大数据 来源:
导读: 上一个台阶的做法,就是“数据分析”了。利用“BI”工具,对各种表的组合及维度的组合进行多角度关联、钻取,最好是实时响应,方便迅速验证思路。
BI
简单粗暴理解为一个GU
BI
简单粗暴理解为一个GU
|
上一个台阶的做法,就是“数据分析”了。利用“BI”工具,对各种表的组合及维度的组合进行多角度关联、钻取,最好是实时响应,方便迅速验证思路。 BI 简单粗暴理解为一个GUI程序,C/S或B/S结构都行,比谁的GUI操作更灵活,对不会SQL的业务人员更友好。想显示什么数据及关系,直接拖拉就得到花花绿绿的图,想想都美滴哼~ 数据挖掘 比数据分析更近一步,能发现潜在规律,创造价值。一句话,人都没发现,被你个机器人给发现了。好吧,啤酒尿布的故事我真的不解释…… 数据仓库是个杂货铺吗? 是,也不是。 数据仓库是面向主题的,不是什么辣鸡都能放进去。但由于主题挺多,故放进去的数据也确实有点杂。 数据仓库 主题是啥?举个栗子:市场小分队需要研究用户流失,需要提哪些数据?销售小分队需要研究成本构成,需要哪些?售后小分队需要研究问题原因,需要哪些? 每个人只关心自己手上的活,但又需要别人的数据做支撑。把各种数据汇总起来,就是数据集成。 数据集市?什么鬼? 好吧,我觉得这个概念也是为了忽悠人而产生的。“客官别走,我看你囊中羞涩,但你可以买个简配版的数据仓库啊。就叫它…嗯…数据集市吧!” 栗子:只为市场部服务的小仓库里,每个细节都充满了市场部门的味道,那专业术语一箩筐,别的部门就无法完整利用了。 数据仓库VS数据库 咳咳,基本上就是OLAP和OLTP的区别。是不是用一个蒙圈来解释另一个蒙圈的赶脚? 传统数据库是OLTP(在线事务)型,写入要快,还要保证数据完整性。查询也支持,但不需要那么复杂快那么快。 数据仓库是OLAP(在线分析)型,不需要写入多快,但做大量数据的复杂查询要足够快。 大名鼎鼎的Hadoop出场 HDFS 数据太多大数据圈,一台机器实在装不下了。你说我拼命加硬盘不行吗??确实可以,但,你一台机器怎么处理呢?? 所以还是要把数据分散放到多台机器上。高大上的说法是:不要移动数据,要移动计算! 让一堆散落的数据操作起来就跟一台单机一样,这就是HDFS干的活儿了。其实所有文件系统都是在干这个事:抽象! MR计算框架 Ok,多机可以一起算了。但如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算?Map/Reduce计算框架就是干这个活的。 拿出你最爱的编辑器,愉快地coding吧骚年! SQL,不能没有你! 领导说,小伙子,代码写的不错,有前途! 喏,这里还有些业务问题,你再写几个程序吧! 找出锁网用户的2g流量中较大的,看他们用的什么手机,好推荐3g套餐; 看CBD区都有多少土豪,他们最喜欢用什么App,上什么网站?给运营商月贡献多少? 看旅游景区的人们都来自全国哪里?住在哪些酒店?旅游路线如何? 看投诉用户都在投诉些什么?哪些用户可能不堪忍受,将要转投对手了? ……… 组合爆炸!!! 臣妾做不到啊!!! Pig/HQL 每个查询都要写个一次性程序,开发太慢! 需要支持sql,否则不会写代码的分析师就傻眼了! Pig:脚本化描述查询需求,自动编译为MR程序执行。 HQL:跟Pig类似,但语法是SQL的子集,而不是自定义一门配置语言。基于Hive计算框架,编译为MR执行。 Impala/Presto/Drill SQL被飞快地开发出来,但即席查询无法忍受,运行太慢! 无数非著名的交互SQL引擎被开发出来,直接在HDFS上跑,牺牲了通用性稳定性。 全能SPARK! SPARK MR计算框架太慢! Impala等是另起炉灶,还是想只维护一套东西比较好; 解决方案1:HQL+Hive+Tez,好是好,但既生瑜,何生亮,因为Spark要通杀了…… 解决方案2:SparkSQL+Spark编译器+Spark,有一统江湖之势,SparkSQL支持绝大多数HQL的函数,抢生意必备。 SPARK Streaming 即席查询和批处理,都是针对历史数据分析的(不能更新数据),如果要1分钟滚动更新微博热点呢? 流计算,实时统计。不过想要统计的东西必须事先想好,否则没法补算。 Stormvs Spark Streaming,也是瑜亮之争。VMAX选用后者。 HBase/Greenplum 数据仓库的一些常用查询也很慢,用KV型数据库,如HBase。 虽然无法处理复杂的查询/计算,大多没法JOIN,也许没法聚合,但对海量数据查的快!VMAX内的历史话单存在Hbase内。 对应的是Gbase和Greenplum,传统分布式DB,查询语句很复杂,但数据没法海量,查的会比较慢。 等等,还没完…… 一句话解释: Mahout/MLib:分布式机器学习库 Protobuf:数据交换的编码和库 ZooKeeper:高一致性的分布存取协同系统,Client连到任何一个Server,都能看到统一状态。 Yarn/Mesos:这么多乱七八糟的工具,都在同一个集群上运转,大家需要互相尊重有序工作,必须依靠调度系统。 (编辑:草根网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐


浙公网安备 33038102330470号