大数据圈的那些名词盘点

发布时间：2022-11-12 10:46:48 所属栏目：大数据来源：

导读：　　上一个台阶的做法，就是“数据分析”了。利用“BI”工具，对各种表的组合及维度的组合进行多角度关联、钻取，最好是实时响应，方便迅速验证思路。

　　BI

　　简单粗暴理解为一个GU

　　上一个台阶的做法，就是“数据分析”了。利用“BI”工具，对各种表的组合及维度的组合进行多角度关联、钻取，最好是实时响应，方便迅速验证思路。

　　BI

　　简单粗暴理解为一个GUI程序，C/S或B/S结构都行，比谁的GUI操作更灵活，对不会SQL的业务人员更友好。想显示什么数据及关系，直接拖拉就得到花花绿绿的图，想想都美滴哼~

　　数据挖掘

　　比数据分析更近一步，能发现潜在规律，创造价值。一句话，人都没发现，被你个机器人给发现了。好吧，啤酒尿布的故事我真的不解释……

　　数据仓库是个杂货铺吗？

　　是，也不是。

　　数据仓库是面向主题的，不是什么辣鸡都能放进去。但由于主题挺多，故放进去的数据也确实有点杂。

　　数据仓库

　　主题是啥？举个栗子：市场小分队需要研究用户流失，需要提哪些数据？销售小分队需要研究成本构成，需要哪些？售后小分队需要研究问题原因，需要哪些？

　　每个人只关心自己手上的活，但又需要别人的数据做支撑。把各种数据汇总起来，就是数据集成。

　　数据集市？什么鬼？

　　好吧，我觉得这个概念也是为了忽悠人而产生的。“客官别走，我看你囊中羞涩，但你可以买个简配版的数据仓库啊。就叫它…嗯…数据集市吧！”

　　栗子：只为市场部服务的小仓库里，每个细节都充满了市场部门的味道，那专业术语一箩筐，别的部门就无法完整利用了。

　　数据仓库VS数据库

　　咳咳，基本上就是OLAP和OLTP的区别。是不是用一个蒙圈来解释另一个蒙圈的赶脚？

　　传统数据库是OLTP（在线事务）型，写入要快，还要保证数据完整性。查询也支持，但不需要那么复杂快那么快。

　　数据仓库是OLAP（在线分析）型，不需要写入多快，但做大量数据的复杂查询要足够快。

　　大名鼎鼎的Hadoop出场

　　HDFS

　　数据太多大数据圈，一台机器实在装不下了。你说我拼命加硬盘不行吗？？确实可以，但，你一台机器怎么处理呢？？

　　所以还是要把数据分散放到多台机器上。高大上的说法是：不要移动数据，要移动计算！

　　让一堆散落的数据操作起来就跟一台单机一样，这就是HDFS干的活儿了。其实所有文件系统都是在干这个事：抽象！

　　MR计算框架

　　Ok，多机可以一起算了。但如何分配工作，如果一台机器挂了如何重新启动相应的任务，机器之间如何互相通信交换数据以完成复杂的计算？Map/Reduce计算框架就是干这个活的。

　　拿出你最爱的编辑器，愉快地coding吧骚年！

　　SQL，不能没有你！

　　领导说，小伙子，代码写的不错，有前途！

　　喏，这里还有些业务问题，你再写几个程序吧！

　　找出锁网用户的2g流量中较大的，看他们用的什么手机，好推荐3g套餐；

　　看CBD区都有多少土豪，他们最喜欢用什么App，上什么网站？给运营商月贡献多少？

　　看旅游景区的人们都来自全国哪里？住在哪些酒店？旅游路线如何？

　　看投诉用户都在投诉些什么？哪些用户可能不堪忍受，将要转投对手了？

　　……… 组合爆炸！！！

　　臣妾做不到啊！！！

　　Pig/HQL

　　每个查询都要写个一次性程序，开发太慢！

　　需要支持sql，否则不会写代码的分析师就傻眼了！

　　Pig：脚本化描述查询需求，自动编译为MR程序执行。

　　HQL：跟Pig类似，但语法是SQL的子集，而不是自定义一门配置语言。基于Hive计算框架，编译为MR执行。

　　Impala/Presto/Drill

　　SQL被飞快地开发出来，但即席查询无法忍受，运行太慢！

　　无数非著名的交互SQL引擎被开发出来，直接在HDFS上跑，牺牲了通用性稳定性。

　　全能SPARK！

　　SPARK

　　MR计算框架太慢！

　　Impala等是另起炉灶，还是想只维护一套东西比较好；

　　解决方案1：HQL+Hive+Tez，好是好，但既生瑜，何生亮，因为Spark要通杀了……

　　解决方案2：SparkSQL+Spark编译器+Spark，有一统江湖之势，SparkSQL支持绝大多数HQL的函数，抢生意必备。

　　SPARK Streaming

　　即席查询和批处理，都是针对历史数据分析的（不能更新数据），如果要1分钟滚动更新微博热点呢？

　　流计算，实时统计。不过想要统计的东西必须事先想好，否则没法补算。

　　Stormvs Spark Streaming，也是瑜亮之争。VMAX选用后者。

　　HBase/Greenplum

　　数据仓库的一些常用查询也很慢，用KV型数据库，如HBase。

　　虽然无法处理复杂的查询/计算，大多没法JOIN，也许没法聚合，但对海量数据查的快！VMAX内的历史话单存在Hbase内。

　　对应的是Gbase和Greenplum，传统分布式DB，查询语句很复杂，但数据没法海量，查的会比较慢。

　　等等，还没完……

　　一句话解释：

　　Mahout/MLib：分布式机器学习库

　　Protobuf：数据交换的编码和库

　　ZooKeeper：高一致性的分布存取协同系统，Client连到任何一个Server，都能看到统一状态。

　　Yarn/Mesos：这么多乱七八糟的工具，都在同一个集群上运转，大家需要互相尊重有序工作，必须依靠调度系统。

（编辑：草根网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

Kafka 万亿级消息实践	具备可视化的数据不仅
数据迁移在平台之间移	成功实行数据迁移的策