加入收藏 | 设为首页 | 会员中心 | 我要投稿 草根网 (https://www.0518zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据圈的那些名词盘点

发布时间:2022-11-12 10:46:48 所属栏目:大数据 来源:
导读:  上一个台阶的做法,就是“数据分析”了。利用“BI”工具,对各种表的组合及维度的组合进行多角度关联、钻取,最好是实时响应,方便迅速验证思路。

  BI

  简单粗暴理解为一个GU
  上一个台阶的做法,就是“数据分析”了。利用“BI”工具,对各种表的组合及维度的组合进行多角度关联、钻取,最好是实时响应,方便迅速验证思路。
 
  BI
 
  简单粗暴理解为一个GUI程序,C/S或B/S结构都行,比谁的GUI操作更灵活,对不会SQL的业务人员更友好。想显示什么数据及关系,直接拖拉就得到花花绿绿的图,想想都美滴哼~
 
  数据挖掘
 
  比数据分析更近一步,能发现潜在规律,创造价值。一句话,人都没发现,被你个机器人给发现了。好吧,啤酒尿布的故事我真的不解释……
 
  数据仓库是个杂货铺吗?
 
  是,也不是。
 
  数据仓库是面向主题的,不是什么辣鸡都能放进去。但由于主题挺多,故放进去的数据也确实有点杂。
 
  数据仓库
 
  主题是啥?举个栗子:市场小分队需要研究用户流失,需要提哪些数据?销售小分队需要研究成本构成,需要哪些?售后小分队需要研究问题原因,需要哪些?
 
  每个人只关心自己手上的活,但又需要别人的数据做支撑。把各种数据汇总起来,就是数据集成。
 
  数据集市?什么鬼?
 
  好吧,我觉得这个概念也是为了忽悠人而产生的。“客官别走,我看你囊中羞涩,但你可以买个简配版的数据仓库啊。就叫它…嗯…数据集市吧!”
 
  栗子:只为市场部服务的小仓库里,每个细节都充满了市场部门的味道,那专业术语一箩筐,别的部门就无法完整利用了。
 
  数据仓库VS数据库
 
  咳咳,基本上就是OLAP和OLTP的区别。是不是用一个蒙圈来解释另一个蒙圈的赶脚?
 
  传统数据库是OLTP(在线事务)型,写入要快,还要保证数据完整性。查询也支持,但不需要那么复杂快那么快。
 
  数据仓库是OLAP(在线分析)型,不需要写入多快,但做大量数据的复杂查询要足够快。
 
  大名鼎鼎的Hadoop出场
 
  HDFS
 
  数据太多大数据圈,一台机器实在装不下了。你说我拼命加硬盘不行吗??确实可以,但,你一台机器怎么处理呢??
 
  所以还是要把数据分散放到多台机器上。高大上的说法是:不要移动数据,要移动计算!
 
  让一堆散落的数据操作起来就跟一台单机一样,这就是HDFS干的活儿了。其实所有文件系统都是在干这个事:抽象!
 
  MR计算框架
 
  Ok,多机可以一起算了。但如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算?Map/Reduce计算框架就是干这个活的。
 
  拿出你最爱的编辑器,愉快地coding吧骚年!
 
  SQL,不能没有你!
 
  领导说,小伙子,代码写的不错,有前途!
 
  喏,这里还有些业务问题,你再写几个程序吧!
 
  找出锁网用户的2g流量中较大的,看他们用的什么手机,好推荐3g套餐;
 
  看CBD区都有多少土豪,他们最喜欢用什么App,上什么网站?给运营商月贡献多少?
 
  看旅游景区的人们都来自全国哪里?住在哪些酒店?旅游路线如何?
 
  看投诉用户都在投诉些什么?哪些用户可能不堪忍受,将要转投对手了?
 
  ……… 组合爆炸!!!
 
  臣妾做不到啊!!!
 
  Pig/HQL
 
  每个查询都要写个一次性程序,开发太慢!
 
  需要支持sql,否则不会写代码的分析师就傻眼了!
 
  Pig:脚本化描述查询需求,自动编译为MR程序执行。
 
  HQL:跟Pig类似,但语法是SQL的子集,而不是自定义一门配置语言。基于Hive计算框架,编译为MR执行。
 
  Impala/Presto/Drill
 
  SQL被飞快地开发出来,但即席查询无法忍受,运行太慢!
 
  无数非著名的交互SQL引擎被开发出来,直接在HDFS上跑,牺牲了通用性稳定性。
 
  全能SPARK!
 
  SPARK
 
  MR计算框架太慢!
 
  Impala等是另起炉灶,还是想只维护一套东西比较好;
 
  解决方案1:HQL+Hive+Tez,好是好,但既生瑜,何生亮,因为Spark要通杀了……
 
  解决方案2:SparkSQL+Spark编译器+Spark,有一统江湖之势,SparkSQL支持绝大多数HQL的函数,抢生意必备。
 
  SPARK Streaming
 
  即席查询和批处理,都是针对历史数据分析的(不能更新数据),如果要1分钟滚动更新微博热点呢?
 
  流计算,实时统计。不过想要统计的东西必须事先想好,否则没法补算。
 
  Stormvs Spark Streaming,也是瑜亮之争。VMAX选用后者。
 
  HBase/Greenplum
 
  数据仓库的一些常用查询也很慢,用KV型数据库,如HBase。
 
  虽然无法处理复杂的查询/计算,大多没法JOIN,也许没法聚合,但对海量数据查的快!VMAX内的历史话单存在Hbase内。
 
  对应的是Gbase和Greenplum,传统分布式DB,查询语句很复杂,但数据没法海量,查的会比较慢。
 
  等等,还没完……
 
  一句话解释:
 
  Mahout/MLib:分布式机器学习库
 
  Protobuf:数据交换的编码和库
 
  ZooKeeper:高一致性的分布存取协同系统,Client连到任何一个Server,都能看到统一状态。
 
  Yarn/Mesos:这么多乱七八糟的工具,都在同一个集群上运转,大家需要互相尊重有序工作,必须依靠调度系统。
 

(编辑:草根网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!