从技术视角看大数据行业的发展趋势

发布时间：2023-01-05 10:54:06 所属栏目：大数据来源：

导读：　　正所谓 “抬头看天，低头走路”，大数据从业者既要脚踏实地立足当前技术栈做出高效易用的大数据产品，又要仰望星空顺应大数据的发展趋势，做出有技术前瞻性能适应未来变化的大数据产品。

　　明哥

　　正所谓 “抬头看天，低头走路”，大数据从业者既要脚踏实地立足当前技术栈做出高效易用的大数据产品，又要仰望星空顺应大数据的发展趋势，做出有技术前瞻性能适应未来变化的大数据产品。

　　明哥前期发布了一篇名为 “从历年 Gartner hype cycle 看大数据行业的发展历史和趋势” 的博文，在那篇博文中，明哥梳理了下历年 Gartner hype cycle 中关于大数据的部分，并据此总结了大数据行业的发展历史和趋势，该篇博文可以算是从面到点从上到下的视角推论的大数据的发展趋势。

　　在这片博文中，明哥将依托自己十四年 IT 从业经验和六年大数据行业从业经验的经历，从自身的感触和技术的视角，总结下大数据行业的发展趋势，可以算是以从点到面从下到上的视角，对上文的一个呼应。

　　需要声明下，明哥自身能力有限经历有限，所以这里总结的行业趋势仅仅是管中窥豹，远远达不到大而全，话说回来，能让大家看后有所悟有所感，明哥就觉得可以了。

　　以下是正文。

　　趋势一：大数据和云计算进一步深度融合，大数据拥抱云计算走向云原生化

　　关于该趋势，明哥在前期发布过一篇博文，“大数据与云计算深度融合的趋势体现在哪些方面?” 对该趋势做了自己的解读，这里再次简要描述下。

　　云原生（Cloud Native）理念，本质上是一套“利用云计算技术为用户降本增效”的最佳实践与方法论。大数据拥抱云计算走向云原生化，体现在一下四个方面：

　　数据科学与大数据技术介绍_大数据技术_数据科学与大数据技术专业认知

　　趋势二：大数据与数据库日益融合的趋势

　　大数据与数据库日益融合的趋势，还体现在数据库也在不断演变以适应大数据场景：数据库从技术架构上来讲，经历了从早期的关系型数据库 sql，到大数据初生时代的各种 Nosql，再到现在的各种 NewSql, 也经历了从单机到读写分离再到集群化部署的趋势；

　　最后有必要说明下，由于大数据和数据库日益融合，依托数据库的传统数据仓库 Data Warehouse 和依托大数据的数据湖 Data Lake，二者之间的界限也越来越模糊并日益融合了，有的厂商还特地引进了新的术语来描述这种新型架构并得到了业界更广泛的认可和支持，该术语就是业界常说的湖仓一体的概念，即 Lake House。

　　趋势三：大数据更加青睐存储计算分离的架构

　　存储与计算是对物理资源不同纬度的需求，存储和计算分离的架构更加灵活，方便对存储和计算独立进行扩缩容，成本更优更具性价比。

　　大数据技术_数据科学与大数据技术介绍_数据科学与大数据技术专业认知

　　数据科学与大数据技术介绍_大数据技术_数据科学与大数据技术专业认知

　　趋势四：大数据更加青睐对象存储

　　大数据为了进一步适应云原生化的大方向，在存储上相比文件系统，更加青睐对象存储。

　　对象存储在性能上比不上文件系统，尤其是对文件和目录的重命名 rename 操作上，以及对目录的 list 操作上，（对象存储没有目录树的概念，所谓的目录是抽象出来的；很多云厂商会限制对目录的 list 操作的次数），但是对象存储相比文件系统，在成本和扩展性上更有优势，所以云厂商更青睐对象存储。

　　当然了，大数据为适应对象存储，自身在架构和技术上也在不断演进，比如大数据的数据仓库框架 hive 在扩展性上受到不少诟病，而其扩展性问题的一个原因，就是在对元数据的管理上只做到了目录粒度而不是文件粒度，即 hive 在管理表和分区的元数据时，只记录了表和分区对应的目录，至于该目录底层有哪些文件，是在计算时通过 list 扫描得到的，由于在对象存储系统中 list 是比较昂贵的操作，所以在对接对象存储时，hive 这样处理显然是不合适的。事实上，更适应云原生和对象存储的框架如 Iceberg/Delta lake等大数据技术，在元数据中都做到了文件的粒度而不是目录的粒度。

　　关于文件系统和对象存储的详细对比，有兴趣的小伙伴可以自行 google,明哥在这里不再赘述。

　　趋势五：大数据和机器学习/人工智能日益融合

　　大数据和机器学习/人工智能日益融合的趋势，体现在大数据需要AI上，也体现在AI需要大数据上。

　　趋势六：大数据日益重视数据安全

　　笔者觉得，现阶段数据安全问题日益凸显，有以下几方面的原因：

　　在应对数据安全问题上，传统的3A 即 authentication, authorization 和 audit 的概念仍然适用，encryption 加密算法也仍然使用，具体使的支撑框架常见的有 Kerberos, ldap, knox, ranger 和 sentry 等。

　　趋势七：大数据日益重视数据治理

　　在数据治理上，前文提到，当企业面对数据量大且种类繁多的数据资产时（大数据的 5V 包括 volume 和 variety），如何有效管理和使用这些数据以挖掘更大商业价值，就尤其需要数据治理和元数据管理了。此时元数据的范畴和概念有扩大化的趋势，元数据不再仅仅是数据管理人员事先提供的静态的元数据，还包括利用机器学习可推导得出的动态发现的元数据。

　　在数据治理上，Gartner 推崇 Data Fabric 数据经纬的概念, 该概念尤其强调元数据管理和增强型数据管理，即主动利用机器学习驱动的元数据，快速提供来自于不同数据源的数据并自动化数据管理。这其中会更多地用到图计算和知识图谱，“Graphs form the foundation of data fabrics and knowledge graphs“，来帮助我们发现数据之间潜在的关联关系。

　　数据治理的一些相关概念，包括元数据，主数据，数据血缘等，支撑框架包括 atlas,ranger 等。

　　趋势八：大数据日益重视数据的时效性

　　大数据强调数据有热度，数据价值具有时效性且随着时间的推移价值会递减，这是大家的共识，也是实时计算和准实时计算日益受到业界重视的原因，笔者没有太多补充，不过我想指出一点，即实时计算究竟需要做到什么级别的实时，是在业务需求，现有技术能力，和运维复杂性之间的妥协，并不是一定总是要追求毫秒微妙级别的实时，很多时候秒级别分钟级别甚至小时级别的延时，也是可以接受的。

　　业界这块相关的概念有流批一体，仔细分析又包括存储引擎层面的流批一体，计算框架层面的流批一体，以及业务代码层面的流批一体。

　　在存储引擎层面，离线批量处理场景一般使用文件系统结合数据库；实时准实时流处理场景一般使用消息队列结合数据库。不过随着数据湖仓概念的崛起，尤其是伴随着 delta lake/hudi/iceberg 的崛起和 hive 实时化的进展，使用这些框架做流批一体的存储的案列将会越来越多（当然对应的场景是分钟级别的准实时的场景）；随着 kafka 支持tiered storage , 使用 kafka结合对象存储并配置合适的 retention period 做流批一体的存储的案例也会越来越多。

　　在计算框架层面，flink 和 spark 都支持流批一体，即同一个计算框架即支持用户的流处理应用程序，也支持用户的批处理应用程序。

　　在业务代码层面的流批一体上，即同一套业务代码，不做任何代码层面的改动，仅仅通过配置不同的参数，就能提交做为流处理或批处理应用程序运行，目前看来似乎 FLINK SQL 走得最远做得最好。

（编辑：草根网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

Kafka 万亿级消息实践	具备可视化的数据不仅
数据迁移在平台之间移	成功实行数据迁移的策