伙伴云客服论坛»论坛 S区 S行业资讯 查看内容

0 评论

0 收藏

分享

湖仓一体(Lakehouse)是什么?

前言

本文附属于专栏《大数据理论体系》,该专栏为笔者原创,引用请注明来源,缺乏和错误之处请在评论区帮忙指出,谢谢!
本专栏目录构造和参考文献请见大数据理论体系

WHAT

湖仓一体(Lakehouse)是一种新的大数据存储架构,结合了数据仓库和数据湖的最佳功能。
关于数据仓库请参考我的这篇博客——数据仓库是什么?
关于数据湖请参考我的这篇博客——什么是数据湖?为什么需要数据湖?
湖仓一体为你的所有数据(构造化、半构造化和非构造化)提供单一的存储库,同时可以实现机器学习、商业智能(BI)和实时计算等功能。
关于 BI 请参考我的这篇博客——什么是商业智能(BI)?

优缺点

湖仓一体的优点

湖仓一体架构将数据仓库的数据构造和管理功能数据湖的低本钱存储和灵敏性相结合。
这种实现的好处是宏大的,包括:
    减少数据冗余:湖仓一体通过提供单一通用的数据存储平台来满足所有业务数据需求来减少数据反复。由于数据仓库和数据湖的优势,大多数公司选择混合处置方案。然而,这种方法可能导致数据反复,这可能代价高昂。本钱效益:湖仓一体通过利用低本钱的对象存储实现数据湖的高效益的存储功能。此外,湖仓一体通过提供单一的处置方案,消除了维护多个数据存储系统的本钱和时间。事务的支持:在湖仓一体中,许多数据管道通常会同时读取和写入数据。对 ACID 事务的支持确保了多方同时读取或写入数据的一致性。Schema 的施行和治理:湖仓一体支持 Schema 的施行和进化,支持数据仓库的形式架构,如星型形式/雪花形式。该系统有才干确保数据的完好性,因为其强大的治理和审计的机制。开放性:湖仓一体使用的存储格式是开放和规范化的,例如 Parquet,它们提供了一个API,因而各种工具和引擎,包括机器学习和 Python/R 库,可以有效地直接访问数据。存储与计算解耦:在理论中,这意味着存储和计算使用单独的集群,因而这些系统可以扩展到更多的并发用户和更大的数据大小。一些现代数据仓库也有这种属性。支持各种工作负载:包括数据科学、机器学习、SQL 和数据分析等。可能需要多个工具来支持所有这些工作负载,但它们都依赖于相同的数据存储库。端到端的流计算支持:实时报告是许多企业的常态。对流计算的支持消除了对专门为实时数据应用程序提供效劳的单独系统的需求。
湖仓一体的缺点

湖仓一体的主要缺点是它仍然是一种相对较新且不成熟的技术。
因而,目前还不清楚它是否一定会符合上面的优点。
湖仓一体可能需要几年时间才干与成熟的大数据存储处置方案竞争。
但以现代创新的速度,很难预测新的数据存储处置方案最终是否会替代它。

数据仓库 VS 数据湖 VS 湖仓一体

湖仓一体(Lakehouse)是什么?-1.png


数据仓库是最古老的大数据存储技术,在商业智能、报告和分析应用方面有着悠久的历史。然而,数据仓库很昂贵,难以应对流数据、多样化数据等非构造化数据。
数据湖的呈现是为了在机器学习和数据科学工作负载的廉价存储中处置各种格式的原始数据。虽然数据湖与非构造化数据配合得很好,但它们缺乏数据仓库的 ACID 事务功能,因而很难确保数据的一致性和可靠性。
湖仓一体最新的数据存储架构,它结合了数据湖的本钱效益和灵敏性以及数据仓库的可靠性和一致性。
下表总结了数据仓库与数据湖与湖仓一体之间的差别。
差别点数据仓库数据湖湖仓一体
存储数据类型很好地处置构造化数据很好地处置半构造化和非构造化数据可以处置构造化、半构造化和非构造化数据
目的适用于数据分析和商业智能(BI)适用于机器学习(ML)和人工智能(AI)工作负载适用于数据分析和机器学习工作负载
费用存储既昂贵又耗时存储具有本钱效益、快速性和灵敏性存储具有本钱效益、快速性和灵敏性
ACID 合规性以符合ACID的方式记录数据,以确保最高水平的完好性非 ACID 合规性:更新和删除是复杂的操作符合 ACID,以确保多方同时读取或写入数据的一致性
湖仓一体仍然是一个不时开展的数据存储处置方案。
选择哪种大数据存储架构最终将取决于你正在处置的数据类型、数据源以及利益相关者将如何使用数据。
虽然湖仓一体结合了数据仓库和数据湖的所有好处,但我们不建议你将现有的数据存储技术交给湖仓一体。

回复

举报 使用道具

全部回复
暂无回帖,快来参与回复吧
本版积分规则 高级模式
B Color Image Link Quote Code Smilies

醉雨非烟
注册会员
主题 7
回复 27
粉丝 0
|网站地图
快速回复 返回顶部 返回列表