百科:数据湖(Data Lake)

2022-10-18 200

数据湖(Data Lake)是高度可扩展的数据存储区域,以原始格式存储大量原始数据,直到需要使用为止。数据湖可以存储所有类型的数据,对帐户大小或文件没有固定限制,也没有定义特定用途。数据来自不同的来源,可以是结构化的、半结构化的,甚至是非结构化的,数据可按需查询。

数据湖的核心概念是允许收集和存储大量数据而无需立即处理或分析所有数据。 
数据湖的最终用户是数据科学家和工程师
数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。
  • 数据湖与数据仓库类型的区别
数据湖的类型可以是结构化、非结构化、半结构化和二进制等。
(1)结构化:包含来自关系数据库的结构化数据,即行和列
(2)非结构化:包含来自电子邮件、文档、PDF 的非结构化数据 
(3)半结构化:包含半结构化数据,如 CSV、日志、XML、JSON
(4)二进制:包含图像、音频、视频
数据仓库的主要类型:
(1)企业数据仓库 (EDW) :这种类型的数据仓库充当帮助企业内决策支持服务的主数据库。EDW 提供对跨组织信息的访问,一种数据表示的集成方法,并且可以运行复杂的查询。 
(2)操作数据存储 (ODS):ODS 实时刷新并用于运行例行任务,包括存储员工记录。存储在这里的数据可以被清理,冗余检查和解决。它还可以用于整合来自不同来源的对比数据,以便业务运营、分析和报告能够顺利运行。 
(3)数据集市:数据集市是数据仓库的子集,因为它存储特定部门、地区或业务单位的数据。数据集市有助于增加用户响应并减少分析数据量。此处的数据存储在 ODS 中,然后ODS将其发送到 EDW,并在其中存储和使用。
  • 6个角度综述数据湖与数据仓库的区别
1、数据结构:数据仓库只能存储经过处理和提炼的数据,而数据湖存储尚未出于某种目的处理的原始数据。因此,数据湖需要比数据仓库大得多的存储容量,且数据灵活、分析迅速,非常适合机器学习。  
2、加工:数据仓库使用写入时序模式的方法来处理数据以赋予其形状和结构,而数据湖对原始数据使用读取模式来处理它。 
3、成本:存储在数据仓库中的成本可能很高,尤其是在有大量数据的情况下,而数据湖是专为低成本数据存储而设计,成本更低廉。这就解释了为什么许多公司更喜欢数据湖。 
4、目的:数据仓库的好处之一是存储空间不会浪费在可能不会使用的数据上,所以数据仓库仅保存已用于特定目的的已处理数据。而数据湖存储原始数据,这些原始数据有时具有特定的未来用途,有时仅用于囤积。因此,数据湖中的数据组织和过滤较少。 
5、用户:数据仓库主要由熟悉已处理数据主题的 IT 或业务专业人员所使用,而数据湖中的非结构化数据通常需要数据科学家或工程师在使用数据之前组织数据湖。 
6、可访问性:数据仓库是按设计构建的,因此难以访问和操作。相比之下,数据湖几乎没有限制,并且易于访问和更改,数据支持快速更新。这算是数据湖的关键优势之一。