logo
登录 / 注册

AI大数据时代的云数据平台databricks

头像
王大牛
2024-12-28 · 大数据基础架构负责人

一句话总结Databricks:一个云数据服务平台
让用户将原始数据传入后,实现大数据应用,将数据源源不断地转化为价值
Databricks几个鲜明的标签:Data Infra、开源、Cloud
其发展历程也就是Data Infra从数仓到现在湖仓一体的发展史

Databricks商业化方式主要来自于即开即用的云服务

例如微软云的Azure Databricks,采取按秒计费的方式根据客户使用的计算资源和消耗的资源量收费

云资源由Databricks管理而非客户自行管理,以云服务的方式提供给客户,这样不仅可降低客户操作难度和应用门槛,还能进一步挖掘客户价值。

Databricks最初起源于计算引擎Spark,十多年前在UC Berkeley的AI-Lab里,Ali Ghodsi和伙伴发起了Spark项目,做一个能够更轻松处理大量数据和机器算法的引擎来高效处理不断变化的实时数据,Spark的出现直击了大数据行业的痛点,完美填补了Hadoop无法应对的空白,2010年Spark以 BSD License开源了代码,这一策略一经发布立刻掀起了技术开发者社区的狂潮。Spark对存储和计算进行解耦而专注于打造一个快速、并行计算、统一的计算引擎,设计用于大型分布式数据处理、数据中心或云计算,Spark提出一个大胆的解决方案:内存计算;与Hadoop持久化数据存储在磁盘不同的是

Spark将数据载入内存利用内存的高速读取能力,彻底打破了磁盘读取带来的速度瓶颈,这意味着使用Spark可以来读取并计算那些存储在各种数据源的数据。

2013年Databricks做了一个战略眼光的决策,将Spark技术商业化并推出了基于云平台的托管服务

,Databricks计算平台定位于数据科学和协作,提供了丰富的数据集成功能和 API,使得用户可以将 Databricks 与其他系统和工具结合使用,支持与多种数据源的连接如关系型数据库、NoSQL等的数据连接器,重点支持各种BI类别如 Tableau、Power BI 等工具集成;Databricks通过这种平台化的商业模式实现了技术向产品的转化,不仅让Spark成为行业标配更是把大数据的应用场景,还从大企业拓展到了全球范围内的中小型企业,这一战略举措无疑是对大数据技术复杂性和高门槛的精准反击

Spark商业化技术一经推出,马上2014年9月Databricks完成了1400万美元的A轮融资,紧接着12月又顺利完成B轮融资 3300万美元。

Databricks在这一阶段的定位是基于Spark打造的协作工作空间,使数据科学家和分析师能够更高效地进行数据分析和探索,主要包括这4大功能:

1支持 Jupyter 风格的交互式Notebook环境,允许用户以代码、文本和可视化的形式记录和分享分析过程;

2团队成员可以实时协作,共享和编辑Notebook 进行集体数据分析和讨论;

3帮助用户直观地理解数据和分析结果,包括图表、地图和仪表板等的可视化;

4支持REST API调用随时远程访问 Databricks ;

2017年Databricks从单纯的分布式计算框架Spark扩展到端到端数据解决方案推出了DeltaLake和MLflow,这一转型标志着Databricks不仅是技术提供商更是全方位的企业服务商,涵盖了从数据存储、处理、分析到机器学习的各个环节;而随着大数据平台的架构不断演化,从数仓、到数据湖+数仓的架构,再到最近已形成明确技术趋势的Lakehouse架构;2020年Databricks推出了Lakehouse架构,不仅标志着技术的一次重大飞跃,更是Databricks从大数据到AI+数据的战略转型;因为Lakehouse打破了传统数据仓库和数据湖之间的隔阂,通过结合数据湖的开放性和数据仓库的结构化能力为行业提供了一个全新的数据架构,它不仅提升了数据处理效率还解决了长久以来困扰大数据行业的数据一致性和实时性问题,因为数仓诞生的初衷就是为了支持BI系统和报表系统,当年Snowflake凭借多云数仓的定位成为了数百亿市值的行业巨头,随着大数据应用需求的发展,数据的使用范围在不断延伸,技术也在不断变化,推动了大数据的架构演进从数仓到仓+湖再到湖仓一体。

Databricks作为大数据领域的后起之秀却弯道超车率先提出了湖仓一体的概念。并推出湖仓一体产品Lakehouse,成为了数据湖行业的最核心玩家,这也是Databricks完成了从计算平台到湖仓一体平台的飞跃过程,这阶段中最为重要的产品组成部分便是Delta Lake这一高效、可靠且兼容性强的数据存储和处理框架,专为现代数据湖架构设计满足大数据处理和分析的需求,Delta Lake 可以在现有数据湖如 Amazon S3、Azure Data Lake Storage之上运行并且与 Apache Spark API 完全兼容,Databricks的湖仓一体解决方案整合了两个基础资源、两套数据工具,公司的目标简单来说是:“把数据给过来,剩下都交给我”存储:Delta是Databricks的Data Lake数据湖产品,基于云服务提供高性能的数据存放服务databricks基于AWS S3或其他云存储构建数据湖;计算:Spark是核心计算引擎

Databricks提供了一个易用的界面和工具,以便开发人员可以更快地构建和部署大规模数据应用程序

数据工具:用于编写、执行和共享Spark数据应用,提供具备易用的界面和功能,以便开发人员可以更快地构建和部署大规模数据应用程序;MLflow:开源的机器学习生命周期管理工具,databricks终极目标是:搭建一个数据应用的自动化系统,从而将原始数据集源源不断地转化为价值也就是要做一个自动将“数据变现”的系统。Databricks实现了从Data Infra到AI Infra跨越式发展,就是数据基础到AI基础的智能化AI大数据平台。


AI大数据时代的云数据平台databricks脉脉
阅读 115
声明:本文内容由脉脉用户自发贡献,部分内容可能整编自互联网,版权归原作者所有,脉脉不拥有其著作权,亦不承担相应法律责任。如果您发现有涉嫌抄袭的内容,请发邮件至maimai@taou.com,一经查实,将立刻删除涉嫌侵权内容。
相关推荐
最新发布
大家都在看
热门人脉圈
    头像
    我来说几句...
    脉脉App内打开