databricks()

databricks()6月底,在刚刚结束的Data+AI峰会上,Databricks宣布数据湖表格格式Delta Lake的API将完全开源。

2022年初以来,无论是雪花发布UniStore还是Databricks巩固Delta开源计划,都是面对巨大的市场空前景做出的积极决策。

与第一个代表格式Hive相比,Databricks的Delta Lake、Apache Iceberg和Apache胡迪被视为新一代数据湖在开源表格式应用上的“三剑客”。对于其他企业来说,基于成熟的开源架构进行改造,使用社区发布的最佳工具,可以最大限度地降低构建数据湖的成本,避免重复制造轮子。

钛媒体App了解到,根据GitHub资源库截至2022年3月的一份投稿数据,网飞、苹果、AWS等都是以Apache冰山为主,而国内企业如阿里巴巴、字节跳动、蚂蚁、中国移动孙艳、华为、腾讯等。主要热衷于胡迪,对三角洲湖泊维护的81.3%的贡献来自Databricks。

事实上,这三个开源项目各有其历史背景和优势。然而,与2016年和2017年开始开源的Apache项目相比,Delta Lake近年来因为其商业公司Databricks的强势努力而变得格外耀眼,并越来越多地吸引了其主要竞争对手的羡慕。Cloudera和Snowflake都表示,自2019年开源以来,Delta Lake已经吸引了一批潜在客户(虽然是部分开源)。此外,冰山和胡迪的主要创始人在去年相继成立了他们的商业公司,即Tabular和Onehouse。

Delta Lake的出现,本身就是基于lake warehouse架构的演变:从最早的传统数据仓库(EDW),到低成本存储的数据湖,再到今天的云原生lake warehouse和Lakehouse,可见近40年来,大数据架构仍在不断演进。

那么谁能成为当前Lakehouse架构的最早受益者呢?从用户端的反馈来看,虎仓架构最大的短板其实不完全在技术上。如果企业对数据处理要求不高,传统的数据仓库就可以满足,升级到互仓并不是迫切需要。

然而,Databricks作为开源+云原生数据存储时代的重要创业代表,伴随着不断增长的用户市场,仍然给国内外湖库架构和产品解决方案的创新者带来了一定的示范作用。

在中国市场,虽然企业对云上调用产品、管理R&D资源、调度运维有明显需求,但从资金投入、人才积累、实际应用案例深度来看,多年来,中国企业大数据产业基础领域的发展一直面临着全方位激烈竞争的市场局面。

Delta Lake应运而生

Databricks于2013年在美国旧金山成立。由加州大学的几位教授和伯克利大学的五位博士生共同创立。其联合创始人兼首席执行官Ali Ghodsi也是开源平台Apache Spark的创始人之一。

据了解,阿里·古迪(Ali Ghodsi)从8岁开始就热衷于编程。长大后,他学习计算机工程,并获得了分布式计算博士学位。2009年,他与伊恩·斯托伊察共同创立了Spark。后来,他们与另一个机器学习团队合作,推出了基于开源版本Apache Spark的商业服务。起初,这并没有引起什么轰动,市场上很少有人知道这件事。2013年,A16z联合创始人本·霍洛维茨(Ben Horowitz)1400万美元的投资带来了希望。Ben Horowitz鼓励他们成立一家公司,运营基于Apache Spark平台的商业产品。正是在这一年,Databricks成立了。

在成立之初,Databricks面临的最大挑战之一就是如何获得商业界对Spark的关注。当时外界认为Spark只能用于内存计算的数据集,这实际上让企业对使用Spark望而却步。为了粉碎这种偏见,2015年,团队通过一场比赛,用最短的时间处理破纪录规模的1PB+数据,一炮而红。

2017年,Databricks的估值达到5亿美元,但其年收入低得多,只有100万美元,这使他们注重服务大型企业客户,调整产品和销售策略。2018年,Databricks的年营收有了一个非常漂亮的翻身仗,首次达到1亿美元。湖仓功能Lakehouse推出后,data bricks 2019年收入达到2亿美元。到2021年,其年经常性收入将达到8亿美元,投资者认为,到2022年底,Databricks的收入可能达到10亿美元。Databricks在全球拥有约6000家客户,包括壳牌、CVS Health、Regeneron、T-Mobile、汇丰银行、康卡斯特等。

同样,Databricks的融资步伐也很快。截至最新一轮公开融资,是2021年8月完成的16亿美元H轮融资,融资总额超过36亿美元。在这个惊人的融资速度和金额背后,还有一个非常好的资本背书。除了A16z和老虎资本,还有富达、T.Rowe Price、Baillie Gifford和富兰克林邓普顿等非传统风险投资,以及微软、谷歌和亚马逊等科技公司。今年,Databrick的估值已经达到380亿美元。

据推测,Databricks可能在2022年末开始上市,有望超过软件公司有史以来最大的IPO项目——雪花保持的纪录。当时雪花上市首日收盘价暴涨超过100%,市值超过700亿美元。

总结一下,Databricks的成功离不开三大优势:一是在产品理念上一直坚持的统一架构模式,面对数据科学、人工智能等领域的不断探索;二是开源(COSS)运营手段的推广和北美环境的独特优势,拥有庞大而忠诚的开发者群体;第三,它基于基于订阅的SaaS模型,并为多云环境提供服务。

databricks()目前Databricks的核心产品是基于Apache Spark、Delta Lake、MLflow等开源组件的Lakehouse功能。其中,数据湖表格式Delta Lake专注于为Apache Spark等大数据引擎提供可扩展的ACID事务,让用户基于HDFS和云存储构建数据湖;开发和维护用于AI生命周期管理的开源平台MLflow,用于部署和训练机器学习模型;考拉是一个数据分析工具,它允许用熊猫编程的数据科学家直接切换到Spark,用于大型分布式集群应用程序。值得一提的是,Databricks去年还收购了低代码工具平台8080 Labs,以增强其在Lakehouse功能方面的能力。

湖仓能力的这种持续进化也使得Databricks在2021年的Gartner魔力象限中有两个关键变化:一个是在DBMS(云数据库管理系统),另一个是在DSML(数据科学和机器学习平台),Databricks处于领导者象限。

Ali Ghodsi指出,“开放式数据仓库正迅速成为企业处理数据的标准。Delta Lake、MLflow和Spark是这个数据架构的核心。”可以预见,三角洲湖正在成为继Spark之后的下一个热门大数据项目。

事实上,随着新的数据存储、处理和分析技术的到来,以数据库和数据仓库为代表的大数据基础层面的商业创新已经诞生。

当湖仓的创业热被点燃

根据《财富商业洞察》最近发布的《大数据分析市场报告,2021-2028》,目前大量创业公司正在争夺全球大数据分析市场的份额,预计2028年将达到5497.3亿美元。根据资金流向趋势和观察到的客户需求,大数据分析市场最热门的领域无疑是数据仓库、数据湖、数据湖仓库、数据网格、DataOps和超快大数据查询引擎。

据艾瑞咨询统计,2020年云原生数据湖市场规模(含生态)将达到124亿,预计未来三年将以39.7%的复合增长率快速扩张。目前,云原生数据湖主要应用于泛互联网行业(40.7%)和传统行业的互联网场景,包括泛政务、金融、工业、医疗、汽车等。

据钛媒体App观察,虽然市场对新一代大数据架构的关注可能只是近两年才火热起来,但大数据架构平台的技术和开源实践其实更早。

这种新架构就是我们所说的新范式“数据湖房屋”——数据湖)+数据仓库架构的统一。数据湖是用于数据保存和分析的单个数据存储库,而数据仓库是由两个或多个数据源构建的分析数据库,通常是关系数据库。以前,原来的数据湖和数据仓库是两个完全不同的技术概念,而现在,两种技术方案开始融合。

“湖仓是数据+AI时代特别好的解决方案,但湖仓并不是一个新鲜事物。从大数据平台架构的进化史来看,特别是2003年Google的三驾马车发布以来,这个赛道还是有点牵扯的。”普科技FastData产品线总裁杨磊指出。“数据湖理论早在2010年就提出来了,2015年得到了大发展,但一直处于不温不火的状态。当时的数据湖只解决了存储的问题,没有解决计算的问题。事实上,今天的计算和存储需要同时解决。”

例如,Databricks在2019年提出的Delta Lake引擎,基于Apache Spark,集成了数据湖(低成本和灵活性)和数据仓库(性能效率)的最佳实践,可用于存储海量结构化和非结构化数据,具有数据分析和AI的能力。

引擎湖仓库综合分析服务LAS团队负责人告诉钛媒体App,“以Oracle为代表的传统仓库依赖硬件配置,成本高,存在物理在线难以拓展的瓶颈。随着互联网的发展,数据类型异构,企业数据量呈现井喷趋势。传统的数据仓库架构越来越难以满足需求。由此,出现了Hadoop等大数据存储、处理和分析框架,可以存储任何形式和格式的原始数据,从而在一定程度上解决了数据存储的成本问题。”

“Lake Warehouse的集成架构结合了数据湖和数据库两者的优势,用标准服务简化了数据集成和开发,提供了对数据的自由访问,可以低成本支持高性能的数据服务。”该负责人表示。

可以看出,湖库理论的提出,实际上是为了解决传统数据存储的问题,为各类数据提供分析场景,以统一的手段进行处理。基于这样的背景,大数据平台架构的发展也被推向了一个新的历史高潮。

目前,虎仓赛道已经被越来越多提供大数据相关服务的公司所吸引,他们已经开始为R&D进行探索和准备,或者基于自己的云平台直接集成虎仓产品进行销售,或者扩展自己的能力,进行一些基于开源组件的自研。例如,Databricks首先基于Azure云托管合作构建了Azure Databricks,还集成了AWS的Redshift Spectrum和微软的Azure Synapse Analytics。截至目前,包括国内很多企业在内,阿里云的EMR+DataWorks+DLF解决方案和字节火山引擎的Lakehouse分析服务,基本都是选择Spark、Flink、胡迪等大数据平台中的一些开源组件进行能力封装。不久前,中国信息通信研究院公布的首批云原生数据湖能力测评结果中,国内多家企业也通过了测评认证。

在亚马逊云技术给钛媒体App的一份文件中,智慧湖仓库架构利用亚马逊简单存储服务(亚马逊S3)构建了一个数据湖作为中央存储库,并围绕数据湖集成了一个特殊的“数据服务环”,包括数据仓库、机器学习、大数据处理、日志分析等数据服务。然后利用亚马逊湖形成、亚马逊胶水、亚马逊雅典娜、亚马逊红移谱等工具实现数据湖的构建、数据移动和管理。

火山引擎的湖库一体化分析服务LAS,已经在离线分析、实时分析、数据湖表分析等领域使用了开源项目。例如,火山引擎基于Apache胡迪(一个流数据湖平台)建立了一个由二级数据可见性支持的实时数据仓库。但是除了提供胡迪社区的所有功能,LAS还支持基于数据湖的元数据管理系统、行和列级别的并发更新、桶索引和追加模式。

作为一家创业公司,迪普科技首先是基于在中间平台提供数据来打磨产品。后来随着企业的不断壮大,逐渐涉足湖库整个技术体系的建设,从存储引擎到数据开发、治理、分析应用等。

总结一下,这种趋势在2020年左右开始被点燃,直到近两年才开始在国内有一定程度的落地。

不重复造轮子,但难度还不少

那么,湖仓本身的难度在哪里呢?

首先,厂商和企业在开发仓库架构的时候,一般会基于一些开源技术,技术栈来开发,但是选择不同的技术方案有其利弊。从企业建设的现状来看,正处于仓库架构转型和优化的关键时期。

第一,生态问题,这个问题远比商业应用本身重要。回过头来看,不难发现,很多开源工具本身就是由生态驱动的。然而,湖库技术仍处于相对早期的发展阶段。要形成新的标准,生态要足够繁荣。

“湖仓本身在整个数据场景中属于小众。虽然很多人都在关注,但是从客户的角度来看,他们目前基于Hadoop或者分析数据库的系统已经很完备了。如果他们被允许升级到Hucang,如前所述,他们必须受到强大的业务需求的驱动,而不是纯粹的技术强化。”杨磊指出。

第二,在解决湖仓问题时,能否用相对简单的方式,大大降低整个应用组件的复杂度。

“湖仓涉及的技术难点还是比较深的。三角洲湖/冰山/胡迪只是一个表引擎,湖仓需要真正形成战斗力。还有分析引擎、实时计算引擎、数据访问工具、数据开发DataOps工具链、统一元数据管理等相关引擎或组件。需要优雅地配合使用。”杨磊指出。

“虽然现在可以投入使用的开源版本很多,但是如果允许混搭,就像早期的Cloudera Hadoop一样,大量复杂的技术组件导致整个客户的商业运营成本非常高,同时还需要一定的运维人员来维护。对于传统行业或非技术领域的企业来说,如果没有专业的人才团队,根本无法解决这样的问题。”

第二,数据湖和数据仓库的功能兼容性。

此后,企业通常将日常运营中留存的各种数据存储在原始数据湖中,经过一些提取和处理,将这些数据的关键部分转换成可以存储在数据仓库中的格式。在这个过程中,业务和用户都可以从数据中获得相应的业务洞察,但保持数据湖和数据仓库之间的一致性很难,成本也很高,还可能影响数据的整体质量。大量数据的“堆砌”和变化,也使得数据仓库存储的信息跟不上数据湖的步伐。

正因为如此,雪花、谷歌BigQuery、亚马逊Redshift等仓库专家都在不断调整自己的仓库,以兼容更多数据湖函数的逆向思维。

为了降低数据融合和数据共享过程中统一安全控制和数据管理的难度,亚马逊云技术的“智慧湖仓库”架构不仅开放了数据湖和数据仓库,还进一步将数据湖、数据仓库和所有其他数据处理服务集成为一个统一、连续的整体。数据可以在数据服务和数据存储之间以及数据服务和数据服务之间移动或访问。Amazon Glue提供无缝数据流能力,Amazon Lake Formation提供全面的数据管理能力,可以快速构建湖泊仓库,简化安全和控制。

在杨磊看来,“湖库一体化首先要解决的是数据湖的问题。将“湖仓一体化”理解为在湖中建造仓库是不正确的。湖仓本身就是一个集成。传统的数据湖只解决存储的问题,分析计算的问题依赖于几个仓库。这会造成两大浪费:一是资源,如何在成本增加很少的情况下,同时拥有数据湖和数据仓库的容量;二是时间成本,如何提供数据+AI的统一能力平台。”

此外,近年来,随着大数据平台与容器、无服务器等云原生技术的深度融合,也在引导湖库走向云原生,实现异构数据的弹性存储和计算资源的弹性伸缩。

某大数据平台创业公司曾对钛媒体App表示,大数据产品必须使用云原生架构,这样整体ROI才会最高,落地速度才会最快,数据的价值才会有意义。没有云生化,整个大数据平台中组件的管理就特别复杂。往下推,第一步是容器化大数据平台的各种组件。

databricks()在中国,未完成的开拓客户市场的竞争。目前,湖库综合分析服务LAS已经在字节跳动大规模应用。当业务需要构建复杂数据流,数据分析成本高,运维门槛高,各数据岛ETL流程不一致时,所有场景都可以用LAS解决。

以推荐场景为例。在这个场景中,需要将表存储数据导入到数据湖中进行数据挖掘和分析,同时为业务提供高效的OLAP访问。难点在于100 GB/s的高吞吐量,接近实时的写入和大量复杂数据的低成本更新。基于LAS平台,火山引擎通过数据湖构建表存储CDC实时访问,使其能够提供数十TB的表级列拼接,大大提高了下游分析的时效性。

derby软件使用亚马逊S3作为可扩展的数据湖存储订单、日志和点击流数据,使用亚马逊Kinesis实现数据的流访问然后持久化在S3上,使用亚马逊EMR实现各种S3数据的ETL。OLTP和OLAP数据分别存储在亚马逊极光和亚马逊红移中。需要检索的日志放在亚马逊ElasticSearch服务中,亚马逊SageMaker从S3读取数据,经过预处理后作为训练数据放回S3。推理后的结果会存储在Amazon Aurora中,供其他应用程序使用。

在“智能湖仓”的框架下,Derby软件更方便的收集和保存海量业务数据,相对灵活的协调和调用数据进行BI、可视化分析、搜索、建模、特征提取、流处理等。它已经为酒店客户推出了新的BI服务和异常检测服务,并利用这项服务快速开拓新业务。

百丽集团面临的挑战是如何在移动端搭建一个“销售助手”,能够以动态的形式为旗下门店提供数据分析和决策,从而取代原来人工数据分析带来的不便。基于FastData架构,企业有效存储三个PB级别以上的各类数据,并形成相应的数据维度。然后基于Pytorch计算框架对模型进行训练,最终形成一套数据应用产品。

随着企业对云技术需求的不断增加,虎仓正在为科技企业搭建自己的云原生应用平台带来数字化机遇,这也影响了企业用户进一步加快云使用的便利性。传统的数据仓库和数据湖之所以能够继续向湖库集成架构演进,首要原因来自于实际应用场景中的业务驱动结果。

杨磊也看到了,“目前很多企业客户都是基于业务上的考虑。在这个过程中,如何打通数据链路,不断优化企业内部的运营效率,才是最核心的关注点。”

在滴滴科技的服务案例中,双方第一阶段遇到的更多是数据治理场景,梳理数据与其业务的关系,而不是数据应用和价值发挥的显性阶段。“但很多值得打磨的点,其实在数据治理的过程中发生了碰撞。”

当然,也有更多之前有过类似技术实践的客户,或者因为实践的技术路径困难,或者解决方案难以彻底解决所有问题,希望第三方服务商能够提供统一的解决方案,将运维难度降到最低。

这种变化实际上给中国的第三方解决方案提供商带来了市场机会。

(本文作者|杨力,编辑|盖宏达)

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。系信息发布平台,仅提供信息存储空间服务。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

本文来自网络,若有侵权,请联系删除,作者:金同远,如若转载,请注明出处:

发表回复

登录后才能评论