羽山数据-合规、权威、安全,数据科技赋能产业升级。羽山数据践行数据要素市场化合规流通,为金融、保险、人事、安防、互联网等行业提供企业数字化解决方案。

slider
New
  • 云数据湖中的休战与数据仓库战争?

    发布时间: 2023-04-28

    每年2次语义层峰会,于4月26日举行,AtScale成立,TodaveMarianis与BillInmon一起讨论现代云数据平台的演变,BillInmon被许多数据仓库的创始人所认可。两人尽最大努力讨论云数据获取方法和云数据仓库方法之间冲突的起源。以下是他们的讨论预览

    戴维·马里亚尼:比尔,有争议的基础数据架构对你来说并不新鲜。在我们开始研究当前围绕数据仓库或数据仓库的哲学之前,让’;请用Innvs.Kimball方法查看原始的棒球。你能帮助我们理解有什么争议吗BillInmon:让’;阻止世界上最伟大的金博尔辩论。拉尔夫·金博尔回答的问题与我回答的问题不同;Ralph回答的问题是“如何生产分析系统?”我回答的问题,“如何生产应用于整个企业的产品?”现在这两个问题都是一样的–;但嘿’;雷诺公司现在,很多人可能会惊讶地发现,他们已经重新推荐了Kimballa体系结构。例如,当一家公司说:“比尔,我们有一些应用程序,我们需要从中创建分析系统”时,很容易就会发现这个新的Kimballa系统结构。另一方面,当一个公司希望对他们有多少客户、有多少产品或有什么销售数字提出质疑时,然后,他们建立了内部体系结构。使用Kimballa方法,快速系统可以快速创建,但使用这种方法,公司可以构建体系结构,使其能够满足当前和未来的需求Mariani:那么,你会说Kimball方法更适合部门或业务层面的分析,而不是Inmono方法,后者更适合企业范围的分析吗

     

    BillInmonis recognized the father of tawarehouse

     

    Inmon:当然。如果你想要企业数据,你需要Inmona方法。如果你想为某个部门快速获得结果,那么你需要Kimballa方法Mariani:好的。这听起来像是关于数据架构和方法的争论。我们还有另一个类似的哲学讨论要讨论为企业提供自助服务分析的最佳方法。我正在讨论DataWarehousesVs.DataLakehouses。你能解释一下是怎么回事吗本月:在当今世界,我们拥有多种技术–;如AI、ML、datamesh等–竞争对手的注意力,以及供应商告诉公司有多少东西可以帮助他们。问题是所有这些技术都取决于数据;andifyoudon公司;塔维达那;令人难以置信的是,你得到的是一个又一个的伪装尽管这些技术行之有效,但数据是需要的,但实际上并不可用。获得所需的设置工具和技术的第一个障碍是公司中发现的各种数据:结构数据、文本数据和分析数据。它们彼此都很不同,都有自己的测量规则;点击文本世界。你在文本数据中学到的实践,不要;点击模拟数据世界,然后点击话虽如此;不只是不同类型的数据,还有数据的完整性在一年的时间里,这些想法被用来解决建筑问题;在阿姆斯特丹,数据仓库是公司将其数据投入其中的地方,希望有一天他们能够对其进行分析。然而,这一数据仓库永远不会兑现承诺,也不会成为我们工业的一大损失在数据采集中,几乎不可能找到你需要的信息。数据可能不可用。我认为这是“数据陷阱”

    那么,谁可以在后台创建一个可使用的数据呢?这就是数据交换室可以发挥作用的地方从无政府建筑的角度来看;看到了数据仓库和数据仓库之间的差异。数据仓库需要有一个分析框架结构,告诉用户什么;实际上,在数据中,如何发现,以及它的含义。构建这个基础设施需要重新考虑,因为当你有数据结构时,你需要元数据;当你有文本数据时,你需要本体论和分类学;当你有机器生成的数据时,你需要提取一些算法。这一点是表中的数据类型彼此不同,需要不同的方法才能变得有用如果只将结构数据放入数据库,则会创建经典的数据仓库。但当结构数据和机器生成的数据出现膨胀时,数据库中的所有数据都会发生变化

     

    DaveVarianisthefoundandCTO-AtScale

     

    所以,是的,数据采集室和数据采集室在表面上非常相似,但两者之间有一些内在的差异。任何一个认为这是错误的人都会收到数据采集室,而数据采集室是错误的。这是一个很好的例子,所有被采集的人都挥舞着白旗,说:“帮帮我,我可以把我创建的东西拿走。”

    Mariani:基本上,你;在这里重新安置现有的住房确实适合用于结构化数据,但我们生活在一个非结构化数据比结构化数据更多的时代。最终住房是实现这一目标的正确途径现在是什么时候采取这种方法印度:印度,wedidn’;处理对文本数据和机器生成数据的关注;现在处理这些数据还为时过早。我们正在谈论的事实反映了行业的发展趋势Mariani:我记得,我很早就意识到了这一点,我们只是把它放在目录中,以便在未来的某个时候使用。我们无法触及它。所以你对这一进展是绝对正确的所有开始重新开放传统数据仓库的供应商都没有开始说,“嘿,我们也重新开放了仓库,因为我们可以在仓库中有外部可访问的指向文件。”你知道这是什么意思吗?我认为是作弊还是作弊印度:这只是市场峰值。印度,唯一的支持者是我’;我认为具有合法性声明总计数据块。在有了数据块的基础,或者对应该做什么有了了解之后,我就可以在市场上找到数据块了

    Mariani:数据仓库的一个主要因素是,如果将数据加载到数据仓库中,则无法对文件结构进行优化,以降低其性能和可扩展性。这是怎么回事?CanaLakehouse在存储基础数据时提供相同的性能和可扩展性’;sfile系统?这是放弃数据仓库路线的一个公平论点吗通常:当公司开始建立数据驱动或组织的过程中,他们往往会被大量的数据所淹没;andit公司;组织混乱然而,allisnotlost哪些公司需要花费时间来获取数据并通过ensofbusiness值查看它,以及公司想要访问它的可能性;Trellyhave any useful toit。无人’;有些人想用它做任何分析。有些人有很大的商业价值,但没有这一初步分析使公司能够确定大量的数据和数据流具有商业价值,从而更容易确定您希望在数据仓库中存储的内容。如果您在数据仓库的内部存储了所有内容,那么您将失败相关项目:

    LakehousesPreventDataSwamps,BillInmons说

    掌握网格:在DataLake中找到清晰度

    数据湖溺水?GartnerAnalystOffersa救生员

     

    -

  • 1 - 1
note

本专栏搜集引用互联网上公开发表的数据服务行业精选文章,博采众长,兼收並蓄。引用文章仅代表作者观点,不代表羽山数据官方立场。

如有侵权、违规及其他不当言论内容,请广大读者监督,一经证实,平台会立即下线。监督电话:400-110-8298