什么是数据中台?数据仓库之父是谁?数据中台的前世今生介绍
01数据中台的前世今生
在正式进入数据中台建设实践之前,我想花点时间先聊一聊大数据的发展史,这样更能理解数据中台诞生的原因。不管是学习一项知识,还是讨论一个问题,最好的方法都不应该是一头扎进细节里,而是应该先从时空的维度了解其来龙去脉,当你了解了一件事物的前因后果后,更能透过现象,洞察背后的本质。理解了大数据的发展历史,更能体会数据中台诞生的必然性和数据中台建设方法论。
1.0 数据仓库诞生
1996年,美国加特纳集团第一次提出商业智能的概念,它是指通过一系列的技术和方法,将企业已有的数据转化为有用的信息,帮助企业制定经营分析决策。比如,对于零售企业的库存管理,如何保证不大面积断货影响产品销量的同时,避免库存大量积压导致的成本增加,我们要分析每个商品的销售量趋势、库存情况和未来销量预测,制定合理的采购计划,对滞销商品采取降价促销,对畅销品、爆品要提前下生产订单,供应链部门根据商品订单,提前采购、生产。这些需求的实现,依赖于聚合多个业务系统数据进行分析,如供应链系统、仓储系统等。同时也要保存历史数据,支持销量预测。然而,传统数仓是面向单一业务系统,主要实现面向事物的增删改查,不能满足复杂的数据分析场景,此时,数据仓库的概念应运而生了。
数据仓库之父比尔·恩门在 1991 年出版的《Building the Data Warehouse》中首次给出了数据仓库的完整定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。举个例子让大家更好的理解,比如在电商场景中,订单数据、会员数据、库存数据存放在三个不同的数据仓库中,构建数据仓库,首先要把不同业务系统的数据同步到一个统一的数据仓库中,然后按照划分主题域的方式组织数据。
主题域是对业务过程的高度抽象,像商品、交易、用户、供应链都能作为一个主题域,可以把它理解为数据仓库的一个目录。数据仓库中的数据一般是按照时间进行分区存放,一般会保留 5 年以上,每个时间分区内的数据都是追加写的方式,对于某条记录是不可更新的。
数据仓库的出现,明确了复杂场景的数据分析解决方案,让数据分析场景不再依赖业务数据库,也为商业智能的发展奠定了技术基础。
2.0 Hadoop出现
进入互联网时代后,有两个比较明显的变化,一个是数据规模的增长前所未有,一个是数据异构化普遍存在。传统数据库难于扩展、数据在导入前必须事先定义好模型的特性,决定了传统数据仓库根本无法承载互联网时代海量数据存储和计算。
2004年前后,当大多数公司还在研究如何扩展单机性能,寻找更贵更好的服务器时,互联网巨头谷歌发表的 3 篇论文让业界为之一振,也就是我们经常听到的“三驾马车”,分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。论文思路是部署一个大规模的服务器集群,通过分布式的方式将海量数据存储在这个集群上,然后利用集群上的所有机器进行数据计算。这样一来,Google 其实不需要买很多很贵的服务器,它只要把这些普通的机器组织到一起,就能实现大量的数据的存储和计算。
当时的天才程序员Doug Cutting 受Google 的论文影响,开始基于论文原理实现GFS和MapReduce的功能,两年后,Google的理论被变成现实,Hadoop正式诞生。和传统数仓相比,Hadoop有以下两点优势:
完全分布式,易于扩展,可以使用价格低廉的机器堆出一个计算、存储能力很强的集群,满足海量数据的处理要求;
弱化数据格式,数据被集成到 Hadoop 之后,可以不保留任何数据格式,数据模型与数据存储分离,数据在被使用的时候,可以按照不同的模型读取,满足异构数据灵活分析的需求。
3.0 大数据平台兴起
一个商用Hadoop支持几十种计算引擎,数据研发流程复杂,通常涉及数据集成、数据开发、数据测试、数据发布、任务运维等。繁杂的工作流程使得数据研发的门槛高、效率低下。为解决数据研发低效率、高门槛的问题,大数据平台应运而生,自此,数据实现了“流水线”式的快速加工。
这里简单介绍下大数据平台。
大数据平台是面向数据研发场景的数据研发全链路的工作平台。可以实现数据流水线化快速加工。
大数据平台由下至上大致可分为三部分,分别是数据采集、数据处理、数据展示。
数据采集
由于数据源不同,所以数据同步系统相当于多个组件的集合,业务数据库同步一般用Sqoop,日志同步可以选Flume,埋点数据经过格式转换后通过kafaka消息队列进行传输。
数据处理
数据处理是大数据计算的核心,数据同步系统导入的数据会存储到HDFS,Hive、Mapreduce、Spark等计算任务读取HDFS的数据计算后再将计算结果写入HDFS。
数据展示
大数据计算产生的结果被写入了HDFS,但应用程序不能直接到HDFS中读取数据,所以需要数据同步系统将计算结果导出到数据库,应用程序就可以直接访问数据库中的数据,展示给用户。
那各种数据什么时候开始同步,各种计算引擎任务如何合理调度才能使资源利用最合理、等待的时间又不至于太久,同时临时的重要任务还能够尽快执行,这就需要任务调度管理系统来对上述三个部分进行整合完成,大数据平台上的其他系统一般都有开源的可供选择,但任务调度管理系统一般涉及很多个性化的需求,通常需要自己开发,开源的大数据调度系统有 Oozie,也可以在此基础进行扩展。
4.0 数据中台时代
2016年左右,随着互联网的高速发展,业务场景的不断增加,数据应用的需求越来越多,为快速响应业务的需求,很多企业都不同程度的存在烟囱式的开发模式,这种烟囱式的开发导致企业不同业务线的数据是割裂的,这就造成了数据的重复加工,导致研发效率、数据存储和计算资源的浪费,使大数据的应用成本越来越高,也带来指标口径不一致的问题。产生这些问题的根源在于数据无法共享,为解决这一问题,2016年,阿里率先提出“数据中台”的口号。数据中台的核心是:避免数据的重复加工,通过数据服务化,提高数据的共享能力,赋能数据应用。
总的来说,数据中台具备异构数据统一计算、存储的能力,同时让分散杂乱的数据通过规范化的方式管理起来。数据中台借鉴了传统数仓面向主题域的数据组织方式,基于维度建模理论,构建统一的数据公共层和应用层。数据中台依赖于大数据平台完成数据研发全流程,同时增加了数据治理和数据服务化以及数据资产内容。
02什么是数据中台
说完了数据中台诞生的历史背景,现在,我们应该对数据中台有了一定的了解,那我们现在给数据中台下个定义。
自2016年,数据中台被提出以来,不同的人对数据中台有不同的理解,就像一千个读者心中有一千个哈姆雷特,因此也有许多不同的定义,以下是我从一些文章、书籍中搜集到的关于数据中台的定义:
我的理解:数据中台是DT时代的大背景下,为实现数据快(快速)、准(准确)、省(低成本)赋能业务发展的目标,将企业的数据统一整合起来,基于Onedata方法论借助大数据平台完成数据的统一加工处理,对外提供数据服务的一套机制。
举个例子:如果把数据比如新时代的水电煤,那数据中台就是煤业公司、水厂,煤如果深埋地下,不被挖掘加工,就没法发挥应有价值。所以,建设好基础,数据价值才能最大化被挖掘。
03数据中台的价值
1 数据中台是企业数据化建设的基础设施
数据中台解决了企业全域数据汇聚的问题,打通以往的数据孤岛,沉淀数据资产,实现数据之间的价值共通,可基于数据中台满足复杂的数据应用场景。
2 提升数据质量
数据中台基于Onedata方法论构建统一的公共层,保证了源头数据的一致性,且实现数据按照统一口径只加工一次,实现全局指标、标签的统一,大大提高数据质量。
3 节约企业数据应用成本
基于数据中台的元数据管理的数据血缘,可以实现数据投入产出比的评估,及时发现并下线低ROI的数据,也避免数据重复加工。由此降低数据的研发、存储和计算成本,降低企业数据应用成本。
比如,对于一些超过3个月未使用的报表,可以做下线处理,评估表的ROI,对于低ROI的报表及时下线处理。
4 健全各部门协作机制
利用系统化的解决方案配合一定的管理机制,实现业务人员、数据研发、产品经理、数据分析师等角色的高效协同,提升各角色之间的协作效率。
图片
- 2022年全国赛艇锦标赛在浙江 河北省三部电视剧获第31届中 今年1至9月河北省电子信息产
- 衡水谋划了32个特色果蔬单品 河北省打出资金和政策“组合 全国219个城市被授予“国家 河北湿地公园数量有了跨越式 粤港澳大湾区的中欧班列开行 中国空军“八一”飞行表演队
- 2022年第22号台风“尼格”已 中国空间站迎来重大时刻 空 粤支持韶关建设国家老工业城 清远清城区全新打造的校外未 广州年内将在南沙各镇街布局 广东获第二十三届中国专利奖
- 河北邢台出台20条措施 努力 河北高邑指导企业挖掘传统文 石家庄一90后志愿者成功捐献 前三季度石家庄规上工业高新 江西资溪“两山转化中心”推 畅通道兴贸易 广州海关关区
精彩推送
- 十八数藏入选2022年度数字藏品企业TOP30
- 什么是数据中台?数据仓库之父是谁?数据中台的前世今生介绍
- scp是什么的缩写?scp命令格式是什么样的 scp命令的实际应用概述
- 大树科技与能链控股达成战略合作 共建数字能源产融服务平台
- addEventListener() 方法详解 addEventListener参数说明
- 大树科技与国新健康达成战略合作,共建数字医疗产融新生态
- 友邻YONi4.0上线:流量赋能,企业互帮,共赢未来
- xiao77论坛入口在哪?xiao77论坛如何发帖及传图?
- 今日申购:欧克科技、柏星龙、特瑞斯 头条焦点
- 长安逸动变速箱线速接口处渗油 车主投诉后仅一天解决:全球新动态
- 新能源车出口大热 中国品牌到欧洲“华山论剑”-世界快看
- 热门:今日上市:卡莱特、倍益康
- 【环球时快讯】加快电动化布局落地 BBA能否重塑市场格局?
- 全球今热点:纳指涨4.41% 小鹏涨47.3%蔚来涨21.7%虎牙涨19.7%
- 余额宝收益怎么算公式是什么 计算余额宝收益的前提是什么
- 股票放量上涨到底是意味着什么 底部放量上涨后势如何
- 缩表是什么意思央行缩表意味着什么 资产负债表反映企业什么
- 转账限额特点有哪些 每天建行手机银行转账限额是多少
- 宝沃汽车正式宣告破产 宝沃汽车破产原因有哪些
- 8000元1件羽绒服直播间仅卖800元质量过关吗 直播间羽绒服为啥那么便宜
- 为什么中概股离岸人民币又沸腾了 热门中概股最新行情介绍
- 如何让卖家给你乖乖退款?如何让商家快速退货?
- 退货的时候千万别选择退运费是真的还是谣言 运费险退运费的方法介绍
- 社保卡丢失如何补办最快有哪些办法 补办社保卡的材料有哪些
- 西山科技业绩连升产品单价降 界面:股权转让存猫腻 每日看点
- 环球短讯!光格科技业绩连升净利走势背离现金流 应收账款高企
- 海思科:控股股东王俊民质押962万股
- 河南商丘:购买商品房按契税总额15%予以补贴_当前热讯
- 全球热资讯!中国A股房地产板块周二上演“涨停潮”
- 中国西北、华东两条高铁开工建设
- 四川都江堰至四姑娘山山地轨道交通项目全线首座隧道贯通
- 天津设置125亿元再贷款再贴现额度支持京津冀产业链融资:环球微资讯
- 全球焦点!网购“戴森”当礼物 吹风时自动停机
- 全球热消息:长春市民在苹果店买手机花1400办延保服务 后盖碎了返厂换新难
- 长城宽带用了一年多竟发现户主不是自己 这到底是啥情况?
- 环球新消息丨居家办公时网络突然中断 一查竟是联通宽带被移机了?
- 海底捞被指收取包间服务费 客服:确实有这项收费
- 时创能源、航天环宇12月7日科创板首发上会
- 证监会同意凌玮科技、鸿铭股份创业板IPO注册:世界新要闻
- 非法代理投诉陷阱多,警银联动共同打击黑产
- 世界速递!东星医疗龙虎榜:机构净卖出764.45万元
- 磐安城乡建设3.19亿元竞得金华磐安县1宗商住用地_天天观点
- 天天快讯:浦江城投3.25亿元竞得金华浦江1宗商住用地
- 昆船智能龙虎榜:机构净卖出592.21万元-微头条
- 环球今亮点!机构:前11月TOP100房企销总额为67268.1亿元,同比下降42.1%
- 冠寓合资企业北京龙湖方恒30%股权被挂牌 转让底价150万元
- 中交地产20亿元资产支持ABS已获受理
- 天天微资讯!贝壳找房:第三季度净收入176亿元,总交易额7371亿元
- 保利发展龙虎榜:机构净卖出4.52亿元
- 勤上股份拟终止向晶腾达定增 股价跌0.84%
- 首开股份跌停 机构净卖出1.59亿元 焦点速读
- 中远海能龙虎榜:机构净卖出1.34亿元 新视野
- 当前关注:华金证券原2保代违规被监管谈话 现均跳槽至东北证券
- 【快播报】广汽本田全新缤智正式上市 售价13.29万元起
- 卫龙:坚守品质初心 引领世界美味
- 沉浸式学习更利于孩子上网课,科大讯飞AI学习机有好方法
- 破发股艾力斯跌5.6% 上市即巅峰募20亿中信证券保荐
- 全球焦点!合盛硅业跌6.69% 安信证券在其高点唱多
- 沃森生物跌6.32% 股价高点下跌后招商证券最先唱多
- 世界简讯:破发股信德新材跌4.1% IPO超募15亿元中信证券保荐
- 德邦科技跌8.9% 上市超募8.4亿俩月后董事长协助调查:世界快报
- 游戏品类加速回暖,文娱内容持续火热——2022年IAA行业品类发展洞察系列报告·第三期
- 环球关注:招商银行厦门分行被责令改正 基金销售业务存六项违规
- 凯淳股份前三季净利降149% 去年上市即巅峰募资5亿_每日消息
- 京杭等四城一日卖地505.78亿元 民营房企加大拿地投资力度
- 湖南:实施十二项重点任务推进乡村建设 快播报
- 焦点快看:极氪001提车后出现动力受限、无法加速故障 车主投诉后已协商退车
- 环球焦点!监管定调打造REITs市场“保租房板块” 新发项目有望扩展至二线城市
- 正和生态前三季亏损 招商证券保荐去年上市现今破发
- 国家统计局:11月份制造业PMI为48.0%_天天新资讯
- 【独家】汽车整车板块涨6.05% 安凯客车涨10.08%居首
- 中国金茂拟转让上海洮茂置业49%股权 涉普陀区桃浦科技智慧城项目-热头条
- 天天热文:建设银行厦门分行被责令改正 基金销售业务存四项违规
- 抢1212份免单!掌上明珠家居超级省年终大促劲爆来袭!
- 凯叔讲故事X搜狗输入法联手“整活”,麦小米的100个烦恼等IP主题皮肤上线
- transformer是什么意思 Transformer模型详细介绍
- 什么是Vuex?vuex官方解释是什么?Vuex详解
- maven repository是什么意思 MavenRepository官网崩溃怎么解决
- LSTM解决了RNN中什么问题?LSTM为什么能够缓解梯度消失?LSTM常见面试题
- jwt是什么东西?JWT的本质是什么?JWT的认证流程介绍
- java下载途径有哪些?Java的官网下载链接一览 java17下载安装教程
- 设计模式分为几类?工厂类设计模式的代码是什么?
- flex布局是什么意思通俗解释 flex布局中的一些基本概念介绍
- UML模型图的构成有哪些?5类UML图的分类法 UML相关概述介绍
- 中小学生如何学习Python编程 python基础教程初学者指南一览
- Git下载路径是什么?Git安装组件有哪些?
- 环球今日报丨打通动力电池回收关键堵点
- 大树科技携手云采科技,助力政府公共资源交易数字化产融建设
- 宁德时代加入“天价锂矿”争夺战 斯诺威控制权归属扑朔迷离:独家
- 大树科技五周年暨3.0战略发布会圆满举行
- 保障锂电产业链协同稳定:全球新动态
- 今日申购:聚和材料
- 抖音月付怎么套出来?常用办法交给你
- 美股纳指跌0.59% B站涨22%雾芯科技满帮涨12%|实时
- 上交所退市新规是什么 重大违法退市标准是怎样的
- 车贷怎么算?车贷计算公式和还款方式盘点
- 上证指数是什么意思通俗解释 上证指数计算方法介绍
- 毛利润是什么意思?毛利润怎么算?毛利润越高反映什么?
- 支付宝提现要手续费吗贵不贵?支付宝提现收取手续费的情况介绍
- 香港股市交易时间与A股有哪些不同 港股通交易规则介绍
金融
财经
要闻
公司
吉卜力工作室如今已加入到主题公园的浪潮,并于11月1日正式对公众开放全球首个项目,将《龙猫》等经典作品的场景复原至现实世界。对于吉卜
详细>>随着在线旅游企业数量的不断增多,售卖不合理低价旅游产品、违规利用用户个人信息等问题也时有发生。11月1日,文旅部发布《文化和旅游部关
详细>>两个小时,这是越南全国首票榴莲从装车到运送至我国广西崇左友谊关口岸的时间。得益于一体化供应链,2021年,中国与越南进出口贸易额达到23
详细>>11月1日,北京商报记者梳理发现,截至9月末,10家A股上市农商行资产规模均有所扩大,重庆农商行、上海农商行仍以万亿元总资产位居前列。营
详细>>西贝餐饮集团(以下简称西贝)在儿童餐的道路上越走越深。11月1日,北京商报记者从西贝获悉,其将推出西贝儿童餐零售产品。目前,部分西贝门
详细>>新一期麻辣粉和逆回购操作如期公布。9月15日,央行发布消息称,为维护银行体系流动性合理充裕,开展4000亿元中期借贷便利(MLF)操作和20亿元
详细>>