《大数据之路2 数据更普惠,商业更智能》第一章 再出发:数据中台的萌芽与蜕变
第一章 再出发:数据中台的萌芽与蜕变
1.1 历年起源:中台思维的初步形成
阿里巴巴数据中台的起源:从分散到统一的变革之路
1. 数据体系的多元化发展
2011年,阿里巴巴的业务主要由B2B、淘宝和支付宝三大板块构成,每个板块都拥有独立的数据仓库团队。由于技术和业务模式的不同,这些团队在数据建设上形成了各自独立的体系。这种差异化的发展,为后来数据中台的诞生奠定了基础。
随着业务的快速扩张,数据的效率、管理和价值成为业务部门日益关注的核心问题,甚至有些部门希望能够自行管理数据。为了更好地满足业务需求,阿里巴巴在这一阶段对数据团队进行了多次组织结构调整。
2. 1688数据团队的变革:构建“三板斧”体系
2011年,B2B数据团队进行了重组拆分,20多人的数据团队并入1688业务技术团队,并在团队负责人朋新宇(小芃)的带领下,开始构建被称为“三板斧”的数据体系。
“三板斧”体系的核心目标是:在统一数据体系的大方向下,积极探索新技术和新模式,实现数据标准化、平台先进化以及数据产品化。
3. 三大核心举措
(1)更换计算存储平台:从Greenplum迁移到Hadoop
当时1688的数据存储采用Greenplum平台,但随着业务量的增长,该平台逐渐暴露出两大问题:
- 硬件损坏频发,影响业务可用性。
- 新一代分布式计算平台Hadoop兴起,提供了更高的扩展性和稳定性。
淘宝数据团队率先采用Hadoop并验证了其可靠性,这促使1688数据团队启动迁移工作。
(2)构建数据体系:从零散建设到OneData理念
在平台迁移完成后,团队开始从数据模型和指标体系入手,推进数据标准化。
- 采用维度建模专家Ralph Kimball的方法论,结合Hadoop能力,优化数据管理。
- 推出OneData理念,确保数据高质量、标准统一,为中台化建设奠定基础。
(3)实现数据产品化:从需求响应到智能分析
过去,业务数据分析需求主要由需求分析(RA)岗位负责,通过临时取数和报表工具展示分析结果。随着数据需求激增,这种方式难以支撑。
- 1688数据团队设立产品经理(PD)角色,推动从RA到PD的转变。
- 以“长期性、全局性、可复用性”为核心,构建用户友好的数据分析平台。
- 该平台被称为“傻瓜数据平台”,旨在降低数据分析门槛,提高用户体验。
4. 数据体系的持续演进
在不到一年的时间内,1688数据团队完成了迁移、重构和产品建设,使数据体系能够紧跟业务发展。
与此同时,阿里巴巴其他业务板块也在数据领域取得了突破:
- 阿里云(2009年成立)研发云操作系统“飞天”,推出大数据计算平台ODPS(MaxCompute前身)。
- 淘系发布数据魔方、量子统计等产品,推动数据可视化和商业化应用。
- Hadoop平台规模扩展到上千台,被内部称为“云梯1”,成为通往“飞天”架构的关键路径。
这些技术突破,为阿里巴巴更大规模的数据统一奠定了坚实基础,也推动了中台思维的初步形成。
1.2 标准确立:OneData体系的升级
OneData体系的升级与标准确立
到2013年,随着“三板斧”工作的持续深化,阿里巴巴的数据工作已取得了显著成果,也增强了业务部门对数据的满意度。然而,对数据人而言,寻求新技术和更高效率的热情使他们不能停止前行,也导致他们开始研究新一代的实时计算技术,其中Storm成为阿里巴巴实时计算的首选平台。
在2014年,阿里巴巴数据仓存规模以每月8%的速度上升,按照此速度预测,2017年将是2014年的16倍,大量添加的数据导致成本急剧上升,并且存在严重的数据处理复杂性问题。为解决这些挑战,随着阿里云ODPS平台的成熟,并且为了尽量减少对业务的影响,阿里巴巴決定通过OneData构建全集团共享数据层,完成数据统一化工作。
2. OneData体系升级的三个阶段
- 技术架构与业务全面盘点
- 重点业务场景数据重构
- 统一数据平台与旧系统迁移
通过三阶段工作,OneData体系在阿里巴巴全网大规模落地,不仅加速了数据统一化,也为数据中台建设扛起了胆帆。
1.3平台构建:OneData与数据中台的融合
2015年12月,阿里巴巴集团正式启动 “大中台、小前台” 战略,推动业务灵活化和创新性发展。此举不仅支持核心电商业务升级,还促进了云计算、阿里妈妈、菜鸟等新业务的独立成长。与此同时,阿里巴巴 数据中台 由朋新宇带领,进入深度发展阶段,与 OneData 体系 进一步融合,围绕五大方向展开建设:
1. 顶层设计
数据资产管理采用 OneData 规范体系,支撑长期稳定的数据建设,并提供便捷的业务数据消费方式:
- 统一数据资产管理,沉淀技术与产品能力。
- 数据产品经理深度参与业务运营,构建业务解决方案。
- 以统一数据底座,提供灵活的业务服务能力。
2. 产品建设
阿里数据中台围绕 集团内部决策 和 商家数据赋能 两大场景,构建了一系列产品:
内部决策支持
- 阿里数据平台(PC+移动端)。
- 观星台(CEO、高管决策)。
- 业务板块决策门户(定制化分析)。
- 专题分析工具(行业360、产品360、营销活动分析)。
- BI工具(数据公共层赋能各类“小二”)。
商家数据赋能
- 生意参谋(店铺经营与决策分析)。
- 品牌数据引擎(消费者运营)。
- 策略中心(品类规划)。
3. 数据建设
统一数据采集:提供统一的埋点、数据集成和存储工具,加速 UC、高德、优酷、Lazada 等业务数据接入。
公共数据中心:采用 三层拆解架构(业务板块、业务过程、分析维度),实现统一指标定义与管理。
数据资产挖掘:围绕核心商业要素,构建标签体系,支撑智能化数据运营。
统一数据服务:打造 OneService 体系,提升数据可用性并降低服务成本。
至此,OneData 体系 进一步升级为 OneModel(数据模型)、OneID(数据身份)、OneService(数据服务),形成完整的 数据资产管理体系。
4. 数据治理与管理
数据建设与治理一体化:强调 数据生命周期管理、数据质量监控、测试保障。
数据健康度量体系:构建 分析-诊断-优化-反馈 闭环,确保数据质量、安全和成本优化。
统一的数据资产管理平台:结合不同阶段重点任务,开发治理工具,并由专职团队执行管理。
5. 数据流通
在 《网络安全法》、《数据安全法》、《个人信息保护法》 的约束下,阿里巴巴建立 数据流通中心:
- 通过 流通管控平台 保障数据合规管理。
- 数据提供方发布数据至 数据市场,消费方经 合规审查 后获取使用权限。
- 依托 可信数据空间,实现受控计算和数据应用,确保符合法规要求的数据流通。
2015年,阿里巴巴数据体系正式进入 数据中台 阶段,OneData 体系全面升级,推动了 数据资产管理、业务赋能、合规流通 的深度融合。
1.4转型深化:数据中台的新变革
转型深化:数据中台的新变革
随着阿里巴巴集团业务体系的演进,外界对 数据中台 的未来方向产生疑问。面对这些变化,阿里巴巴数据团队秉持以下四个核心认知:
- 丰富且统一的数据 使业务能够更便捷地使用数据。
- 统一且稳定的技术平台 释放人力资源,使更多人员聚焦业务创新。
- 开放性与自助化能力 让业务人员能灵活满足需求,提高响应速度。
- 数据团队的核心目标 是深入理解业务,助力业务创造价值,组织形式应随业务发展动态调整。
组织形态调整:产品化与业务融合
经过 10 多年的迭代,阿里巴巴的数据中台已实现核心能力的 沉淀与产品化,而业务方对数据赋能的需求也在不断增强。因此,阿里巴巴选择:
- 保留核心中台能力,包括统一的数据采集、数据公共层建设和数据治理体系。
- 业务线产品和人员“上浮”,更贴近业务团队,提高数据与业务的融合度。例如:
- 组织形态调整类似 搭建大厦,基础建设与大厦一同保留,而部分“脚手架”完成使命后将拆除。
随着 业务发展 和 新技术体系 的出现,组织模式可能持续变化。但核心目标不变——确保数据价值的最大化。这一变革就如同 化茧成蝶,是大事务发展周期中的一个小周期,为未来的创新和增长奠定基础。
1.5持续进化:数据中台的未来发展
持续进化:数据中台的未来发展
至此,阿里巴巴的数据建设历程已完整梳理。值得注意的是,阿里巴巴内部 并未设立名为“数据中台” 的团队,其实际名称是 “数据技术及产品部”(DT,Data Technology)。
DT团队的独立与瓴羊的诞生
2021年12月1日,DT团队 从阿里巴巴集团独立,成立 数据智能服务公司“瓴羊”。
这一转型源于:
- 社会需求——外界对阿里数据建设方法的兴趣日益浓厚。
- 团队愿景——希望让 OneData 方法体系 变得更自动化、功能化,提高数据建模和指标管理的协同能力。
- 阿里巴巴的支持——鼓励团队以商业化公司运作,提供更专业化和体系化的服务。
从内部工具到行业赋能
2017年,为解决数据建模和指标定义的协同问题,DT团队研发了 Dataphin 产品。
随着外部企业对数据能力建设需求的增长,DT团队 逐步从内部支持转向外部服务,最终形成 “瓴羊” 这一独立品牌。
这一演变反映了 企业数据能力建设的三种组织形式,将在 第11章 详细讨论。
大数据之路:挑战与坚持
瓴羊虽是 年轻公司,但其核心团队已在数据领域深耕 10 余年,经历了从 ERWin数据建模 到 改进指标定义与管理方案 的长期探索。
大数据之路 并非平坦大道,但团队秉持 “放弃需要勇气,坚持需要底气” 的信念,不断前行。
瓴羊的诞生,标志着阿里数据中台的发展迈向 更广阔的行业应用。未来,他们将持续探索,并与更多企业 共同前行。
#大数据开发##大数据之路#