数据治理
为什么需要数据治理?
1.数据易用性差(取数复杂度较高&速度较慢):在线数仓满足范式,离线数仓用空间换时间
2.数据质量差(正确性):脏数据的过滤,推荐的效果,召回和排序,召回决定了推荐的效果
3.研发成本高:研发的复杂度较高、周期、运维成本:数据质量出问题影响下游的使用,所以要纳入到数据治理中
4.数据安全性差(加密&脱敏&审计):审计:数据什么时候被谁查过,多少次,查了多少次
研发成本,数据质量:数据治理问题:数仓表层级深、DAG结构复杂
无用表占用了大量存储空间和计算资源
数万张存量的数仓表
大数据治理:1.数据治理范畴? 贯穿数据全生命周期的管理 定义/接入/处理/存储/使用/退场
2.数据治理解决的问题? 提升数据的易 用性、提升数据质量、降低研发成本、提升数据的安全性
数据质量:端日志全流程质量保障