三大数据模型:星型模型、雪花模型、星座模型

星型模型

星型模型中只有一张事实表,以及0张或多张维表,事实表与维表通过主键外键相关联,维表之间不存在关联关系,当所有维表都关联到事实表时,整个图形非常像一种星星的结构,所以称之为“星型模型”。

  • 星型模型是最简单最常用的模型。星型模型本质是一张大表,相比于其他数据模型更合适于大数据处理。其他模型可以通过一定的转换,变为星型模型。
  • 星型模型的缺点是存在一定程度的数据冗余。因为其维表只有一个层级,有些信息被存储了多次。比如一张包含国家、省份、地市三列的维表,国家列会有很多重复的信息。

雪花模型

  1. 当一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的"层次"区域,这些被分解的表都连接到主维表而不是事实表。

  1. - 其优点是通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能,避免了数据冗余。
  2. - 其缺点是增加了主键-外键关联的几率,导致查询效率低于星型模型,并且不利于开发。

星座模型

  1. 星座模型也是星型模型的扩展。区别是星座模型中存在多张事实表,不同事实表之间共享维表信息,常用于数据关系更复杂的场景。其经常被称为星系模型。
  2. 对比

  1. 总结
  2. 通过上面的对比分析,可以发现数据仓库更适合使用星型模型来构建底层数据 hive 表,通过数据冗余来减少查询次数以提高查询效率。雪花模型在关系型数据库中(MySQL/Oracle)更加常见。在具体规划设计时,应结合具体场景及两者的优缺点来进行设计,找到一个平衡点去开展工作。

#数开##数仓开发##校招##数据人的面试交流地##牛客创作赏金赛##投票#

数据脉冲之路【数开、数仓】

全部评论

相关推荐

有些同学可能懒得看,可以到结尾去看看我的简单的建议总结。 大家好,我重生了,上一世我是一个没文化的街头混混大魔王,为了瞧见一眼春光,在公厕坑里探头往女厕看不幸掉进屎坑被淹死了(取自《兄弟》);现在重生到一个叫小红旭的小屁孩身上,现在是2021年9月15日,我刚刚考上被誉为广东第二大学城的最高学府、广东第二农业大学的仲恺农业工程学院的机械电子工程专业。今天,我来到了的校门口,看着学校“气派”的大门,我决定我要好好学习,这一辈子做一个有文化的大魔王(励志),听说职场还是一个很高危的地方,像我这么有信心的大魔王,毕业之后必须去这种危险的地方混个小官当,然后一步一步做职场大魔王啊...
emo的打工鸭又被画饼了:从美的实习结束回到学校那一天,看到道路上走动的师弟师妹,其实我还是有些感慨的,六个月的实习生活重新回到学校,突然就感觉到之前从来没有感觉到的那种落寞感,就像是人快要死了突然感觉自己还没活够呢;这种感觉也许是因为学生生涯就快要结束,也许是害怕出了学校之后就再也遇不到这么纯真的友谊了,但是谁又知道呢,寒窗苦读读书十三年,也就是为了毕业这一刻吧。特别是今年回家,越深切的感受到姑姑们和家里人的亲情,如果不是生活所迫,谁想要来外地打工呢
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客企业服务