2022-08-23 16:26 已编辑中软国际_大数据测试

发布于广东

关注

Hadoop数仓知识小结

1. RDD的概念，就是说它会把一个比较大的数据集，然后分成很多个不同的部分，这叫分区。那这个分区，它会分布在不同的计算节点里边，去对每一个节点进行同样的算法的计算。那这个RDD的概念，它叫什么弹性分布式数据集意思？它就是如果有的计算节点失败了，它能够按照。计算的定义的那个计算图重新去构建它失败的那一部分，能够起到一个重视作用，也就是一个，能够保证这个计算的时候，能够在有问题的时候能够鼓掌恢复，然后还能够做这种分布式的计算

2. join的时候一定要看好join的类型：left join、right join、inner join以及左表右表的join字段名称，每join一个表就执行测试下，看看数据效果

3. 数仓开发主要梳理清楚取数的逻辑，可以采用WITH tmp_01 AS 的方式写好需要用的表，最后汇总起来

4. 数仓代码中尽量不要出现SELECT *、DISTINCT，因为会加大资源的损耗，导致数据倾斜

5. sql只能解决固定模式的问题，如分组聚合，排名，去重。累计等。如果超越了这些需求，需要复杂数据计算逻辑，或需要优化执行性能时候，sql捉襟见肘，spark 用scala开发最是方便，即支持sql语句执行，还支持流式计算、机器学习、图数据结构分析计算。这些功能sql是没法做的。spark在数据倾斜防治上也有更多的优化手段方法

#Hadoop##咪咕视讯#

Hadoop数据仓库文章被收录于专栏

Hadoop数据仓库是建立在Hadoop生态系统基础上的大数据存储和处理解决方案。它可以用于将结构化、半结构化和非结构化的数据集中存储，并提供高性能的数据查询、分析和数据处理功能。

全部评论

推荐最新楼层

天津工业大学嵌入式工程师

大神讲的很好

点赞回复分享

发布于 2022-10-01 11:14 陕西

12-25 17:09

思特威电子科技_系统工程师-SOC方向(准入职员工)

思特威内推，思特威内推码

思特威AI芯片工程师一面面经二面：部门主管面 9.21 30-40min探讨了我项目中所负责的模块的实际应用场景（可能相比起技术细节会更偏向于对IP应用的思考）我的项目多是数模结合的模块，因此也追问了数模结合项目对于个人求职中的优势。整体下来更多是在询问在项目中担任的角色和对自己项目模块高层次的掌握程度。反问问了面试官身份，工作内容和项目中的重难点三面：hr面10.11 45min（没想到是最久的）谈了下入职之后的培训，公司发展情况和业务情况，以及可能的薪资待遇，照常询问了一下现有的offer和等待的机会。反问环节确认了一下自己的排序情况。第二天oc，过几天收到了offer使用内推码简历优先筛...

点赞评论收藏

分享

昨天 21:09

复旦大学 Java

周末继续看简历，大家写简历要重视业务不要搞反了！

找工作，行业重要还是岗位...

点赞评论收藏

分享

不愿透露姓名的神秘牛友

11-21 11:29

已编辑

本人百度+腾讯实习经验，马力笔试1.5/2给我简历挂?????这对吗这对吗这对吗，真是大环境不好吗bg双非update:重新投郑州进入初试了(楼主河南人)

斯卡蒂味的鱼汤：知道你不会来数马，就不捞你😂最近数马疯狂扩招，招聘要求挺低的，你能力肯定够，应该就是因为太强了，知道你不会来才不捞你

投递腾讯云智研发等公司7个岗位

点赞评论收藏

分享

12-25 15:51

顺丰集团_HR(准入职员工)

顺丰内推，顺丰内推码

12月还有很多HC!!!!java笔试题目：用 Python 实现一个函数，用于计算斐波那契数列的第 n 项。以下 Java 代码片段是否存在问题？如果有，请指出并改正。简述 C++ 中指针和引用的区别。实现一个二叉树的中序遍历算法，可使用递归或非递归方式。对于一个无序整数数组，使用快速排序算法对其进行排序，并分析该算法的时间复杂度和空间复杂度。设计一个算法，判断一个字符串是否为回文串，要求时间复杂度尽可能低。简述 TCP 三次握手和四次挥手的过程，并说明为什么连接建立是三次握手，而连接释放是四次挥手。一台主机的 IP 地址为 192.168.1.100，子网掩码为 255.255.255.0...

点赞评论收藏

分享

评论

4

15

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客2025仙途报告 #

12965次浏览 242人参与

# 实习要如何选择和准备？ #

129872次浏览 1500人参与

# 2025年终总结 #

195325次浏览 3274人参与

# 你有哪些缓解焦虑的方法？ #

44492次浏览 868人参与

# 元旦假期你打算怎么过 #

782次浏览 20人参与

# 上班后和你想的一样吗？ #

95126次浏览 701人参与

# 双非本科的出路是什么？ #

189180次浏览 1500人参与

# 找工作，行业重要还是岗位重要？ #

87426次浏览 1742人参与

# 今年你最想重开的一场面试是？ #

12288次浏览 128人参与

# 我们是不是被“优绩主义”绑架了？ #

1664次浏览 63人参与

# 你面试体验感最差/最好的公司 #

28695次浏览 468人参与

# 机械人晒出你的简历 #

148365次浏览 885人参与

# 一人说一个提前实习的好处 #

22643次浏览 304人参与

# 牛友们的论文几号送审 #

63101次浏览 833人参与

# 礼物开箱Plog #

3150次浏览 102人参与

# 秋招落幕，你是He or Be #

22328次浏览 377人参与

# 没有合适的工作，你会先找个干着，还是考公考研 #

149240次浏览 1241人参与

# 牛油的搬砖plog #

163624次浏览 1152人参与

# 工作中听到最受打击的一句话 #

12515次浏览 176人参与

# 重来一次，你会对开始求职的自己说 #

10072次浏览 242人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务