shadow不会

2024-08-05 09:54 天津师范大学大数据开发工程师发布于河北

关注

Hive 专项练习 9

Hive和传统数据库相比

有类似的查询语言，还是类似的执行器、解释器、计划器
并非所有的Hive数据都存储在HDFS上，有部分元数据存储在MySQL上
Hive针对数据仓库设计，针对的是读多写少的场景

Hive数据倾斜

某个reducer的数据输入量远远大于其他reducer数据的输入量
key在reducer上分布不均匀

Hive join 支持非等值连接

SELECT a.* FROM a LEFT OUTER JOIN b ON (a.id <> b.id)

需要注意的是，虽然Hive支持非等值连接，但使用非等值连接可能会导致查询的性能不如等值连接
非等值连接可能无法有效利用Hive中的map-side join和bucket map join等优化

Hive 数据删除和修改

虽然Hive支持UPDATE和DELETE操作，但这些操作在Hive中通常效率不高，因为Hive是为批量处理和读密集型工作负载设计的，而不是为事务性工作负载设计的。
Hive修改操作通常涉及以下步骤：
- 读取整个表或分区
- 应用更改
- 将结果写入新的表或分区
- 删除旧的表或分区

Hive专项练习文章被收录于专栏

Hive专项练习错题

全部评论

推荐最新楼层

09-12 11:56

快手_机器学习算法部_机器学习算法工程师(准入职员工)

快手内推，快手内推码

快手数据研发一面（40min➕，比较简单，面试官和善） 1.深挖项目，项目架构选型，不同数据为什么存储在不同位置等之类的问题 2.MR工作流程 3.Hive和Spark的区别 4.细挖简历，比如说说简历中复杂SQL的难点在哪里，如何解决 5.认识什么告警类型，都如何处理 6.数据倾斜如何定位，如何解决 7.数仓分层以及分层作用 8.DWS层和DWM层的区别 9.spark的driver,task,job,stage之间的联系 场景题，对直播中的金额数据如何进行数据质量的一个检测 手撕算法:最大子数组和 SQL:最大连续问题 二面（50min➕，主要难在项目拷打，八股很简单） 1.深挖项目非常细...

点赞评论收藏

09-11 22:36

门头沟学院硬件开发

影石硬件面经

面试官都很好，整体流程推进的也很快！再次感谢影石！秋招的第一个oc 嘿嘿时间线：8.13简历评估8.22 一面技术面（硬件测试组长）8.27 二面技术面（硬件组长）9.1   hr面9.3 oc———————————————————一面：大概35分钟主要问项目技术遇到的困难 解决方法，测试仪器，有没有用过频谱仪，高速信号测量方法，电压纹波具体测试方法，还有没有用过别的测试仪器，使用方法二面：大概40分钟有点压力面，无自我介绍，针对你项目难题，一步一步深入去问，有些我没答出来，最后感觉在辩论，我感觉非常有压力，问的很犀利很细致三面：大概40分钟无技术，hr面，问为什么来深圳？影石文化？有别的of...

查看12道真题和解析

点赞评论收藏

09-13 10:12

点赞评论收藏

09-04 14:46

西安交通大学材料研发工程师

海康威视｜秋招第一挂

觉得自己的履历和公司要求特别对口然后本人985+qs50硕昨晚刚做完测评早上起来就被挂了难道是北森笔试挂了？？心碎因为真的是很对口的岗位

一个真正的_Man：学历太高了

投递海康威视等公司10个岗位

点赞评论收藏

09-16 11:21

北京大学算法工程师

字节offer到啦

给大家传递好运~

投递字节跳动等公司10个岗位

点赞评论收藏

全站热榜

华为秋招

热聊中

创作者周榜

正在热议