首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
牛客图书馆
>
读书笔记
开通博客写笔记
读书笔记
全部
第1章
Hive学习之路 (十七)Hive分析窗口函数(五) GROUPING SETS、CUBE和ROLLUP
数据准备数据格式复制代码2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03,2015-03-12,cookie72015-04,2015-04-12,cookie32015-04,2015-0...
牛客大数据入门菜鸡
编辑于 2020-11-11 17:18:13
Hive学习之路 (十八)Hive的Shell操作
一、Hive的命令行1、Hive支持的一些命令Command Description quit Use quit or exit to leave the interactive shell. set key=value Use this to set val...
牛客大数据入门菜鸡
编辑于 2020-11-11 17:20:40
Spark学习之路 (一)Spark初识
一、官网介绍1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州...
牛客大数据入门菜鸡
编辑于 2020-11-26 19:52:26
Hive学习之路 (二十)Hive 执行过程实例分析
一、Hive 执行过程概述1、概述(1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 ...
牛客大数据入门菜鸡
编辑于 2020-11-11 17:24:46
Hive学习之路 (二十一)Hive 优化策略
一、Hadoop 框架计算特性1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、s...
牛客大数据入门菜鸡
编辑于 2020-11-11 17:26:55
题解 | #寻找第K大#
# -*- coding:utf-8 -*- class Solution: def findKth(self, a, n, K): # write code here a.sort(reverse=...
嘴角那一抹微笑amh
编辑于 2021-10-17 22:24:18
Spark学习之路 (二)Spark2.3 HA集群的分布式安装
一、下载Spark安装包1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载https://mirro...
牛客大数据入门菜鸡
编辑于 2020-11-26 20:15:20
Spark学习之路 (三)Spark之RDD
一、RDD的概述1.1 什么是RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知...
牛客大数据入门菜鸡
编辑于 2020-11-26 20:25:42
Flink 源码阅读笔记(16)- Flink SQL 的元数据管理
为了使用 SQL,一个首先需要解决的是元数据管理的问题。元数据的管理包括表的元数据和 UDF 的元数据,这使得完全使用 SQL 语句来构建实时任务成为可能。 Catalog 和 CatalogManager 在 1.9 版本发布之前,Flink S...
牛客大数据入门菜鸡
编辑于 2020-12-18 13:52:03
Spark学习之路 (四)Spark的广播变量和累加器
一、概述在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常...
牛客大数据入门菜鸡
编辑于 2020-11-26 20:30:54
首页
上一页
1
2
3
4
5
6
7
8
下一页
末页
热门图书
隐藏的现实
太空漫游
计算机科学概论(第11版)
Generative Design
计算机代数系统的数学原理
现代操作系统(第3版)
查看全部