弓早早

2023-08-24 11:27 山西大学数据分析师

关注

数据分析基础问题总结——SQL(1)

1.sql如何解决数据倾斜问题？

在SQL数据库中，数据倾斜问题通常是指在查询操作中某些数据分布不均衡，导致一些查询或操作的性能下降。以下是一些解决SQL数据库中数据倾斜问题的常见方法：

①索引优化：确保表中经常被查询的列上有合适的索引，这可以加速查询操作并减轻数据倾斜的影响。

②分区表：如果数据库支持分区表，可以将表数据按照某个列的值（比如时间戳）进行分区，使得数据在物理存储上更均匀分布。

③优化查询语句：避免使用过于复杂的连接操作或聚合操作，以减少数据倾斜的可能性，尽量避免全表扫描，以提高查询效率。

④使用临时表：对于某些复杂查询，可以将查询结果存储在临时表中，然后再进行进一步的操作，这有助于平衡计算负载并减少数据倾斜的影响。

⑤使用样本查询：在某些情况下，可以使用随机样本查询来获取近似的查询结果，以减轻数据倾斜带来的影响。

⑥数据缓存：使用数据库的查询缓存功能，将经常被查询的数据缓存起来，以减少对倾斜数据的重复查询。

2.SQL中，where 和 having 的区别有哪些？

在SQL中，where 和 having 是两个用于筛选数据的关键字，但它们的适用场景和功能略有不同。其主要区别如下：

①应用对象不同：where 用于在执行查询（即数据被检索出来）之前对数据进行过滤，作用于表的行级别；而 having 用于在执行聚合函数（即sum(),count(),avg()等）后过滤结果，作用于查询的结果集。

②聚合函数：不能直接在 where 子句中使用聚合函数，可以在 having 子句中使用聚合函数。

③查询语句：where 用于普通的 select 查询，而having只能用于group by查询。

3.SQL中，union 和 join 的区别有哪些？

union 和 join 是在SQL查询中用于不同目的的两个不同的操作。

①union：用于将两个或多个具有相同列结构的结果集合并成一个单一的结果集。结果集中不会有重复的行，即使在不同的输入结果集中有相同的行也会被合并成一个。举例：

SELECT COLUMN1,COLUMN2 FROM TABLEAUNIONSELECT COLUMN1,COLUMN2 FROM TABLEB

②join：用于在多个表之间基于某些列的关联将数据组合在一起。通过指定连接条件，可以从多个表中选择相关的数据行，将它们组合成一个更大的结果集。根据连接条件，有不同类型的 join ,包括 inner join , left join , right join , full outer join 等等。距离：

SELECT COLUMN1,COLUMN2 FROM TABLEAINNER JOIN TABLEB ON TABLEA.COLUMN = TABLEB.COLUMN

其主要区别在于：union 用于合并多个结果集，确保结果集中没有重复行。join 用于将多个表中的数据联合在一起，根据指定的连接条件筛选关联的数据行。

4.SQL语句的执行顺序是怎样的？

SQL查询的执行顺序通常可以按以下步骤理解：

①FROM子句：从指定的表中获取数据。

②JOIN子句：如果在查询中使用了JOIN操作，根据连接条件将不同的表组合在一起。

③WHERE子句：过滤符合条件的行。

④GROUP BY 子句：如果使用了GROUP BY，那么根据指定的列对结果进行分组。

⑤HAVING子句：过滤符合条件的分组。

⑥SELECT子句：选择要返回的列，可以进行聚合操作（如SUM,COUNT等）。

⑦DISTINCT关键字：移除结果集中的重复行。

⑧ORDER BY子句：对结果集按照指定列进行排序。

⑨LIMIT/OFFSET子句：只返回指定数量的行。

5.SQL如何实现去重操作？

SQL去重方法如下：

①DISTICT关键字：在SELECT语句中使用，可以删除所有重复行，只保留不同值。

②GROUP BY子句：通常与聚合函数一起使用，它将查询结果按指定列分组，并对每个分组进行聚合计算。如果只需要列出不同的值，可用GROUP BY子句并省略聚合函数，这样会自动去重。

③使用子查询：在SELECT语句中嵌套一个子查询，可以选择唯一的值。

④UNION操作符：合并两个或多个查询的结果集，并自动去除重复行。

以上去重方法都可能会影响查询性能，需要谨慎使用。

6.SQL中，count(*) , count(字段) , count(distinct 字段)的区别是什么？

在SQL中，count 函数用于计算满足指定条件的行数。可以以不同的方式使用，具体区别如下：

①count(*)计算所有行的数量，无论列中的值是什么。

②count(字段)计算指定列非空值的数量，不包括NULL值。

③count(dinstinct 字段)计算指定列中不同非空值的数量，排除重复的值。

7.SQL中如何将'yyyy-MM-dd'的日期格式转换为'yyyyMMdd'形式？

在SQL中，可以用CAST或CONVERT函数将日期格式做转换。

举个在具体数据库中使用的示例：

# MySQL:
select cast(date_column as char(8)) from your_table;
# Oracle:
select to_char(date_column,'yyyyMMdd') from your_table;
# SQL Server:
select convert(varchar(8),date_column,112) from your_table;
# PostgreSQL:
select to_char(date_column,'yyyyMMdd') from your_table;

8.sql中如何求出两个'yyyyMMdd'格式的日期差多少天？

在SQL中，可以使用DATEDIFF函数计算两个日期之间的天数差异。举例：

select datediff(day,convert(date,'20220824',112),convert(date,'20230824',112)) from your_table;

9.sql中如何将时间戳转换为'yyyy-MM-dd'日期格式？

这个操作通常涉及到使用日期函数来格式化时间戳。以下是常见的示例：

# MySQL:
select date_format(timestamp_column,'%Y-%m-%d') from your_table

10.sql中，if 和 case when 的区别是什么？

if 和 case when 都是在SQL查询中用于条件判断和分支逻辑的语句，但它们在语法和用法上有一些区别。

①语法不同：

if语句是基于函数的条件判断语句。语法如下：

if(condition,vaule_if_true,value_if_false)

case when是基于表达式的条件判断语句。语法如下：

case when condition1 then result1 when condition2 then result2 ... else result end

②if语句只能根据条件返回单个值，不能用于控制程序流程；而case when可以根据多个条件执行不同的代码块，可用于控制程序流程。

③case when支持嵌套使用，可以实现更复杂的条件判断逻辑；而if函数只能处理简单的条件判断。

全部评论

推荐最新楼层

牛客419803085号

广东机电职业技术学院数据分析师

实习会问得深嘛

点赞回复分享

发布于 2023-09-03 01:36 广东

昨天 09:46

武汉大学 C++

记录"处女面"｜云尖信息嵌入式

一面-15min前期简单和HR沟通过了，HR大概意思就是你的期望薪资有点高。如果低于这个薪资你会不会来，我的回答是肯定的。后来HR又介绍了公司的业务情况等，定了大概的时间在某个晚上的九点以后。二面-35min面试官看起来年纪稍长了，估计在40左右。这个面试流程并不像其他公司，一上来也没有简单自我介绍什么。面试官全程都让我在上帝视角总结归纳。当初为什么来北京？平时你工作主要负责那些内容？写过那些驱动呢？这里我回答的是，平时完整写一个驱动的机会比较少，主要还是解决问题为导向。你平时是怎么解决问题的？你觉得解决问题最重要的是什么？有用过那些工具？这里我的回答是以人为导向的。分析问题的能力：穷举各种可...

查看8道真题和解析

点赞评论收藏

昨天 21:10

暨南大学嵌入式软件开发

211，找嵌软方向实习，友友们帮忙看看简历有哪些问题

简历求拷打，前面几版简历在boss上投了后基本没有回应，都快六月，找不到实习。

听劝，我这个简历该怎么改...

点赞评论收藏

04-15 13:42

四川大学 Java

菜鸟想找实习，这个简历能找到吗😅

蹲蹲offerrr：快投吧，有点晚现在

点赞评论收藏

03-31 00:39

腾讯_WXG_后台开发(实习员工)

我的暑期结束了，0offer

牛客20485985...：抱抱😘，首先你还有春招，然后就算这时候没上岸也没关系，大部分人都是这样，毕业了再找也成，最后工作只是生活的一小部分，找到工作也不是一个必须的事情。不要气馁不要焦虑

你只是陷入了短暂的低谷，你也一直有退路

点赞评论收藏

05-07 21:42

北京理工大学 Java

美团后端暑期二面

虽然嘴上说着不想再面了，但是今晚身体还是诚实地准时点开了面邀链接。部门是核心本地商业，偏向酒旅下面的景点。本来准备了一个工作流项目和一个优惠券秒杀项目，结果全程都是ai和ai coding相关，完全没问第二个项目，也没有手撕，供大家参考。这两个项目都不是实验室的课题吧？都是你在GitHub或其他平台上自己学习实践的项目，然后做了相应的改造，对吗？看一下你这个工作流编排平台，它产生的背景或要解决的问题是什么？我能不能理解为它类似Coze、Dify这类工作流编排产品？你提到和它们有所区分，具体做了哪些改进或不同之处？你说这是自研层面的东西，整体设计思路是怎样的？其中稳定性能力建设这部分，有没有参考...

点赞评论收藏

全站热榜

创作者周榜

正在热议

# AI让海力士市值突破9000亿美元 #

7958次浏览 77人参与

# 总结:offer选择，我是怎么选的 #

# 毕业季，你想好怎么跟生活对线了吗？ #

299384次浏览 3894人参与

# 百度工作体验 #

338058次浏览 2299人参与