数据分析面试准备 一天入门

为了准备一个面试所以开始记录一下自己的准备 预计使用时间4H, 从2023年6月25日23点34分开始(爱丁堡时间)

我也不知道为什么会收到面试邀约但是还是积极准备一下。

职位要求

业务视角,维护数据运营体系(业务流梳理,指标字典梳理,数据实现,迭代优化)

管理策略优化数据测算,客服资源分配,客损测算,服务成本测算。精细化策略。

业务规则检验。

指标定义,数据生产和提取,分析工具于方法,持续输出,日常指标体系改进。

项目标签

商业数据分析、大数据分析、数据分析、商业分析

加分项:客服体系相关。

从而推断是针对客服效率的优化提升。

使用软件/平台/语言

Power BI、SQL、Python、R

可能需要的能力

次日留存sql代码

次日留存(next-day retention)是一种用来衡量用户在首次使用后,次日是否再次使用的指标。以下是一个简单的SQL代码示例,用于计算次日留存:(经过提醒更正为DATE_ADD)

SELECT
  COUNT(DISTINCT user_id) AS retained_users
FROM
  user_activity
WHERE
  DATE(activity_date) = DATE_ADD(DATE(first_activity_date), INTERVAL 1 DAY);
 

在上述代码中,假设我们有一个名为 user_activity 的表,其中包含用户活动的信息,包括 user_id 用户ID和 activity_date 活动日期。另外,假设我们还有一个 first_activity_date 列,用于存储每个用户的首次活动日期。

该代码通过将 activity_datefirst_activity_date 进行比较,筛选出首次活动日期的前一天的活动,并使用 COUNT(DISTINCT user_id) 计算次日留存的用户数量。

请注意,上述代码仅是一个示例,具体的SQL代码可能会根据数据表结构和业务需求进行调整和优化。

窗口函数

窗口函数(Window functions)是一种在关系型数据库中执行计算的高级技术。它可以对查询结果集中的一组行进行分组,并为每个分组计算聚合值或分析值,而不影响查询结果集的行数。

窗口函数的语法通常如下所示:

SELECT column1, column2, ..., window_function() OVER (PARTITION BY columnX ORDER BY columnY)
FROM table_name;

在上述语法中,window_function() 是要应用的窗口函数,PARTITION BY 子句可用于将行分组为不同的分区,ORDER BY 子句用于指定在每个分区内进行排序的列。

窗口函数可以执行各种操作,如计算聚合函数(如SUM、AVG、COUNT),计算行数(如ROW_NUMBER、RANK、DENSE_RANK),计算移动平均值、累计求和等。以下是几个常见的窗口函数示例:

  1. ROW_NUMBER():为结果集中的每一行分配一个唯一的数字。示例:
SELECT column1, column2, ROW_NUMBER() OVER (ORDER BY column1) AS row_num
FROM table_name;

  1. SUM():计算每个分组内某一列的总和。示例:
SELECT column1, column2, SUM(column3) OVER (PARTITION BY column1) AS group_sum
FROM table_name;

  1. RANK():为每个分组内的行分配一个排名,相同值将获得相同的排名,下一个值将被跳过。示例:
SELECT column1, column2, RANK() OVER (PARTITION BY column1 ORDER BY column2) AS ranking
FROM table_name;

通过窗口函数,我们可以在查询结果中灵活地执行各种分析和计算操作,提供更丰富和灵活的数据处理能力。窗口函数在数据分析、报表生成、排名和分组等场景中非常有用。

利用窗口函数计算不同品类前十GMV

假设您有一个名为 orders 的表,其中包含订单信息,包括 category 品类和 gmv 销售额。您可以使用窗口函数来计算不同品类的前十大GMV。以下是一个示例的SQL代码:

SELECT category, gmv
FROM (
  SELECT category, gmv, 
    ROW_NUMBER() OVER (PARTITION BY category ORDER BY gmv DESC) AS row_num
  FROM orders
) AS ranked_orders
WHERE row_num <= 10;

在上述代码中,我们首先使用内部查询(subquery)来计算每个品类的GMV,并使用窗口函数 ROW_NUMBER() 对每个品类的GMV进行排名。PARTITION BY category 用于将行按照品类进行分组,ORDER BY gmv DESC 用于按照GMV降序排序。

然后,我们将内部查询结果作为子查询,并在外部查询中筛选出排名前十的行,使用 WHERE row_num <= 10 条件来限制结果集只包含前十大GMV的行。

这样,您将获得一个结果集,其中包含不同品类的前十大GMV的记录,每个记录包括 category 品类和 gmv 销售额。请根据实际表结构和数据进行相应的调整。

tableau和power bi知识点考察

Tableau和Power BI是两个常见的商业智能工具,用于数据可视化和分析。以下是Tableau和Power BI的一些常见知识点:

Tableau的常见知识点:

  1. 工作簿和工作表:Tableau的主要工作单元是工作簿(Workbook),其中包含一个或多个工作表(Worksheet)。
  2. 数据连接:Tableau可以连接多种数据源,包括数据库、Excel文件、文本文件等。
  3. 可视化构建:Tableau提供了丰富的可视化选项,如柱状图、折线图、散点图、地图等,可以通过拖拽字段到视图中来构建可视化。
  4. 过滤和筛选:可以使用过滤器来限制数据的展示范围,以及使用筛选器对数据进行条件筛选。
  5. 计算字段和表达式:Tableau支持创建计算字段,使用表达式进行数据计算和转换。
  6. 仪表盘和故事板:Tableau允许创建仪表盘(Dashboard)和故事板(Storyboard),用于将多个工作表组合起来,以便进行全面的数据分析和展示。

Power BI的常见知识点:

  1. 数据建模:Power BI使用数据模型来组织和关联数据,可以进行数据的清洗、转换和建立关系。
  2. 可视化构建:Power BI提供丰富的可视化选项,如柱状图、折线图、饼图、地图等,可以通过拖放字段到视图中来构建可视化。
  3. DAX表达式:Power BI使用DAX(Data Analysis Expressions)表达式语言进行计算和转换,可以创建计算字段和衍生指标。
  4. 动态筛选和交互:Power BI支持通过切片器(Slicers)和筛选器(Filters)实现动态数据筛选和交互。
  5. 发布和共享:Power BI允许将报表和仪表盘发布到Power BI服务中,并与他人共享和协作。
  6. 数据刷新和计划任务:可以设置数据源的刷新频率,并创建计划任务来自动刷新报表数据。

需要注意的是,Tableau和Power BI是不同的工具,尽管它们具有一些共同的概念和功能,但在具体使用和实现方面可能存在一些差异。熟悉这些常见知识点可以帮助您更好地使用Tableau和Power BI进行数据分析和可视化。

DAX公式

DAX(Data Analysis Expressions)是一种用于在Power BI、Power Pivot和Analysis Services等工具中进行数据分析和计算的表达式语言。以下是一些常见的DAX公式和函数:

  1. CALCULATE:用于在给定的筛选条件下计算指定表达式的结果。示例:CALCULATE(SUM(Sales[Amount]), Sales[Region] = "North")
  2. SUM:计算某个列的总和。示例:SUM(Sales[Amount])
  3. AVERAGE:计算某个列的平均值。示例:AVERAGE(Sales[Quantity])
  4. MAX:返回某个列的最大值。示例:MAX(Sales[Revenue])
  5. MIN:返回某个列的最小值。示例:MIN(Sales[Units])
  6. COUNT:计算某个列中非空值的个数。示例:COUNT(Sales[OrderID])
  7. DISTINCTCOUNT:计算某个列中不重复值的个数。示例:DISTINCTCOUNT(Sales[CustomerID])
  8. IF:根据指定条件返回不同的结果。示例:IF(Sales[Amount] > 1000, "High", "Low")
  9. FILTER:根据指定的条件筛选表或列中的数据。示例:FILTER(Sales, Sales[Region] = "West")
  10. RELATED:用于在关系模型中获取相关表中的值。示例:RELATED(DimCustomer[City])

这只是DAX语言中的一小部分常用函数和公式。DAX还包含许多其他函数,如DATE, YEAR, MONTH, CONCATENATE等,可根据具体需求使用。熟悉这些DAX公式可以帮助您在Power BI和其他支持DAX的工具中进行数据分析、计算和建模。

SQL字句的执行顺序

SQL语句的执行顺序如下:

  1. FROM:指定查询的数据来源(表、视图等)。
  2. JOIN:通过指定连接条件将多个表连接起来。
  3. WHERE:对数据进行筛选,根据指定的条件过滤出满足条件的行。
  4. GROUP BY:按照指定的列对数据进行分组。
  5. HAVING:对分组后的数据进行筛选,根据指定的条件过滤出满足条件的分组。
  6. SELECT:选择要查询的列,并进行数据的计算、转换等操作。
  7. DISTINCT:对查询结果去重。
  8. ORDER BY:对查询结果进行排序。
  9. LIMIT/OFFSET(或TOP):限制查询结果的行数,获取指定数量的行或跳过指定数量的行。
  10. UNION/INTERSECT/EXCEPT:对多个查询结果进行合并、交集或差集操作。
  11. INSERT/UPDATE/DELETE:对数据进行插入、更新或删除。
  12. COMMIT/ROLLBACK:提交或回滚对数据的修改。
  13. SELECT(嵌套查询):执行嵌套的SELECT语句,嵌套查询可以作为子查询来获取更复杂的数据。

需要注意的是,这只是一般情况下的执行顺序,实际执行顺序可能会根据具体的数据库管理系统(DBMS)或查询优化器的实现而有所不同。此外,使用括号和子查询等语法结构可以改变SQL语句的执行顺序,使其按照特定的逻辑执行。

哪些函数可以代替vlookup

在SQL中,可以使用以下几个函数来代替Excel中的VLOOKUP函数:

  1. JOIN:使用JOIN操作可以根据共享的键值将两个或多个表连接在一起。它类似于VLOOKUP的功能,通过在一个表中查找匹配的键值,并将相关的列合并到查询结果中。示例:
  2. subquery(子查询):可以使用子查询在一个查询中嵌套另一个查询,类似于VLOOKUP中嵌套函数的用法。可以将内部查询的结果作为外部查询的一部分来获取所需的数据。示例:
  3. EXISTS和IN:EXISTS和IN操作符可以用于判断某个值是否存在于另一个查询的结果中,类似于VLOOKUP中的逻辑判断。可以根据返回结果的存在与否,来选择需要的数据。示例:

这些函数和操作符在SQL中提供了类似于VLOOKUP的功能,用于在不同的表之间查找和关联数据。根据具体的需求和数据结构,选择合适的函数来替代VLOOKUP函数。

前期需求沟通

前期需求沟通是项目成功的关键步骤之一,以下是一些建议的做法:

  1. 确定沟通目的:在开始前期需求沟通之前,明确沟通的目的和目标。了解项目的背景和范围,并明确要收集的需求信息。
  2. 定义角色和责任:确定参与沟通的相关角色和责任,包括项目经理、业务代表、开发人员等。明确每个角色的职责和期望的贡献。
  3. 选择合适的沟通方式:根据团队的地理位置和可行性,选择合适的沟通方式,如面对面会议、视频会议、电话会议、电子邮件等。确保沟通方式能够有效传递信息并促进参与者的互动。
  4. 制定议程和提前准备:在沟通会议之前,制定详细的议程,并提前准备相关材料和问题,以确保会议的高效性和重点的覆盖。
  5. 倾听和理解:确保在沟通过程中充分倾听参与者的意见和需求,并努力理解他们的需求和期望。积极提问、澄清疑问,并与他们建立良好的沟通和合作关系。
  6. 文档化和确认:将沟通内容和收集的需求明确记录下来,以便后续参考和确认。确保沟通结果的准确性和一致性,并与参与者进行确认,以避免后续的误解或纠纷。
  7. 持续沟通和反馈:前期需求沟通是一个迭代的过程,需要与相关参与者进行持续的沟通和反馈。定期更新项目进展,并及时解决和调整可能出现的问题和需求变更。
  8. 关注关键细节:在需求沟通过程中,特别关注关键的业务需求、功能要求和性能要求等,确保在项目实施过程中得到妥善处理。
  9. 管理期望:在需求沟通过程中,确保与相关参与者进行适当的期望管理,明确项目的限制和可行性,以避免误解和不切实际的期望。
  10. 寻求专业帮助:如果需要,寻求专业的需求分析师或项目管理人员的帮助,以确保前期需求沟通的质量和效果。

通过合理规划和执行前期需求沟通,可以有效地收集和理解项目需求,为后续的项目规划和实施奠定

坚实基础。

确定AB测试方案

确定AB测试方案时,可以按照以下步骤进行:

  1. 目标设定:明确AB测试的目标。确定要测试的指标或结果,例如用户转化率、点击率、销售额等。确保目标具体、可衡量和与业务目标一致。
  2. 变量定义:确定要测试的变量,即要比较的两个或多个版本。例如,可以测试不同的网页设计、产品功能、营销策略等。
  3. 样本规模计算:根据预期效应大小、显著性水平、统计功效和实验设计,计算所需的样本规模。确保样本规模足够大,能够产生可靠的结果。
  4. 实验设计:设计实验的具体方式和流程。确定如何随机分配用户或样本到不同的版本,以控制其他干扰因素的影响。例如,可以采用随机化分组、时间段随机化等方法。
  5. 测试时间安排:确定测试的时间范围和周期。考虑到业务周期性和季节性变化,以及测试期间的稳定性和可比性。
  6. 数据收集和分析:设置数据收集机制,确保准确、完整地收集实验数据。根据预先设定的指标,进行数据分析和统计检验,评估不同版本之间的差异和显著性。
  7. 结果解读和决策:根据实验结果进行解读和分析,判断哪个版本表现更好或更有效。基于数据和统计分析,做出决策是否采用新版本或变化。
  8. 反馈和迭代:将AB测试的结果和洞察反馈给相关团队或决策者,分享实验经验和教训。根据测试结果和反馈,进行改进和迭代,优化产品或策略。

在确定AB测试方案时,需要充分考虑统计学的原理和方法,保证实验的可靠性和有效性。同时,也要关注实验的可行性、成本和风险,确保测试方案能够在实践中顺利执行。

埋点设计和埋点验收

埋点设计是指在产品或应用程序中定义和安排埋点(代码跟踪点)的过程,以收集用户行为和数据。埋点验收是确保埋点的正确性和有效性的过程。以下是关于埋点设计和埋点验收的一般步骤:

埋点设计:

  1. 确定目标和需求:明确需要收集哪些数据和指标,与相关团队和利益相关者合作确定埋点的目标和需求。
  2. 列出关键事件:识别产品或应用程序中的关键事件,例如用户注册、登录、浏览商品、添加到购物车等。这些事件通常与业务目标和用户行为相关。
  3. 确定埋点类型:根据需求和数据采集方式,确定埋点的类型。常见的埋点类型包括页面访问、按钮点击、表单提交、时间戳等。
  4. 选择埋点工具:选择适合的数据埋点工具或平台,例如Google Analytics、Mixpanel、Amplitude等。确保选择的工具能够满足数据收集和分析的需求。
  5. 定义埋点规范:制定埋点规范,包括事件名称、参数、标识符等。确保埋点规范的一致性和易于理解。
  6. 实施埋点代码:根据埋点规范,在产品或应用程序的相关页面或功能中插入埋点代码。确保代码的正确性和合适的位置。

埋点验收:

  1. 埋点测试计划:制定埋点测试计划,明确测试的范围、目标和方法。包括功能测试、数据验证和一致性检查等。
  2. 功能测试:验证埋点代码的功能是否符合预期,例如按钮点击、页面跳转等。确保埋点触发的行为和数据采集的正确性。
  3. 数据验证:验证采集到的数据是否准确、完整且符合预期。对比采集到的数据和预期的结果,确保数据的一致性和准确性。
  4. 跨平台和跨设备测试:如果需要在多个平台或设备上收集数据,进行跨平台和跨设备测试,确保埋点的兼容性和正确性。
  5. 数据分析和报告:对采集到的数据进行分析,生成报告,评估埋点的效果和可用性。与利益相关者共享结果和洞察。
  6. 迭代和改进:根据埋点验收的结果和反馈,进行必要的迭代和改进。修复错误、调整埋点规范或代码,以提高数据质量和可用性。

埋点设计和埋点验收是一个持续的过

程,需要与相关团队密切合作,并根据实际情况进行调整和改进。确保埋点的正确性和有效性对于准确分析用户行为和做出正确的业务决策至关重要。

制作数据分析模型(RFM、漏斗)

制作数据分析模型(如RFM和漏斗模型)通常涉及以下步骤:

  1. 数据收集:收集所需的数据源,包括用户行为数据、交易数据、访问日志等。确保数据的准确性、完整性和一致性。
  2. 数据清洗和整理:对收集到的数据进行清洗和整理,去除重复数据、处理缺失值和异常值,并进行数据格式转换和标准化。确保数据的质量和一致性。
  3. 定义指标和维度:根据模型的要求和目标,确定需要使用的指标和维度。例如,RFM模型需要定义用户的最近一次购买时间、购买频率和购买金额等指标。
  4. 数据计算和衍生变量:根据定义的指标和维度,计算所需的衍生变量。例如,计算用户的RFM得分、漏斗的转化率等。
  5. 模型设计和建立:根据所选的模型方法,设计和建立数据分析模型。例如,对于RFM模型,可以使用聚类分析或分位数分析等方法进行用户分群。
  6. 模型评估和验证:对建立的模型进行评估和验证,检查模型的准确性和有效性。使用历史数据进行模型测试,并与实际结果进行比较和验证。
  7. 结果解释和洞察:根据模型的结果,进行解释和洞察。理解不同用户群体的特征和行为,识别潜在的机会和问题。
  8. 可视化和报告:使用数据可视化工具(如Tableau、Power BI)创建可视化图表和报告,将模型的结果和洞察呈现给相关利益相关者。确保报告清晰、简洁,并突出关键信息。
  9. 持续监测和优化:对模型的结果进行持续监测,并根据实际情况进行优化和调整。反馈新数据,并更新模型以提高预测和分析的准确性。

在制作数据分析模型时,需要结合业务需求和数据特点进行灵活的方法选择和模型设计。同时,数据隐私和合规性也需要被充分考虑,确保数据的安全和合法使用。

可视化报告(根据业务制作指标体系并实现功能)

制作可视化报告并实现功能需要经过以下步骤:

  1. 确定业务需求:与相关利益相关者(如业务部门、管理层)沟通,了解业务需求和关键指标。确定报告的目标、受众和内容范围。
  2. 定义指标体系:根据业务需求和目标,设计和定义适合的指标体系。确定需要展示的关键指标,并考虑指标之间的关联和层级关系。
  3. 数据收集和整理:收集所需的数据源,并进行数据清洗、转换和整理。确保数据的准确性、完整性和一致性。
  4. 选择可视化工具:根据报告的需求和数据类型,选择适合的可视化工具。常见的可视化工具包括Tableau、Power BI、Excel等。
  5. 设计报告结构:确定报告的整体结构和布局。考虑报告的章节、导航、标题、副标题等元素,并保持逻辑和清晰的信息层次结构。
  6. 选择合适的图表类型:根据不同的指标和数据类型,选择合适的图表类型进行可视化展示。例如,折线图、柱状图、饼图、热力图等。
  7. 添加交互和功能:利用可视化工具提供的交互功能,为报告添加筛选、下钻、联动等功能。使用户能够根据需要进行数据探索和分析。
  8. 美化和样式设计:注意报告的美观性和易读性。选择合适的颜色、字体、图标等元素,使报告具有吸引力和专业感。
  9. 测试和验证:对报告进行测试和验证,确保数据的准确性和报告的功能正常运行。验证指标计算的准确性和图表的正确性。
  10. 定期更新和优化:根据业务需求和反馈,定期更新报告内容和指标体系。优化报告的可用性和用户体验。

在制作可视化报告时,与相关利益相关者进行沟通和反馈非常重要。理解他们的需求和偏好,根据不同用户角色设计相应的报告视图和功能。同时,确保报告的易读性和可理解性,避免信息过载和混乱。

归因分析、拆解业务模型、专题分析

  1. 归因分析(Attribution Analysis):归因分析是一种数据分析方法,用于确定不同因素对特定结果或指标的影响程度。在市场营销和广告领域广泛应用,特别是在数字营销中。归因分析旨在识别和量化不同的渠道、广告系列、营销活动或用户行为对业务结果的贡献。它帮助营销人员了解哪些因素对业绩产生积极影响,从而优化资源分配和决策制定。
  2. 拆解业务模型(Decomposition of Business Model):拆解业务模型是一种分析方法,用于理解和分解一个业务模型的各个组成部分,并评估它们对整体业务绩效的影响。通过拆解业务模型,可以识别出业务模型的关键要素,例如产品或服务、渠道、目标市场、成本结构等,并分析它们之间的关系和相互作用。这种分析有助于发现业务模型中的瓶颈和机会,并指导战略规划和业务改进。
  3. 专题分析(Ad-hoc Analysis):专题分析是针对特定问题或主题进行的一次性数据分析。它通常用于回答特定的业务问题、验证假设或探索数据的隐藏模式和洞察。专题分析的目标是深入了解特定问题,并提供数据支持的结论和见解。它可能涉及不同的数据源和分析技术,以及使用适当的工具和方法来回答具体的研究问题。专题分析可以帮助业务团队做出基于数据的决策,并为未来的战略规划提供有价值的信息。

这些分析方法在数据驱动的决策和业务优化中扮演重要角色。归因分析帮助确定营销和广告活动的有效性,拆解业务模型帮助理解业务运作的关键因素,而专题分析则可以深入研究特定问题和主题。这些分析方法的应用有助于组织更好地理解数据,制定更明智的决策,并优化业务绩效。

基础知识

GMV

GMV(Gross Merchandise Volume)是指电商平台或在线交易平台上商品的总交易额,即所有成交订单中商品的销售总额,不包括退款、折扣和其他费用。

GMV通常是用来衡量电商平台或在线交易平台的规模和业绩的重要指标。它可以反映平台上商品交易的活跃程度和规模大小。较高的GMV通常意味着平台上有更多的交易活动和更多的商品销售。

GMV的计算通常包括以下几个方面:

  1. 商品销售额:计算所有成交订单中商品的销售总额。这包括所有实际支付的订单金额,不考虑退款和取消订单。
  2. 商品售价:考虑商品的实际售价,不包括任何折扣、促销或优惠券的金额。
  3. 配送费用:如果平台收取配送费用,通常会将配送费用计入GMV中。

需要注意的是,GMV是一个交易额度的指标,与实际利润或净收入无直接关系。平台的净收入往往需要考虑退款、折扣、促销、手续费、广告费用等因素。

GMV在电商行业中被广泛使用,它可以作为评估电商平台业绩和规模的重要指标。同时,GMV也需要结合其他指标和数据进行综合分析,以全面评估平台的运营状况和商业价值。

参考

已经查看

https://www.nowcoder.com/discuss/411466953976553472?sourceSSR=search

https://www.nowcoder.com/discuss/481930405944246272?sourceSSR=search

https://www.nowcoder.com/discuss/353159102455029760?sourceSSR=search

https://www.nowcoder.com/feed/main/detail/7c67320b773e4b24b3700ef5b0175c37?sourceSSR=search

需要查看

强烈推荐 https://www.nowcoder.com/discuss/493129836429430784?sourceSSR=post

PowerBI(后三个自己搜)

  1. 第一个当然是官网 https://docs.microsoft.com/zh-cn/power-bi/
  2. 采悟的-PowerBI教程
  3. 夕枫的-DAX
  4. PowerBI极客的-DAX圣经

Tableau使用

https://help.tableau.com/current/guides/get-started-tutorial/zh-cn/get-started-tutorial-connect.htm

准备问题:

  1. 不知道呢
  2. 完全不会呢

#面试准备##数据人的面试交流地#
全部评论
《不知道呢》《完全不会呢》 是我本人没错了 呜呜呜呜呜
8 回复 分享
发布于 2023-06-26 21:03 上海
绝大多数回答来自ChatGPT 3.5版本
3 回复 分享
发布于 2023-06-26 17:38 英国
请问一下这属于运维岗还是数据岗呀
点赞 回复 分享
发布于 2023-06-26 15:33 山东
次日留存应该是DATE(activity_date) = DATE_add(DATE(first_activity_date), INTERVAL 1 DAY)吧
点赞 回复 分享
发布于 2023-06-27 09:55 福建
我也完全不会。。。
点赞 回复 分享
发布于 2023-06-28 14:21 香港
谢谢uu哈哈哈哈!
点赞 回复 分享
发布于 2023-06-28 20:39 北京
佬面的什么公司啊,有后续了吗?
点赞 回复 分享
发布于 2023-07-27 16:36 山东

相关推荐

有工作后先养猫:太好了,是超时空战警,我们有救了😋
点赞 评论 收藏
分享
评论
59
357
分享
牛客网
牛客企业服务