糖醋_诗酒

03-15 15:00 博世_车辆运动控制系统中国区_数据开发(实习员工)

发布于山西

关注

数据开发 - 中网联合 - 一面面经

面试流程：

自我介绍

哪个项目中有涉及到Python

测试脚本是已经放到工作流程中是么

具体讲解一下测试脚本的细节，主要测哪些功能

通过代码是可以看到元素id或者属性是吧

两条业务线是指项目型号是么

串行的判断，有接触过比较复杂的逻辑判断么，比如跳过部分模块

测试的代码是如何组织的呢

考虑设计的话，基类和子类如何考虑涉及呢

有一个大的测试集合，1000条左右用例（代码（函数）），可能不同场景下每次需要从中提取的数量不同（100或200），如何设计或配置，相当于流程管理

如果从技术角度考虑呢，具体场景是可能不同组，不同部分，不同职能的同事会进行提取，进行一个灵活的组合，同时还能对结果做下记录

不太可能会手动选，没有手动记录是吧，其实相当于一个比较灵活的配置方式

其实可以将这一千个测试用例，已经定义好了，代码是可以访问到的，可以使用配置文件，提前分组完成，放在服务器中完成托管，可以使用网页点击完成调用

关于版本，可能每天都有很多版本，如何快速回溯，找到当时某个版本相关的测试结果信息，有什么方法可以实现

git可以处理代码版本，那数据或者日志的版本呢

如何记录测试中的重要信息，可以用什么方法来存，存哪些重要的信息

Python中子类继承基类的初始化是如何写的

Hadoop集群是如何配置的，简单说下搭建流程，是在一台电脑中是吧

电商项目的数据量有多少条呢，项目背景是什么

Spark数据倾斜有了解或者遇到过么

SQL中有无读写性能的问题

where条件查询，AB两个表，A join B where 和 join （子查询 B where）对比一下

分区了解么

每天都会有新的数据增量，按照时间分区，筛选效率会提升

join on A.id = B.id 有什么需要注意的呢，id需要检查是否唯一

那么如果不是唯一的呢，比如A表出现两次，B表出现三次，那最后会有几条呢（六条，叉乘关系，所以需要保证唯一）

反问环节：

算法部门，处理数据流程的开发，第三方加工清洗，分版本，多版本数据，数据校验异常，主要使用Python

全部评论

推荐最新楼层

03-15 14:59

博世_车辆运动控制系统中国区_数据开发(实习员工)

数据开发 - 云汉芯城 - 面经（已OC）

面试流程：实习时间安排讲讲项目，数据分析后的策略输出有哪些后续的效果有哪些项目中有分析哪些指标出现的问题有哪些，异常数据后续的解决方案如何设计的FineBI使用过程中出现过什么问题可视化过程中有使用过直方图和柱状图么有些过正则表达式么如何匹配26个字母呢，关键字是什么<正则表达式>爬虫了解到什么程度什么样行为的用户，可以判断为爬虫用户常见的反爬机制反爬对应解决方案项目中有使用过哪些比较复杂的SQL查询专业课中最熟悉的，是哪两个校园经历简单讲讲Excel有使用过吗项目中的集群搭建简单讲一下反问环节：主要做数据治理的工作

查看16道真题和解析

点赞评论收藏

03-18 21:20

浙江财经大学数据分析师

求看谢谢大家

目前大三下 没什么课不考研考公 自主学习 正在学习hadoop集群基本使用  hive分区建表查询等  对于tableau BI的服务多端部署有必要学吗 准备学完去学学商业业务分析 还有什么是数据分析或者商业分析需要的吗 

点赞评论收藏

03-15 15:01

博世_车辆运动控制系统中国区_数据开发(实习员工)

数据开发 - 中网联合 - 二面面经

面试流程：自我介绍平时用的最多的语言是用的最顺手的编程语言是Python学了多久数据库比较熟悉是吧之后偏向什么方向发展，我们这边偏向Python讲一下MapReduce哈希表，背后是哪两种数据结构分布式有哪些了解Docker有使用过么反问环节如果正常入职的话，后续打算通过学习和提升的地方简单讲讲一般会如何管理自己的编程项目，按照文件结构自己讲讲一个项目中具体的组织安排

查看8道真题和解析

点赞评论收藏

03-24 16:55

门头沟学院 C++

飞轮数据科技一面

感觉没多大参考意义，问的很常规，从简历问。1 实习（之前面tx把项目说的乱七八糟痛定思痛后的改正还是很有效的，感觉这回说清楚了）2 项目（这个感觉一般，项目复习的比较表面，花的时间有点少，不过好在去年勤学三个月还是有点底子，不是很拉胯。但是真得好好再复习一下，复习点1leveldb和lsmkv的对比  2leveldb好在哪 3简历上写的优点的具体实现方式）3 tcp udp 这个被问过好多次了，经典4 事务特性5 linux命令6 脏读 幻读（问的几个都是常见八股，就记得这些）7 数组找波峰（遍历或者二分）

查看7道真题和解析

点赞评论收藏

03-20 20:25

已编辑

门头沟学院数据分析师

Spark数据倾斜问题总结与优化措施

在Spark分布式计算的世界里，数据倾斜是个让人头疼的老大难问题。简单来说，它指的是在并行处理任务时，数据分布不均衡，导致某些任务背负了过重的工作量，而其他任务却轻松得像在度假。这种失衡不仅拖慢了整体计算速度，还可能引发内存溢出甚至任务失败，严重影响Spark应用的性能和稳定性。一、数据倾斜是什么？它长啥样？在Spark的分布式环境中，数据倾斜（Data Skew）是个常见的“拦路虎”。它发生在数据分布不均时，某些分区或任务处理的数据量远超其他部分，导致负载失衡。想象一下，一个团队干活，大部分人几分钟就搞定任务，而一两个人却要加班到深夜——这就是数据倾斜的真实写照。典型表现数据倾斜的“症状”其...

大数据从入门到精通-最全...

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 投递几十家公司，到现在0offer，大家都一样吗 #

# 总结:offer选择，我是怎么选的 #

# 选了这个offer，你有没有后悔？ #

# 你最满意的offer薪资是哪家公司？ #

14173次浏览 115人参与

# 假如你的老板掉河里，你的工作能为他做什么 #

24375次浏览 358人参与