数据开发 - 中网联合 - 一面面经
面试流程:
自我介绍
哪个项目中有涉及到Python
测试脚本是已经放到工作流程中是么
具体讲解一下测试脚本的细节,主要测哪些功能
通过代码是可以看到元素id或者属性是吧
两条业务线是指项目型号是么
串行的判断,有接触过比较复杂的逻辑判断么,比如跳过部分模块
测试的代码是如何组织的呢
考虑设计的话,基类和子类如何考虑涉及呢
有一个大的测试集合,1000条左右用例(代码(函数)),可能不同场景下每次需要从中提取的数量不同(100或200),如何设计或配置,相当于流程管理
如果从技术角度考虑呢,具体场景是可能不同组,不同部分,不同职能的同事会进行提取,进行一个灵活的组合,同时还能对结果做下记录
不太可能会手动选,没有手动记录是吧,其实相当于一个比较灵活的配置方式
其实可以将这一千个测试用例,已经定义好了,代码是可以访问到的,可以使用配置文件,提前分组完成,放在服务器中完成托管,可以使用网页点击完成调用
关于版本,可能每天都有很多版本,如何快速回溯,找到当时某个版本相关的测试结果信息,有什么方法可以实现
git可以处理代码版本,那数据或者日志的版本呢
如何记录测试中的重要信息,可以用什么方法来存,存哪些重要的信息
Python中子类继承基类的初始化是如何写的
Hadoop集群是如何配置的,简单说下搭建流程,是在一台电脑中是吧
电商项目的数据量有多少条呢,项目背景是什么
Spark数据倾斜有了解或者遇到过么
SQL中有无读写性能的问题
where条件查询,AB两个表,A join B where 和 join (子查询 B where)对比一下
分区了解么
每天都会有新的数据增量,按照时间分区,筛选效率会提升
join on A.id = B.id 有什么需要注意的呢,id需要检查是否唯一
那么如果不是唯一的呢,比如A表出现两次,B表出现三次,那最后会有几条呢(六条,叉乘关系,所以需要保证唯一)
反问环节:
算法部门,处理数据流程的开发,第三方加工清洗,分版本,多版本数据,数据校验异常,主要使用Python