数据处理面试题与解析1

面试高频题1:

题目:处理噪声数据方法

答案解析:

1、分箱

分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。

分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

(1)统一权重

也称等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

(2)统一区间

也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。

(3)用户自定义区间

用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。

例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。

统一权重:设定权重(箱子深度)为4,分箱后

箱1:800 1000 1200 1500

箱2:1500 1800 2000 2300

箱3:2500 2800 3000 3500

箱4:4000 4500 4800 5000

统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后

箱1:800 1000 1200 1500 1500 1800

箱2:2000 2300 2500 2800 3000

箱3:3500 4000 4500

箱4:4800 5000

用户自定义:如将客户收入划分为1000元以下、、2000-3000、3000-000和4000元以上几组,分箱后

箱1:800

箱2:1000 1200 1500 1500 1800 2000

箱3:2300 2500 2800 3000

箱4:3500 4000

箱5:4500 4800 5000

(4)数据平滑方法

数据平滑方法又可以细分为:平均值平滑、按边界值平滑和按中值平滑。

按平均值平滑

对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。

按边界值平滑

用距离较小的边界值替代箱中每一数据。

按中值平滑

取箱子的中值,用来替代箱子中的所有数据。

2、聚类

将物理的或抽象对象的集合分组为由类似的对象组成的多个类。

找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。

3、回归

试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。

答案解析

这道题主要考察对噪声数据的处理,在建模过程中,前期数据的处理非常麻烦,所以对噪声数据的处理就更加重要了。常用的噪声处理有3种,为分箱,聚类,回归。

面试高频题2:

题目:常用pandas哪个包

答案解析:

pandas中主要有两种数据结构,分别是:Series和DataFrame。 Series:一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。 DataFrame:

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

2022年最新整理:数据分析师高频考点与解析,包含top11面试考点和177道高频面试题与解析

全部评论

相关推荐

不愿透露姓名的神秘牛友
03-10 14:27
已编辑
点赞 评论 收藏
分享
神哥不得了:神哥来啦~自我评价和校园经历的话可以直接删了,从大厂暑期的话应该没有什么太多问题,应该是能拿到很多大厂面试机会的,就是在面试的时候表示的好一点就行,可以在面试前先把高频top 50的八股多巩固几遍,千万不要看那些假高频八股,这两个项目的话问题不是很大,应该能够帮你找到大厂实习的,算法的话一定要刷起来,因为大厂有些还是比较看重算法的
点赞 评论 收藏
分享
双飞二本嵌入式求拷打我是在 BOSS 上投递的简历,好多都没人回复,这是开场白和简历求大神帮忙看看。您好!我是2025届应届生,最快可在一周内上岗,能够实习六个月以上,并接受加班。以下是我的核心优势和相关经验:1. 嵌入式开发能力:   熟练掌握STM32系列单片机及其外设(如GPIO、定时器、ADC、DAC、I2C、SPI、UART等),能够独立完成硬件驱动开发和调试。  熟悉FreeRTOS实时操作系统,具备多任务调度和资源管理经验。  熟悉LVGL图形库开发,能够实现嵌入式设备的图形界面设计。2. 硬件设计能力:   具备PCB设计经验,曾为2023年工创赛物流搬运赛道设计小车主板,带领团队获得国家级银奖。   熟悉硬件原理图分析,能够快速理解并调试硬件电路。3. 机器人开发与竞赛经验:   在全国大学生智能车竞赛、ROS机器人竞赛中多次获得国家级奖项,具备丰富的机器人开发经验。   熟悉Linux环境,对ROS和ROS 2有一定了解,能够进行机器人系统的开发与调试。4. 编程能力:   熟悉C/C++,熟悉Python,能够高效完成嵌入式开发和算法实现。   具备良好的代码规范和文档编写能力。5. 团队协作与领导能力:   在多个项目中担任核心开发或团队负责人,具备良好的沟通能力和团队协作精神。   在工创赛中带领团队完成项目规划、任务分配和技术攻关,展现了较强的领导力。我对嵌入式开发、机器人技术和智能硬件充满热情,期待加入贵公司,与团队共同成长,为公司创造价值!如果有合适的岗位,欢迎随时联系我,期待进一步沟通!
沉淀一会:嵌入式就是狗屎
点赞 评论 收藏
分享
评论
1
20
分享

创作者周榜

更多
牛客网
牛客企业服务