春招实习笔试总结

1.数据归一化的原因,方法等
2.数据训练精度很高,但是预测结果却出现很多错误的结果。(过拟合)
3.中位数和平均数相等的分布(补充概率论)
4.余弦距离与欧式距离:欧氏距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。

总体来说,欧氏距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。

1)例如,统计两部剧的用户观看行为,用户A的观看向量为(0,1),用户B为(1,0);此时二者的余弦距很大,而欧氏距离很小;我们分析两个用户对于不同视频的偏好,更关注相对差异,显然应当使用余弦距离。

2)而当我们分析用户活跃度,以登陆次数(单位:次)和平均观看时长(单:分钟)作为特征时,余弦距离会认为(1,10)、(10,100)两个用户距离很近;但显然这两个用户活跃度是有着极大差异的,此时我们更关注数值绝对差异,应当使用欧氏距离。
5.t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。(概率论)
6.各种分布(正态、指数是重点)
7.我们在做假设检验的时候会犯两种错误:第一,原假设是正确的,而你判断它为错误的;第二,原假设是错误的,而你判断它为正确的。我们分别称这两种错误为第一类错误和第二类错误。第一类错误:原假设是正确的,却拒绝了原假设。第二类:原假设是错误的,却没有拒绝原假设。
8.PCA分析
9.数据清洗包含什么与数据转换等的区分。还有数据清理处理包含什么。特征工程方面。
10. KNN方面:对于N个样本,每个样本为D维向量,采用欧式距离使用KNN做类预测。
1).给出预测时间复杂度。
2).当N很大时,有哪些方法可以降低复杂度?
3).k取值的大小对预测方差和偏差有何影响?
10.VAR分析的计算方法。

#春招笔经##实习##春招##笔经#
全部评论

相关推荐

黑皮白袜臭脚体育生:简历统一按使用了什么技术实现了什么功能解决了什么问题或提升了什么性能指标来写会更好另外宣传下自己的开源仿b站微服务项目,GitHub已经410star,牛客上有完整文档教程,如果觉得有帮助的话可以点个小星星,蟹蟹
点赞 评论 收藏
分享
02-18 21:55
门头沟学院 Java
点赞 评论 收藏
分享
评论
1
5
分享

创作者周榜

更多
牛客网
牛客企业服务