2016腾讯基础研究最后三道主观题 求大神解答
1、在进行特征选择时,即分析那些协变量对目标变量有较大的影响时,有哪些常用的方法?你本人更看好其中的哪些?为什么?
2、网络上流传一个故事,关于数据挖掘的神奇性:某商场向一位经常在该商场消费的未婚少女邮寄了一些用于保胎的商品目录和折扣券,惹得其父亲大为光火,但事后证实该少女确实怀孕了。请向你的没有理工科北京的朋友解释一下,这是如何做到的。
3、腾讯QQ空间相册里提供了面孔墙换一换功能,用户可以对聚类好的人脸进行圈人标注,系统会根据用户历史标注记录,分析每一张照片可能的身份,然后展示给用户进行确认和否认。由于展示空间有限,每次只能从聚类人脸中抽取5张进行展示。假设可以利用的信息是每个人脸对之间的相似度矩阵G,并且第k+1次抽样过程并不知道第k次抽样出的样本,假定上述抽样过程中,可用的聚类人脸数量N始终大于50张,作为研究人员,
(1)如何设计抽样算法,使得相邻两次的抽样碰撞率尽可能低?
(2)如果抽样完成后,抽样出的5张人脸将从聚类人脸中删除,如何设计抽样算法,使得相邻两次间的抽样碰撞率都尽可能的低?