摩根士丹利数据分析工程师 社招面经
你认为数据科学家是一个艺术家还是科学家? 什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数? 给出一些在数据科学中“最佳实践的案例”。 什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征? 你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。 你觉得下一个20年最好的5个预测方法是? 你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误,或者是用作支撑作者的论点,而不是仅仅在罗列某个事物的信息?例如,对于每月官方定期在媒体公开发布的失业统计数据,你有什么感想?怎样可以让这些数据更加准确? 标号12345的5个球,一次取两个,和为3或者6的概率是多少?答案:0.3。不解释。 聚类分析法,k_means。 其他条件相同,置信水平越低,则置信区上下限差值越() A.越大B.越小C.为0 D不确定 应该是B吧。 已知每10万人中有1人得艾滋病。现在有一种检查,如果被测者患病则一定能查出来。如果被测者没病,有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率? SQL,两张表合并,主键是USER_ID,然后把深圳市、广州市,大于16岁的,发生在2013年12月的一项挑出来加起来。不会SQL的话就写思路。