首页 / 数据分析工程师
#

数据分析工程师

#
259828次浏览 1846人互动
此刻你想和大家分享什么
热门 最新
2020-06-03 13:34
已编辑
Northeastern University 数据分析师
字节数据分析面经分享
我面的是数据部门的数据分析岗,走的是校招海投,base北京,没有经过笔试。因为当时在美国投递的岗位,所以所有的面试都是通过视频面试完成,由HR直接加我微信,约面试时间。总的来说字节跳动的面试审核效率很高,一般来说如果通过的话,每轮面试间隔不会超过两个星期,正常都是一个星期左右。面试一共四轮,三轮技术面,一轮HR面。 第一部分先来说下我面试的题目 一面(4.2) 首先自我介绍,介绍完之后开始深挖简历。问题主要围绕简历提到的实习中的项目展开 涉及到简历的部分是最为重要的,是整个面试的开场,也决定了后续面试官态度的走向。从我的经历可以看出,面试官会就某个你简历上比较吸引人的项...
牛客匿名用户202212:因为看到文章里提到了行为分析,给补充一下相关的知识: 用户行为数据的作用:产品迭代 用户行为有哪些:点赞,分享,关注,登录时间,登出时间…… 聚焦分析:人在环境x下,做的动作y,产生结果z —————————————————————————————————— 分析方法 分析为什么这么做: 比较分析,维度下钻 产品生存状态: 留存率分析(重要) 用户行为链条:产品使用流程 用户画像:根据行为为用户打标签分类
投递字节跳动等公司10个岗位 >
点赞 评论 收藏
分享
头像
2022-03-13 21:51
已编辑
Hogwarts School 数据分析师
数据分析师面经汇总(机器学习篇)
正则化是什么? 定义:对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。 原理:对损失函数加上某种约束,从而减少模型的方差提高泛化能力。 损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度。 L1正则化是最小绝对值误差     L2正则化是最小平方误差 L1会产生一个稀疏矩阵 用于特征选择 L2更倾向于产生更小更分散的权重向量 让模型做决策时考虑更多的特征  这两种正则化本质都是防止过拟合,在预测或分类时,那么多特征显然难以选择,但是如果代入这些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没...
Neptune🍉🍏🍇🍊:K-means优化: k-means++:假设已经选取了n个初始聚类中心(0<n<k),则在选取第n+1个聚类中心时:距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心,在选取第一个聚类中心(n=1)时同样通过随机的方法。可以说这也符合我们的直觉:聚类中心当然是互相离得越远越好。 ISODATA:类别数目随着聚类过程而变化,对类别数的‘合并’(当聚类结果某一类中样本数太少,或两个类间聚类太近),‘分裂’(当聚类结果中某一类的内方差太大,将该类进行分裂)。 Kernel K-means:将每个样本进行一个投射到高维空间的处理,然后再将处理后的数据使用普通的K-means算法进行聚类。 二分K-means:将所有的点作为一个簇,然后将该簇一分为二。之后选择能最大限度降低聚类代价函数(也就是误差平方和)和簇划分为两个簇,依次进行下去,知道簇的数目等于用户给定的数目K为止。隐含的一个原则是:因为聚类的误差平方和能够衡量聚类性能,该值越小表示数据点越接近于他们的质心,聚类效果就越好。所有我们就需要对误差平方和最大的簇进行再一次划分,因为误差平方和越大,表示这个簇的聚类效果越不好,越有可能是多个簇被当成了一个簇,所有我们首先需要对这个簇进行划分。二分K均值算法可以加速K-means算法的执行速度,因为它的相似度计算少了不受初始化问题的影响,因为这里不存在随机点的选取,且每一个都保证了误差最小。 Mini Batch K-means(适合大数据的聚类算法):通过样本量大于一万做聚类时,需要考虑选用此算法。他使用了一种叫做Mini Batch(分批处理)的方法对数据点之间的距离进行计算。Mini Batch的好处是计算过程中不必使用所有的数据样本,二十从不同类别的样本中抽取一部分样本来代表各自类型进行计算。由于计算样本量少,所以会相应的减少运行时间,但另一方面抽样也必然会带来准确度的下降。
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客企业服务