爆肝100天接Offer - Day 5
今日进度
1.业务:《数据分析师养成宝典》(3/6)
2.Business senses:人人都是产品经理(1/1)
______________________________________________
______________________________________________
《数据分析师养成宝典》 笔记
3.指标设计
主要解决问题:如何进行数据准备?;如何进行数据指标设计?;如何进行数据认知?
笔记整理
(1)如何进行数据准备:数据探索 ->数据整理->数据集成
*数据准备即把裸数据转化为专家数据(适合数据建模的数据),其中最重要的步骤即数据探索——检验原始数据中是否存在脏数据(噪声)。常见脏数据包括缺失值、异常值、不一致值、重复数据、含特殊符号的数据,以下数据集的处理软件基于R语言,我在阅读过程中用Rstudio进行了代码还原(附上代码和结果图)
______________________________________________
______________________________________________
数据探索篇:缺失值、异常值、不一致数据
a.缺失值
- 缺失值概念:
*NA,表示数据集中该数据遗失(在数据集中“占据”位置)
*NULL,表示未知状态,不会在计算之中(在数据集中没有“占据”位置)
- 缺失值处理思路:
*思路一:用最接近的数字替换它(严谨但费事)
*思路二:用该列数据的平均值或众数替换
*思路三:合理推荐
- 在R中的处理
-1 识别缺失值 - 概念性
#识别缺失值 is.na(x) #判断某一观测样本是否完整 complete.cases(x) #利用图形方式描述缺失数据:利用vim包中的aggr函数
-1 识别缺失值 - 实操性
#例题:读取VIM包中的sleep数据,查看它的样本数和变量数,查看完整样本个数,查看前6个样本空值情况,查看前15个样本的缺失值个数,可视化缺失值情况 #安装VIM包 install.packages('VIM') #解题 data(sleep,package = 'VIM') #读取数据 dim(sleep) #读取dimension sum(complete.cases(sleep)) #查看完整样本个数 head(is.na(sleep)) #head()用来查看向量、矩阵或数据框的部分信息,默认6行,可以添加参数n控制显示行数 sum(is.na(sleep)[1:15,]) #查看前15个样本的缺失个数 #缺失值可视化 library(VIM) aggr(sleep)
*从结果分析发现,NonD和Dream经常同时出现缺失值。存在缺失数据情况下,需要进一步判断缺失数据分布是否随机
-2 缺失数据分布分析 - 概念性
#使用mice包 library(mice) #使用md.pattern函数 md.pattern() #mice包中的md.pattern()函数可以生成一个以矩阵或数据框形式展示缺失值模式,0表示变量的列中存在缺失值,1则表示没有缺失值
-2 缺失数据分布分析 - 实操性
#分析数据分布是否随机 library(mice) md.pattern(sleep)
*从结果看,第一列的第一行42表示有42个样本是完整的,第一列的最后一行2表示有两个样本缺少了sleep、dream、NonD三个变量,最后一行表示各变量缺失的样本数合计。(这个做法有点少见,我在学校课程和网课中都没有看到过,不知道在工作中是否常见?并不是很理解这么做的原因,蹲蹲朋友们的理解)
-3 缺失数据处理 - 概念性
#方法1: 当缺失数据少时,直接删除相应样本 #方法2:对缺失数据进行插补,用均值或中位数来代替缺失值(优点在于不会减少样本信息,处理简单;缺点在于当缺失数据不是随机出现时会产生偏误)——优化:多重插补法(首先,通过变量间关系来预测缺失数据;其次,利用蒙特卡罗方法生成多个完整数据集;最后进行分析汇总处理。整个过程可以用mice包实现) #方法3:使用对缺失数据不敏感的分析方法,如决策树 # *** 用mice包处理缺失数据一般用以下结构 library(mice) imp <- mice(data,m) fit <- with(imp, analysis) #analysis常常包括lm() for linear regression\glm() for generalized linear modelc etc. pooled <- pool(fit) summary(pooled)
-3 缺失数据处理 - 实操性
#引入mice包 library(mice) #生成多个完整数据集存在imp中 imp = mice(sleep,seed = 1234) #对imp进行线性回归 fit = with(imp,lm(Dream~Span+Gest)) #用pool函数对回归结果汇总 pooled = pool(fit) summary(pooled)
(这里其实应该需要跟原始数据模型对比,但我学习深度不够无法理解,所以先记录下代码和结果。有兴趣的朋友可以参考下这篇博文:https://github.com/JackieMium/my_blog/issues/33)
*总体而言,缺失数据处理的流程首先是判断其模式是否随机,然后找出缺失的原因,最后对缺失值处理
b.异常值
- 异常值概念
*异常值又称离群点,指测量数据中的随机错误或偏差,包括错误值或偏离均值的孤立点值。在数据处理中,异常值极大影响回归或分类效果
*在数据预处理阶段必须进进行异常值检测
*本章节用到五种异常值检测方法:箱线图、局部异常因子法、聚类法、检测时间序列数据中的异常值,马氏距离检测异常值
-1 箱线图检验离群点 - 概念性
#检测数据的异常值函数 boxplot.stats() #常用结构 boxplot.stats(x,coef = 2.5,do.conf = TRUE,do.out = TRUE) #-〉x为数值向量;coef为盒须长度为几倍的IQR,默认为1.5倍;do.conf和do.out设置是否输出conf和out #-〉返回值,stats返回5个元素的向量值,包括盒须最小值、盒最小值、中位数、盒最大值、盒须最大值;n返回非缺失值的个数;conf返回中位数的95%置信区间;out返回异常值
*利用箱线图检验离群点。矩形是按照数据的上下四分位数(Q1~Q3)为界画的(中间50%的数据落在盒内);盒内的横线叫中位线,是数据的中位数位置;默认延长线不超过盒长的1.5倍;之外的点被认为是异常值,用圆圈表示
-1 箱线图检验离群点 - 实操性(单变量异常值检测)
set.seed(2016) #用于设定随机数种子,里面的数字不同,产生的结果不同 x = rnorm(100) #生成100个随机数 summary(x) #x的汇总信息 boxplot.stats(x) #用箱线图检测x中的异常值 boxplot(x) #绘制箱线图
-1 箱线图检验离群点 - 实操性(多变量异常值检测)
#随机生成x,y两列数据框 x = rnorm(100) y = rnorm(100) df = data.frame(x,y) head(df) #寻找x为异常值的坐标位置 #which()用于条件筛选;%in%等同于macth()用来判断一个数组或矩阵是否包含在另一个数组或矩阵里;$是引用数据 a = which(x %in% boxplot.stats(x)$out) a #寻找y为异常值的坐标位置 #which()用于条件筛选;%in%等同于macth()用来判断一个数组或矩阵是否包含在另一个数组或矩阵里;$是引用数据 b = which(y %in%boxplot.stats(y)$out) b #寻找变量x,y都为异常值的坐标位置,intersect求交集的意思 intersect(a,b) integer(0) #绘制x,y的散点图 plot(df) #在散点图中找到x或y为异常值的坐标位置,union求并集的意思 p2 = union(a,b) #标记异常值 points(df[p2,], col = 'red',pch = 'x', cex = 2)
-2 使用局部异常因子法检测异常值(LOF) - 概念性
#概念:这是一种基于概率密度函数识别异常值的算法,且只对数值型数据有效 #原理:将一个点的局部密度和周围点的密度比较,如果局部密度小于周边密度(LOF小),则该点相对于周围的点来说是异常值 #在R语言中常使用DMwR或dprep包中的lofactor()函数实现,k为用于计算局部异常因子的邻居数量 lofactor(data,k)
*实操开始前需要安装DMwR包,我尝试了下无法直接用install代码实现,需要参考该博主的做法https://blog.csdn.net/MY_LJJ/article/details/121655166
-2 使用局部异常因子法检测异常值(LOF) - 实操性
#导入包并选取数值型的前4例,iris是R的內建数据集鸢尾花 library(DMwR) iris2 = iris[,1:4] head(iris2) #计算每个样本的LOF值 out.scores = lofactor(iris2, k=10) #绘制LOF值的概率密度图 plot(density(out.scores)) #LOF值排前5的数据作为异常值,提取其样本号 out=order(out.scores,decreasing = TRUE)[1:5] out #提取iris中的异常值数据 iris2[out,] #对鸢尾花数据进行主成分分析,并利用产生的前两个主成分绘制成双标图来显示异常值 n=nrow(iris2) #样本数 n labels=1:n #用数字1-n标注 labels[out]='.' #非异常值用‘.’标注 biplot(prcomp(iris2),cex=0.3,xlabs=labels) #prcomp()是对数据集进行主成分分析,biplot()取主成分分析结果的前两列数据即前两个主成分绘制双标图;x轴和y轴分别代表第一、二主成分;箭头指向是原始变量名,5个异常值分别用对应行号标注
-2 使用局部异常因子法检测异常值(LOF) - 实操性(接上)
#除了用双标图,还能用散点图矩阵 pchs = rep('.',n) pchs[out]='+' cols=rep('black',n) cols[out]='red' pairs(iris2,pch=pchs,col=cols)
-3 用聚类方法检测异常值 - 概念性
#原理:通过把数据聚成类,将那些不属于任何一类数据做为异常值;也可以用k-means算法来检测异常值,将数据分成k组,然后把它们分配到最近的聚类中心,然后计算每个对象到聚类中心的距离(或相似性),再选择最大的距离作为异常值
-3 用聚类方法检测异常值 - 实操性
#kmeans聚类为3类 kmeans.result = kmeans(iris2,centers=3) #输出聚类中心 kmeans.result$centers #输出聚类结果 kmeans.result$cluster #返回每个样本对应的聚类中心样本 centers = kmeans.result$centers[kmeans.result$cluster,] #计算每个样本到其聚类中心的距离 distances = sqrt(rowSums((iris2-centers)^2)) #rowSums(x):分别对x的行进行求和 #找到距离最大的5个样本,判定为异常值 out = order(distances,decreasing = TRUE)[1:5] iris2[out,] #绘制聚类结果 plot(iris2[,c('Sepal.Length',"Sepal.Width")],pch='o',col=kmeans.result$cluster,cex=1.3) #聚类中心用"*"标记 points(kmeans.result$centers[,c('Sepal.Length',"Sepal.Width")],col=1:3,pch=8,cex=1.5) #异常值用"+"标记 points(iris2[out,c('Sepal.Length',"Sepal.Width")],pch='+',col=4,cex=1.5) #cex:指定符号的大小
*异常值标记中的pch参数对应查询表可参考下图
-4 检测时间序列数据中的异常值 - 概念性
#概念:需要先用stl()进行稳健回归分解,再识别异常值 #stl()函数,即基于局部加权回归散点平滑法(LOESS),对时间序列数据做稳健回归分解,分解为季节性、趋势性和不规则性三部分
-4 检测时间序列数据中的异常值 - 实操性
#返回稳健性权重,以控制数据中异常值产生的影响 f = stl(AirPassengers,'periodic',robust = TRUE) #robust指,在loess过程中是否使用鲁棒拟合 #找到异常值 out = which(f$weights < 1e-8) out #设置绘图布局的参数 op = par(mar = c(0,4,0,3), oma = c(5,0,4,0),mfcol = c(4,1)) #par函数可以设置图形边距,oma里的数字意思是下左上右的边界宽度,mfcol里的数字指c(行数,列数) plot(f,set.pars = NULL) #time.series返回分解为三部分的时间序列 head(f$time.series,3) sts = f$time.series #用红色'x'标记异常值 points(time(sts)[out],1.8*sts[,'remainder'][out],pch='x',col='red') par(op)
*因为数分基础打的不牢固,对时间序列分析的原理并不了解,后续笔记二次整理的时候会就此进行补充,这里暂时只对步骤和R语言中所用的函数进行说明;R语言的绘图参数稍微有点让人凌乱...
-5 基于马氏距离检测异常值 - 概念性
#原理:本质也是观察各样本点到样本中心的距离,若某些样本点的距离太大,就可以判断异常值 #马氏距离优点:不受量纲的影响,并且在多元条件下,还考虑了变量之间的相关性 #R语言中的思路:利用迭代思想构建一个稳健的均值和协方差矩阵估计量,然后计算稳健马氏距离,这样异常值就能被准确识别
-5 基于马氏距离检测异常值 - 实操性(低维数据)
#引入mvoutlier包 library(mvoutlier) #噪声数据 set.seed(2016) x=cbind(rnorm(80),rnorm(80)) #cbind是叠加列,rbind是叠加行,rnorm(n, mean = 0, sd = 1)n为产生随机值个数(长度),mean是平均数,sd是标准差 y=cbind(rnorm(10,5,1),rnorm(10,5,1)) z=rbind(x,y) #一维数据的异常值检验 res1=uni.plot(z) #返回异常值的样本号 which(res1$outliers==TRUE) #基于稳健马氏距离的多元异常值检验 res2=aq.plot(z) #返回异常值的样本号 which(res2$outliers==TRUE)
*第三张图中(1,1)是原始数据;(1,2)中,x轴为各样本的马氏距离排序,y轴为距离的经验分布,曲线是卡方分布,垂线表示阈值,在阈值右侧的样本判断为异常值
-5 基于马氏距离检测异常值 - 实操性(高维数据)
#引入数据集 data(swiss) res3 = pcout(swiss) #pcout()函数我没有搜到是什么意思,蹲个友友解答 #返回异常值的样本号,返回的wfinal01标记为0表示异常值 which(res3$wfinal01==0)
c.不一致数据分析
#不一致的例子:2004/12/25和25/12/2004的格式不一致 #编码不一致和数据表示不一致的问题通常需要人工检测,当发现一定规律时可以通过编程进行数据替换和修改
______________________________________________
______________________________________________
数据整理篇(数据清洗):规范化、数据选择、数据规约、数据变换
*一般来说数据整理是将数据库精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程
*R语言提供的数据整理方法中常用的有数据规范化、填充缺失数据、把数字类型数据转换为分类类型数据、处理离群数据、删除变量、观测数据有缺失值的变量等
______________________________________________
a.规范化
- 数据的中心化
*指数据集中的各项数据减去数据值的均值
*举例:有数据集1,2,3,6,3,其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即-2,-1,0,3,0
#引入数据集 data=c(1,2,3,6,3) scale(data,center = T,scale = F) #center=TRUE,表示x中的每一列会减去对应列的算术平均值;scale=false,表示经过上一步center计算后的数据不回除以该列求出的标准差 attr(data,'scaled:center') #R语言使用attr函数设置dataframe数据中每个数据列的属性
- 数据的标准化
*指中心化之后的数据再除以数据集的标准差,即(数据集中的各项数据-数据集的均值)/数据集的标准差
*举例:有数据集1,2,3,6,3,其均值为3,标准差为1.87,那么标准化之后的数据集为(1-3)/1.87,(2-3)/1.87,(3-3)/1.87,(6-3)/1.87,(3-3)/1.87,即-1.069,-0.535,0,1.604,0
data=c(1,2,3,6,3) #数据标准化 scale(data,center = T,scale = T) attr(data,'scaled:center') attr(data,'scaled:center')
*作者只使用了attr(,'scaled:center'),但是会报错(argument 1 is empty),用上data之后会出现NULL的情况
b.数据选择
-1 数据去重
#数据重复检测函数包括unique\duplicated unique:对于一个向量管用,对于matrix、dataframe不管用 duplicated:是用来解决向量或数据框重复值的函数,会返回一个TRUE和FALSE的向量
-2 数据集选择
#通常把数据集划分为三个独立的数据集,即训练集、验证数据集和测试数据集,典型的划分是40/30/30,或70/15/15 - 训练集:用于建模 - 验证集:用于模型评估 - 测试集
c.数据归约:压缩数据量,提高模型效率
#数据规约的常用方法 - AIC准则通过最优模型选择属性 - Lasso通过一定约束条件选择变量 - 分类树、随机森林通过分类效果的影响大小筛选属性 - 小波变换、主成分分析通过把原数据变换或投影到较小的空间来降低维数
d.数据变换
*主要作用:改善数据的正态分布,简单的方法是「对数变换」
______________________________________________
______________________________________________
数据集成篇:向量化、新变量、数据透视表、列联表、数据整合、分组计算
a.通过向量化重构数据
*重构数据的基本思路就是把数据全部向量化,然后按要求用向量构建其他类型的数据
#矩阵和多维数组的向量化 as.vector() #列表向量化 unlist()
b.数据透视表
#stack和unstack函数 原理:这两个函数用于dataframe和list的长、宽格式之间的转换 #reshape2包,一般用里面的melt、acast和dcast函数
*melt后的数据用ggplot作统计图就很方便,acast可以还原melt,dcast可以对数据进行汇总(?)不是很理解这跟数据透视表有什么关系
c.列联表
*列联表是指同时依据两个变量的值,目的是将两个变量分组,然后比较各族的分布情况以寻求变量关系
#table()函数 原理:用来统计数字的出现频率,也可以统计起他倍看作因子的数据类型 #tapply和by函数 原理:tapply()可以看作是tabl()的扩充。table()按照因子组合计算频度,tapply()按因子组合应用各种函数;by()是tapply()针对dataframe类型数据的应用
e.数据整合
*常用数据整合包plyr,它应用了split - apply - combine的数据处理过程
#apply函数 #lappy、sapply和vapply函数
f.分组计算
*常用函数是mapply(),aggregate()
(2)如何进行指标设计
- 指标和维度
*指标用于衡量事物的发展程度,程度发展的好坏需要通过不同的维度来对比
*指标:一般需要在一定的前提条件下进行汇总计算,如规定的时间或范围,这就是常说的统计口径和范围。分类一般是,绝对数指标(反映规模大小的指标,收入、用户数)和相对数指标(反映质量好坏的指标,利润率、留存率)
*维度:性别、地区、时间等都是维度。设计思路一般是,宏观/微观,内部/外部,历史/现在/未来,成本/收益,数量/质量/效率,不同的分析对象(品类、物流模式等)
- 特征工程
*数据的特征决定了机器学习的上限
*特征工程是将数据属性转换为数据特征的过程,属性代表了数据的所有维度
- 特征设计
*时间戳处理
*分解类别变量
*分箱/分区:如分年龄,1~10,11~18,19~25
*交叉特征:对类别特征的所有可能值进行交叉,比如年龄和行为交叉
- 特征选择
*可以使用某些算法自动地选出原始特征的子集
- 特征提取
*特征提取涉及从原始属性自动生成新特征集的一系列算法,如降维算法等
- 指标设计基本方法
*生成用于判别的变量:如已消费/未消费
*生成离散变量:连续数值离散化,即让数据可分析。如重要发展客户-消费金额>某个数值的客户
*业务标签化:如对于2017年9月10日贴标签,1是教师节(节日消费),2是周日(假期消费),3是天猫酒水节结束后的一天(某些品类受电商影响)等
*注意:数据分析体系建立之后,数据指标并不是一成不变的,是需要根据业务需求的变化实时调整的,并需要注意统计周期变动和关键指标的的变动
- Case:电商数据分析指标
*第一张图是电商数据指标体系,第二张图是是日报所用指标以供参考
#数据分类与收集 *电商数据分类:网站性能数据和用户行为数据 *网站数据收集方式:网站日志、web beacons和JS页面标记 #常用指标分类 (1)流量指标:PV,UV,Visit,Login,Active (2)访问深度和吸引力:PV/visit,Visit/UV,访问时长(duration),积极访问者,快速浏览客户(跳出率),留存率,退出率 (3)订单指标:订单量,成交比率,订单用户构成,客户价值 (4)网站性能指标:页面平均响应时间,同时在线人数,转化率 (5)对比指标:同比,环比,趋势线 (6)用户价值指标:指根据层次分析法创建出来的指标,包括活跃度、购买忠诚度和消费能力
(3)如何进行数据认知
*数据认知即从数据出发概括数据特征,常见的有单维度分析、多维度分析、数字特征描述
- 认知数据的平均波动水平和波动情况
*衡量波动性的本质,即方差和标准差。一个数据的波动性越大说明所涵盖的信息量越大->不可知因素更多->风险更大
*衡量两个数据序列间互相波动的方法为协方差
- 认知数据的分布
*步骤1:首先要计算最大值、最小值、中位数、算术平均数、75%分位数和25%分位数
*步骤2:全距=最大值-最小值,部分反映数据点的分散情况,再结合25%分位数和75%分位数这两个四分位数,即可较准确地判断数据序列的离散情况
*特性:数据序列的离散度高,标准差大
*相关图表:箱线图(观察数据的离散情况),频率分布图(观察数据分布,r语言中用hist()和density())
- 利用相关系数理解数据之间的关系
-1 直接绘制散点图
判断两个变量是否具有线性相关关系的最直接方法是绘制散点图及散点图矩阵,从而发现变量间的主要相关性
-2 相关系数
相关系数的计算公式不必掌握,只需要知道相关系数衡量了两个变量变动的统一程度,是一个-1~1的值;1表示完全正相关,-1表示完全负相关。常用的是Pearson相关系数、Spearman秩相关系数和判定系数
#Pearson相关系数 一般用于分析两个连续变量之间的关系,要求连续变量的取值服从正态分布,且只有变量具有线性关系时才是完全相关的 #Spearman秩相关系数 不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数来描述,只要有两个变量具有严格单调的函数关系,那么它们就是完全Spearman相关的 #判定系数 是相关系数的平方,用来衡量回归方程对y的解释程度,数值越接近1,表示相关性越强
*pearson和spearman在使用时,都需要进行假设检验,使用t检验的方法检验其显著性水平以确定其相关程度。在正态分布假定下,两者效率等价;对于连续测量数据,更适合pearson相关数据来分析。p值是用来描述相关系数的可靠性的,p值与样本量有一定的关系,通常1000个以上的样本P值都是显著的
-3 相关系数应用场景
*利用相关系数发觉数据间的隐藏联系
*利用相关系数减少统计指标(因为过多的统计指标会增加解读、分析和开发成本):如果发现某两个指标间的相关系数非常高,一般大于0.8,则二选一
*利用相关系数挑选回归建模的变量
*利用相关系数来验证主观判断
- 通过对比认知数据
- 通过多维交叉来深入认知数据:比如三维坐标,x轴市场占有率,y轴市场需求成长率,z轴利润率
- 周期性分析
- 贡献度分析:又称帕累托分析,原理是帕累托法则,又称二八定律
*下图是海鲜系列的十个菜品A1~A10某个月的营业额,由图可知A1~A7共7个菜,占菜品种类数的70%,总盈利额占该月盈利额的85.0033%,所以根据帕累托法则,应该增加对菜品A1~A7的投入
*该图可以通过R语言实现,但因为没有原书的数据集,所以并未测试代码
- 因子分析
*概念:从大量数据中寻找内在联系,减少决策困难
*R语言:函数factanal()常用来执行因子分析
思考总结:数据处理和指标的篇章是我蛮期待的一个章节,没想到的是所有步骤全部依赖于R语言实现,但在面经和jd中似乎并未对R语言有过多强调,所以在阅读过程中省略了较难的代码部分。让我困惑的点在于,作者是从实务角度写的这本书,R语言如果在数分领域有这么重要的地位,为什么似乎面试考核并不注重?真正的数据分析工作是否跟本书所述的一致(需要用R语言进行大量数据处理工作)?
______________________________________________
______________________________________________
《长、中、短视频“再战”微短剧》——人人都是产品经理
链接:https://www.woshipm.com/it/5723303.html
主要解决问题:长、中、短视频发展趋势分析
笔记整理
(1)现状:
- 市场侧:长视频因“冗长”被抛弃,短视频因“传递价值不足”卡瓶颈,微短剧市场升温
(2)平台应对方案
- 长视频:爱优腾芒 - 加码短剧,走以精品剧为主的内容路线
*困境:商业模式尚未跑通,平台赚不到钱,创作者也赚不到钱。长视频平台不像短视频平台能给予创作者和商家实实在在的流量扶持,因此其商业模式相对来说就比较单一,不像短视频平台可以通过直播带货、广告植入、品牌定制等多种模式获利
*解决方法:明确高品质不一定换来高流量,应辅以流量扶持
-1 加大流量扶持,提供变现链路,从而提高平台商业价值。腾讯微视推出“火星小剧”品牌和“火星计划”,在2021年投入10亿元资金和100亿流量扶持短剧项目
-2 推出竖屏模式,提升用户体验,增加平台流量。爱奇艺早在2018年就上线了“竖屏控剧场”;优酷的短剧频道底部也上线了“竖版短剧沉浸体验”子栏目;在腾讯视频的短剧频道中下方,也出现了包括5分钟左右的竖版。
-3 升级分账模式,有助于构建内容闭环,从而跑通平台商业模式
- 短视频:抖快 - 走以竖屏剧为主的流量路线
*困境:尽管流量资源充沛,但其微短剧的内容质量并不能与平台流量相对应
*解决方法:继续发挥流量优势并注重内容建设
-1 储存微短剧IP资源,能丰富自身内容库,增强平台的核心竞争力。抢版权和网文改编IP
-2 扶持优质内容创作者,能生产更多优质内容,提高用户忠诚度和粘性
-3 打造独家精品微短剧,能提升作品的经济价值,达到口碑和收视双赢。快手“追剧一夏”活动上线的50多部短剧中有22部播放量破亿;抖音自制的多部微短剧,如《做梦吧!晶晶》正片播放量也突破了1.1亿
- 中视频:B站 & 西瓜 - 创作者资源竞争激烈
*困境:在长视频和短视频平台入局后,创作者资源和流量竞争激烈
*解决方法:
-1 优化创作者生态,进行内容升级。精品微短剧创作的内容更垂直细分且具备深度,创作门槛相对较高,优质创作者是稀缺资源
-2 加码内容制作,形成差异化优势。B站的“轻剧场”厂牌一开始就显露出了差异化的特点。比如“轻剧场”第一季的代表作《夜猫快递之黑日梦》《抓马侦探》,前者是隐喻风格的都市奇幻故事,后者则定位于沙雕脑洞探案剧情,却又在风格上加入了《无间道》《新警察故事》等大量电影梗,甚至出现了入站考试、邀请码等B站特色梗
-3 深化平台特色,提升平台竞争力。视频平台的运营模式和内容分发都会在一定程度上影响平台属性和特色。对B站来说,社区生态是观影体验的一部分,评论区的长篇解读,就是B站独特社区生态对作品附加更多内容维度的体现;西瓜视频则拥有字节算法推荐,可通过今日头条与抖音进行用户引流,凭借字节系产品的强算法优势进行内容推荐与用户留存
______________________________________________
______________________________________________
p.s. 牛客对海外ip也太不友好了,反复让我出现「重新登陆」/「界面异常」/「无法保存」etc.真的很让人暴躁SQL刷了一部分题,想这几天把简单题刷完之后再做个整理,就不把片段性的笔记放上来啦,还会调整一下统计学习的思路,鸣谢@好大一只睿提供的统计学学习方向!!!关于指标体系设计,是不是可以根据不同行业的情况找一套通用的指标体系背下来呢?
#数据分析##2023毕业生求职有问必答##数据分析师工作##数据分析师实习#