:问答系统使用模糊匹配更好吧。词向量维数我的项目是在2万上下,leader说还可以减减,控制在一万以内、常用词比较好。维度灾难一般在特征数多过样本数时就会发生(当然很早就会出现趋势)。topk我的经验是10-50不等,根据文本长度定。模型评价标准论文里一般用搜狗的那个,不过现实语料这么多,又不是每一篇都有标签... 协同过滤那部分我觉得没毛病呀,不过论文和工业中效果都一般,现在多用各种因子分解机。xgboost树的深度大概是想说特征的个数吧,减少子树的个数、减轻子树的权重、增大学习率都可以减轻过拟合。 共勉老哥
投递链家网等公司10个岗位 >
0 点赞 评论 收藏
分享
关注他的用户也关注了: