问答系统使用模糊匹配更好吧。词向量维数我的项目是在2万上下,leader说还可以减减,控制在一万以内、常用词比较好。维度灾难一般在特征数多过样本数时就会发生(当然很早就会出现趋势)。topk我的经验是10-50不等,根据文本长度定。模型评价标准论文里一般用搜狗的那个,不过现实语料这么多,又不是每一篇都有标签... 协同过滤那部分我觉得没毛病呀,不过论文和工业中效果都一般,现在多用各种因子分解机。xgboost树的深度大概是想说特征的个数吧,减少子树的个数、减轻子树的权重、增大学习率都可以减轻过拟合。 共勉老哥
点赞 1

相关推荐

2024-12-27 10:21
已编辑
海南师范大学 媒介策划
到我怀里来:身高体重住址这些就别写了,留几个关键的就行,工作经历突出重点写详细点
点赞 评论 收藏
分享
今天 11:10
武汉纺织大学 C++
点赞 评论 收藏
分享

牛客热帖

更多
牛客网
牛客企业服务