贪心学院面试整理4
文本数据增强
深度学习训练技巧
文本纠错:Non-word拼写错误
词汇预处理:低频词,停用词
关键词的提取:基于主题模型
假设有M篇文章,K个主题,N个单词,目标:
文档-主题分布:M个维度为K的多项式分布
主题-单词分布:K个维度为N的多项式分布
依存句法分析
短语提取:
点互信息
左右邻字熵
新词发现:基于点互信息,左(右)邻字熵进行新词挖掘
文本数据增强:
- 同义词替换
- 文本回译
学习率调整
梯度调整
文本数据增强
深度学习训练技巧
文本纠错:Non-word拼写错误
词汇预处理:低频词,停用词
关键词的提取:基于主题模型
假设有M篇文章,K个主题,N个单词,目标:
文档-主题分布:M个维度为K的多项式分布
主题-单词分布:K个维度为N的多项式分布
依存句法分析
短语提取:
点互信息
左右邻字熵
新词发现:基于点互信息,左(右)邻字熵进行新词挖掘
文本数据增强:
学习率调整
梯度调整
相关推荐