文本分类问题是自然语言处理领域一个经典问题,主要是传统文本分类方法和基于深度学习的文本分类方法。 一、传统文本分类传统文本分类一般分为人工特征工程阶段和分类器。特征工程决定模型上限,分类器逼近模型上限。 流程:读取数据→清洗数据→特征提取→模型训练→模型评估特征工程:文本预处理(文本分词、去停用词)→文本表示(向量空间模型)和特征提取1、文本预处理2、文本表示(长文本表示、短文本表示、词表示):向量化从而便于机器学习文本数字化——向量空间模型词袋模型:将字符串视为一个 “装满字符(词)的袋子” ,袋子里的 词语是随便摆放的。而两个词袋子的相似程度就以它们重合的词及其相关分布进行判断。举个例子,...