感觉是从图像和文本特征表示的角度答。图像本来就是由一个一个像素实值组成的,一般使用cnn学图像特征就是想实现降维,像素点与像素点之间没有时序关系;而文本的表示最原始的表示就不像图像那么确定,而且单词与单词之间的结构化信息会比较复杂(语法什么的),也有时序上的关系,如果用CNN卷积降维会丢失很多关键的信息。(和博士师姐讨论的结果,只是我们的理解)
点赞 2
牛客网
牛客企业服务