网站用户访问行为预测-LSTM
数据集:多个用户一个月内访问的URL
特征:用户id 访问时间 文本URL
以单个用户每日访问的url为入手点 进行分类
扁平分类
PAGE_CATEGORIES = [ 商业经济,新闻时事,体育健身,教育培训,生活服务, 卫生健康,政法军务,科学技术,社会文化,旅游交通, 休闲娱乐,文学小说,艺术爱好,电脑网络 ] 用途分类 PAGE_CATEGORIES2 = [门户网站[新闻,经济,科技,旅游,游戏..],视频网站,交易网站,科研网站,游戏网站,。。。] 持有者分类 PAGE_CATEGORIES3 = [个人网站(博客)、商业网站(淘宝官网)、政府网站(水利局官网)、教育网站(上大官网)]
树状分类:
//com com ---> baidu.com ---> baidu.com label: baidu ---> news.baidu.com label: baidu news ---> zhidao.baidu.com label: baidu knowledge ---> tieba.baidu.com label: baidu social ---> top.baidu.com label: baidu news ---> bilibili.com ---> bilibili.com label: bili ---> live.bilibili.com label: bili live ---> manga.bilibili.com label: bili manga ---> game.bilibili.com label: bili game ---> 163.com ---> game.163.com label: 163 game ---> v.163.com label: 163 live ---> news.163.com label: 163 news //net net --->csdn.net --->csdn.net label: csdn --->blog.csdn.net label: csdn blog --->download.csdn.net label: csdn down --->edu.csdn.net label: csdn edu
Q1:单个网站可能有多个label
Q2:考虑用户本身之间可能有相似性
Q3:考虑同一域名下(或同一功能)网站之间可能有相似性
门控 RNN-lstm
cnn找高影响力的文本特征
lstm做预测分类
预测分类
交叉熵 损失函数
多个用户 可做推荐