Skip to content

imcheney/NewsRecommendationSystem

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 

Repository files navigation

新闻推荐系统 V0.3 cheney

#快速运行
输入: python3 Engine.py -m cb -i 436906
其中, -m指定推荐方法(cb, cf, ), -i指定用户id(436906).

#数据概要
财新网三月份近万名用户的全部新闻阅读记录;
数据百度网盘下载https://pan.baidu.com/s/1Y84iLIY8RbO_6oFTEm1oGA#list/path=%2F
未作任何处理的原始数据为116225条数据, 9543个用户;

其中发现有2个id的阅读记录过多, 可能是爬虫等程序: (userid=930, count=3459), (userid=24378, count=1243);
平均其20天中需要每天至少看一百多条新闻, 这似乎是有问题的, 在目前开发版中还没剔除他们;

#数据划分
本月前20天划分为训练集, 之后的11天为测试集;
全集:
做去除带NULL的数据的操作(数据清洗)后, 所以变成了
102204条数据,
9543个用户;

训练集:
83209条数据,
8759个用户;

测试集
18995条数据,
2915个用户;

如上, 这样的划分使得训练集的数据数目大约占了80%多一些, 满足一般常见的80%:20%划分要求;

#目前自然precision, recall
L = 3: (以此为准)
hot: 20.3%, 10.2%
cb: 8.3%, 4.3%
cf: 8.2%, 4.2%

L = 5:
hot: 17.1%, 14.2%
cb: 7.4%, 6.3%
cf: 7.4%, 6.3%

About

News Recommendation System

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages