-
Notifications
You must be signed in to change notification settings - Fork 1.6k
算法常见问题
Andy Huang edited this page Nov 17, 2017
·
8 revisions
Angel是一个分布式机器学习平台,在上面运行算法,能在十亿乃至百亿维度的训练数据之上,在小时级别内跑通算法,得到模型,这只是第一步,更加关键的是,训练出来模型,要有比较好的准确率。在这个过程中,用户可能会遇到各种各样的问题,这里我们也一一总结一下
遇到个奇怪的问题,用lr跑了个model ,然后用这个model predict样本的分数(和train的样本一样),发现没有一个样本的sigmod分大于0.5
可能是什么问题
模型的效果本来就不行,auc不高
观察Recall 看recall 所有的样本都分成负类了
learnrate调大一些试试
Auc涨不上去
-
正负样本偏差
- 把正负样本通过采样,搞的接近1:1或者1:n
- 尽量不要出现某个batch中完全没有正样本或者负样本(把batchsize甚至大,或者把正样本平均的插到负样本中)
数据不均匀 1. 数据清洗时就考虑正负样本分布均匀性问题 2. Angel后续加入读取后均匀化的功能