Skip to content

算法常见问题

Andy Huang edited this page Nov 17, 2017 · 8 revisions

算法常见问题

Angel是一个分布式机器学习平台,在上面运行算法,得到模型,这只是第一步,更加关键第二步,训练出来模型,要有比较好的准确率,可以对数据进行准确预测。在这个过程中,用户可能会遇到各种各样的问题,这里我们也一一总结一下

LR

训练出来的模型,Predict样本的sigmoid不高,效果不好

  1. 默认的LR算法,正则项参数应该是 ml.reg.l2,reg.l2的值不大于1/featureNum
  2. 模型Epoch还不够,Auc不高(Worker日志可以观察到Auc)

Auc上涨太慢

  1. 调大Learn Rate
  2. 调小Decay

观察Recall,所有的样本都分成负类了

  1. 数据清洗时,就把正负样本通过采样,搞的接近1:1或者1:n
  2. 尽量不要出现某个batch中完全没有正样本或者负样本,可以把batchsize调大
  3. Angel后续加入读取后均匀化的功能,或者把正样本平均的插到负样本中
Clone this wiki locally