intel-analytics · qiuxin2012 · Jul 14, 2020 · Jun 4, 2020 · Jun 5, 2020 · Jun 5, 2020
diff --git a/pyzoo/zoo/pipeline/api/keras/optimizers.py b/pyzoo/zoo/pipeline/api/keras/optimizers.py
@@ -39,6 +39,7 @@ def __init__(self,
                  epsilon=1e-8,
                  decay=0.0,
                  schedule=None,
+                 weight_decay=0.0,
                  bigdl_type="float"):
         """
         :param lr learning rate
@@ -60,13 +61,15 @@ def __init__(self,
             beta_2,
             epsilon,
             decay,
+            weight_decay,
             schedule if (schedule) else Default()
         )
         self.bigdl_type = bigdl_type
 
 
 class AdamWeightDecay(OptimMethod, ZooKerasCreator):
     """
+    Implements BERT version of Adam algorithm.
     >>> adam = AdamWeightDecay()
     creating: createZooKerasAdamWeightDecay
     """

diff --git a/zoo/src/main/scala/com/intel/analytics/zoo/pipeline/api/keras/optimizers/Adam.scala b/zoo/src/main/scala/com/intel/analytics/zoo/pipeline/api/keras/optimizers/Adam.scala
@@ -41,9 +41,10 @@ class Adam[@specialized(Float, Double) T: ClassTag](
     var beta_2: Double = 0.999,
     var epsilon: Double = 1e-8,
     var decay: Double = 0.0,
+    var wDecay: Double = 0.0,
     val schedule: LearningRateSchedule = Default()
   )(implicit ev: TensorNumeric[T]) extends SGD[T](learningRate = lr,
-    learningRateDecay = decay, learningRateSchedule = schedule) {
+    learningRateDecay = decay, weightDecay = wDecay, learningRateSchedule = schedule) {
 
   @transient
   private var buffer: Tensor[T] = null
@@ -65,6 +66,7 @@ class Adam[@specialized(Float, Double) T: ClassTag](
     val beta1 = this.beta_1
     val beta2 = this.beta_2
     val eps = this.epsilon
+    val wd = this.wDecay
 
     val (fx, dfdx) = feval(parameter)
     val state = SGDRef.getstate(this)
@@ -80,6 +82,10 @@ class Adam[@specialized(Float, Double) T: ClassTag](
 
     val clr = - this.schedule.currentRate
 
+    if(wd > 0) {
+      dfdx.add(parameter * (ev.fromType(wd)))
+    }
+
     /**
      * m_t = beta_1 * m_t-1 + (1 - beta_1) * g_t
      * v_t = beta_2 * v_t-1 + (1 - beta_2) * g_t * g_t

diff --git a/zoo/src/main/scala/com/intel/analytics/zoo/pipeline/api/keras/python/PythonZooKeras.scala b/zoo/src/main/scala/com/intel/analytics/zoo/pipeline/api/keras/python/PythonZooKeras.scala
@@ -1032,9 +1032,10 @@ class PythonZooKeras[T: ClassTag](implicit ev: TensorNumeric[T]) extends PythonZ
       beta_2: Double = 0.999,
       epsilon: Double = 1e-8,
       decay: Double = 0.0,
+      weightDecay: Double = 0.0,
       schedule: SGD.LearningRateSchedule = SGD.Default()
       ): Adam[T] = {
-    new Adam[T](lr, beta_1, beta_2, epsilon, decay, schedule)
+    new Adam[T](lr, beta_1, beta_2, epsilon, decay, weightDecay, schedule)
   }
 
   def createZooKerasHardShrink(