elastic · elasticsearchmachine · Oct 10, 2023 · Sep 28, 2023 · Sep 28, 2023 · Oct 3, 2023
diff --git a/server/src/main/java/org/elasticsearch/gateway/GatewayService.java b/server/src/main/java/org/elasticsearch/gateway/GatewayService.java
@@ -11,7 +11,9 @@
 import org.apache.logging.log4j.Level;
 import org.apache.logging.log4j.LogManager;
 import org.apache.logging.log4j.Logger;
+import org.elasticsearch.ElasticsearchTimeoutException;
 import org.elasticsearch.action.ActionListener;
+import org.elasticsearch.action.support.SubscribableListener;
 import org.elasticsearch.cluster.ClusterChangedEvent;
 import org.elasticsearch.cluster.ClusterState;
 import org.elasticsearch.cluster.ClusterStateListener;
@@ -30,14 +32,12 @@
 import org.elasticsearch.common.settings.Setting;
 import org.elasticsearch.common.settings.Setting.Property;
 import org.elasticsearch.common.settings.Settings;
-import org.elasticsearch.common.util.concurrent.AbstractRunnable;
+import org.elasticsearch.core.Nullable;
 import org.elasticsearch.core.SuppressForbidden;
 import org.elasticsearch.core.TimeValue;
 import org.elasticsearch.rest.RestStatus;
 import org.elasticsearch.threadpool.ThreadPool;
 
-import java.util.concurrent.atomic.AtomicBoolean;
-
 public class GatewayService extends AbstractLifecycleComponent implements ClusterStateListener {
     private static final Logger logger = LogManager.getLogger(GatewayService.class);
 
@@ -80,9 +80,7 @@ public class GatewayService extends AbstractLifecycleComponent implements Cluste
     private final TimeValue recoverAfterTime;
     private final int recoverAfterDataNodes;
     private final int expectedDataNodes;
-
-    private final AtomicBoolean recoveryInProgress = new AtomicBoolean();
-    private final AtomicBoolean scheduledRecovery = new AtomicBoolean();
+    private PendingStateRecovery pendingStateRecovery = new PendingStateRecovery(0);
 
     @Inject
     public GatewayService(
@@ -131,8 +129,14 @@ public void clusterChanged(final ClusterChangedEvent event) {
         }
 
         final ClusterState state = event.state();
+        final DiscoveryNodes nodes = state.nodes();
 
-        if (state.nodes().isLocalNodeElectedMaster() == false) {
+        if (nodes.getMasterNodeId() == null) {
+            logger.debug("not recovering from gateway, no master elected yet");
+            return;
+        }
+
+        if (nodes.isLocalNodeElectedMaster() == false) {
             // not our job to recover
             return;
         }
@@ -141,77 +145,112 @@ public void clusterChanged(final ClusterChangedEvent event) {
             return;
         }
 
-        final DiscoveryNodes nodes = state.nodes();
-        if (state.nodes().getMasterNodeId() == null) {
-            logger.debug("not recovering from gateway, no master elected yet");
-        } else if (recoverAfterDataNodes != -1 && nodes.getDataNodes().size() < recoverAfterDataNodes) {
+        if (recoverAfterDataNodes != -1 && nodes.getDataNodes().size() < recoverAfterDataNodes) {
             logger.debug(
                 "not recovering from gateway, nodes_size (data) [{}] < recover_after_data_nodes [{}]",
                 nodes.getDataNodes().size(),
                 recoverAfterDataNodes
             );
-        } else {
-            boolean enforceRecoverAfterTime;
-            String reason;
-            if (expectedDataNodes == -1) {
-                // no expected is set, honor recover_after_data_nodes
-                enforceRecoverAfterTime = true;
-                reason = "recover_after_time was set to [" + recoverAfterTime + "]";
-            } else if (expectedDataNodes <= nodes.getDataNodes().size()) {
-                // expected is set and satisfied so recover immediately
-                enforceRecoverAfterTime = false;
-                reason = "";
-            } else {
-                // expected is set but not satisfied so wait until it is satisfied or times out
-                enforceRecoverAfterTime = true;
-                reason = "expecting [" + expectedDataNodes + "] data nodes, but only have [" + nodes.getDataNodes().size() + "]";
-            }
-            performStateRecovery(enforceRecoverAfterTime, reason);
+            return;
+        }
+
+        // At this point, we know the state is not recovered and this node is qualified for state recovery
+        // But we still need to check whether a previous one is running already
+        final long currentTerm = state.term();
+        if (pendingStateRecovery.term < currentTerm) {
+            // Always start a new state recovery if the master term changes
+            // If there is a previous one still waiting, both will run but at most one of them will
+            // actually make changes to cluster state
+            pendingStateRecovery = new PendingStateRecovery(currentTerm);
         }
+        assert pendingStateRecovery.term == currentTerm;
+        pendingStateRecovery.maybeStart(nodes.getDataNodes().size());
     }
 
-    private void performStateRecovery(final boolean enforceRecoverAfterTime, final String reason) {
-        if (enforceRecoverAfterTime && recoverAfterTime != null) {
-            if (scheduledRecovery.compareAndSet(false, true)) {
-                logger.info("delaying initial state recovery for [{}]. {}", recoverAfterTime, reason);
-                threadPool.schedule(new AbstractRunnable() {
-                    @Override
-                    public void onFailure(Exception e) {
-                        logger.warn("delayed state recovery failed", e);
-                        resetRecoveredFlags();
-                    }
+    class PendingStateRecovery {
+        private final long term;
+        @Nullable
+        private SubscribableListener<Void> recoveryPlanned;
 
-                    @Override
-                    protected void doRun() {
-                        if (recoveryInProgress.compareAndSet(false, true)) {
-                            logger.info("recover_after_time [{}] elapsed. performing state recovery...", recoverAfterTime);
-                            runRecovery();
-                        }
-                    }
-                }, recoverAfterTime, threadPool.generic());
+        PendingStateRecovery(long term) {
+            this.term = term;
+        }
+
+        void maybeStart(int dataNodeSize) {
+            final SubscribableListener<Void> thisRecoveryPlanned;
+            synchronized (this) {
+                if (recoveryPlanned == null) {
+                    recoveryPlanned = thisRecoveryPlanned = new SubscribableListener<>();
+                } else {
+                    thisRecoveryPlanned = null;
+                }
             }
-        } else {
-            if (recoveryInProgress.compareAndSet(false, true)) {
-                try {
-                    logger.debug("performing state recovery...");
+
+            if (thisRecoveryPlanned == null) {
+                logger.debug("state recovery is in progress for term [{}]", term);
+                return;
+            }
+            recoveryPlanned.addListener(new ActionListener<>() {
+                @Override
+                public void onResponse(Void ignore) {
                     runRecovery();
-                } catch (Exception e) {
-                    logger.warn("state recovery failed", e);
-                    resetRecoveredFlags();
                 }
+
+                @Override
+                public void onFailure(Exception e) {
+                    if (e instanceof ElasticsearchTimeoutException) {
+                        logger.info("recover_after_time [{}] elapsed. performing state recovery of term [{}]", recoverAfterTime, term);
+                        runRecovery();
+                    } else {
+                        onUnexpectedFailure(e);
+                    }
+                }
+
+                private void onUnexpectedFailure(Exception e) {
+                    logger.warn("state recovery of term [" + term + "] failed", e);
+                    resetState();
+                }
+
+                private void runRecovery() {
+                    try {
+                        submitUnbatchedTask(TASK_SOURCE, new RecoverStateUpdateTask(this::resetState));
+                    } catch (Exception e) {
+                        onUnexpectedFailure(e);
+                    }
+                }
+
+                private void resetState() {
+                    synchronized (GatewayService.this) {
+                        assert recoveryPlanned == thisRecoveryPlanned;
+                        recoveryPlanned = null;
+                    }
+                }
+            });
+
+            if (recoverAfterTime == null) {
+                logger.debug("performing state recovery of term [{}], no delay time is configured", term);
+                thisRecoveryPlanned.onResponse(null);
+            } else if (expectedDataNodes != -1 && expectedDataNodes <= dataNodeSize) {
+                logger.debug("performing state recovery of term [{}], expected data nodes [{}] is reached", term, expectedDataNodes);
+                thisRecoveryPlanned.onResponse(null);
+            } else {
+                final String reason = "expecting [" + expectedDataNodes + "] data nodes, but only have [" + dataNodeSize + "]";
+                logger.info("delaying initial state recovery for [{}] of term [{}]. {}", recoverAfterTime, term, reason);
+                thisRecoveryPlanned.addTimeout(recoverAfterTime, threadPool, threadPool.generic());
             }
         }
     }
 
-    private void resetRecoveredFlags() {
-        recoveryInProgress.set(false);
-        scheduledRecovery.set(false);
-    }
-
     private static final String TASK_SOURCE = "local-gateway-elected-state";
 
     class RecoverStateUpdateTask extends ClusterStateUpdateTask {
 
+        private final Runnable runAfter;
+
+        RecoverStateUpdateTask(Runnable runAfter) {
+            this.runAfter = runAfter;
+        }
+
         @Override
         public ClusterState execute(final ClusterState currentState) {
             if (currentState.blocks().hasGlobalBlock(STATE_NOT_RECOVERED_BLOCK) == false) {
@@ -228,7 +267,7 @@ public void clusterStateProcessed(final ClusterState oldState, final ClusterStat
             logger.info("recovered [{}] indices into cluster_state", newState.metadata().indices().size());
             // reset flag even though state recovery completed, to ensure that if we subsequently become leader again based on a
             // not-recovered state, that we again do another state recovery.
-            resetRecoveredFlags();
+            runAfter.run();
             rerouteService.reroute("state recovered", Priority.NORMAL, ActionListener.noop());
         }
 
@@ -239,7 +278,7 @@ public void onFailure(final Exception e) {
                 () -> "unexpected failure during [" + TASK_SOURCE + "]",
                 e
             );
-            resetRecoveredFlags();
+            runAfter.run();
         }
     }
 
@@ -248,10 +287,6 @@ TimeValue recoverAfterTime() {
         return recoverAfterTime;
     }
 
-    private void runRecovery() {
-        submitUnbatchedTask(TASK_SOURCE, new RecoverStateUpdateTask());
-    }
-
     @SuppressForbidden(reason = "legacy usage of unbatched task") // TODO add support for batching here
     private void submitUnbatchedTask(@SuppressWarnings("SameParameterValue") String source, ClusterStateUpdateTask task) {
         clusterService.submitUnbatchedStateUpdateTask(source, task);

diff --git a/server/src/test/java/org/elasticsearch/gateway/GatewayServiceTests.java b/server/src/test/java/org/elasticsearch/gateway/GatewayServiceTests.java
@@ -68,7 +68,7 @@ public void testDefaultRecoverAfterTime() {
 
     public void testRecoverStateUpdateTask() throws Exception {
         GatewayService service = createService(Settings.builder());
-        ClusterStateUpdateTask clusterStateUpdateTask = service.new RecoverStateUpdateTask();
+        ClusterStateUpdateTask clusterStateUpdateTask = service.new RecoverStateUpdateTask(() -> {});
         String nodeId = randomAlphaOfLength(10);
         DiscoveryNode masterNode = DiscoveryNode.createLocal(
             settings(IndexVersion.current()).put(masterNode()).build(),