roachtest: disk-stalled/wal-failover/among-stores failed #136355

cockroach-teamcity · 2024-11-28T11:23:49Z

Note: This build has runtime assertions enabled. If the same failure was hit in a run without assertions enabled, there should be a similar failure without this message. If there isn't one, then this failure is likely due to an assertion violation or (assertion) timeout.

roachtest.disk-stalled/wal-failover/among-stores failed with artifacts on release-24.2 @ fdb6c4cd2758a1b915e5815bce30dde3616b7ff9:

(disk_stall.go:154).runDiskStalledWALFailover: process exited unexpectedly
(cluster.go:2398).Run: context canceled
test artifacts and logs in: /artifacts/disk-stalled/wal-failover/among-stores/run_1

Parameters:

arch=amd64
cloud=gce
coverageBuild=false
cpu=16
encrypted=true
fs=ext4
localSSD=true
runtimeAssertionsBuild=true
ssd=2

Help

See: roachtest README

See: How To Investigate (internal)

See: Grafana

Same failure on other branches

roachtest: disk-stalled/wal-failover/among-stores failed #135983 roachtest: disk-stalled/wal-failover/among-stores failed [A-storage B-runtime-assertions-enabled C-test-failure O-roachtest O-robot T-storage branch-release-24.3]
roachtest: disk-stalled/wal-failover/among-stores failed #133804 roachtest: disk-stalled/wal-failover/among-stores failed [A-storage C-test-failure O-roachtest O-robot P-3 T-storage branch-release-24.1]
roachtest: disk-stalled/wal-failover/among-stores failed #131553 roachtest: disk-stalled/wal-failover/among-stores failed [A-storage C-test-failure O-roachtest O-robot P-3 T-storage branch-release-24.2.3-rc]
roachtest: disk-stalled/wal-failover/among-stores failed #129922 roachtest: disk-stalled/wal-failover/among-stores failed [A-storage C-test-failure O-roachtest O-robot P-3 T-storage branch-master]

/cc @cockroachdb/storage _{This test on roachdash | Improve this report!}

Jira issue: CRDB-44989

The text was updated successfully, but these errors were encountered:

itsbilal · 2024-12-05T17:40:08Z

F241128 10:28:51.424654 1042534 storage/pebble.go:1614 â‹® [n1,s1,pebble] 2432  disk stall detected: disk slowness detected: syncdata on file 006843.log has been ongoing for 60.7s

Same issue as #135983 where we spend more than the expected 30s in running the resume after the stall:

2024/11/28 10:27:49 cluster.go:2418: running cmd `sudo dmsetup suspend --nofl...` on nodes [:1]
2024/11/28 10:27:49 cluster.go:2420: details in run_102749.755490429_n1_sudo-dmsetup-suspend.log
2024/11/28 10:28:51 cluster.go:2418: running cmd `sudo dmsetup resume data1` on nodes [:1]
2024/11/28 10:28:51 cluster.go:2420: details in run_102851.487656511_n1_sudo-dmsetup-resume-.log

cockroach-teamcity · 2024-12-12T11:15:41Z

roachtest.disk-stalled/wal-failover/among-stores failed with artifacts on release-24.2 @ b953d44261553c714c996b500b3afc120d06cb5a:

(disk_stall.go:154).runDiskStalledWALFailover: process exited unexpectedly
(cluster.go:2398).Run: context canceled
test artifacts and logs in: /artifacts/disk-stalled/wal-failover/among-stores/run_1

Parameters:

arch=amd64
cloud=gce
coverageBuild=false
cpu=16
encrypted=false
fs=ext4
localSSD=true
runtimeAssertionsBuild=false
ssd=2

Help

See: roachtest README

See: How To Investigate (internal)

See: Grafana

Same failure on other branches

roachtest: disk-stalled/wal-failover/among-stores failed #136428 roachtest: disk-stalled/wal-failover/among-stores failed [A-storage C-test-failure O-roachtest O-robot T-storage branch-release-24.3.0-rc]
roachtest: disk-stalled/wal-failover/among-stores failed #135983 roachtest: disk-stalled/wal-failover/among-stores failed [A-storage B-runtime-assertions-enabled C-test-failure O-roachtest O-robot P-3 T-storage branch-release-24.3]
roachtest: disk-stalled/wal-failover/among-stores failed #133804 roachtest: disk-stalled/wal-failover/among-stores failed [A-storage C-test-failure O-roachtest O-robot P-3 T-storage branch-release-24.1]
roachtest: disk-stalled/wal-failover/among-stores failed #131553 roachtest: disk-stalled/wal-failover/among-stores failed [A-storage C-test-failure O-roachtest O-robot P-3 T-storage branch-release-24.2.3-rc]
roachtest: disk-stalled/wal-failover/among-stores failed #129922 roachtest: disk-stalled/wal-failover/among-stores failed [A-storage C-test-failure O-roachtest O-robot P-3 T-storage branch-master]

_{This test on roachdash | Improve this report!}

jbowens · 2024-12-12T17:33:36Z

From the latest:

2024/12/12 11:09:41 cluster.go:2418: running cmd `sudo dmsetup suspend --nofl...` on nodes [:1]
2024/12/12 11:09:41 cluster.go:2420: details in run_110941.345492352_n1_sudo-dmsetup-suspend.log
2024/12/12 11:10:51 cluster.go:2418: running cmd `sudo dmsetup resume data1` on nodes [:1]
2024/12/12 11:10:51 cluster.go:2420: details in run_111051.362137662_n1_sudo-dmsetup-resume-.log

I don't understand how we're waiting 1m10s to unstall the drive.

jbowens · 2024-12-12T20:08:10Z

2024/12/12 10:50:27 disk_stall.go:120: test status: pausing 9m13.00163258s before next simulated disk stall on n1
2024/12/12 10:51:54 disk_stall.go:120: test status: pausing 7m45.927980773s before next simulated disk stall on n1
2024/12/12 10:52:55 disk_stall.go:120: test status: pausing 6m45.017319747s before next simulated disk stall on n1
2024/12/12 10:53:55 disk_stall.go:120: test status: pausing 5m45.013785091s before next simulated disk stall on n1
2024/12/12 10:54:56 disk_stall.go:120: test status: pausing 4m44.007206021s before next simulated disk stall on n1
2024/12/12 10:55:57 disk_stall.go:120: test status: pausing 3m43.004393167s before next simulated disk stall on n1
2024/12/12 10:57:08 disk_stall.go:120: test status: pausing 2m32.101525933s before next simulated disk stall on n1
2024/12/12 10:58:08 disk_stall.go:120: test status: pausing 1m32.017502862s before next simulated disk stall on n1
2024/12/12 10:59:08 disk_stall.go:120: test status: pausing 32.009286837s before next simulated disk stall on n1
2024/12/12 10:59:41 cluster.go:2418: running cmd `sudo dmsetup suspend --nofl...` on nodes [:1]
2024/12/12 10:59:41 cluster.go:2420: details in run_105941.339794742_n1_sudo-dmsetup-suspend.log
2024/12/12 11:00:11 cluster.go:2418: running cmd `sudo dmsetup resume data1` on nodes [:1]
2024/12/12 11:00:11 cluster.go:2420: details in run_110011.357222994_n1_sudo-dmsetup-resume-.log
2024/12/12 11:00:11 disk_stall.go:120: test status: pausing 9m58.994510517s before next simulated disk stall on n1
2024/12/12 11:01:12 disk_stall.go:120: test status: pausing 8m28.992463719s before next simulated disk stall on n1
2024/12/12 11:02:26 disk_stall.go:120: test status: pausing 7m14.723282699s before next simulated disk stall on n1
2024/12/12 11:03:27 disk_stall.go:120: test status: pausing 6m13.996563342s before next simulated disk stall on n1
2024/12/12 11:05:09 disk_stall.go:120: test status: pausing 4m31.769474073s before next simulated disk stall on n1
2024/12/12 11:06:10 disk_stall.go:120: test status: pausing 3m30.989524721s before next simulated disk stall on n1
2024/12/12 11:08:08 disk_stall.go:120: test status: pausing 1m32.935923396s before next simulated disk stall on n1
2024/12/12 11:09:09 disk_stall.go:120: test status: pausing 31.985847956s before next simulated disk stall on n1

Even between the log statements there's sometimes >1m pauses. I'm very confused where these pauses are coming from. They seem excessively long to be scheduling latency.

github-project-automation bot added this to [Deprecated] Storage Nov 28, 2024

blathers-crl bot added the A-storage Relating to our storage engine (Pebble) on-disk storage. label Nov 28, 2024

github-project-automation bot moved this to Incoming in [Deprecated] Storage Nov 28, 2024

cockroach-teamcity mentioned this issue Nov 30, 2024

roachtest: disk-stalled/wal-failover/among-stores failed #136428

Closed

exalate-issue-sync bot assigned itsbilal Dec 3, 2024

This was referenced Dec 5, 2024

roachtest: disk-stalled/wal-failover/among-stores failed #129922

Open

roachtest: disk-stalled/wal-failover/among-stores failed #135983

Open

itsbilal assigned jbowens and unassigned itsbilal Dec 5, 2024

itsbilal removed the release-blocker Indicates a release-blocker. Use with branch-release-2x.x label to denote which branch is blocked. label Dec 5, 2024

cockroach-teamcity mentioned this issue Dec 18, 2024

roachtest: disk-stalled/wal-failover/among-stores failed #133804

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

roachtest: disk-stalled/wal-failover/among-stores failed #136355

roachtest: disk-stalled/wal-failover/among-stores failed #136355

cockroach-teamcity commented Nov 28, 2024 •

edited by cockroach-jira-scripts

Loading

itsbilal commented Dec 5, 2024

cockroach-teamcity commented Dec 12, 2024

jbowens commented Dec 12, 2024

jbowens commented Dec 12, 2024

roachtest: disk-stalled/wal-failover/among-stores failed #136355

roachtest: disk-stalled/wal-failover/among-stores failed #136355

Comments

cockroach-teamcity commented Nov 28, 2024 • edited by cockroach-jira-scripts Loading

itsbilal commented Dec 5, 2024

cockroach-teamcity commented Dec 12, 2024

jbowens commented Dec 12, 2024

jbowens commented Dec 12, 2024

cockroach-teamcity commented Nov 28, 2024 •

edited by cockroach-jira-scripts

Loading