Add NGINX reload counters #1049

ciarams87 · 2023-09-12T12:17:17Z

Proposed changes

Problem: As an operator of an environment running NKG
I want to track the total number of NGINX reloads and failures for NGINX processes across my environment
So that I can correlate availability issues with excessive NGINX reloads or failures
And so that I can let the NKG know when reloads become a problem.

Solution: Total NGINX reloads and failed reloads are counted and reported via a Prometheus endpoint as a counter.
Also included reload duration histogram and a stale config gauge.

Testing: Manual testing with metrics enabled and disabled. Confirmed that reloads reported = HUP signals observed in the NGINX logs = config version reported in the version endpoint. Example output:

<...>
# HELP nginx_kubernetes_gateway_nginx_reload_errors_total Number of unsuccessful NGINX reloads
# TYPE nginx_kubernetes_gateway_nginx_reload_errors_total counter
nginx_kubernetes_gateway_nginx_reload_errors_total{class="nginx"} 0
# HELP nginx_kubernetes_gateway_nginx_reloads_milliseconds Duration in milliseconds of NGINX reloads
# TYPE nginx_kubernetes_gateway_nginx_reloads_milliseconds histogram
nginx_kubernetes_gateway_nginx_reloads_milliseconds_bucket{class="nginx",le="500"} 2
nginx_kubernetes_gateway_nginx_reloads_milliseconds_bucket{class="nginx",le="1000"} 2
nginx_kubernetes_gateway_nginx_reloads_milliseconds_bucket{class="nginx",le="5000"} 2
nginx_kubernetes_gateway_nginx_reloads_milliseconds_bucket{class="nginx",le="10000"} 2
nginx_kubernetes_gateway_nginx_reloads_milliseconds_bucket{class="nginx",le="30000"} 2
nginx_kubernetes_gateway_nginx_reloads_milliseconds_bucket{class="nginx",le="+Inf"} 2
nginx_kubernetes_gateway_nginx_reloads_milliseconds_sum{class="nginx"} 231
nginx_kubernetes_gateway_nginx_reloads_milliseconds_count{class="nginx"} 2
# HELP nginx_kubernetes_gateway_nginx_reloads_total Number of successful NGINX reloads
# TYPE nginx_kubernetes_gateway_nginx_reloads_total counter
nginx_kubernetes_gateway_nginx_reloads_total{class="nginx"} 2
# HELP nginx_kubernetes_gateway_nginx_stale_config Indicates if NGINX is not serving the latest configuration.
# TYPE nginx_kubernetes_gateway_nginx_stale_config gauge
nginx_kubernetes_gateway_nginx_stale_config{class="nginx"} 0
<...>

Closes #887

Checklist

Before creating a PR, run through this checklist and mark each as complete.

I have read the CONTRIBUTING doc
I have added tests that prove my fix is effective or that my feature works
I have checked that all unit tests pass after adding my changes
I have updated necessary documentation
I have rebased my branch onto main
I will ensure my PR is targeting the main branch and pulling from my branch from my own fork

internal/mode/static/metrics/collector.go

pleshakov

Do we want to report a reload error on every stage of where a reload could fail (e.g. - no main process found, can't get child process file, HUP signal fails, no new processes, no new config version), or something different?

I think that would be too much granularity.

docs/monitoring.md

internal/mode/static/metrics/collector.go

internal/mode/static/manager.go

internal/mode/static/metrics/collector.go

internal/mode/static/nginx/runtime/manager.go

internal/mode/static/metrics/collector.go

pleshakov

👍

github-actions bot added documentation Improvements or additions to documentation enhancement New feature or request labels Sep 12, 2023

bjee19 reviewed Sep 12, 2023

View reviewed changes

internal/mode/static/metrics/collector.go Outdated Show resolved Hide resolved

pleshakov reviewed Sep 12, 2023

View reviewed changes

docs/monitoring.md Outdated Show resolved Hide resolved

docs/monitoring.md Outdated Show resolved Hide resolved

internal/mode/static/metrics/collector.go Outdated Show resolved Hide resolved

ciarams87 force-pushed the feat/reload-metrics branch from 5c36d4d to 46614a5 Compare September 15, 2023 08:49

ciarams87 marked this pull request as ready for review September 15, 2023 09:04

ciarams87 requested a review from a team as a code owner September 15, 2023 09:04

sjberman approved these changes Sep 15, 2023

View reviewed changes

bjee19 approved these changes Sep 15, 2023

View reviewed changes

ciarams87 requested a review from pleshakov September 18, 2023 08:49

ciarams87 force-pushed the feat/reload-metrics branch from 46614a5 to c00d784 Compare September 18, 2023 16:16

kate-osborn reviewed Sep 18, 2023

View reviewed changes

internal/mode/static/manager.go Outdated Show resolved Hide resolved

pleshakov reviewed Sep 18, 2023

View reviewed changes

ciarams87 force-pushed the feat/reload-metrics branch from c00d784 to cdb7cc5 Compare September 19, 2023 15:35

ciarams87 requested review from kate-osborn and pleshakov September 19, 2023 15:45

pleshakov approved these changes Sep 19, 2023

View reviewed changes

ciarams87 added 3 commits September 19, 2023 22:06

Add NGINX reload counters

8f2a113

Move interface, change metric names and types

a34977a

Renaming and other review feedback

46fc72f

ciarams87 force-pushed the feat/reload-metrics branch from cdb7cc5 to 46fc72f Compare September 19, 2023 21:06

kate-osborn approved these changes Sep 19, 2023

View reviewed changes

ciarams87 merged commit f55c94e into nginxinc:main Sep 19, 2023

ciarams87 deleted the feat/reload-metrics branch September 19, 2023 21:16

sjberman mentioned this pull request Sep 21, 2023

Failed NGINX Reloads Metric #998

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add NGINX reload counters #1049

Add NGINX reload counters #1049

ciarams87 commented Sep 12, 2023 •

edited

Loading

pleshakov left a comment

pleshakov left a comment

Add NGINX reload counters #1049

Add NGINX reload counters #1049

Conversation

ciarams87 commented Sep 12, 2023 • edited Loading

Proposed changes

Checklist

pleshakov left a comment

Choose a reason for hiding this comment

pleshakov left a comment

Choose a reason for hiding this comment

ciarams87 commented Sep 12, 2023 •

edited

Loading