Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Update metrics #1528

Merged
merged 3 commits into from
Mar 8, 2022
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
125 changes: 119 additions & 6 deletions docs-2.0/6.monitor-and-metrics/1.query-performance-metrics.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,25 +2,25 @@

Nebula Graph 支持多种方式查询服务的监控指标,本文将介绍最基础的方式,即通过 HTTP 端口查询。

## 监控指标说明
## 监控指标结构说明

Nebula Graph 的每个监控指标都由三个部分组成,中间用英文句号(.)隔开,例如`num_queries.sum.600`。不同的 Nebula Graph 服务支持查询的监控指标也不同。指标结构的说明如下。

|类别|示例|说明|
|:---|:---|:---|
|指标名称|`num_queries`|简单描述指标的含义。详情参见[监控指标说明](../nebula-dashboard/6.monitor-parameter.md)|
|统计类型|`sum`|指标统计的方法。当前支持 SUM、COUNT、AVG、RATE 和 P 分位数(P75、P95、P99、P99.9)。|
|指标名称|`num_queries`|简单描述指标的含义。|
|统计类型|`sum`|指标统计的方法。当前支持 SUM、AVG、RATE 和 P 分位数(P75、P95、P99、P999)。|
|统计时间|`600`|指标统计的时间范围,当前支持 5 秒、60 秒、600 秒和 3600 秒,分别表示最近 5 秒、最近 1 分钟、最近 10 分钟和最近 1 小时。|

### 图空间监控指标

Graph 服务支持一系列基于图空间的监控指标(Space Level Metrics),对不同图空间的数据分别记录。

图空间指标的名称中以`{space=space_name}`的形式包含图空间名,例如`query_latency_us{space=basketballplayer}.avg.3600`

如需开启图空间监控指标,先在 Graph 服务的配置文件中将`enable_space_level_metrics`参数的值修改为`true`,再启动 Nebula Graph。修改配置的详细方式参见[配置管理](../5.configurations-and-logs/1.configurations/1.configurations.md)

支持的图空间指标可根据下方的说明用 `curl` 命令查询。
!!! note

图空间指标只能通过查询所有监控指标的形式查询到,例如`curl -G "http://192.168.8.40:19559/stats"`,返回结果中以`{space=space_name}`的形式包含图空间名称,例如`num_active_queries{space=basketballplayer}.sum.5=0`。

## 通过 HTTP 端口查询监控指标

Expand Down Expand Up @@ -101,4 +101,117 @@ curl -G "http://<ip>:<port>/stats?stats=<metric_name_list> [&format=json]"
num_heartbeats.sum.60=40
num_heartbeats.sum.600=394
num_heartbeats.sum.3600=2364
...
```

## 监控指标说明

### Graph

| 参数 | 说明 |
| ---------------------------------------------- | ----------------------------------------- |
| `num_active_queries` | 当前正在执行的查询数。 |
| `num_active_sessions` | 当前活跃的会话数量。 |
| `num_aggregate_executors` | 聚合(Aggregate)算子执行时间。 |
| `num_auth_failed_sessions_bad_username_password` | 因用户名密码错误导验证失败的会话数量。 |
| `num_auth_failed_sessions_out_of_max_allowed` | 因为超过`FLAG_OUT_OF_MAX_ALLOWED_CONNECTIONS`参数导致的验证登录的失败的 session 数量。|
| `num_auth_failed_sessions` | 登录验证失败的会话数量。 |
| `num_indexscan_executors` | 索引扫描(IndexScan)算子执行时间。 |
| `num_killed_queries` | 被终止的查询数量。 |
| `num_opened_sessions` | 服务端建立过的会话数量。 |
| `num_queries` | 查询次数。 |
| `num_query_errors_leader_changes` | 因查询错误而导致的 Leader 变更的次数。 |
| `num_query_errors` | 查询错误次数。 |
| `num_reclaimed_expired_sessions` | 服务端主动回收的过期的会话数量。 |
| `num_rpc_sent_to_metad_failed` | Graphd 服务发给 Metad 的 RPC 请求失败的数量。 |
| `num_rpc_sent_to_metad` | Graphd 服务发给 Metad 服务的 RPC 请求数量。 |
| `num_rpc_sent_to_storaged_failed` | Graphd 服务发给 Storaged 服务的 RPC 请求失败的数量。 |
| `num_rpc_sent_to_storaged` | Graphd 服务发给 Storaged 服务的 RPC 请求数量。 |
| `num_sentences` | Graphd 服务接收的语句数。 |
| `num_slow_queries` | 慢查询次数。 |
| `num_sort_executors` | 排序(Sort)算子执行时间。 |
| `optimizer_latency_us` | 优化器阶段延迟时间。 |
| `query_latency_us` | 查询平均延迟时间。 |
| `slow_query_latency_us` | 慢查询平均延迟时间。 |
| `num_queries_hit_memory_watermark` | 达到内存水位线的语句的数量。 |

### Meta

| 参数 | 说明 |
| -------------------------- | ----------------------------------- |
| `commit_log_latency_us` | Raft 协议中 Commit 日志的延迟时间。 |
| `commit_snapshot_latency_us` | Raft 协议中 Commit 快照的延迟时间。 |
| `heartbeat_latency_us` | 心跳延迟时间。 |
| `num_heartbeats` | 心跳次数。 |
| `num_raft_votes` | Raft 协议中投票的次数。 |
| `transfer_leader_latency_us` | Raft 协议中转移 Leader 的延迟时间。 |
| `num_agent_heartbeats` | AgentHBProcessor 心跳次数。|
| `agent_heartbeat_latency_us` | AgentHBProcessor 延迟时间。|

### Storage

| 参数 | 说明 |
| ---------------------------- | --------------------------------------------------- |
| `add_edges_atomic_latency_us` | 添加边单次延迟。 |
| `add_edges_latency_us` | 添加边的平均延迟时间。 |
| `add_vertices_latency_us` | 添加点的平均延迟时间。 |
| `commit_log_latency_us` | Raft 协议中 Commit 日志的延迟时间。 |
| `commit_snapshot_latency_us` | Raft 协议中 Commit 快照的延迟时间。 |
| `delete_edges_latency_us` | 删除边的平均延迟时间。 |
| `delete_vertices_latency_us` | 删除点的平均延迟时间。 |
| `get_neighbors_latency_us` | 查询邻居平均延迟时间。 |
| `num_get_prop` | GetPropProcessor 执行的次数。 |
| `num_get_neighbors_errors` | GetNeighborsProcessor 执行出错的次数。 |
| `get_prop_latency_us` | GetPropProcessor 执行的延迟时间。|
| `num_edges_deleted` | 删除的边数量。 |
| `num_edges_inserted` | 插入的边数量。 |
| `num_raft_votes` | Raft 协议中投票的次数。 |
| `num_rpc_sent_to_metad_failed` | Storaged 服务发给 Metad 服务的 RPC 请求失败的数量。 |
| `num_rpc_sent_to_metad` | Storaged 服务发给 Metad 服务的 RPC 请求数量。 |
| `num_tags_deleted` | 删除的 Tag 数量。 |
| `num_vertices_deleted` | 删除的点数量。 |
| `num_vertices_inserted` | 插入的点数量。 |
| `transfer_leader_latency_us` | Raft 协议中转移 Leader 的延迟时间。 |
| `lookup_latency_us` | LookupProcessor 执行的延迟时间。 |
| `num_lookup_errors` | LookupProcessor 执行时出错的次数。|
| `num_scan_vertex` | ScanVertexProcessor 执行的次数。|
| `num_scan_vertex_errors` | ScanVertexProcessor 执行时出错的次数。|
| `update_edge_latency_us` | UpdateEdgeProcessor 执行的延迟时间。|
| `num_update_vertex` | UpdateVertexProcessor 执行的次数。|
| `num_update_vertex_errors` | UpdateVertexProcessor 执行时出错的次数。|
| `kv_get_latency_us` | Getprocessor 的延迟时间。|
| `kv_put_latency_us` | PutProcessor 的延迟时间。|
| `kv_remove_latency_us` | RemoveProcessor 的延迟时间。|
| `num_kv_get_errors` | GetProcessor 执行出错次数。|
| `num_kv_get` | GetProcessor 执行次数。|
| `num_kv_put_errors` | PutProcessor 执行出错次数。|
| `num_kv_put` | PutProcessor 执行次数。|
| `num_kv_remove_errors` | RemoveProcessor 执行出错次数。|
| `num_kv_remove` | RemoveProcessor 执行次数。|

### 图空间级别监控指标

| 参数 | 说明 |
| ---------------------------------------------- | ----------------------------------------- |
| `num_active_queries` | 当前正在执行的查询数。 |
| `num_queries` | 查询次数。 |
| `num_sentences` | Graphd 服务接收的语句数。 |
| `optimizer_latency_us` | 优化器阶段延迟时间。 |
| `query_latency_us` | 查询平均延迟时间。 |
| `num_slow_queries` | 慢查询次数。 |
| `num_query_errors` | 查询报错语句数量。|
| `num_query_errors_leader_changes` | 因查询错误而导致的 Leader 变更的次数。 |
| `num_killed_queries` | 被终止的查询数量。 |
| `num_aggregate_executors` | 聚合(Aggregate)算子执行时间。 |
| `num_sort_executors` | 排序(Sort)算子执行时间。 |
| `num_indexscan_executors` | 索引扫描(IndexScan)算子执行时间。 |
| `num_oom_queries` | 导致内存耗尽的语句数量。|