常用 Grafana 查询

Grafana 中用于监控 Kueue 的常用 PromQL 查询。

此页面向你展示如何使用常见的 PromQL 查询在 Grafana 中监控 Kueue 指标。

此页面的目标读者为批处理管理员

开始之前

确保满足以下条件:

配额利用率

要监控 ClusterQueue 中正在使用的 CPU 配额百分比:

(sum by (cluster_queue) (kueue_cluster_queue_resource_usage{resource="cpu"}))
/
(sum by (cluster_queue) (kueue_cluster_queue_nominal_quota{resource="cpu"}))
* 100

查看 ClusterQueue 中按资源划分的利用率:

(sum by (cluster_queue, resource) (kueue_cluster_queue_resource_usage))
/
(sum by (cluster_queue, resource) (kueue_cluster_queue_nominal_quota))
* 100

查看 ClusterQueue 中过去一周的平均 CPU 配额利用率:

avg_over_time(
  (
    (sum by (cluster_queue) (kueue_cluster_queue_resource_usage{resource="cpu"}))
    /
    (sum by (cluster_queue) (kueue_cluster_queue_nominal_quota{resource="cpu"}))
    * 100
  )[1w:1h]
)

找出 CPU 利用率排名前 5 的集群队列:

topk(5,
  (sum by (cluster_queue) (kueue_cluster_queue_resource_usage{resource="cpu"}))
  /
  (sum by (cluster_queue) (kueue_cluster_queue_nominal_quota{resource="cpu"}))
  * 100
)

待处理的工作负载

要监控每个 ClusterQueue 的待处理工作负载数量:

sum by (cluster_queue) (kueue_pending_workloads{status="active"})

要查看每个 ClusterQueue 的活动和不可受理的待处理工作负载:

sum by (cluster_queue, status) (kueue_pending_workloads)

准入等待时间

要监控工作负载在准入前的等待时间,请使用直方图百分位查询。

对于第 95 百分位(P95)的准入等待时间:

histogram_quantile(0.95,
  sum by (le, cluster_queue) (
    rate(kueue_admission_wait_time_seconds_bucket[5m])
  )
)

第 50 百分位数(中位数):

histogram_quantile(0.50,
  sum by (le, cluster_queue) (
    rate(kueue_admission_wait_time_seconds_bucket[5m])
  )
)

对于第 99 百分位数 (P99):

histogram_quantile(0.99,
  sum by (le, cluster_queue) (
    rate(kueue_admission_wait_time_seconds_bucket[5m])
  )
)

工作负载吞吐量

要监控每小时允许的工作负载数量:

sum by (cluster_queue) (
  increase(kueue_admitted_workloads_total[1h])
)

监控每小时完成的工作量:

sum by (cluster_queue) (
  increase(kueue_finished_workloads_total[1h])
)

查看一段时间内的接收率(每分钟工作量):

sum by (cluster_queue) (
  rate(kueue_admitted_workloads_total[5m])
) * 60

驱逐率

按原因监测每小时的驱逐数量:

sum by (cluster_queue, reason) (
  increase(kueue_evicted_workloads_total[1h])
)

请参阅 Prometheus 指标获取完整的 reason 标签值列表。

集群队列状态

要查看哪些集群队列处于活动状态:

kueue_cluster_queue_status{status="active"} == 1

要查看未激活(待处理或正在终止)的集群队列:

kueue_cluster_queue_status{status!="active"} == 1

下一步