CloudWatchのdisk_used_percentが異常な値を返す

実現したいこと

CloudWatchのダッシュボード画面で、現在稼働中のEC2インスタンスのディスク使用率（disk_used_percent）のグラフを表示したい

前提

複数のEC2インスタンスを同時に稼働させています。
全てのインスタンスにcloudwatch-agentをインストールしています。全て、amazon-cloudwatch-agent-config-wizardを用いて、ログ設定以外すべての設定をデフォルトのまま設定しました（念のためconfig.jsonの内容も追記します）

しかしCloudWatchのダッシュポートで実際に表示されるグラフは、見た目が明らかにおかしく、また数値も実際のディスク使用率と大きくかけ離れているようです。

発生している問題・エラーメッセージ

御存知の通り、サーバーはjournalctlなどでログが蓄積していくはずなのですが、グラフではディスク使用量の漸増は見られません。一定のグラフに鳴るだけです。
サンプル数も確認しましたが、他のメトリクスでは5が標準になっているのに対し、こちらは75が標準になっています。
また、mem_used_percentも同時にグラフとして表示していますが、そちらの値はfreeコマンドの結果とほぼ似ており正常であると考えます。

これは１台分のデータですが、これも含めて３台分のEC2インスタンスで同様の症状が発生しています。それぞれdisk_used_percentの値は微妙に異なりますが、いずれも55～59の範囲内におさまり続けています。

（追記）グラフでは50%を越えた程度になっていますが、実際の使用率は以下のとおりです。

ubuntu@ip-******:~$ df -h
Filesystem       Size  Used Avail Use% Mounted on
/dev/root        7.6G  2.9G  4.8G  38% /
tmpfs            926M     0  926M   0% /dev/shm
tmpfs            371M  992K  370M   1% /run
tmpfs            5.0M     0  5.0M   0% /run/lock
/dev/nvme0n1p15   98M  6.3M   92M   7% /boot/efi
tmpfs            186M  4.0K  186M   1% /run/user/1000

該当のソースコード

{
        "agent": {
                "metrics_collection_interval": 60,
                "run_as_user": "root"
        },
        "logs": {
                "logs_collected": {
                        "files": {
                                "collect_list": [
                                        {
                                                "file_path": "",
                                                "log_group_name": ".",
                                                "log_stream_name": "{instance_id}",
                                                "retention_in_days": -1
                                        }
                                ]
                        }
                }
        },
        "metrics": {
                "aggregation_dimensions": [
                        [
                                "InstanceId"
                        ]
                ],
                "append_dimensions": {
                        "AutoScalingGroupName": "${aws:AutoScalingGroupName}",
                        "ImageId": "${aws:ImageId}",
                        "InstanceId": "${aws:InstanceId}",
                        "InstanceType": "${aws:InstanceType}"
                },
                "metrics_collected": {
                        "collectd": {
                                "metrics_aggregation_interval": 60
                        },
                        "disk": {
                                "measurement": [
                                        "used_percent"
                                ],
                                "metrics_collection_interval": 60,
                                "resources": [
                                        "*"
                                ]
                        },
                        "mem": {
                                "measurement": [
                                        "mem_used_percent"
                                ],
                                "metrics_collection_interval": 60
                        },
                        "statsd": {
                                "metrics_aggregation_interval": 60,
                                "metrics_collection_interval": 10,
                                "service_address": ":8125"
                        }
                }
        }
}

以下にtomlファイルを示しますが、i-**********となっている部分は、当該インスタンスのIDと一致していることを確認済です。

[agent]
  collection_jitter = "0s"
  debug = false
  flush_interval = "1s"
  flush_jitter = "0s"
  hostname = ""
  interval = "60s"
  logfile = "/opt/aws/amazon-cloudwatch-agent/logs/amazon-cloudwatch-agent.log"
  logtarget = "lumberjack"
  metric_batch_size = 1000
  metric_buffer_limit = 10000
  omit_hostname = false
  precision = ""
  quiet = false
  round_interval = false

[inputs]

  [[inputs.disk]]
    fieldpass = ["used_percent"]
    interval = "60s"
    tagexclude = ["mode"]
    [inputs.disk.tags]
      metricPath = "metrics"

  [[inputs.logfile]]
    destination = "cloudwatchlogs"
    file_state_folder = "/opt/aws/amazon-cloudwatch-agent/logs/state"

    [[inputs.logfile.file_config]]
      file_path = ""
      from_beginning = true
      log_group_name = "."
      log_stream_name = "i-**********"
      pipe = false
      retention_in_days = -1
    [inputs.logfile.tags]
      metricPath = "logs"

  [[inputs.mem]]
    fieldpass = ["used_percent"]
    interval = "60s"
    [inputs.mem.tags]
      metricPath = "metrics"

  [[inputs.socket_listener]]
    collectd_auth_file = "/etc/collectd/auth_file"
    collectd_security_level = "encrypt"
    collectd_typesdb = ["/usr/share/collectd/types.db"]
    data_format = "collectd"
    name_prefix = "collectd_"
    service_address = "udp://127.0.0.1:25826"
    [inputs.socket_listener.tags]
      "aws:AggregationInterval" = "60s"
      metricPath = "metrics"

  [[inputs.statsd]]
    interval = "10s"
    parse_data_dog_tags = true
    service_address = ":8125"
    [inputs.statsd.tags]
      "aws:AggregationInterval" = "60s"
      metricPath = "metrics"

[outputs]

  [[outputs.cloudwatch]]
    force_flush_interval = "60s"
    namespace = "CWAgent"
    region = "ap-northeast-1"
    rollup_dimensions = [["InstanceId"]]
    tagexclude = ["host", "metricPath"]
    [outputs.cloudwatch.tagpass]
      metricPath = ["metrics"]

  [[outputs.cloudwatchlogs]]
    force_flush_interval = "5s"
    log_stream_name = "i-**********"
    region = "ap-northeast-1"
    tagexclude = ["metricPath"]
    [outputs.cloudwatchlogs.tagpass]
      metricPath = ["logs"]

[processors]

  [[processors.ec2tagger]]
    ec2_instance_tag_keys = ["aws:autoscaling:groupName"]
    ec2_metadata_tags = ["ImageId", "InstanceId", "InstanceType"]
    refresh_interval_seconds = "0s"
    [processors.ec2tagger.tagpass]
      metricPath = ["metrics"]

試したこと

３台あるうちの１台において、amazon-cloudwatch-agentの再起動、ウィザード設定の再実施を行いましたが、状況は改善されませんでした。

補足情報（FW/ツールのバージョンなど）

インスタンスタイプはARM版のものを使用しています。２台はt4g系（t4g.mediun、t4g.small）、１台はc6g系（c6g.medium）になります。

インスタンスのOSはすべてUbuntu 22.04です。amazon-cloudwatch-agentのインストールは、以下のサイトを読んで行いました。

https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Agent-commandline-fleet.html

ダウンロードリンクはhttps://s3.amazonaws.com/amazoncloudwatch-agent/ubuntu/arm64/latest/amazon-cloudwatch-agent.debを使用しています。

yu_1985

2023/03/08 09:42

感覚的に特におかしくもないと思いますが…。アプリケーションやらWEBサーバーやらのログでガッツリ増えているとかでなければそんなもんでは？あとそのメトリクスでわかるのは「使用量」ではなく「使用率」なので、実際のディスクのサイズがわからないとその考察が妥当なのか判断できません。極端な話、例えばディスクがTBオーダーだったら数GB変化したとて無風です。

askyq

2023/03/08 09:51

こちらの表現に誤りがあり申し訳ありません。「使用率」であり0～100の範囲で変動することは認識していましたが、文章が間違っていました。ディスクサイズは、３台のうち２つは`8GB`で、もう１つは`10GB`です。グラフ画像を出したものは`8GB`のインスタンスです。また、`df -h`の結果も追記しました。

yu_1985

2023/03/08 12:19

少なくとも自分の環境ではそうはなりませんが…。これはCloudWatchのどこで確認しているのでしょうか。複数のインスタンスの複数のディスクのメトリクスをまとめたものか、あるいは別のデバイスのものを表示していませんか？ダッシュボードではなく「すべてのメトリクス」からメトリクスをたどっていったらどうなりますか。

askyq

2023/03/08 12:26

CloudWatchの左側メニュー「すべてのメトリクス」からTokyoリージョンの「すべて＞CWAgent＞InstanceId」の順にたどり、当該インスタンスのdisk_used_percentを表示しましたが、画像と同じグラフでした。この投稿にあげていた画像はCloudWatchのダッシュボードの「エクスプローラー」から、当該インスタンスのNameタグで絞り込んだものになります。

yu_1985

2023/03/08 13:57

インスタンスだけでなく、ディスク内のファイルシステム等でも絞り込めませんか？

askyq

2023/03/08 14:12

すべて＞CWAgent　の配下には以下の３つがあります。・（１）ImageId,InstanceId,InstanceType,device,fstype,path（５１件）・（２）ImageId,InstanceId,InstanceType（３件）・（３）InstanceId（６件）（３）は上のコメントでも紹介しましたが、３台のインスタンスのmem_used_percent、disk_used_percentがあります。（２）はmem_used_percentしかありません。（１）は１つのインスタンスにつき１７件あり、それぞれdevice、fstypeが異なります。試しに「device=nvme0n1p1」「fstype=ext4」のものを確認したところ、期待していたグラフが表示されました。見るところを間違えていたようで、たいへんお騒がせしました。アドバイスくださりありがとうございます。

行動規範の内容に同意します

回答1件

自己解決

質問へのコメントで yu_1985 様にご指摘いただいた通り、disk_used_percentは全てのファイルシステムについて情報を送信していました。
私のダッシュボードの設定では、全てのファイルシステムの数値が全部まとめられて、サンプル数が75となってしまっていました。

ただ今回は、これだけ多くのファイルシステムの情報はいらないし、CloudWatchで課金が発生している状況でもあります。なのでconfig.jsonの以下を修正することで対処しました。
下記は抜粋ですが、disk.resourcesを*から/に変更しています。

config.json（抜粋）
1                        "disk": {
2                                "measurement": [
3                                        "used_percent"
4                                ],
5                                "metrics_collection_interval": 60,
6                                "resources": [
7                                        "/"
8                                ]
9                        },