クラウド監視の定義

クラウド監視とは、クラウドテナント内のワークロードを特定のメトリックやしきい値に対して、測定、評価、監視、管理するプラクティスです。クラウド監視は、手動または自動のツールを使用して、クラウドが完全に利用可能で適切に動作していることを確認します。

クラウド監視を使用すると、クラウドでホストされているアプリケーションがサービスレベルアグリーメント (SLA) に準じて機能しているかどうかの確認、潜在的なセキュリティリスクの検出、容量の問題の特定、コスト分析を行うことができます。

監視する必要があるクラウドサービスは?

この質問に端的にお答えすると、使用しているすべてのサービスを監視すべきです。組織は、次のようなさまざまな種類のクラウドサービスを使用しています。

提供される監視情報の量は、プラットフォームやサービスごとに異なります。

クラウド監視の仕組み

ほとんどのクラウドベンダーは、独自の監視サービスを提供しています。例えば、Amazon CloudWatchとCloudWatch Logsは、ほとんどのAWSサービスについてインサイトを提供しています。同様に、GCPにはGoogle Cloud Operations Suiteがあり、AzureにはAzure Monitorがあります。DigitalOceanなどの他のクラウドサービスは、いくつかの基本的なメトリックを提供し、Snowflakeは関連するクエリプランとともにクエリログを表示します。

企業にマルチクラウドが展開されている場合、異なるクラウドプロバイダーの複数のアカウントで数百のワークロードが実行され、さらにクラウドアカウントごとにサービスメトリックとログが公開されている可能性があります。

問題の根本原因を探しながら、何百万行ものログ、メトリック、トレース、イベントを収集、集計、インデックス化、検索することは、不可能な作業のように感じられるでしょう。しかし、新しいプラットフォームでは、すべてのクラウドとの接触点からログとメトリックを収集し、関連する情報のみを抽出して、フォーマットを標準化し、効率的に検索できるように管理者権限を使用してインデックスを作成できます。これらのプラットフォームでは、インテリジェントな傾向分析、異常検知、ダッシュボードを通じて、マルチクラウドアプリケーションの全体像を表示することができます。

パブリッククラウド、プライベートクラウド、ハイブリッドクラウドでの監視

組織がパブリッククラウドに依存している場合、クラウド監視は必須です。パブリッククラウドが提供する可視性ははるかに低く、それだけでは監視が困難です。適切なツールがあれば、組織はエンドユーザーエクスペリエンスやリソース消費などに関する重要なデータを収集することができます。

プライベートクラウドアーキテクチャの監視は最も簡単です。オンプレミスインフラストラクチャでは、制御と可視性が提供されます。簡単に監視できるとはいえ、さらに適切なツールを使用すれば、組織に必要な変更を特定する際に役立つメトリックを常に把握できます。

ハイブリッドクラウド環境には、独特な問題があります。この環境では、データが複数のアーキテクチャに残るため、データにアクセスする際に、セキュリティとコンプライアンスの問題が生じます。クラウド監視は、管理者がデータをより管理しやすい部分に分割しながら、さまざまなクラウドにどのデータを保存するかを決定する際に役立ちます。

詳細

プライベートクラウドとパブリッククラウドを比較した当社の投稿を読んで違いをより深く理解し、どちらが自身の組織に適しているかをご確認ください。読む:プライベートクラウドとパブリッククラウドの比較

クラウド監視の利点

クラウド監視はオブザーバビリティの一部であり、システムの出力を調べてその内部状態を理解するプラクティスです。現代のITでは、企業はオブザーバビリティを使用して、複雑な分散アプリケーションの正常性についての全体像を把握しています。

企業はワークロードの一部(またはすべて)をクラウドで実行する可能性があるため、クラウド監視は自社の全体的なオブザーバビリティ戦略にとって重要です。とはいえ、クラウド監視は主にメトリックとログに焦点を当てたものです。ここでは、クラウド監視が組織にもたらす主な利点をいくつか紹介します。

コストの最適化

クラウドフットプリントを監視することで、リソース使用率を追跡し、そこからコストを最適化できます。例えば、監視の結果、クラウドベースのVMが営業時間中にのみフル稼働していることがわかった場合、営業時間外にシャットダウンすることでコストを節約できます。

パフォーマンスの可視性

クラウド監視のもう一つの利点は、パフォーマンスメトリックを分析する際に可視性が向上することです。例えば、クラウドベースのアプリケーションの動作が遅いことに気付いたとします。このような場合に、CPUまたはメモリ容量の追加を検討できますが、この対応はスケーリングとパフォーマンスの比率を監視することで正当化できます。この比率が頭打ちになり、容量や弾力性を追加してもパフォーマンスが向上しなくなったことを示している場合は、メトリックとログをさらに掘り下げることで、速度低下の根本原因を明らかにすることができます。

ベンチマーク

パフォーマンスの良好なクラウドベースアプリケーションの監視は、ベースラインベンチマークの作成に役立ちます。これらのベンチマークにより、インフラストラクチャをアップグレードする際、またはアプリケーションに新しい機能を追加する際に、その前後の比較データを提供できるようになります。

セキュリティの向上

クラウド監視は、セキュリティの面でも役立ちます。監視ソリューションは、アプリケーション、サーバー、APIゲートウェイ、ファイアウォールのログを調べることで、異常、悪意のあるアクセス試行や、DDoS攻撃を警告できます。この監視から得られるインサイトは、セキュリティ強化の全体的な取り組みに反映させることができます。

スケーラビリティ

クラウド監視ソリューションは、業界や規模に関係なく、あらゆるタイプの企業や組織を対象としています。そのため、クラウド監視ソリューションは、組織の規模が拡大してアクティビティレベルが高まった場合に簡単に拡張できる必要があります。

運用効率

通常、ソリューションにはインフラストラクチャと設定が用意されているため、インストールプロセスはシームレスになっています。さらに、ホストが管理する専用のツールとハードウェアを備えているため、チームは時間のかかるメンテナンスタスクを心配する必要はありません。

クラウド監視ツールでは、リソースは組織のサーバーやワークステーションの一部ではありません。これによって、ローカルの問題が発生して組織が混乱したときでも、システムの中断を防ぐことができます。

最後に、これらのツールは、コンピューター、スマートフォン、タブレットなどのデバイスで使用できます。組織は、インターネット接続があれば、事実上どこからでもアプリケーションを監視できます。

クラウド監視の8つのベストプラクティス

  1. クラウドサービスの使用料を監視する:クラウド監視サービスは、使用すればするほどコストが高くなります。強力なクラウド監視ツールがあれば、クラウドアーキテクチャ内の使用量とアクティビティに関連するすべての料金を追跡できます。
  2. メトリックに優先順位を付ける:収益に最も影響を与えるメトリックとイベントを特定し、監視時に優先順位を付けます。このようにしなければ、チームは情報に圧倒され、その多くはノイズとなってしまいます。
  3. チーム間のコラボレーションを重視する:さまざまなチームから、どのデータが重要か、どのように表示するのが最適か、何をすべきかについて、インサイトを収集します。
  4. データレポートを単一のプラットフォームに統合する:さまざまなソースから収集したすべてのデータを1か所に統合するソリューションを保有することが不可欠です。これにより、完全な全方位からのパフォーマンスレビューで、メトリックをよりクリーンかつ整理された状態で使用できます。
  5. データを分離する:関係者が簡単にアクセスできるように情報を一元化する必要がある一方で、一元化された監視データをプロプライエタリアプリケーションから切り離して保存する必要があります。
  6. 自動トリガールールを設定する:効率性の維持に役立つしきい値を設定し、アクティビティがしきい値を上回るか下回る場合にツールが適切なソリューションをトリガーできるようにします。
  7. ユーザーエクスペリエンスを監視する:パフォーマンスの全体像を把握できるメトリックを確認します。これらのメトリックには、使用頻度、タスクの時間、ユーザーエラー率、対応時間が含まれます。
  8. 監視ツールを定期的にテストする:クラウド監視ツールを継続的にテストして、侵害が発生した場合に完全に機能するようにします。定期的なテストを通じて弱点や脆弱性を明らかにすることで、アラートシステムに新しい標準を採用するきっかけとなる場合があります。

専門家のヒント

複数のプロバイダーにまたがる何百ものクラウドサービスを扱う今日の運用チームは、あまりにも多くの情報に溺れそうになることがよくあります。有用なシグナルよりもノイズの方が大きいと、実際の警告サインを見落としてしまう可能性があります。

これを防ぐには、チームが次の2つを決定することが重要です。

  1. 必要な情報のカテゴリー
  2. 各カテゴリーで取得する価値のある関連情報。完全なリストではなくとも、これによって運用チームが集中すべき作業についてのヒントが得られます。

完全なリストではなくとも、これによって集中すべき作業についてのヒントが得られます。

カテゴリーメトリック
ネットワーキングフローログ

サーバーによるネットワーク帯域幅の使用状況

セキュリティファイアウォール、ウイルス対策ソフトウェア、APIゲートウェイ、Webサーバー、データベースサーバーアクセスからのログ

失敗したログインイベント


AWS S3バケットによって公開されるログなどのオブジェクトアクセスログ


Syslog

アプリケーションマイクロサービスのコールスタックとアプリケーションのログ

ランタイムライブラリからのログ(log4j など)

サーバーレス関数サーバーレス関数は、複雑なマルチステップのアクションを実行する場合にのみ検討してください

重要なスケジュールタスクのCronジョブまたはイベントスケジューラーのログ

データベーススロークエリログ

パフォーマンスメトリック


イベント

コンピュートレイヤーCPU使用率、使用可能なメモリ、ディスクパフォーマンス、I/Oレイテンシーなどのサーバーメトリック
コンテナ化されたアプリケーション1分あたりのスケジュールされたポッド数、またはノードあたりのクラッシュしているポッド数

すべてをログに記録、すべてに対する回答 - 無料

Falcon LogScale Community Edition(旧称Humio)は、クラウド向けの最新のログ管理プラットフォームを無料で提供します。ストリーミングデータ取り込みを活用して、分散システム全体を即座に可視化し、インシデントを防止および解決します。

無料ですぐにご使用可能なFalcon LogScale Community Editionには、次のものが含まれています。

  • 1日あたり最大16GBの取り込み
  • 7日間の保持期間
  • クレジットカードは不要です
  • トライアル期間なしの継続的なアクセス
  • インデックスフリーのログ記録、リアルタイムのアラート、ライブダッシュボード
  • 新しいパッケージをビルドするためのガイドを含む、マーケットプレイスとパッケージへのアクセス
  • アクティブコミュニティの情報とコラボレーション

無料で始めましょう