絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トレンドで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トレンドで探す
2021.11.4技術ブログ

AIOpsを活用したシステム運用自動化への挑戦

働き方改革が進んでいる中、システム運用現場の改革には遅れがある。しかしIT運用のための人工知能を意味するAI技術「AIOps」の活用により、高難度化するITシステム運用の担当者の負担を軽減することができる。本記事では、AIOpsを活用したシステム運用自動化について、障害予兆検知への活用事例を紹介する。

目次

1.システム運用を取り巻く環境

新型コロナウイルスの蔓延により、世界中の多くの企業でリモートを活用した働き方改革が進みました。社会的にITシステムへの依存度が高まり、システム障害の影響範囲が大きくなっています。
一方で、システムの運用現場の働き方改革には遅れがあります。昨今では、パブリッククラウドをはじめ、ITシステム基盤が多様化しています。そのため、運用チームは広範囲なシステム管理が必要となり、膨大なシステム情報を人が判断・チェックするという旧態依然のシステム運用は困難になっています。例えば、マルチクラウド環境のような多様な環境上でアプリケーションやサービスが動作している場合、環境それぞれごとにイベントやアラートの監視が必要です。しかし、大量のアラート情報が溢れれば、どこで深刻な障害が起きているのかが把握しづらくなりますし、横断的な分析や意思決定も難しくなります。
NTTデータでは、スタッフや営業・開発のチームは比較的円滑にリモートワークに移行できたものの、運用チームの一部は、移行が遅れました。遠隔からシステムの運用状態を正確に把握するのが困難なため、出社が必要なケースがあったためです。コロナ禍での様々な気づきにより社会全体で働き方が変わる中、システム運用も例外ではなく、社会の情勢に即した働き方への変革ニーズがあるものと考えます。

2.AI技術を活用した運用変革‐AIOpsへの期待

AIOps(Artificial Intelligence for IT Operations)は2016年にガートナー社が提唱した概念で、「IT運用のための人工知能」を意味します。「ガートナー社によるAIOpsプラットフォームマーケットガイド」の中で、AIOpsプラットフォームは「ビッグデータと人工知能または機械学習機能を組み合わせて、可用性やパフォーマンスの監視、イベントの相関付けと分析、ITサービスの管理と自動化といったIT運用の様々なプロセスやタスクを改善、部分的に刷新するようなソフトウェアシステム」と説明されています。(※1)

高難度化するITシステムの運用をAI技術「AIOps」で支援できれば、人の判断への依存を軽減できます。AIOpsの代表的なユースケースとしては、AI技術による障害の予兆検知、パフォーマンス監視、根本原因の分析、障害対処の支援などが考えられます。(表1)

表1:AIOpsの代表的なユースケース
ユースケース 概要
予兆検知 実際の値と機械学習モデルの予測値との乖離が大きくなっていないか、もしくは過去に発生した異常と類似した事象が起こっていないかを監視し、障害の予兆を自動検知します。
パフォーマンス監視 機械学習を活用して大量のイベントデータをすばやく収集し、傾向を自動監視します。
根本原因の分析 関連する複数の警告によって生成される大量のイベントを自動解析し、原因および修復方法の特定を支援します。
障害対処の支援 ITサービス管理ツールと自動連携し、過去のインシデントとの類似度合いをAI技術で判定することで、対処方法をレコメンドします。

表1のAIOpsの代表的なユースケースの中から、「予兆検知」を活用したシナリオ例をご紹介します。

シナリオ例)予兆検知による障害発生の抑止

予兆検知による運用プロセスは、いつもと異なる挙動を検知することで、将来的な障害リスクを低減し、障害を未然に抑止することを目的としています(図1)。従来のリアクティブな障害対処ではなく、例えば、異常の予兆検知結果としてハードウェア故障が疑われた場合、事前に対象の物理サーバーで稼働している仮想インスタンスを別サーバーに退避できれば、サービスの安定稼働に繋がります。

図1:予兆検知による事前対処のアプローチ

図1:予兆検知による事前対処のアプローチ

導入効果

  • 突発障害を抑止しシステムの停止を回避できるため、サービスの安定稼働に繋がり、顧客満足度が向上します。
  • 正常状態を逸脱した傾向、過去に発生した類似事象の自動検知により、人の判断のばらつきを軽減します。
  • 従来の「人による個別監視」とは異なり、広範囲なシステムの自動監視が実現できるため、障害発見の迅速化に貢献します。

導入課題

  • 機械学習を利用した異常予兆検知という性質上、お客様のデータとAI予兆ロジックの組み合わせによっては、期待した検知ができない可能性があります。
  • 実際の運用業務と比較し、投資対効果を見極める必要があります。

課題を克服するために

システム障害は、単一要因ではなく、複合的な要因・環境で発生することが少なくありません。そのため、予兆検知精度の向上のためには、多角的なデータ分析を行うことが必要です。また、学習データの鮮度維持も重要となります。
AI技術を導入することは、それ自体が目的ではなく、それで何をしたいかが重要となります。導入したAI技術が実業務に必要な精度で利活用でき、どれくらいビジネスの効率化に貢献できるのか、シミュレーションを元に見極める必要があります。そのためにも、お客様と一緒に解決したい運用上のあるべき姿を明確化し、改善の仮説を立てることが大切です。そして、仮説シナリオを基にしたPoC(Proof of Concept、概念検証)を通して、ターゲットの検出精度の向上、導入および運用費用の比較をすることが第一段階です。

AIOps (Artificial Intelligence for IT Operations) : AIOps combines big data and machine learning to automate IT operations processes, including event correlation, anomaly detection and causality determination.

3.NTTデータのAI技術による予兆検知ソリューションへの取り組み

NTTデータでは、システムの運用現場での抜本的な働き方改革を実現するため、サービスマネジメントソリューションの開発に取り組んでいます。このソリューションは、ServiceNow社が提供するクラウドプラットフォーム「ServiceNow(※2)」を中核とした各種運用業務を自動化・効率化する様々なサービスメニューで構成されています。これらによって、属人化した運用プロセス・手運用からの脱却や、複雑化した環境管理の一元化を実現します。

本ソリューションの開発では、将来のシステム運用自動化を見据え、AI技術による異常検知の評価や精度向上のため、社内プロジェクト向けプライベートクラウドサービスで障害の予兆検知に取り組んでいます。その中で私の所属する生産技術部では、通常の障害対応に加えて、「予兆検知」「パフォーマンス監視」「根本原因の分析」「障害対処の支援」などの予兆対応のノウハウを蓄積し、システム運用者を支援できるソリューションの開発を目指しています。(図2)

図2:予兆検知を活用した運用イメージ

図2:予兆検知を活用した運用イメージ

(※2)ServiceNow

サービスナウ社の提供するITサービスマネジメントプラットフォーム。
https://www.servicenow.co.jp/

4.まとめ

本記事では、NTTデータにおけるAI技術を活用した運用の生産性向上の営みとして、AIOpsを利用した運用変革への取り組みを紹介しました。私たちは最新のAI技術を取り込みながら、多様化するお客様のニーズに沿った上での運用者や保守担当者の働き方改革の実現に向け、チャレンジしていきます。

- NTTデータは、「これから」を描き、その実現に向け進み続けます -
お問い合わせ