2024.04.08   ブログ  
インシデント対応のポイント

リスクマネジメントの取り組みの中で、不適切な対応や残存リスクがある場合、再度インシデントが発生する可能性があります。そのため、インシデントが発生した際には、表面的な対応ではなく、「真の原因」を明確にし、それに基づいた対応を行うことが、効果的なリスクマネジメントにつながります。そのため、ここから「なぜなぜ分析」について説明していきます。

1.なぜなぜ分析の進め方
「なぜなぜ分析」は、インシデント対応策の立案において有効な手法です。このアプローチでは、インシデントの原因を深掘りし、「なぜ」という問いを繰り返すことで真の原因を見つけ出すことが可能です。以下に、なぜなぜ分析の事例を記載します。
事例)システム障害が多発する
なぜ、システム障害が多発するのか?
  原因1:システムの負荷が高いため。
なぜシステムの負荷が高いのか?
  原因2:ユーザー数が急増しているため。
なぜユーザー数が急増しているのか?
  原因3:新しい機能がリリースされたため。
なぜ新しい機能がリリースされた後に負荷が高くなったのか?
  原因4:新機能のテストが不十分だったため。
なぜ新機能のテストが不十分だったのか?
  原因5:開発スケジュールが過密で、十分なテスト時間が確保できなかったため。

2.なぜなぜ分析のポイント
1)検証方法
 ・分析が飛躍しすぎていないか、下から上へと因果関係を確認します。
2)うまくいかない時
 ・問題を異なる角度(視点を変えてみる)から見てみます。
 ・個人能力の問題を避け、組織やシステムなどの仕組みに焦点を当てるようにします。
  つまり、誰がやったかではなく、なぜ、その問題が起きたのか仕組みに注目する。
 ・問題事象があいまいなため、問題点を具体的にするようにします。

3.対応策の立案
なぜなぜ分析の結果、最終結論としてまとまった真の原因について、関係者で議論します。
上記の事例における真の原因は、「開発スケジュールが過密で、新機能の十分なテスト時間が確保できなかったため」です。これが真の原因となり、テスト不足による新機能のリリースがシステム負荷の増加と障害の多発につながっています。
対応策としては、以下の点が考えられます。
1)開発スケジュールの見直し
 ・リリーススケジュールを見直し、十分なテスト時間を確保できるようにする。
 ・必要に応じてリリース日を延期してでも、品質を確保することを優先する。
2)テスト計画の策定
 ・テスト計画を策定し、テストケースを事前に準備する。
 ・テストの範囲、方法、期間などを明確にする。
3)開発プロセスの改善
 ・開発プロセスを見直し、品質保証のためのプラクティスを組み込む。
 ・アジャイル開発やDevOpsの導入を検討し、開発と運用の連携を強化する。

4.まとめ
インシデント対応策の立案においては、事象の根本原因を追究し、効果的な対策を実施することが重要です。特に頻発するインシデントに対する対応では、時間と資金を有効に活用してリスクを軽減するために、効率的な手段を採る必要があります。これにより、リスク管理の向上に寄与することができると考えられます。

 


  • ツイート

  • Feedly
  • このエントリーをはてなブックマークに追加
  • Pocket