システム障害はなぜ二度起きたか              日経コンピュータ編集部著

 東日本大震災から3日後の2011年3月14日、みずほ銀行はシステム障害を起こした。義援金の集中したのをきっかけに、振り込みの遅れや店舗でのサービス停止、ATMの取引停止などを連発、影響は日を重ねるごとに広がり、収束までに10日を要した。みずほ銀行が大規模なシステム障害を発生させたのは、9年前の2002年4月に続き二度目だ。なぜ失敗は繰り返されるのか。その理由はただ一つ。根本的な原因を究明し、対策をとっていないからだ。根本的な原因は、みずほ銀行とみずほファイナンシャルグループの歴代経営陣のIT軽視、あるいはITへの理解不足だ。みずほの経営陣はシステム障害の恐ろしさを分かっていなかった。そのため障害直後の初動が遅れ、対応が後手に回った。それから、情報システムを日々正常に動作させることの難しさを知らず、システム部門に無理なシステム運用操作を強いた。さらに、20年以上前に構築した情報システムを使い続けるリスクを認識せず、老朽化した情報システムの刷新を先送りにしてきた。システムの全体像を見渡せる後継者の育成も怠った。こうした実態が、システム障害の影響拡大を招いた。
 みずほ銀行の西堀 利(さとる)頭取は2011年3月のシステム障害後の記者会見で、システム障害の原因について「人的ミス」と繰り返した。確かに、大規模障害を招いた直接の原因は、システム部門の不手際である。システム全体の仕様や機能をつかんでおらず、障害後はミスを重ねた。それが被害を拡大させたのは事実である。だが、根本的な原因は経営陣にある。人的ミスという言葉を借りれば、9年前のシステム障害を教訓にできず、二度目の大規模障害を引き起こしたのは、経営者の「人的ミス」にほかならない。


2011年3月にみずほ銀行で発生したシステム障害の経緯
3月14日午前10時16分
テレビ局が番組などを通じて、東日本大震災の義援金への協力を呼びかけたところ、みずほ銀行中央支店に用意された義援金口座(以下、口座aと呼ぶ)に振り込みが殺到した。みずほ銀行の勘定系システムに多数の振り込みデータが集まり、取引明細の件数が1日に格納できる上限値を超えた。取引明細の件数が上限値を超えた理由は、口座aの設定を誤っていたことにあった。みずほ銀行は各口座について、格納できる取引明細の件数に上限値を定めている。上限値は、二種類の設定値の組合せによって決まる。一つは、口座が「個人」のものか、それとも「法人」扱いであるか。もう一つは、取引明細を通帳に記帳する「通帳口」か、記帳しない「リーフ口」かである。口座aの設定は、格納できる取引明細の件数の少ない「個人・通帳口」であった。みずほ銀行は口座aの開設手続きをしたのは2005年9月のことである。この際、みずほ銀行は口座aを「個人・リーフ口」にしていた。このままの設定ならば、取引明細が上限値を超えることはなかった。ところが2007年12月、テレビ局から「振り込み明細を通帳で把握したい」との要望を受け、「個人・通帳口」に変更していた。口座aの取引明細が上限値を超える問題が発生したものの、この時点では口座a以外の処理にはほとんど影響がなく、顧客サービスも正常に動作していた。

3月14日午後10時7分
義援金の振り込みは、午後3時を過ぎても押し寄せ続けた。午後3時以降に受け付けた振り込み依頼は、翌日扱いとなる。これらの振り込みデータについては、夜間に一括して、翌日の振り込みに向けた準備処理をする。口座aに対するこの一括処理が異常終了した。振り込みデータの処理件数が上限値をオーバーしたのである。情報システムの運用拠点で作業に当たっていたシステム担当者は、一括処理にも上限値が存在することを知らなかった。みずほ銀行のシステム担当者は、振り込み処理の一括処理が異常終了した時に勘定系システムが出力したエラーメッセージなどから、上限値の存在を突きとめ、その設定値を増やした。その後、一括処理を再実行してみたが、それでもまた異常終了してしまった。先の異常終了によって、一部の振り込みデータが欠落してしまっていたのだ。必要な振り込みデータがそろっていなかったため、処理が正常に終わらなかった。通常、情報システムにおいて、ある処理が異常終了したとしても、一部のデータが欠落することはない。ところが、みずほ銀行では一括処理のコンピューター・プログラムの作り方などに問題があり、あり得ないはずの出来事が起こってしまった。こうなると、欠落したデータを元に戻すまで、一括処理を完了させることができない。結果的に、このデータ復元に8時間を費やした。復元作業に時間を取られすぎたことによって、翌15日の朝9時までに、店舗の開店に向けた情報システムの準備処理が間に合わない可能性が出てきたのだ。みずほ銀行の勘定系システムは、午前4時30分から午前8時までの間に、店舗における日中の業務に向けた情報システムの準備作業を進める。

3月15日午前3時30分頃
システム担当者からシステム担当役員である萩原忠幸常務執行役員に障害の報告があった。最初のトラブル発生から17時間かかった計算になる。システム障害時の緊急連絡にしては、あまりにも時間がかかりすぎた。システム担当者は、翌朝のオンライン処理に影響が及ぶ可能性が高まったために、萩原常務に連絡を取ったのであろう。

3月15日午前5時
萩原常務は、店舗の営業が始まる午前9時までに「営業店端末」でオンライン処理が始められるよう、システム担当者に指示した。この指示の意味は、「一括処理よりもオンライン処理を優先する」ことであり、言い換えると、「異常終了している一括処理については、必ずしもオンライン処理の前までに終わらせなくても構わない」ということだ。つまり、萩原常務はこの時点で、一部の振り込み処理が予定日までに実行されないという、「部分的」なシステム障害を覚悟した。夜間の一括処理が終わらなければ、前日の午後3時以降に受け付けた口座aへの振り込み処理ができないからだ。その代りに、店舗でのサービス開始が遅れることを防ごうと考えた。システム担当者は、一括処理の完了をあきらめ、オンライン処理の準備に入った。

3月15日午前9時
店舗は開店したものの、融資や振り込みなど一部のサービスについて、開始することができなかった。オンライン処理の準備にてこずり、当初見込んでいた5倍の時間がかかったためだ。これらのサービスを開始できたのは、開店から1時間25分後の午前10時25分のことだった。
さらにやっかいな問題が発生した。15日に送信するはずだった振り込み31万件が、すべて送信できない事態になったのだ。口座aへの振り込みはもちろん、それ以外の振り込みもである。前日夜間の一括処理による送信準備をすべて完了しないと、翌日のすべての振り込みが送信できない仕組みになっていた。みずほ銀行のシステム部門は、15日の午前5時に問題が顕在化するまで、口座aとは何の関係もない振り込みについても送信できなくなるということを認識していなかった。

3月15日日中
振り込みデータの未送信に気付くのが遅れた結果、「二重振り込み」も引き起こした。店舗では行員が営業店端末を使って、未送信となっている振り込みデータを一件ずつ送信し始めた。顧客企業における資金決済の不渡りなどを防ぐためである。この時点では、行員が日中に営業店端末を使って送信した振り込みデータについては、日中に送信することができた。行員が営業店端末を使って送信した振り込みデータは、未送信となっていた振り込みデータの一部である。これに対して、みずほ銀行のシステム部門は後日、未送信となっていた振り込みデータをそのまますべて送信した。これにより、行員が営業店端末を使って処理した振り込みについては、二重に送金されてしまった。店舗とシステム部門の連携不足が、二重振り込みを引き起こした。

3月15日午後3時過ぎ
義援金の振り込みが再び急増した。携帯電話会社が、携帯電話を使った振り込みサービスによる募金を呼びかけたためだった。携帯電話会社向けの義援金口座(以下、口座bと呼ぶ)は、前日の14日に振り込みが集中したテレビ局の口座aとは関係ない。連絡ミスににより、携帯電話会社からの連絡が、システム全体を統括するみずほ銀行のシステム部門に伝わらなかった。その結果、振り込みの急増に備えた手を打てなかった。

3月16日午前7時17分
振り込みデータの処理件数が上限値をオーバーする問題が再び発生し、一括処理が異常終了した。異常終了の発生の時間が前日より遅いのは、前日に異常終了した振り込みデータの一括処理を優先していたからだ。「前日に続き、営業店端末の準備作業が午前9時までに終わりませんが、一括処理の完了を優先させたいと思います」と、萩原常務は西堀頭取に報告し、西堀頭取はこれを了承した。

3月16日午前8時
システム障害はついに、店舗に設置したATMの停止にまで広がった。ATMを起動する際に必要な準備処理をシステム担当者がうっかり忘れたのが原因である。みずほ銀行は、この日のような状況の時に使える異常時のシナリオ(運用マニュアル)を用意していなかった。営業店端末を使った取引開始は、午前11時12分まで遅れた。さらにこの日から、みずほ銀行にが他行から受け取った振り込みデータについても、振り込み先の口座に対する入金処理ができなくなった。

3月16日午後7時20分から翌17日早朝
異常終了したままになっていた15日分の一括処理を再実行した。それでも、17日午前5時20分までに、一部の一括処理しか完了しなかった。この間、システム運用のミスによってATMが止まるシステム障害が再発し、一括処理の実行が遅れたことなどが原因だ。

3月17日午前5時30分
一括処理を中断し、店舗におけるオンライン処理の準備作業に移った。しかし、ATM障害の復旧対応などに手間取り、午前9時の開店までに間に合いそうもないことが分かった。システム担当者が、営業店の開店準備作業に集中できるようにするため、営業店の開店準備作業が終わるまでの間、すべてのATMを停止することにした。

3月17日朝
みずほ銀行は「午前8時30分現在、ATMが利用できない状態になっています」と、システム障害が発生していることを正式に発表した。併せて、合計5700億円分の振り込みが未処理になっていることを公表した。

3月17日午前10時46分
営業店端末を稼働させ、6分後の午前10時52分にATMを稼働させた。

3月17日午後1時
記者会見を開き、西堀頭取は「システムの正常化には時間がかかりそうです」と述べた。その後のシステム障害対応について、「これまでは、夜間の一括処理と、オンライン処理の両方を正常化させようとしていました。今後は窓口業務などのオンライン処理を一部制限して、未処理の一括処理を優先させます」と述べた。

3月17日午後5時20分
4時間強(午後5時20分〜午後9時36分)にわたってATMが再び全面停止した。システム担当者が毎日必ず実施しなければならない操作を忘れたのが原因だった。勘定系システムでは、取引が発生するたびにそれをデータとして記録しているログファイルが、あらかじめ決められた容量に近づくと、ファイルの中身を別の保存用ファイルにコピーしてから元のファイル(ログファイル)の中身を削除しなければならない。この、コピーと削除の操作が漏れ、新たに取引を受け付けることができなくなってしまった。

3月17日午後10時46分
携帯電話会社からの振り込みが集中した口座bにつて、一部の振り込みデータがなくなっていることが判明した。処理が完了したデータや、コピーが終わったデータなど、不要になったデータの削除命令を入力したときにミスがあり、必要なデータまで削除してしまった。なくなったデータの特定に5時間、データの再作成に11時間を要した。このため、口座bを含めた15日分の一括処理の完了は、さらに遅れた。これによって、18日までシステム障害の影響が続くことが決定的になった。18日には、20日付けの給与振り込み処理を大量に実施する予定が組まれていたからだ。

3月18日
一括処理が滞り、18日に入金予定だった62万件の給与振り込みができなかった。振り込まれなかった金額は、合計1256億円に達した。この時点で、積み残し分を含めた未処理の振り込み件数は100万件を超えた。
これを受けて、みずほ銀行は二つの決断を下す。
一つは、情報システムの計画停止である。システム担当者と勘定系システムの処理能力を障害対応に集中させる」ため、18日からの5日間店舗外ATMやインターネットバンキングなどのサービス停止を決めた。さらに19日からの3連休の間は、全国にあるすべてのATMを動かさないことにした。
もう一つは、3連休はすべてのATMを止める代わりに、店舗を開けて預金者に特別対応を実施することにした。特別対応とは、現金の引き出しを望む預金者などに対して、口座残高が確認できなくても、10万円まで支払うというものだ。みずほ銀行は、支払いを受ける人には、氏名や勤務先、電話番号などを聞き、対象口座のキャッシュカードの提示を求め、現金を支払うことにした。5月13日の2011年3月期の決算発表時点で、みずほファイナンシャルグループでは4億円(4000人分)の未回収が生じていると明かした。

3月18日夜
みずほ銀行の西堀頭取は記者会見で「22日までにシステムの正常化を目指す」と力を込めた。22日という日付を挙げたのは、次の給与振り込みの山場である25日を見すえてのことだ。

3月19日午後7時5分
15日分の一括処理を完了させるなど、ある程度は復旧させることができた。それでも積み残した一括処理すべてを解消するには至らなかった。

3月21日午後10時
連休明けの22日朝までに全面復旧できないことが確実になった。これを受けて、西堀頭取は22日以降も一部のATMやインターネットバンキングのサービスを引き続き制限することを決めた。22日は正午まで振り込み関連のサービスなどを停止し、夜間に実施していた一括処理を午前中に実行することにした。

3月22日夜
夜間の一括処理から、システム運用を正常化することができた。みずほ銀行は、システム障害の解消にメドがついたことから、店舗とATMともに23日朝から営業を開始すると発表した。

3月23日
積み残しになっていた振り込み16万件をほとんど処理することができた。ただし、このうち1000件については、翌24日に入金が延びた。

3月24日
振り込み処理の積み残しを完全に解消できた。14日のシステム障害発生から10日後のことであった。10日の間に、入金が遅れた他行宛振り込みは合計120万件、他行からの振り込みは101万件に上った。


みずほ銀行は、システム障害特別委員会がまとめたシステム障害の報告書を5月20日に発表した。

システム障害の拡大を招いた30の不手際
システム仕様・設定 1.義援金口座の設定ミス
2.一括処理の上限を担当者が知らず
3.異常終了でデータが欠落
4.オンライン処理と一括処理を並行起動できず
5.上限値設定を23年間見直さず
システム運用 6.振り込み未送信に19時間気付かず
7.欠落データの復元に8時間かかる
8.オンライン準備処理に予想の5倍の時間
9.作業漏れや操作ミスが多発
10.エラーメッセージを読み誤る
11.操作ミスでデータを誤削除
12.誤削除データの回復に16時間
13.重要な運用操作を忘れる
14.ログファイルの退避を忘れる
15.ログ容量超過で勘定系が全面停止
16.システムを熟知する要員が不足
17.一括処理中断後の自動運用の仕組みを用意せず
18.システム手動運用への備えが不足
リスク管理 19.一括処理の負荷テストをせず
20.勘定系リスクを最高とせず
21.運用リスクを最高とせず
22.内部・外部監査が機能せず
23.顧客の心配を全社で共有できず
24.障害対応の実効性が未確認
緊急態勢 25.担当役員が知るまで17時間かかる
26.頭取への報告まで21時間かかる
27.障害対策チームの一本化が5日後
28.2日連続で上限オーバー
29.連携不足で二重振り込みが多発
30.指揮を執るマネジメント人材が不足