RisuPuさんの8月17日の障害についてのリリースを読んでみる。QCストーリーの大切さを改めて理解した。/RSPインターネットグループ

RSPインターネットグループ(RisuPu)さんは、RFPにもご参加いただいていた組織様ですが、2022年8月17日の早朝から障害が発生していたようです。公表版のプレスが出ていますので、読み物として読んでみます。
この記事では、RSPインターネットグループさんが提示した再発防止策が、実際の再発防止策としてどの程度有効なものなのか、考察しています。

引用元は以下です。

事象

RSPインターネットグループが提供しているサービスの一部、及びRisuPuのパートナーの一部に提供していた設備で障害が発生した。

原因

RSPインターネットグループがさくらインターネットで契約していた契約分の未払いによる利用停止

対応

  • パートナー組織へRSPインターネットグループの設備障害を起因としたサーバ障害によるサービス障害であることを広報するように求めた。
  • 未払い分を支払うことでサービス再開をさくらインターネットに求めた。
  • 再起動の対応を実施し正常に通信出来ることを確認した。
  • 本障害により影響を受けたパートナー様へは別途、何らかの対応を検討している。

原因と再発防止策の提示

原因について

今回、RSPインターネットグループは、原因として以下を挙げています。

当組織が上位事業者様(さくらインターネット株式会社 様 以下、本取引先)から利用料金として
ご請求されておりましたが請求に対して当組織において精算上の手違いが生じており、
本取引先にて当組織からの精算をご確認することができず、
請求のお支払い期限となる 2022年8月17日(水) を迎え、
利用中のサービスの一部が一時停止状態となりました。

当日中に当組織にて本取引先へ再精算の対応、及びお問合せを実施しました。
※当組織サービス復旧日時にご確認いただいたことを確認しました。

「2022年7月10日発行の更新請求(支払期限:2022年7月31日)が未納の場合、8月17日にサービスを一時停止します。」 (8月17日からサーバーサービスがご利用いただけなくなったお客様へ)

上記で本取引先のサービスに収容する当組織の一部サーバーにつきましては、
当組織ではサービス向けのものとサービス外向けで契約を分けております。

片方のアカウント(サービス向け)では当組織の精算が正常に完了しておりお支払いをご確認いただいておりましたが、
もう片方となるアカウント(サービス外向け)では上記の事情が発生しお支払いをご確認いただくことが出来ない状況となりました。
そのため、当組織サービスのほとんどでは影響は発生いたしませんでした。
※プロキシサーバーが対象となった起因は、当組織のIPアドレスに対して
 大量のトラフィックが流入した影響で当組織がIPアドレスを一時的に変更対応を
 実施した際にサービス外向けで契約させていただいております設備に収容したため、
 今回影響範囲の対象となりました。
 また、監視設備が対象となったのもweb監視に対して上記が起因したため、
 影響範囲とさせていただいております。

https://support.d.rspnet.jp/all-service/rspn_obstacle-notice2022081702/

回りくどく、もう少し簡潔に書ける気がしますが、要約すると次の通りです。

さくらインターネットの契約は2本立てとなっており、RSPインターネットグループ自身のサービス分と、対外へサービス提供するためのものであった。
7月請求分について、前者は支払いが完結していたが、後者は支払いができていなかった。
そのため、さくらインターネットの規定により、サービス停止措置がとられたため。


再発防止策について

事態が収拾しておらず、検証もすんでいない状況にも関わらず、再発防止策を提示しています。
未払いについては以下の通り。

本障害発生原因となりましたものについては以下、フローで再発防止徹底をいたします。
1. (実施済み)当組織への請求に対しての精算状況を定期確認
2. (実施済み)上記で正常に処理できていない場合は再精算を実施
3. (実施済み)本取引先で適切に確認されたか否かの確認実施

https://support.d.rspnet.jp/all-service/rspn_obstacle-notice2022081702/

あと、よくわからない再発防止策も出てきました。
初報・第1報にも書かれておらず、出自が不明です。

次に障害発生から関知が大幅に遅延したものについては以下のアクションを行います。
1. (実施中)当組織設備の監視体制強化 (当組織サービス)
2. (準備中)監視係の当組織エンジニア増員対応 (運営チームの新規受付はしません。) (当組織サービス)
3. (実施準備中)パートナー様に提供させていただいております設備は当組織が保有する監視設備での監視の実施 (当組織パートナー)
 ※後日当組織より監視の実施に関する対応のお願い、若しくは当組織にて代行依頼を受け付けます。
  なお、当組織より監視状況をご確認いただけるアクセス情報をお渡しいたしますので
  パートナー様にて監視ソフトを利用されていない場合でも問題ありません。
  パートナー様にて独自で監視を実施されている場合は、ソフトウェアによっては
  当組織設備からアクセスできるように許可のお願いを実施させていただきます。
  当組織設備からの通信を許可いただけない場合は、特例な事情を除いて
  大変恐れ入りますが当組織より協力を取り下げさせていただく場合があります。
  当組織で監視する項目は、当組織向けには通信疎通のみとなります。
  パートナー様にて未監視の場合は、パートナー様向けのアクセス情報にて
  監視項目として以下を追加しご確認いただけるよう進めさせていただきます。
  CPU(LA)、メモリ(スワップを含む)、トラフィック、I/O、ディスク容量
  ※当組織専用で実施する通信疎通の監視もパートナー様に提供いたします。
   通知先は当組織へご申告いただいておりますメールアドレス宛に、
   インシデント発生のお知らせをお送りするよう調整いたします。
  ※通知先として「Asuyaru」様を指定することも可能です。

https://support.d.rspnet.jp/all-service/rspn_obstacle-notice2022081702/

再発防止策の検証

それでは、提示していただいた再発防止策が有効なものなのか検証していきます。

未払いについて

未払いについては請求に対しての精算状況や確認を徹底するとしていますが、挙げている対策では根本原因を潰せないです。そもそも問題認識にずれが生じています。

RSPインターネットグループは、支払いができなかったことが問題と捉えているようですが、これは違います。
今回の問題は、「請求のご案内」と「再請求のお知らせを無視した」ことが問題であり、支払いができなかったことは問題ではないのです。

さくらインターネットの場合、請求月に請求金額の案内がされ、月末までに支払いの確認が取れなかった場合、翌月2日くらいに未払い請求のご案内が届きます。それを2週間程度無視するとサービス利用停止になります。

これくらいしっかりリマインドしてくれているのに、今回はそのすべてを看過しています。
2回のリマインドを無視したのはなぜでしょうか。もう少し深掘りが必要ではないでしょうか。

今回RSPインターネットグループが対外に提示している「当組織への請求に対しての精算状況を定期確認」では再発防止として足りません。
請求されたものを請求期日内に支払いことが必要です。未払いになっていないことを確認するのでは遅いからです。

あるべき姿と現実とのGAPが問題です。もう少し請求プロセスを洗い出して再考することをおすすめします。
これでは再発防止になっていません。多分また起きます。

なぞの「障害発生から関知が大幅に遅延した」という問題

てか、異常検知のKPIやSLAは公表されていませんから、遅延は発生していないのではないでしょうか。

そのため、問題にする必要はありませんでした。
これは誰かが"検知するの遅かったよね"と感覚的に発想して問題にしたのでしょうが、やめた方がいいです。
監視においてはKPI・SLAがすべてです。
謳っていない事象については知らないと言い切るべきです。
また、その判断を支持するために会員規約で免責していますよね。

第11条 (免責事項)
1、弊組織は、お客様が本サービスを通じて得る情報等について、その完全性、正確性、有用性その他いかなる保証も行いません。
2、本サービスの内容及び提供が会員の特定の目的に適合すること、会員の期待どおりに動作すること、会員の期待する成果が実現されること、不具合を起こさないこと、継続的に提供されること及び利用結果を含め、弊組織は、お客様に対し、本サービスに関するいかなる保証も行いません。

https://www.rspnet.jp/agreement/

ただただ甘いな、と思いました。

自分たちで作った会員規約で免責していたのにそれを無視するとは。
やらないでいい対策をやるのはよっぽどのドMか、マッチポンプとしか考えられません。
それと「体制強化 」は何度目ですか。

さいごに

インフラ保守サポートメンバーとしての発注も検討していた組織さんだったのですが、未払いは笑えないですね。ただただ管理能力の甘いグループだと感じました。
ミスは起きるものですから、再発防止がしっかりされていれば良いものの、提示している再発防止策では今後起こりえる事故を完全に防ぐことができず、甘いものでした。
先日のRFPにはRSPインターネットグループさんからご辞退されたのですが、もし提案されていたとしてもこれでは任せられなかったです。ご辞退のご判断は適切だったのだと思います。
もし機会があればコンサルとしてお招きいただきたいですね。尽力させていただきます。