2025年11月21日金曜日

Cloudflareの障害

当ブログの日本の読者はアジアの何処かのdata centerに置かれたデータを閲覧しているはずだ.USの読者はUSのdata centerを見ているはず.グローバルな地域ごとにwebをミラーリングしてくれる会社がある.Cloudflareというのはそうゆう会社で、先日大規模障害を起こした.

わたしが知ってるnet知識はここまで.

わたしはその日のnet障害にやられちゃう事もなく平穏に過ごしていたが、障害に遭遇したヒトはログインできないとかで仕事にならなかったようでお疲れ様でした.

Cloudflareで何が起きたのかを解説する動画で事情がよくわかった.ハッキングではなく、Cloudflare自身のバグだったとのこと.

動画をざっと見ての記憶で転記すると、トラブル原因はこんな感じ.
1)ロボット検知プログラムがある.改造してtest runしてる最中だったとか.
2)データベースに対して「ロボット臭のするuser listを出せ」と命じるクエリを発行した.そのクエリには、対象データベース名を書き忘れた人為ミスがあった.
3)defaultで2つのデータベースが検索され、2倍サイズのrobot listが完成.
4)robot listを受け取ったプログラムにも人為ミスがあった.listの異常検知をスルーするようになっていた人為ミス
5)さらにその先のプログラムがクラッシュ.システムダウン.

ちなみにRustで書かれていたそう.

原因が判って対策したけれど、溜まったログイン要求で再びパンクしてとか大変だったそうです.サーバ管理屋さんはお疲れ様でした.

彼らを責める気にはならんなぁ.

かしこ

6 件のコメント:

  1. ウィンドウズのヮンドライブ遣うとろくなことにならない説
    5GB以上は、課金しろ
    バックアップをやめるをはい にすると ワンドライブは、切り離され ピクチャホルダーデータと生き別れ
    あ、cドライブにもない になるとか あるのは、ショートカットだけ だなんて
    独者

    返信削除
    返信
    1. win11はデフォでone driveになってしまうとかいう説ってマジ??

      削除
  2. >listの異常検知をスルーするようになっていた人為ミス.
    「データ領域の大きさが固定」になってて、
    ソレをオーバーするデータ量が来て「落ちてた」と言うのが何とも。
    まぁ、色んな理由があって「固定長」にしてたのですが、
    不幸は重なるなー、と思いました。

    >Rustで書かれていた
    こういう時の為に「Rust」使ってたんじゃねーのかよ?
    と思わなくもない。
    ※まぁ、「バッファーオーバーフロー」対策は、難しいのは分かりますが。
    コレもちょっと皮肉だよな。。。。。

    返信削除
    返信
    1. わたしもRustなのに?と思っちゃいました

      わざとチェックをスルーしたのって処理速度要求がキツイとかあるんですかね?

      固定小数点演算するとmax/minのクリッピングかならずやるけど、
      クリッピング処理に要する演算量はバカにならないとも言われます

      削除
    2. >処理速度要求がキツイ
      基本的に「パケットルーター」なので、
      ・リアルタイム(実時間)処理
      が求められるので、処理時間の見えない「可変長データ」にしなかった、と聞きました。
      (あと、「通常データ量」に対しては、充分マージンがあった、とも聞いてます。)
      「オーバーフローチェック」も、「リアルタイム優先」で、省いてたのかも知れません。。。。。
      あと、「コードレビュー」も、社内でしかやって無かったので、今後は「社外レビュー」も取り入れるようにする、と言ってました。
      (セキュリティ(企業秘密)との兼ね合いとか、どーすんだろ?と思いましたが。)
      まぁ、某MSに比べて、こういう風に、
      ・ちゃんと技術的詳細まで説明してくれる
      トコロはスゴイな、と思いました。

      削除
    3. ふうむなるほどリアルタイム

      それに比べてwin11はAI化して顰蹙かってますね

      削除