当ブログの日本の読者はアジアの何処かのdata centerに置かれたデータを閲覧しているはずだ.USの読者はUSのdata centerを見ているはず.グローバルな地域ごとにwebをミラーリングしてくれる会社がある.Cloudflareというのはそうゆう会社で、先日大規模障害を起こした.
わたしが知ってるnet知識はここまで.
わたしはその日のnet障害にやられちゃう事もなく平穏に過ごしていたが、障害に遭遇したヒトはログインできないとかで仕事にならなかったようでお疲れ様でした.
Cloudflareで何が起きたのかを解説する動画で事情がよくわかった.ハッキングではなく、Cloudflare自身のバグだったとのこと.
動画をざっと見ての記憶で転記すると、トラブル原因はこんな感じ.
1)ロボット検知プログラムがある.改造してtest runしてる最中だったとか.
2)データベースに対して「ロボット臭のするuser listを出せ」と命じるクエリを発行した.そのクエリには、対象データベース名を書き忘れた人為ミスがあった.
3)defaultで2つのデータベースが検索され、2倍サイズのrobot listが完成.
4)robot listを受け取ったプログラムにも人為ミスがあった.listの異常検知をスルーするようになっていた人為ミス.
5)さらにその先のプログラムがクラッシュ.システムダウン.
ちなみにRustで書かれていたそう.
原因が判って対策したけれど、溜まったログイン要求で再びパンクしてとか大変だったそうです.サーバ管理屋さんはお疲れ様でした.
彼らを責める気にはならんなぁ.
かしこ
0 件のコメント:
コメントを投稿