たぶんコロナ渦前ぶり以来になるのだが、久々にオフラインの勉強会に参加してきた。4年ぶりとかになるのか?
オンラインの勉強会はちょいちょい参加していたのだが、参加といってもYouTube Liveで観る形態がほとんどで、かつライブチャットもオフになっているケースが多く、「参加」というかは「視聴」みたいな受け身の形になりがちで。とはいえ移動時間が勿体ないので、オンライン配信してくれるのは非常にありがたくはある。
今回は懇親会でちょっと話したりできるといいなとか思いながら行ってきた。忘れないうちに感想を書き留めておく。
感想
開発チームとともに進めるインフラセキュリティの継続的な改善
先ほどの発表「開発チームとともに進めるインフラセキュリティの継続的な改善」の資料をこちらで公開しました! #sreloungehttps://t.co/p8jMrNu9V4
— Masahiro Yoshizawa (@muziyoshiz) 2024年7月2日
セキュリティの改善事例として、AWS SecurityHubとAntivirus for AWS S3の導入事例の2本立て。どっちも聞きたかった話だ。
Security Hubについては触ってみたことはあるけどルールがめっちゃ膨大なんだよなあ。255個精査するの大変だよなあ。なので事例があるのはとても参考になる。
あと導入の動機のところのこの話に「それ!!」と頷いていた。SREが事前にチェックする系のフローはなくしてセルフサービスにしていきたいよねえ。
定期診断だと発見が遅れるし、人的なSRE事前レビューだと開発遅れる……ああ…… #srelounge
— karia (@karia2nd) 2024年7月2日
Antivirus for AWS S3はECSで動いてて、ファイル数に応じてスケールするという話をきいて「へ~」と思った。帰りがけにブログも改めて読んだけど、既存VPC内で運用できたりとか、かゆいところに手が届きそうだった。ユーザーによるファイルアップロードがあるサービスなら検討して損はなさそう。
飲食店のインフラサービス “ダイニー” のトラブル対応のすべて
サービス名を存じ上げなかったのだけれど、モバイルオーダーの画面見て「あれ、使ったことあるかも」と思った。レジ機能もあるそうで、先日リクルートが大規模障害でエアレジが全滅になってたのを思い出して大変そうだな~と思ったら、まさにそういう話。スライドの公開はないみたいだけどXで質問への回答が行われている。
『飲食店のインフラサービス “ダイニー” のトラブル対応のすべて』というタイトルにて発表させていただきます!質問どんどんポストしていただけると嬉しいです!#srelounge pic.twitter.com/vjWEbEbuvF
— Hiroaki KARASAWA | dinii (@karszawa) 2024年7月2日
大規模障害訓練を定期的に実施しているそうで、その話がメイン。エンジニアに限らず全員参加、「終わったあとに振り返りをするのが大事」などタメになる話が多かったが、印象に残ったのがここ。
大規模障害訓練で「利用者になりきって温度感の高い電話をかける」ロールプレイするの渋い #srelounge
— karia (@karia2nd) 2024年7月2日
障害訓練って実際にシステムが落ちるわけでもなく(落とすケースもあるが)基本的には連絡や対応がうまくいくかの確認だけで、「これやって意味ある?」感がどうしても出ちゃうんだよね。それを防ぐためにお客さん役のロールプレイを入れて臨場感を上げるというのは有効かもしれない。やり過ぎない程度にね。
あと、SLA 99.95%で提供してるけど店舗ネットワークやらなんやらで結局オフラインにはなるから、オフライン対応を頑張ってきたというのが凄いと思った。そうそう実行できることじゃないしテストとか大変だし。そこからのこの言葉が重みになる。
「これだけの投資を行ってきたからこそ強固な参入障壁となっている」なるほど #srelounge
— karia (@karia2nd) 2024年7月2日
SREとかインフラとかセキュリティのコストってよく「守り」とか「必要経費」という風な捉えられ方をするけれど、自信を持って「投資」と言えるのは良いなと思った。この言い方マネしていこ。
WAFでどのリクエストがBlockされたのか、ログを集計してSlackで簡単に見れるようにした
本日のLT資料ですhttps://t.co/lrvf4mpjpB #srelounge
— 是永総一郎@srest SRE (@s_korenaga) 2024年7月2日
WAFのログをAthenaで集計してLambda経由でSlackに投げてるんだとか。Athenaやっぱ便利だよね、最近はログ調査で相当使い込んでる。
通知のトリガーはDatadog?のようで、Datadog発の通知に情報を追加する形になっているらしい。このアーキテクチャでいいのかが悩みのようだったけど、Datadogに集約してるならそれしかないんじゃないかな~という感想。そもそもDatadogからLambda叩けるの知らなかった。
WAFのルール調整する運用まじで一生続くから大変だよなあ。意図しないブロックは怖いし、なるべくルールはシンプルに保っておきたいですね。
CodeBuild上でGitHub Actionsを動かしてDBマイグレーション効率化
本日のわたしのLTスライドはこちらになります。https://t.co/CoVPwlmtIl
— Yuta🐁 (@Y0u281) 2024年7月2日
#srelounge
これも気になっていた話題。「LTまでに完成しなかった」って言ってたの面白かった。いや面白がってる場合じゃない、切替がんばってください。
懇親会で「コストどのぐらい減るんですか?」って聞いてみたけど(確かGitHub ActionsよりCodeBuildのほうが単価安いんだよね)、直接コストの削減がメインじゃなくて人力DBマイグレーション運用を自動化することのほうが主眼らしかった(CodeBuildならAWS VPC内で完結するからセキュアに自動化できるという文脈)。それはやる価値大きいね。
開発者が安心して実行可能なSQL実行基盤の取り組み
発表資料アップしました! #srelounge
— Sadayoshi Tada / taddy (@taddy_919) 2024年7月2日
ブログ出すのでそちらもみていただけると幸いです!https://t.co/ToYo5FrVB4
「踏み台サーバーでは様々なことができてしまい」ってところで海よりも深いため息が出た。マジでそれ。今すぐ廃止したい。でも廃止すると困る業務がある。じゃあどうするかという話で、Bytebaseというツールが紹介されていた。ツールというかはSaaSか?セルフホストもできるようだ。
Xでの反応を見る限り、ほぼ全員「なんだそれ、初めて聞いたぞ、便利そう」みたいな感じだったのが印象的だった。DBの変更をレビューして承認、実際に適用……といった一連の流れがこのBytebase上でできるらしい。すごすぎない?7月4日にテックブログが出るそうなのでそちらにも期待。
ポストモーテム運用を導入した話
資料とかXのアカウントなど発見できず。かなりうろ覚えになるけど、10年超の歴史あるサービス(BookLive)でポストモーテム運用を導入したというお話。メンバーが変わったことが導入する契機になったと話されていて、やはりそうだよね感。ポジティブなフィードバックにするためにネガティブなことは書かないとか、チームの雰囲気を保つために大事なことな気がする。
総括
この手の勉強会行って、時々「この枠の発表はあんまり自分に関係ないかな……」と思うことがたまにあるんだけど、今回は全部自分に刺さる発表内容で行ってよかった感が強い。特にセキュリティがらみの話はKADOKAWAの一件で注目度が高まっていることもあるし、明日から実践したいことが多かった。まあそのためには自分が5分身ぐらいしないといけないので地道にやっていきますけどね。
SRE NEXTもなんとなくで懇親会まで申し込んでみたけど、楽しみになってきた。
PR
昨年末より新たにXのアカウントを2つに分けました。ぜひこちらをご覧下さい。