パフォーマンスや費用、エラー発生状況の監視フローの整備

2022/8/22 18:112023/2/13 12:16

As Is

簡単な Alert Policy は設定しているものの、あるコードをデプロイしたことによるレイテンシ等の変化やエラー数の推移等を定期的にモニタリングして異常を検知する仕組みができておらず、人力による簡易的なチェックがなんとなく行われている状態になっている。

また、費用面でも同様で、コードのデプロイや BigQuery 等の分析で意図せず急激に費用が増加するような場合でも、数日後にたまたま請求レポートを見たときに気づく、といった状況になっている。

エラーに関しても、すぐに対応が難しい事象に関するエラーが定常的に発生し続ける状況が続いており、どのエラーがどれくらい発生していると異常なのかどうかが正確に把握しづらい状態になっている。

To Be

パフォーマンスの監視

あるデプロイ以前と以後のレイテンシの変化やメモリ使用量、CPU使用量、特定のエラーが増加した等、状況の変化を自動的に追えるようにしたい

費用の監視

費用面の推移を定常的に把握し、異常値に即座に気づけるようにしたい

エラーの監視

通常発生しないエラーにすぐに気づいて対応できるようにした