A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your team
突然ですが... あなたは、あるゲームプロジェクトの本番リリース2日前にサーバエンジニアとしてJOINしました。いざリリースを迎えたとき、ElastiCacheのメモリが突然危険域を超え、さらにあと2時間で枯渇しそうな状況になりました。 さて、この状況におかれたあなたは何をしますか? はじめに モバイルゲームのシステムは新しいイベントをopenするとトラフィックが2倍、3倍、時には普段の10倍以上来ることがあり、トラフィックの変動が非常に大きい特性があります。 新しいゲームのリリース時はより顕著で、想定以上のトラフィックが来ることもしばしばあります。 この記事は、あるゲームプロジェクトの本番リリース時に大規模トラフィックが来た際のサーバトラブルを題材に、 どのような観点で問題を切り分けていったのか、トラブルシュートのプロセス どのような準備(負荷テスト)をしていれば防げるのか という話をし
こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか?アラートの監視項目はどのように設定して、基準値をどのように決めていますか? 社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。 またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。 この記事ではAWS版kintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート 国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。 しかし現状のSLOはkinton
As of October 1, 2023, LINE has been rebranded as LY Corporation. Visit the new blog of LY Corporation here: LY Corporation Tech Blog This blog post is about an interesting experience I had while investigating and resolving a problem that happened in the Prometheus container which was still in the CrashLoopBackoff state. The phenomenon itself and the solution are obvious and simple; so simple that
成功者がどのようにNew Relicを使用してKubernetesのパフォーマンスを4倍に向上させ、拡張性とスループットを改善したかをご覧ください。
2019年9月11日、クックパッド株式会社にて「Cookpad Product Kitchen #3」が開催されました。今回のテーマは「IoT技術を利用したサービス開発の裏側」。私達の生活に徐々に浸透してきたIoT製品。ハードウェアとソフトウェアを連携させ、新たな価値を提供されている裏側には、どんな工夫や知見が存在しているのか? 自社でIoTサービスを開発しているIT企業4社のエンジニアが集い、サービス開発にまつわる裏話を語っていただきます。プレゼンテーション「IoTと監視」に登壇したのは、600株式会社 ProductQuality Managerの岡前直由氏。講演資料はこちら 無人コンビニ600を支える技術 岡前直由 氏(以下、岡前):それでは「IoTと監視」と題しまして600株式会社の岡前が発表させていただきます。よろしくお願いいたします。 最初に、弊社のサービスについて簡単にご紹介
こんにちは。技術開発室の與島です。 ハートビーツでは現在、データセンタの物理サーバで稼働している自社システムをマルチクラウドの新基盤に移設するプロジェクトが進んでいます。 先日その一環として、監視システム happoのメトリックサーバをデータセンタの物理サーバからAzureに移設しました。 本エントリでは、その経緯と流れについて紹介します。 監視システム happo 監視システム happoは、ハートビーツにおけるサーバの管理・監視業務に必要な以下のサービスを提供します。 Nagiosによるチェック監視 メトリック収集とGrafana + Graphiteによるメトリック可視化 インベントリ収集とインベントリ情報の保持 今回紹介するメトリックサーバは、2つめの「メトリック収集とGrafana + Graphiteによるメトリック可視化」における、メトリックのデータストアです。時系列データベ
こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。 バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。 過去の記事はこちらにあります。 運用に備えて バッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。 プリモーテム ポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSRE本の15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。 さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使
こんにちは、滝澤です。 先日、社内ISUCONが開催され、運営側として関わっていました。 その中で、試し解きと技術検証(お遊び)も兼ねて、以前から興味があったメトリック収集と分散トレーシングのフレームワークの OpenCensus を使ってみて、処理時間の可視化をしてみました。 そのときに行った内容などを紹介してみます。 OpenCensusとは OpenCensusはメトリック収集および分散トレーシングを行うためのライブラリ集です。 マイクロサービスやモノリシックなアプリケーションに対して Observability (可観測性)を提供します。 Google社が社内で利用しているメトリック収集およびトレーシングのライブラリ集であるCensusのオープンソース実装として、2018年1月にリリースされました。 提供する機能としては大きく分けて次のものになります。 Metrics (メトリック
Published also at https://jbd.dev/microservices-instrumentation/. What makes microservices observability different than observability of monolithic systems? Observability is the activities that involve measuring, collecting, and analyzing various diagnostics signals from a system. These signals may include metrics, traces, logs, events, profiles and more. In monolithic systems, the scope is a sing
SREcon18 Americas happened in Santa Clara, CA at the end of March, and it was teaming with SREs. (Shocker, I know.) A whopping 52.1% of those we surveyed had “SRE” in their title…but beyond the obvious (Site Reliability Engineering), what does SRE really mean? If you don’t know, take a look at my coworker Sahil Khanna’s blog on the subject, “DevOps and SRE: Comparing Apples to Oranges?” But for th
■ モチベーションサービスを継続的に改善していく上で、バグを避けることはできません。そこで、バグが混入した時にそれにいち早く気付ける仕組みが必要になります。 Webサービス開発ではふつう、ユニットテストを書きます。一連のページ遷移(動線)をチェックするE2Eテストを書くこともあります。これらを用いることで、バグに簡単に気づくことが出来ます。 しかし、フロントエンドのエラーには微妙なページデザインの崩れなども含まれます。この場合、単にDOMの存在やページ遷移の可否をチェックするだけでは不十分です。 このようなエラーチェックに関しては、2018年になった今も、人が直接見なければ良し悪しがわかりづらいというやっかいな側面があります。かといって、主要なページを毎日手でチェックするのは非常に手間がかかってしまいます。 ■ 自動でページのスクリーンショットを取るそこで、ChromeをNodeから操作す
トークを聞きに来て下さった皆様, ありがとうございました! 以下スライドです: 少なくともYAPCでは初めての40分トークで, しかも思っていた以上に人が来ていて, 終始あたふたしまくりでしたね. 発表していた自分のLAも危険な領域に突入していました... papixのLAが上がっているというかこれはCPU温度が上がっているのでは?? ただ40分のスポットインスタンスだから使い捨てで監視は二の次みたいな感じ #yapcjapan #yapcjapanB— トーカナイザの守護霊 (@mackee_w) 2018年3月3日 そういう感じで, 後半ちょっと走り気味ではありましたが, とはいえ話したいと思っていたことは全部話せたので良かったです. 結構学生の方が聞きに来てくれていて, そういった方がこれからエンジニアとして活躍していくときに役立つような発表ができたら良いし, その中で, 既にエンジ
mackerelio.connpass.com 11月29日(水)、はてなとメルカリにおけるモニタリング事例をご紹介する"Monitoring Seminar in mercari"を開催しました。 今回は六本木ヒルズにあるメルカリ様のイベントスペースをお借りして、多くの方々にご来場いただきました。 会場を提供していただいたメルカリ様、ご来場いただいた皆様、本当にありがとうございました。 メルカリのシステム・サービス監視について 最初のセッションはメルカリの長野さんです。 前半ではメルカリにおけるモニタリングツールの歴史と運用について、後半ではMackerelでの監視項目をご紹介いただきました。 実際にどのような監視を行なっているのか、みなさん興味深く聴いておられました。 「メルカリのシステム・サービス監視について」セッションの様子 Microservices Monitoring at
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く