11:30~12:30
Chiharu (saku_yoga)
11:50~12:10
エンジニアのかた向けに、肩こり・腰痛等を改善する椅子に座ってできるリフレッシュ法を紹介します。 是非お早めに受付をして、すっきりとした状態で本編を楽しみましょう! https://sakura.yoga/2017/03/30/%e8%87%aa%e5%b7%b1%e7%b4%b9%e4%bb%8b/
さくらヨガ
デスクワークにより身体ががちがちに硬くなってしまっていたところ、ヨガに出会う。 ヨガを受けた後の背筋がピンと伸びる感覚がとても気持ちよくヨガにはまっていく。 他の人にもヨガの良さを伝えていきたくなり、ヨガ指導者の資格を取得する。 その後、インドネシアのバリ島やインドの北部、アメリカを旅行し、生活の中に馴染むヨガを経験する。 インドではチベット亡命地区のダラムサラにて、「世界でもっとも精神的に影響力のある人物ランキング」一位に選ばれた、ダライ・ラマ法王のティーチングに感銘を受け、チベットの人たちとの交流を深めている。
11:50~12:10
12:30~12:35
坪内 佑樹 (yuuk1t)
12:35~13:05
Webアプリケーションをはじめとする分散アプリケーションは複雑化の一途を辿っています。そのような状況では、システム管理者がシステムに変更を加えるときに、システムの信頼性がどの程度低下するのかを予測したり、障害発生時に短時間で回復することが難しくなっています。その結果、変更することに恐怖を感じ、変更に躊躇してしまいます。そこで、変更時の信頼性低下リスクを予測し、低減させる、つまり信頼性を制御することで、変更速度を向上させるというのが講演者の考えるSREのあり方です。そのアプローチの一つとして、メトリック、ログ、トレースといった異種混合の計測データを組み合わせて、システムの可観測性(Observability)を高める技術が注目されています。そこで講演者は、TCP/UDP通信とOSのプロセス間の依存関係を追跡するといった新しい計測手法に関する研究と、異種混合の計測データを格納し効率的に問い合わせるためのデータ指向アプリケーションの構成技術に関する研究に取り組んでいます。本講演では、研究背景としてSREをサイト信頼性の制御技術と定義した上で、研究内容の概要、および今後取り組む研究展望についてもお話します。
SREの研究者。さくらインターネット研究所研究員。株式会社はてなで5年のSREの現場経験を経て、現職ではSRE、Data-Intensive Applicationsに関する研究開発を担当。
12:35~13:05
ヤフー株式会社
増田 彬 (go_zen_chu)
13:20~13:40
現在、私達の SRE チームは 40000 コンテナ以上のアプリケーションが稼働する PaaS 環境をヤフー株式会社内向けに本番提供しています。 社内で本番利用され始めてから 3年近くが経ちましたが、その過程で PaaS SRE チームは様々な困難に遭遇しました。 本発表では、PaaS SRE チームが、1. どのようにアラートに立ち向かい、安定性を保ったのか、2. どのように目標と向き合いユーザとの関係を築いたのか、3. スクラムを実践したのか、について共有します。
ヤフー株式会社 PaaS SRE
ヤフー株式会社 2016年新卒入社。PaaS チームメンバーとして 3年半、ユーザの利便性を向上するシステム開発や PaaS の安定性を高めるツールの開発を行っている。
株式会社ディー・エヌ・エー
鈴木隆史 (t24kc)
森下篤 (74th)
13:20~13:40
AIを使ったオートモーティブ領域のサービスとして、タクシー営業を最適化するお客様探索ナビを開発しています。 データサイエンティスト、ドメインアルゴリズムエンジニアが開発した結果を、MLOps、サーバサイドエンジニアがデータパイプラインとサーバAPIとして構築し、最終的にタクシー乗務員向けの最適走行ナビアプリとして提供しています。 このアーキテクチャの信頼性に対する取り組みとして、データパイプライン中でタクシー運行シミュレーションによる評価行ったり、API末端で案内経路に異常が発生していないか、交通規制を守って走行できるかのチェックなど、複数の施策を行っています。 スコープをアーキテクチャの信頼性にしぼり、データパイプラインとアーキテクチャの全体像をお話した後、信頼性を担保するために、行っている施策とそれを取り組むに至った考え方を紹介します。
株式会社ディー・エヌ・エー MLエンジニアリンググループ
2019年に中途入社。前職では大規模データ基盤の新規構築と運用保守、レコメンドアルゴリズムの設計開発、チャットボット開発などに従事していた。あわせてビックデータを活用したサービス分析をリード。DeNAではオートモーティブ事業における機械学習基盤の設計開発を行っている。
株式会社ディー・エヌ・エー オートモーティブ事業本部モビリティ・インテリジェンス開発部サーバエンジニア
2018年よりDeNAモビリティ・インテリジェンス開発部サーバサイドエンジニア。技術書典3〜7への参加や、VSCodeの解説書を執筆。
株式会社メルカリ
渋谷 充宏 (m4buya)
高木 潤一郎 (tjun)
13:20~13:40
現在メルカリ・メルペイ両社は絶え間ない変化の最中にいます。メルカリにおいてはマイクロサービス化が本格的に進展した一方、メルペイでは2019年のプロダクトリリース前後における怒涛の開発、そしてそれに伴い生じたの諸課題への対応など…。 本セッションではメルカリ・メルペイ両社におけるSREチームのEngineering Managerより、そういった激しい変化の中でどのようにSREのプラクティスを浸透させたか、そのためにどのようなチーム作りを行ってきたかについての生の事例をご紹介できればと考えています。
株式会社メルカリ Engineering Manager, SRE
広告代理店でSREチームの立ち上げに関わったのち、2019年7月にメルカリに入社しJP SREのEMに。RubyやScalaが好きで、RailsAdmin/CarrierWaveのコミッタ。
株式会社メルペイ Engineering Manager, SRE
メルペイSREチームのEngineering Manager。2018年4月に入社し、メルペイのサービスインフラとSREチームの立ち上げを行っています
13:20~13:40
tkuchiki (tkuchiki)
13:50~14:10
「オンボーディングとは、組織やサービスに新たに加入した人に手ほどきを行い、慣れさせること。」です(IT用語辞典より引用)。 本セッションでは、新しく入社した人にパフォーマンスを最大限発揮してもらうために、どのようなオンボーディングをしているか、事例を紹介します。 オンボーディングをする過程で、どのようなことに問題を感じ、改善したのお話しします。 一般的な話しも含まれるかもしれませんが、可能な限り SRE のためのオンボーディングについてお話ししたいと思います。 以下が予定しているアウトラインです。 ・今までのオンボーディングにおける課題 ・オンボーディング改善のモチベーション ・オンボーディングの事例 ・チームとしての取り組み ・今後の展望
株式会社メルペイ SRE
株式会社メルペイSREチーム所属。面白法人カヤック、株式会社 Kaizen Platform を経て現職。Go でコマンドラインツールを作るのが好きです。
赤野 裕喜
13:50~14:10
自分たちのシステムのキャパシティが把握できておらず、サービス運用の中で負荷的なリスクが見えないため事業判断がしづらいという課題がありました。 実際に、施策リリースの影響で負荷が高騰してしまいサービスのエラーレートが高い状態が長時間続いてしまったことがあり、新規施策が安心してリリースしづらいという状態になっていました。 その課題に対して、定期的な負荷試験によるシステムキャパシティの把握と試験結果をサービス運用に活用する動きをしてきたので、その中で得られたプラクティスを共有できればと思います。 大きく分けて負荷試験の運用、試験結果をサービス運用にどう活用しているかについてお話しする予定です。
株式会社マッチングエージェント SRE
元々はバックエンドエンジニアをやっていましたが、DevOpsに興味がありマッチングエージェントでSREをやらしてもらっています。色々と意見交換できたらと思うので気軽に話しかけてもらえると嬉しいです。
株式会社 VOYAGE GROUP
みっさん (larufa1)
13:50~14:10
VOYAGE GROUP の中で広告配信プラットフォーム(SSP)を提供している fluct のモニタリングの歴史について。 事業成長し変化していく環境の中でどのようにモニタリングを変えてきたのか、提供しているサービスの特性を踏まえて紹介します。 その中でも、何を課題に感じて変えようと思ったのか、何故そのツールを選んだのか、アラート通知はどうしているのか、といったことにフォーカスします。
株式会社 VOYAGE GROUP fluct SRE
2016 年、 VOYAGE GROUPに新卒として入社。入社してから今まで、広告配信プラットフォームを提供するfluct の SREチームに所属。
13:50~14:10
坂井 学 (manabusakai)
14:25~14:45
Fintech の枠を超え社会インフラになりつつある freee のプロダクトですが、残念ながら障害はゼロではありません。想定外の障害もあれば、単純なオペミスによる障害もあります。ですが freee のエンジニアは障害から学びを得て、常に改善を繰り返しています。 個人の失敗を責めても何も始まりません。失敗を許容する文化を根付かせ、失敗から学ぶ文化をどう育てるか? このセッションでは freee で実際に取り組んでいる障害からの学びと改善策をご紹介します。
freee 株式会社 SRE / プレイングマネージャー
freeeで働くSREエンジニア。Scala,Rubyでのアプリ開発やAWSのインフラ設計が得意分野。2017年より本業の傍ら個人事業主として開業し、スタートアップの技術アドバイザーをやっています。
株式会社ミクシィ
佐藤 良祐 (jtwp470)
14:25~14:45
ミクシィは、みんなで使えるグループウォレットアプリ「6gram」を2019年11月にリリースしました。 6gramでは、JCBバーチャルプリペイドカードの発行やApple Pay/Google Payと連携したQUICPay+によるモバイル決済の提供を行っており、バックエンドでは決済ネットワークとのやりとりから精算システムに至るまで、そのほとんどすべてをフルスクラッチで実装しています。 少人数のチームでPCIDSSに完全準拠したシステムの開発と運用を行っていくために、我々が採用した構成や開発手法などについて具体的にお話します。また運用中の異変を素早く検知する機構の整備など安定した決済サービスを提供するための取り組みについても合わせて紹介します。
株式会社ミクシィ ソフトウェアエンジニア
2017年株式会社ミクシィに新卒入社しモンスターストライク日本版のSREを経験。2019年4月より、ID/Payment事業部に異動。最近はずっとElixirをかいています。
dely株式会社
井上崇嗣 (gomesuit)
14:25~14:45
SRE本には「第Ⅱ部 9章 単純さ」という章があり、その中にこのような一文があります。 > システム管理に対するSREのアプローチをうまくまとめるなら「要するに、私たちの仕事はシステム内でのアジリティと安定性のバランスを取ることなのです」 「安定性とアジリティのバランスを取ること」はSREの重要な役割であり、圧倒的な変化やスピードが求められるdelyにおいては特に重要な役割だと考えています。バランスをとるための分かりやすい手段としてエラーバジェットがありますが、エラーバジェット自体はシンプルな考え方でありSREの本質でありつつも、仕組み上組織への導入はかなり難易度が高いものになっています。将来的にエラーバジェットを導入することを目標としても、まず大前提として組織としての考え方を変えていく必要があると考えます。 本セッションでは、組織としての考え方を変えていくために、SREとして、マネージャとして何を行ってきたのか、技術だけでは解決できないことに対してどういった工夫を行ってきたのか、などを話したいと思います。
dely株式会社 SRE/GM/VPoE
新卒でSIerに入社、WEB系企業で基盤開発、ベンチャーにてインフラエンジニアを経験した後、SREとしてdelyに入社。マネージャを経て現在は開発部の部長を担当。SREチームのリーダーも兼任。
岩堀 草平 (egmc)
14:25~14:45
SRE本におけるページャーを鳴らす基準の一つとして「アクション可能であること」が挙げられています。 グリーの提供する100を超えるサービスの監視システムでは日々多くのアラートが発報されていますが、中には対応が不明確であり、具体的な復旧アクションを必要としないものも存在していました。 本セッションではそういったアラート対応を削減、自動化、またはアクション可能なものへと変えていく方法について具体的な事例と共に紹介します。
グリー株式会社 リードエンジニア
2014年よりグリー株式会社、インフラストラクチャ部所属。 主にゲームまわりのインフラ担当とサーバ監視チームのリード的なお仕事をしています。
Osamu Takayasu (osamunmun)
15:00~15:20
日経電子版を支えるSREチームが2019/1に発足しました。メディアとして安定したサービスを実現し、いつでもニュースをユーザーに届けられるようにすることは重要だと考えています。しかし、開発チームの体制は電子版を構成するシステムごとに分かれており、電子版全体の可用性、信頼性、アーキテクチャに責任を負うチームはありませんでした。また、各開発チームは機能開発と可用性、信頼性の担保の両方の責務を負っていて、必ずしも安定稼働上の課題に注力できない環境にあります。この課題を解決するべく、SREチームを発足しました。まだ、道半ばではありますがこれまでの取組を共有します。
日本経済新聞社
日経電子版のEngineering Manager&サーバーサイドエンジニア。最近は組織課題に取り組むことがメインです。メンバーと一緒にSREチームの立ち上げ中です!
株式会社ユーザベース
鈴木祥太 (sshota0809)
15:00~15:20
株式会社ユーザベースのコアプロダクトである SPEEDA を支えているハイブリッドクラウド環境。元々はオンプレミスのみで構成されていた環境から、パブリッククラウドである GCP とオンプレミスのハイブリッドクラウド環境への拡張を行いました。どのようにしてハイブリッドクラウド環境への拡張を行ったか。そこに至るまでの軌跡とこれから目指すべき姿をお話いたします。また、オンプレミス→ハイブリッドクラウド環境への拡張を行う上で発生した課題と解決までの道のりや、冗長性と生産性を高めるための工夫についてもお話いたします。 ・GCP : Dedicated Interconnect の活用 - Shared VPC の活用 ・GCP : Cloud VPN を活用した冗長 ・GCP : Cloud DNS を用いたハイブリッドクラウド環境における名前解決 ・Kubernetes + Istio を用いたインフラの抽象化
株式会社ユーザベース SRE
2016 年、ソフトバンク株式会社に新卒入社。データセンター内NW構築、プライベートクラウド基盤の設計/構築等を担当。2019 年 11 月より株式会社 UZABASE に入社し SRE を担当。
Takeshi Kondo (chaspy_)
15:00~15:20
プロダクト開発に関わるすべてのひとのための共通目標であるSLO、うまく運用できていますか?1st SRE Book の登場後、SLO・エラーバジェットという考え方自体は広がってきていますが、それを実際に日常の運用に落とし込むためには工夫が必要です。SLO Review を行うことが本当に Product の信頼性につながるのか、本当にやるべきことなのかを確かめるために、最初は SRE である私が1人ではじめ、それが良い習慣であることを確信した後、チーム全体に展開しました。本発表では、まずSLOを定期的に実施する「SLO Review」を SRE だけでなく Web Developer, Business Developer を含む Product Team へどのように浸透させていったのか、その具体的な方法を説明します。後半では Datadog を用いて SLO Review を具体的にどうやって行うのか、それを行うことでどのような利点があるのか、なぜそれが良い習慣であるのかについて説明します。
Quipper Ltd. Site Reliability Engineer
2018年6月にQuipperに入社。増えていく Product Team に Readiness Check や SLO を導入、運用している。開発者が幸せになれる世界を作っていきたい。
酒井憲吾 (kengon)
15:00~15:20
ソラコムでは130を超える国と地域で利用できるIoT向け通信プラットフォームをAWS上で開発・運用しています。本セッションでは高い信頼性が求められる通信プラットフォームの安定稼働の実現のためソラコムの運用チームが行なっている活動について紹介します。具体的には、開発チームと共に行っているシステム設計やグローバルに展開する通信プラットフォームのモニタリング方法、サポートチームと連携したトラブルシューティングや運用チームが大事にしているカルチャーについてご紹介させていただきます。
株式会社ソラコム
株式会社ソラコムのOpsDevエンジニア。移動体通信向けのソフトウェア開発やプライベートクラウドの運用を経て、現職では監視システムの開発や通信プラットフォームの運用を行う。IPA未踏スーパークリエータ
株式会社エウレカ
Shintaro Kaneko (kaneshin0120)
15:30~15:50
私たちが開発・運用してきた恋愛・婚活マッチングサービス「Pairs」は ここ数年にわたり、毎年140%以上の成長をし続けて、2019年には日本・台湾・韓国で会員数が1000万人を突破しました。 サービスの成長が加速し続ける一方で、機能・管理対象の増加、システムの負荷やリソース、可視性の向上の必要性 管理コストの増加などなど、様々な課題を解決・改善し続けて、システムもエンジニアも成長していく必要がありました。 今回は成長し続けるサービスの品質を守るために、またサービスの成長を阻害せず開発を加速する為に、どのような戦略や指標を持ってエウレカのSREチームや開発チームのエンジニアが、システムや行動を変化させてきたかを 具体的な取り組みをまじえつつお話しできたらと思います。
株式会社エウレカ CTO
2010年、東京理科大学理学部を卒業後、組込系企業に入社。2011年、カナダ留学。帰国後、東京理科大学の研究室OBとして最適化理論の研究に携わる。2012年、株式会社エウレカに入社。「Pairs」および「Couples」の立ち上げメンバーとして開発に参画。2016年10月、執行役員CTOに就任。2017年10月、取締役CTOに就任。
New Relic 株式会社
田中 孝佳 (tanaka_733)
15:30~15:50
New RelicはSaaSで提供しているObservabilityプラットフォームで、日本でもすでにたくさんのSREの方に活用してもらっています。そんなNew Relicのサービス自体もSREがNew Relicを使って日々サービスの健全性を保ち、改善を行っています。 今日はNew RelicのSREが使っている事例を紹介しながら、SREの方のためのNew Relicの機能活用法を紹介したいと思います。
New Relic 株式会社 シニアテクニカルサポートエンジニア
ソフトウェアエンジニア、インフラエンジニアなど自社開発や自社運用の現場で経験を積んだのち外資系ソフトウェアベンダーでのテクニカルサポートを経て現職。New Relicユーザーだった経験あり。コミュニティでの登壇活動も多く、Microsoft MVPを7年連続受賞中。得意分野はC#をはじめとするソフトウェア開発、Kubernetes関連技術およびパブリッククラウド。
株式会社ビズリーチ
HRMOS採用SRE
15:30~15:50
我々ビズリーチ社のSREは 「Make It Visible」「No Ops, More Code」 というビジョンを掲げ、 Google SREのプラクティスを基に様々な活動を行っております。 SREの日々の業務は複雑で、難易度の高いものがほとんどです。やるべきことが多岐にわたったり、緊急度が高かったり、すぐにオンコールで対応しなければならないこともあります。また、プロダクトの成長に伴い、品質と開発スピードのバランスを取ることが課題として上がってきています。我々はれらの課題に対してスクラムを導入することで立ち向かっています。スクラムに取り組み、SREと開発組織がどう変わったのか、SREがスクラムを回すコツを事例や実際の取組みを通してご紹介します。
株式会社ビズリーチ
HRMOS採用のSREは様々なバックグラウンドのエンジニアが集まるチームであり、「プロダクトに十分な信頼性をもたせることでユーザ価値を高める」をミッションとして一丸となって課題と向き合っています
森垣航太 (k_mrgk)
15:30~15:50
NTT Ltd. Group ではマイクロサービスアーキテクチャを採用したサービス開発を行っています。 当初、各マイクロサービスのデプロイ方式についても各サービス開発チームに一任していたため、様々な方式が乱立し、運用性の低下につながっていました。 GKEをベースとしたコンテナ基盤の導入を機にSREチームを結成し、共通基盤としてSpinnaker、Algo Rolloutの導入、Blue/Greenデプロイメントの実現、デプロイパイプラインのコードでの構成管理に取り組んでいます。 本セッションでは、その取組を進める中で直面した課題や解決策についてご紹介します。
NTT Ltd. Group SRE
2018年NTTコミュニケーションズ株式会社に入社、SREチームに発足時から参画し、主にSpinnakerやKubernetesを用いた共通基盤の構築に取り組む。
清水 勲 (isaoshimizu)
16:05~16:45
セキュリティ専門のエンジニアが組織にいない場合、古くなったソフトウェアのメンテナンス、鍵の管理、ファイアウォールの管理を誰が行うのか。それが曖昧な状況が長く続くとサービスが脆弱となり、やがて問題を引き起こすことでしょう。 サービスとシステムの信頼性に対してSREが責任を持つ組織においては、SREが中心となってセキュリティの問題を把握し、安全で堅牢な状態を維持する必要があります。Webアプリケーションやクラウドを使ったシステムをセキュアに保つためにできることは多くあります。 新しくサービスを開発する時、サービスの規模が大きくなってきた時など、セキュリティを意識すべきフェーズで何をすべきなのか、戸惑うことは少なくありません。セキュアなWebシステムを構築、維持するために、最低限知っておきたい知識、応用的な事例について、今までの経験をもとにお話したいと思います。
株式会社ミクシィ Vantageスタジオ みてね事業部 SRE
2011年よりSNS mixiの運用、2014年よりモンスターストライクのサーバーエンジニア&SRE、2018年より「家族アルバム みてね」のSRE。IaC、Kubernetes移行が最近の主な業務。
瀬尾 直利 (そのっつ) (sonots)
16:05~16:45
私は2019年4月にZOZOにMLOpsチームを作り、それから10ヶ月ほどチームをリードしてきました。 その10ヶ月の間にZOZOでは買収も含め色々なことがありましたが、MLOpsチームではZOZO画像検索のリリースを含め、数々のミッションを達成してきました。 本発表では、ミッションを達成できる良いチームを作るために、どのような指針をもって私がチームをリードしてきたのか話します。 また、MLOpsと通常のSRE(Engineer)に求められるスキルセットの違いについて述べ、実際に遭遇した問題を踏まえて、どのようにチームとしてSite Reliabilityを向上させてきたのか話します。 キーワード: ・システムのボトルネックを潰す ・プロジェクト進行上のボトルネックを潰す ・モチベーションコントロール ・心理的安全性 ・当たり前のレベルを引き上げる ・神は細部に宿る ・仮説と検証のサイクル
ZOZO Technologies, Inc MLOps チームリーダー / SRE スペシャリスト
CRuby, Fluentd, Chainer committer. MLOps Leader, SRE Specialist at ZOZO Technologies, Inc.
渡辺喬之 (takanabe_w)
16:05~16:45
成長期のプロダクト開発において、新技術の導入やマイクロサービス化などの破壊的な変更を経験するケースがある。実際の現場ではこれらの破壊的な変更を本番環境に導入するにあたり、稼働中のサービスの可用性を維持しつつ、技術や開発体制再構築のプロセスが必要となってくる。このプロセスは組織によって異なるため、様々な事例が広く共有されることが望ましいと考えている。 クックパッドのグローバルサービスでも既存の検索サービスを進化させるために破壊的な変更を行った。具体的には、検索サービスを再開発するために開発メンバー、開発言語、インデックスの構築ロジックの変更、また内製の Machine Learning API との連携など、これまでの検索サービスにはない取り組みも行った。一方で、検索サービスは高い可用性が求められる。上述の破壊的な変更があるサービスを本番に投入する際もこれは例外ではない。 そこで、本セッションでは新サービスを既存サービスの可用性に影響を与えることなく本番導入するためのアーキテクチャ、開発規則(Design Docs や SLO の設定方法)、主要技術に関するノウハウを共有する。
Cookpad Inc. Site Reliability Engineering Lead
クックパッドのグローバルサービスで SRE チームのリードをしています。日本のコミュニティに顔を出す機会が少ないので、この機会にみなさんとお知り合いになれたらなーと思っています 🤞
16:05~16:45
山口能迪 (ymotongpoo)
16:55~17:35
サイト信頼性エンジニアリング(SRE)に出てくる原則や手法について、コンパクトに例を交えながら解説します。まだSREを導入を検討している方、導入しているけれど違和感を感じている方などに、SREがどのような原理で運用されているかを理解する一助になると思います。モニタリング、アラート、自動化、SLO、エラーバジェット、ディザスター耐性テスト、ポストモーテムなどのキーワードに興味がある方は是非お越しください。
Google Developer Advocate
グーグル合同会社デベロッパーアドボケイト。クラウド製品の普及と技術支援を担当し、特にオブザーバビリティやDevOps/SREといった領域を担当。またGoコミュニティの支援も活発に行っている。
Taichi Nakashima (deeeet)
16:55~17:35
Mercari Microservices Platform Team is building a platform for backend developers to develop and run microservices. Currently, in this platform, around 100+ microservices are running and more than 200+ developers are working. To run this scale of the platform, the reliability is really critical. In this talk, I will share how we operate the platform by applying Google SRE practice: how we set and update SLI/SLO, how we on-call, how we ensure observability and prepare playbook and so on.
Mercari Tech lead
deeeet is platformer and enthusiast of developer productivity. He is co-author of "みんなのGo言語"
阿南 肇史 (toshanan)
16:55~17:35
近年、Webサービスを提供する中で、Microservicesアーキテクチャに代表される分散アーキテクチャを採用するシステムが増加しています。その結果、システムの複雑性は増し、各システムがどう連携しているか把握することが難しくなっています。そこで登場したのが、Observabilityという概念です。今回の発表では、改めてObservabilityとは何か、なぜ必要なのか、について私の考えを発表します。また、発表の後半では私が普段利用しているIstio, Prometheus, kiali, jaegerといったソフトウェアを使ってどのようにObservabilityを高めているかお話させていただきます。
株式会社ユーザベース SRE Team Leader
株式会社ユーザベースのSRE。同社に2016年に入社し、オンプレ・クラウドインフラの構築と運用、モノリスアプリの改善などを担当。最近はGCP、Kubernetes、Istioを愛用している。
16:55~17:35
藤原 俊一郎 (fujiwara)
17:50~18:20
カヤックが運営しているゲームユーザー向けのコミュニティサービスLobiでは、多い日では1日に10回程度のデプロイを行っています。 この頻度でデプロイを行うためには、デプロイ自体の高速化はもちろん、CIの高速化、サーバエンジニア以外でも実行できる仕組み、実行後の異変を素早く検知し、問題があった場合に安全にロールバックを行う仕組みなど、いろいろなものを整備する必要がありました。 それらを具体的にどのような取り組みによって実現しているのかをお話しします。 ・開発したデプロイツール stretcher / ecspresso ・Jenkins から CircleCI へ移行し CI を高速化 ・Rundeck による GUI でのタスク実行 ・Mackerel と Google カレンダーに履歴を記録 ・Slack bot によるPRレビューやデプロイの管理
2011年より面白法人カヤック。SREチーム。最近の趣味はマネージドサービスの隙間を埋める隙間家具OSS作成。著書に『みんなのGo言語[現場で使える実践テクニック]』(共著、技術評論社)
17:50~18:20
関根 達夫 (tsekine)
玉川 竜司 (tamagawa_ryuji)
樽石 将人 (masato.taruishi)
田中 慎司 (stanaka)
18:30~19:10
特別企画として、スペシャルゲストを招いたパネルディスカッションを行います。事前に参加者アンケートで募ったいくつかの質問を当日取り上げながら、SREに関する様々なテーマを扱います!お楽しみに!
2010年よりGoogleでフィーチャーフォン向けやAndroid向けサービスのSREとして従事。数年間のGoogle本社勤務の後、2019年よりとある外資系企業の日本法人でSREとして勤務。
ソフトウェア企業勤務のかたわら、オライリージャパンから「Hadoop」「ヘルシープログラマ」「SRE サイトリライアビリティエンジニアリング」など技術書の翻訳多数。大阪在住。
元Google SRE / SWE、Retty CTOで現 Retty Innovation Lab ラボ長。早稲田大学データサイエンス研究所招聘研究員、テックカンパニーへの技術顧問など様々な領域で活動中。
2006年株式会社はてなに入社、2010年よりCTO。2016年9月、メルカリに入社。メルカリUKにて開発チームを立ち上げる。現在は日本でメルカリのMicroservices化を旗振りしている
18:30~19:10
19:10~19:15
19:30~21:30