Schedule

タイムテーブル

DAY 1: 8/3

Track A

Track B

Track C

8/3 13:30
-
13:35
Track A

開会式

Track BTrack C

サテライト会場

8/3 13:35
-
14:15
Track AKeynote

Reliable Systems through Platform Engineering

Steve McGhee
Track AKeynote

8/3 13:35 - 14:15

Reliable Systems through Platform Engineering

Infrastructure breaks, but systems can persist! We really want systems that withstand unavoidable failures. Abstractly, we understand that. In this talk, Steve presents concepts like spanning failure domains and using generic mitigations through Platform Engineering, as well as introducing a lab environment where teams can experiment with these capabilities directly and a community where we can discuss it all, memes and all.

Google Cloud Reliability Advocate, SRE

Steve McGhee

Steve was an SRE at Google for over a decade in Android, YouTube, and Cloud. Now as a Reliability Advocate, he helps companies to build robust, reliable systems with resilient, sustainable teams in the cloud.

Track BTrack C

サテライト会場

8/3 14:15
-
14:30

休憩

8/3 14:30
-
15:10
Track A

工学としてのSRE再訪

yuuk1
Track A

8/3 14:30 - 15:10

工学としてのSRE再訪

SREが普及するにつれて、システム管理のアプローチは技芸から工学(科学)へ移り変わっています。2010年発行の書籍ウェブオペレーションでは、「ウェブオペレーションは技芸であり、科学ではない。」と書かれています。システム管理の個別具体的な要素技術はコンピュータサイエンスに依るとしても、個別技術の集合体と人間が統合されたサービスを正常に稼働させ続けることは技芸の範疇にありました。そして、SRE普及以後は、ユーザー視点に基づくエンドツーエンドの信頼性を定義・計測し、計測結果に基づいて、開発・運用の意思決定を行う工学的アプローチがとられるようになりました。しかし、システム管理の分野を技芸から工学へと昇華させるための土台となる知識や過程、その精神は、現在のエンジニアコミュニティには共有されていないままに思えます。 そこで、本発表では、コンピュータサイエンス、ソフトウェア工学、信頼性工学、認知科学などの工学・科学分野がSREにどのように接続されているかを、歴史的な論文や書籍、SREcon、LISAなどのプレゼンテーションを基に、発表者の見解を交えながら、紐解いていきます。

さくらインターネット株式会社 上級研究員

yuuk1

SREの研究者。さくらインターネット研究所でSREの研究に取り組む。最近の研究テーマはAI for SRE。SRE NEXTの登壇は連続4回目。

Track B

組織的なインシデント対応を目指して〜成熟度評価と改善のステップ〜

高村 成道
Track B

8/3 14:30 - 15:10

組織的なインシデント対応を目指して〜成熟度評価と改善のステップ〜

インシデントの復旧対応はその緊急度の高さから必ず行われますが、組織的に対応するための仕組みづくりは後回しにされがちです。 また、いざ仕組みづくりをしようと思っても、ベストプラクティスを安易に導入するだけでは不十分であり、自社の対応フローやカルチャーを踏まえた上で効果的かどうかを慎重に見極める必要があるため一筋縄ではいきません。 結果として、復旧メインの対応フローからなかなか改善が進まず、対応者が特定のメンバーに偏る(属人化)という問題が生じ、それが常態化することも珍しくありません。 そこで、本セッションでは、インシデントマネジメントにおける自社の現在地を把握し、段階的に仕組みづくりをしたいと考えるエンジニアに向けて、組織的なインシデント対応を主眼としたインシデント対応成熟度モデル(IRMM: Incident Response Maturity Model)を紹介します。 また、このモデルを活用したインシデントマネジメントの評価方法や各レベルごとの改善のステップについてお話します。

株式会社Topotal CEO / SRE

高村 成道

大規模インフラ基盤の設計・構築・運用を経験し、EM、事業責任者、VPoEを経て、2020年にTopotalを創業し、SRE as a ServiceのSREとWaroomのPdMを担当している。

Track Cパネルディスカッション (オフライン限定)

Becoming SRE - SREって何から始めればいいの? - ①

maru
吉田 拓真
星 北斗
柘植 翔太
Track Cパネルディスカッション (オフライン限定)

8/3 14:30 - 15:10

Becoming SRE - SREって何から始めればいいの? - ①

LINEヤフー株式会社 Service Embedded SRE team leader

maru

SWE, DBAなどを経て、2020年12月にLINE株式会社に入社。主にLINEスタンプやLYP PremiumでEmbedded-SREとして活動。 (2023年10月よりLINEヤフー株式会社)

株式会社スリーシェイク 代表取締役社長

吉田 拓真

株式会社スリーシェイク 代表取締役社長 オンプレインフラエンジニア、クラウドエンジニア、SREを経て 2015年にスリーシェイクを創業、SREを主軸にクラウドネイティブ化/エンジニアリング内製化支援を頑張っている人

株式会社LayerX バクラク事業部 PlatformEngineering部 DevOps グループ マネージャー

星 北斗

大規模WebサービスのSRE, セキュリティエンジニア, CTO/CISO を経て2024年1月より現職。SREに加え複数領域に責任を持ち、お客様に信頼して使っていただけるサービスづくりをしています。

株式会社サイバーエージェント 事業責任者 兼 SRE

柘植 翔太

2014年新卒入社。横断SRE組織の事業責任者/SREとして、SRE推進やリスク改善、サービス立ち上げなどへ取り組む。また、SRE領域のDeveloper Expertとしてグループ全体の技術力発展や人材育成へも注力している。

8/3 15:10
-
15:20
Track ATrack B

休憩

Track Cパネルディスカッション (オフライン限定)

Becoming SRE - SREって何から始めればいいの? - ②

maru
吉田 拓真
星 北斗
柘植 翔太
Track Cパネルディスカッション (オフライン限定)

8/3 15:10 - 15:20

Becoming SRE - SREって何から始めればいいの? - ②

LINEヤフー株式会社 Service Embedded SRE team leader

maru

SWE, DBAなどを経て、2020年12月にLINE株式会社に入社。主にLINEスタンプやLYP PremiumでEmbedded-SREとして活動。 (2023年10月よりLINEヤフー株式会社)

株式会社スリーシェイク 代表取締役社長

吉田 拓真

株式会社スリーシェイク 代表取締役社長 オンプレインフラエンジニア、クラウドエンジニア、SREを経て 2015年にスリーシェイクを創業、SREを主軸にクラウドネイティブ化/エンジニアリング内製化支援を頑張っている人

株式会社LayerX バクラク事業部 PlatformEngineering部 DevOps グループ マネージャー

星 北斗

大規模WebサービスのSRE, セキュリティエンジニア, CTO/CISO を経て2024年1月より現職。SREに加え複数領域に責任を持ち、お客様に信頼して使っていただけるサービスづくりをしています。

株式会社サイバーエージェント 事業責任者 兼 SRE

柘植 翔太

2014年新卒入社。横断SRE組織の事業責任者/SREとして、SRE推進やリスク改善、サービス立ち上げなどへ取り組む。また、SRE領域のDeveloper Expertとしてグループ全体の技術力発展や人材育成へも注力している。

8/3 15:30
-
15:50
Track A

スポンサーセッション

Track B

Managing OS Lifecycle: A Deterministic Approach

Pranay B Kolakkar
Sudhindra Sajjalguddam
Track B

8/3 15:30 - 15:50

Managing OS Lifecycle: A Deterministic Approach

Deploying an operating system on a host in a datacenter environment is preferred over PXE and kickstart-based mechanisms at scale. However, with the variety of incoming hardware changing every year, it is hard to manage OS packages across the fleet. In this talk, we will share our humble attempt at standardization and making OS deployment across the fleet more deterministic and consistent.

Bloomberg LP Sr. Software Engineer

Pranay B Kolakkar

He started at Bloomberg back in 2009 building infrastructure to manage on-premise deployments which forms a part of offerings for Bloomberg terminal subscribers. His current focus is building infrastructure that manages OS deployment and maintenance across the hosts in Bloomberg datacenters.

Bloomberg LP Sr. Software Engineer

Sudhindra Sajjalguddam

Sudhindra started his career as a cloud engineer managing Kubernetes clusters back in 2017, and over the years has worked in various industries like Internet ads, Banking, and Healthcare. He currently works as a Senior Software Engineer (SRE) at Bloomberg in London, UK mainly focusing on all topics OS Lifecycles. He is also an amateur home cook and can be seen sometimes riding his bike in the many parks of London when it's sunny.

Track C

スポンサーセッション

8/3 15:50
-
16:05

休憩

8/3 16:05
-
16:25
Track A

休憩

Track B

スポンサーセッション

Track C

スポンサーLT

8/3 16:35
-
17:15
Track AKeynote

日本最大口座数を保有するSBI証券のAWSマイグレーションを支えたサービスとソリューション

岩本 敦史
Track AKeynote

8/3 16:35 - 17:15

日本最大口座数を保有するSBI証券のAWSマイグレーションを支えたサービスとソリューション

SBI証券は、新サービスの導入に伴う取引量の増加に備え、オンライン取引システムをAWSへ移行しました。本システム移行には、AWSのサービスであるAWS Fault Injection Service(以下、AWS FIS)を活用することで、障害をシミュレートし、システムの予期せぬ停止に対する対処方法を検証することで高可用性と拡張性を実現し、AWS Distributed Load Testingを利用して大規模な負荷をシミュレートすることで、顧客サービスの安定稼働と需要増加への対応力を確保し、低遅延、高可用性、高パフォーマンスなミッションクリティカルなシステムの移行に成功しました。

SBI証券

岩本 敦史

SBI証券CCoEチームリーダー。金融系SEからインフラエンジニアを経て現職。AWS歴13年。既存システムのAWS移行に奮闘中。

Track BTrack C

サテライト会場

8/3 17:15
-
17:20
Track A

閉会式

Track BTrack C

サテライト会場

DAY 2: 8/4

Track A

Track B

Track C

8/4 09:30
-
09:35
Track A

開会式

Track BTrack C

サテライト会場

8/4 09:35
-
10:15
Track AKeynote

宇宙科学研究所の探査機運用システムにおけるSREのプラクティスの導入と月着陸実証機SLIMでの利用

中平 聡志
Track AKeynote

8/4 09:35 - 10:15

宇宙科学研究所の探査機運用システムにおけるSREのプラクティスの導入と月着陸実証機SLIMでの利用

宇宙探査機および人工衛星の運用においては、その状態を正確に把握するために地上システムが不可欠です。JAXA宇宙科学研究所は50年以上にわたる衛星運用の歴史を持っていますが、地上システムおよびソフトウェアは古い設計のままであり、さまざまな改善が必要です。最近ではオープンソースソフトウェアの活用を含めた衛星・探査機の監視システムの現代化について検討を進めています。 2023年9月に打ち上げられた月着陸機SLIMの運用ではこのアプローチに基づいたシステムが部分的に利用されました。例えば、Grafanaなどのツールを導入してObservabilityの改善を試みています。月着陸に成功する2024年1月20日までの期間、我々はSREという言葉を知らないまま開発や利用を進めましたが、結果的にこの取り組みは「SREのプラクティスを探査機運用に導入した」と言うことができます。 本講演では、我々のシステム構成の詳細、実際のデータを使用した画面の紹介、そして導入に至る意思決定や開発・利用の過程について、SREの視点を交えて再整理しながら解説します。

宇宙科学研究所 主任研究開発員

中平 聡志

宇宙物理学の研究者としてJAXAや理化学研究所での10年程度の活動を経て、現在は宇宙科学研究所で科学衛星・探査機の運用システムの構築や、観測データの長期保存や一般公開に関する仕事に取り組んでいます。

Track BTrack C

サテライト会場

8/4 10:15
-
10:30

休憩

8/4 10:30
-
10:50
Track A

オブザーバビリティのマクロからミクロまで〜あるいはなぜ技術書を翻訳するのか ①

山口能迪
Track A

8/4 10:30 - 10:50

オブザーバビリティのマクロからミクロまで〜あるいはなぜ技術書を翻訳するのか ①

SREの中でも最も重要なプラクティスであるオブザーバビリティですが、これはシステムや組織のどのレベルで持つべきものなのでしょうか。マクロなレベルで持つオブザーバビリティと、ミクロなレベルで持つオブザーバビリティは大局的には同じでも、細かな部分ではそのサイクルを含めて異なってきます。本セッションでは組織でオブザーバビリティを導入する際の大局的なサイクルと、開発チーム〜個人レベルでのミクロのサイクルの違いを紹介し、組織における各単位で必要となる戦略を詳らかにします。 また私がさまざまなSRE関連書籍を翻訳・監訳しているの理由を、この観点から紹介します。SREの実践の各段階にある方々に、各書籍の内容の紹介と、それらが先に紹介しているオブザーバビリティプロセスのどの段階を解説するものなのかの位置づけを解説し、先に紹介したプロセスをスムーズに実践するための足がかりにするためのポインターを提示します。

Google シニアデベロッパーリレーションズエンジニア

山口能迪

グーグル合同会社シニアデベロッパーリレーションズエンジニア。クラウド製品の普及と技術支援を担当し、特にオブザーバビリティ、SRE、DevOpsといった領域を担当。

Track B

プロダクトのスケールによって顕在化しうるリスクをどう管理するか?

浦山 裕史
Track B

8/4 10:30 - 10:50

プロダクトのスケールによって顕在化しうるリスクをどう管理するか?

株式会社diniiでは、飲食店の注文や会計を行うプロダクト群を提供しています。システム障害によって注文や会計が失敗すると、飲食店が営業できなくなるほどのインパクトがあるため、日々安定性を向上するための取り組みを行っています。 今回の発表では、"System Risk Records" と呼んでいるドキュメントを活用し、プロダクトの成長に伴って顕在化しうるリスク情報をどのように管理・対応しているかという取り組みについて紹介します。 System Risk Records は、リスクのインパクトやリスクが顕在化しうるタイミングの把握することで適切な時期にアクションを行い、アクションの記録を学びとして残しておくために活用しており、ドキュメントのフォーマットや活用事例について紹介できればと思います。

株式会社dinii Platform team / Engineering Manager

浦山 裕史

株式会社メルカリにてWebのインフラやCI/CD, 認証サービス構築などに携わった後、 2023年からdiniiに入社。技術面・組織面の両軸で品質向上・生産性向上を目指している。

Track C

大きな組織にSLOを導入し運用するということ、その難しさ ①

工藤 純
Track C

8/4 10:30 - 10:50

大きな組織にSLOを導入し運用するということ、その難しさ ①

DMMのプラットフォーム開発本部という部署では現在SLI/SLO導入の推進活動を行っており、長いチームだと現在では1年以上の運用実績があります。 DMMという大きな組織にSLOを導入する際には多種多様なチームがいます。 その中でサポート活動やガイドラインの設定といった活動を行った上で、計装やSaaSの仕様など多くの壁にあたりました。 今回、どのようにSLO導入推進しているのかに加え、実際長期間SLOを運用をしないと見えてこない課題点・反省点を含めて発表させていただこうと思います。

合同会社DMM.com プラットフォーム開発本部 SRE

工藤 純

2021年合同会社DMM.comに入社。プラットフォーム開発本部のSREとして、横断的にインシデント対応フローの改善やポストモーテムの徹底、SLI/SLO導入などを含めた信頼性の向上施策を進めている。

8/4 11:00
-
11:20
Track A

オブザーバビリティのマクロからミクロまで〜あるいはなぜ技術書を翻訳するのか ②

山口能迪
Track A

8/4 11:00 - 11:20

オブザーバビリティのマクロからミクロまで〜あるいはなぜ技術書を翻訳するのか ②

SREの中でも最も重要なプラクティスであるオブザーバビリティですが、これはシステムや組織のどのレベルで持つべきものなのでしょうか。マクロなレベルで持つオブザーバビリティと、ミクロなレベルで持つオブザーバビリティは大局的には同じでも、細かな部分ではそのサイクルを含めて異なってきます。本セッションでは組織でオブザーバビリティを導入する際の大局的なサイクルと、開発チーム〜個人レベルでのミクロのサイクルの違いを紹介し、組織における各単位で必要となる戦略を詳らかにします。 また私がさまざまなSRE関連書籍を翻訳・監訳しているの理由を、この観点から紹介します。SREの実践の各段階にある方々に、各書籍の内容の紹介と、それらが先に紹介しているオブザーバビリティプロセスのどの段階を解説するものなのかの位置づけを解説し、先に紹介したプロセスをスムーズに実践するための足がかりにするためのポインターを提示します。"=

Google シニアデベロッパーリレーションズエンジニア

山口能迪

グーグル合同会社シニアデベロッパーリレーションズエンジニア。クラウド製品の普及と技術支援を担当し、特にオブザーバビリティ、SRE、DevOpsといった領域を担当。

Track B

Central SREとEmbedded SREのハイブリッド体制で目指す最高のSRE組織

後藤 祥
Track B

8/4 11:00 - 11:20

Central SREとEmbedded SREのハイブリッド体制で目指す最高のSRE組織

エムスリーは医療業界で多数のプロダクトを展開しており、それに合わせて開発組織にはおよそ20のチームが存在しています。その中でSRE組織は、横断チームとして全体に関わるSRE (Central SRE) と、各開発チームに所属してプロダクトを担当するSRE (Embedded SRE) の2種類からなるハイブリッドな体制をとっています。 数年前、まだ社内でオンプレミス環境が主流だった時代はEmbedded SREは存在せず、Central SREが多くの責務を担う集中型の組織でした。その後、全社的なクラウド移行の推進という大きなきっかけと、開発チームの裁量が大きいという組織の特徴に合わせて、SRE組織はハイブリッドな形へとシフトしていきました。SRE組織の体制については実事例やプラクティスを多くみかけますが唯一の正解はなく、自社に最適な形を目指して継続的に改善していく姿勢が重要だと考えています。 本発表では、弊社の組織変遷の経験から得られたSRE組織の体制の考え方と、現在のハイブリッドな体制の実践例についてお話しします。

エムスリー株式会社 SRE

後藤 祥

SIerでの開発支援組織の経験を経て、2020年にエムスリーに入社、それと同時にSREとして働き始めました。 現在はSREチームのリーダーとして、全社レベルでの活動に日々奮闘しています。

Track C

大きな組織にSLOを導入し運用するということ、その難しさ ②

工藤 純
Track C

8/4 11:00 - 11:20

大きな組織にSLOを導入し運用するということ、その難しさ ②

DMMのプラットフォーム開発本部という部署では現在SLI/SLO導入の推進活動を行っており、長いチームだと現在では1年以上の運用実績があります。 DMMという大きな組織にSLOを導入する際には多種多様なチームがいます。 その中でサポート活動やガイドラインの設定といった活動を行った上で、計装やSaaSの仕様など多くの壁にあたりました。 今回、どのようにSLO導入推進しているのかに加え、実際長期間SLOを運用をしないと見えてこない課題点・反省点を含めて発表させていただこうと思います。

合同会社DMM.com プラットフォーム開発本部 SRE

工藤 純

2021年合同会社DMM.comに入社。プラットフォーム開発本部のSREとして、横断的にインシデント対応フローの改善やポストモーテムの徹底、SLI/SLO導入などを含めた信頼性の向上施策を進めている。

8/4 11:30
-
11:50
Track A

スポンサーセッション

Track B

スポンサーセッション

Track C

スポンサーセッション

8/4 11:50
-
13:00

昼休憩

8/4 13:00
-
13:20
Track A

スポンサーセッション

Track B

スポンサーセッション

Track C

スポンサーLT

8/4 13:30
-
13:50
Track A

本人確認サービスにおける信頼性の定義とアラート対応の継続的改善

五島 宙也
Track A

8/4 13:30 - 13:50

本人確認サービスにおける信頼性の定義とアラート対応の継続的改善

TRUSTDOCKは、金融機関から一般事業会社まで、あらゆる事業における本人確認(eKYC/KYC)業務の課題を解決する企業です。 柔軟に組み込むが可能なAPI/SDK/ネイティブアプリを提供しており、様々な企業のユーザー登録等の導線に組み込まれています。 当社のサービスが使えなくることは、組み込み先のユーザー登録の導線が止まることに直結するため、当社システムの信頼性に対する期待値が高くなることが多々あります。 その期待に応えるために、基本的なアラートの運用、そしてSLIの設定など、継続的な改善を繰り返しています。 継続的な改善を繰り返す中で、信頼性を定義するには「本人確認」というドメインへの理解をしたうえで、各ステップで適切な信頼性の定義を行うことが重要であることに気づきました。 課題も含めて、我々の取り組みを紹介をします。

株式会社TRUSTDOCK SRE

五島 宙也

2020年より株式会社TRUSTDOCKに入社。サーバーサイドの開発を経て、現在はSREとセキュリティに取り組んでいます。開発者が最低限の努力で、信頼性や機密性を維持できる仕組みを模索しています。

Track B

事業フェーズの変化を乗り越えるEnabling/Platform SREへの転換

星野 貴信
Track B

8/4 13:30 - 13:50

事業フェーズの変化を乗り越えるEnabling/Platform SREへの転換

創業から6年、ビットキーのSite Reliability Engineeringは、初期から信頼性を支えてきたメンバーの入れ替わり、プロダクトの普及、事業拡大により大きく変化しました。 その変化に伴い、信頼性の重要性も一層高まり、SREチームは開発チームに直接参加して伴走するEmbedded SREから、全社横断のEnabling/Platform SREへの転換を図っています。 本セッションでは、この転換を成功させるために実践しているアプローチを紹介します。 一例として、プロダクトチームとSREチームによる定期MTGを取り上げ、全員でのSLO確認、プロダクト横断の観点でシステム運用に関するトピックのフィードバック、インシデントのポストモーテム実施のプラクティス紹介します。 最後に、SLOの策定と運用にまつわる課題と将来の展望を紹介します。 この発表を通じて、事業フェーズや組織体制に応じたSREチームのあり方について、事例を通じた情報を提供します。

株式会社ビットキー SRE

星野 貴信

2022年11月株式会社ビットキー入社。主にオブザーバビリティ、CI/CD、IaC周りを担当。SETとして自動テストや開発体験向上の活動も兼任しています。

Track C

500万人が利用する「友達と遊べるたまり場アプリ パラレル」におけるデータベース基盤の継続的改善

吉牟田 陽平
Track C

8/4 13:30 - 13:50

500万人が利用する「友達と遊べるたまり場アプリ パラレル」におけるデータベース基盤の継続的改善

『友達と遊べるたまり場アプリ パラレル』では、クラウドベンダーによる不定期メンテナンスや季節イベントによるアクセス急増によってデータベースが不安定になり、最終的にサービスダウンに発展することが過去何度かありました。その都度、ポストモーテムを行うことで、『パラレル』はデータベース基盤の耐障害性と安定性を高めてきました。 中でも、タイムアウト・サーキットブレーカー・コネクションプーリングプロキシという三つの機構はサービスの急成長と信頼性の維持に効果的でした。これらは汎用性が高い対策ではありますが、それぞれに独自の実装の複雑さも伴います。 このセッションでは、『パラレル』がこれまで経験してきた障害とその対応策、そしてポストモーテムを通じて、どのようにデータベース基盤の耐障害性と安定性を向上させてきたのかについて詳しくお話しします。具体的な実装については、MySQL、Semian、Toxiproxy、Vitessを例に挙げて解説する予定です。

パラレル株式会社 開発責任者

吉牟田 陽平

2020年7月パラレル株式会社に入社。「友達と遊べるたまり場アプリ パラレル」の開発責任者として開発生産性、サービス安定性の向上に取り組む。直近はVitessとFlink CDCの導入を進めている。

8/4 13:50
-
14:10

休憩

8/4 14:10
-
14:30
Track A

SRE の考えをマネジメントに活かす

近藤健司
Track A

8/4 14:10 - 14:30

SRE の考えをマネジメントに活かす

このセッションでは、SRE (Site Reliability Engineering) の経験を活かし、組織の信頼性とパフォーマンスを維持するためのマネジメントスキルについて解説します。SREとマネージャーの役割の違いや共通点を明確にし、具体的な業務内容を例にして応用方法を紹介します。アラート対応、人材育成、リスク管理、組織設計など、SREのスキルをマネジメントにどのように転用できるかを具体例を交えて説明します。人間はシステムとは異なるため、同じアプローチは通用しない場面もありますが、同じメンタルモデルを適用できるケースもあることを示し、実践的なヒントを提供します。

株式会社リクルート Director of Engineering

近藤健司

2018年 Quipperに SRE として入社。Engineering Manager を経て、事業移管よりリクルートへ転籍。2023年よりスタディサプリ小中高領域の開発部長を担当。技術・組織・プロダクト全部をいい感じにしたい。趣味は観葉植物とクラフトビール屋めぐり

Track B

Enabling Client-side SLO

Wataru Tsuda / gr1m0h
Track B

8/4 14:10 - 14:30

Enabling Client-side SLO

Luupでは、電動アシスト自転車、電動キックボードなどの電動マイクロモビリティのシェアリングサービス「LUUP」を提供しています。Luup SREチームでは、各開発チームがSREを実践しSLI/SLOを自律的に設計・実装・運用できるようにEnabling SREを進めています。「Enabling SREを進める」とはいえSREのプラクティスは多くあるため、まずはSREのコアとなる要素であるSLOをEnablingすることにしました。 これまでは、開発組織全体とIoT開発チームに対してEnabling SLOをおこなってきました(SRE NEXT 2023の登壇)。この活動をさらに拡大するため、クライアントサイド(iOS, Android)のSLOを計測し始めた話を共有します。 AndroidやiOSの開発チームを巻き込みながら、プロダクトマネージャーと共にクライアントサイドのSLOを運用し始めるまでの取り組みを、スタートアップ独特の企業の特性や課題を踏まえて共有します。

株式会社Luup Reliability Engineer

Wataru Tsuda / gr1m0h

ソフトウェアベンダーで開発、運用、SRE、企画を経験。2023年2月に株式会社Luupに入社。IoT領域のSREとして主にSLI・SLO、Incident Response周りを推進。

Track Cパネルディスカッション (オフライン限定)

SREの技術トレンド2024 ①

北野 勝久
rrreeeyyy
yuuk1
deeeet
Track Cパネルディスカッション (オフライン限定)

8/4 14:10 - 14:30

SREの技術トレンド2024 ①

一般社団法人 SRE NEXT 代表理事 / 株式会社スタディスト VPoE

北野 勝久

SRE NEXT Founder 兼、一般社団法人 SRE NEXT 代表理事。株式会社スタディストのSRE兼、執行役員VPoE(Vice President of Engineering)も務める。

株式会社Topotal CTO

rrreeeyyy

株式会社 Topotal の CTO をしています。

さくらインターネット株式会社 上級研究員

yuuk1

SREの研究者。さくらインターネット研究所でSREの研究に取り組む。最近の研究テーマはAI for SRE。SRE NEXTの登壇は連続4回目。

Mercari, Inc. Director of Platform Engineering

deeeet

Taichi Nakashima (@deeeet) is a Director of Platform Engineering at Mercari and managing the division responsible for DevOps, SRE, and Infrastructure. Prior to Mercari, he was a software engineer at a Japanese e-commerce company, working on building and operating internal Platform-as-a-Service (PaaS). He is passionate about improving developer productivity and experience to enhance product development faster and safer.

8/4 14:40
-
15:00
Track A

スタートアップの急成長に寄り添うOn-Call体制構築とその変遷

堀見 宗一郎
Track A

8/4 14:40 - 15:00

スタートアップの急成長に寄り添うOn-Call体制構築とその変遷

サービスの信頼性を維持しユーザに機能提供を続ける上でOn-Callの運用は必要不可欠であり、業務でこれに参加し関わっている人も多いでしょう。一方で体制の構築から運用フロー整備までは比較的泥臭い側面も多く、組織やフェーズによって要件も異なるためノウハウが多く流通していないように感じます。 私が所属する株式会社10Xでは、サービスや組織の急拡大に合わせてゼロからOn-Call体制の構築を行ってきました。そこで弊社のSREチームがどのようなプロセスを経て体制の導入と安定化を実現したか、組織の変遷をなぞりつつ事例を紹介します。 本発表ではPagerDutyやDataDogによるモニタリングからTerraformによる自動化といった技術的トピックだけでなく、実際にOn-Callを行っていくにあたって組織内でどのような取り組みを行ったか、技術面以外でのチャレンジについても重点的にお話しします。

株式会社10X ソフトウェアエンジニア

堀見 宗一郎

メガベンチャー・スタートアップ数社でiOSアプリエンジニアを経験後、SWEとして株式会社10Xに入社。バックエンド開発を経て現在はSREチームに所属し、コードとインフラ両軸での改善に取り組み中。

Track B

SkyWayが遭遇したWebRTC の可観測性に関する問題と開発者向け可視化サービス提供までの道のり

内田 裕貴
Track B

8/4 14:40 - 15:00

SkyWayが遭遇したWebRTC の可観測性に関する問題と開発者向け可視化サービス提供までの道のり

WebRTCは、ビデオ会議などで利用されている身近な技術です。 しかし、実際にはリアルタイム通信を実現するための処理は複雑で、様々な理由で不具合が発生します。 皆様もビデオ会議サービスで「音声が途切れる」「映像がカクつく」などの通話不具合を経験したことがあるのではないでしょうか。 WebRTCの通話不具合はコードのバグだけでなく、ブラウザバージョンやクライアントの端末種別、ネットワーク状況など様々な理由で発生します。 WebRTC特有の情報も合わせて参照し、不具合調査を行うためには工夫が必要です。 SkyWayではWebRTCアプリケーションの不具合調査を実現するために、WebRTC専用のObservabilityシステムを開発しました。そして、このObservabilityシステムを社内活用するだけでなく、ユーザーフレンドリーに可視化するSkyWay Analyticsという機能をβ公開しています。 本セッションでは、リアルタイム通信における可観測性の重要性と発生する問題、そして、SkyWayが開発者向けに可視化サービスを提供するに至った理由について紹介します。

NTTコミュニケーションズ株式会社 WebRTC Researcher

内田 裕貴

NTTコミュニケーションズ株式会社 SkyWay推進室所属のWebRTC Researcher。WebRTCプラットフォームの新機能を開発するためのR&Dに携わっている

Track Cパネルディスカッション (オフライン限定)

SREの技術トレンド2024 ②

北野 勝久
rrreeeyyy
yuuk1
deeeet
Track Cパネルディスカッション (オフライン限定)

8/4 14:40 - 15:00

SREの技術トレンド2024 ②

一般社団法人 SRE NEXT 代表理事 / 株式会社スタディスト VPoE

北野 勝久

SRE NEXT Founder 兼、一般社団法人 SRE NEXT 代表理事。株式会社スタディストのSRE兼、執行役員VPoE(Vice President of Engineering)も務める。

株式会社Topotal CTO

rrreeeyyy

株式会社 Topotal の CTO をしています。

さくらインターネット株式会社 上級研究員

yuuk1

SREの研究者。さくらインターネット研究所でSREの研究に取り組む。最近の研究テーマはAI for SRE。SRE NEXTの登壇は連続4回目。

Mercari, Inc. Director of Platform Engineering

deeeet

Taichi Nakashima (@deeeet) is a Director of Platform Engineering at Mercari and managing the division responsible for DevOps, SRE, and Infrastructure. Prior to Mercari, he was a software engineer at a Japanese e-commerce company, working on building and operating internal Platform-as-a-Service (PaaS). He is passionate about improving developer productivity and experience to enhance product development faster and safer.

8/4 15:00
-
15:20

休憩

8/4 15:20
-
15:40
Track A

敵対的SRE: 300個のジョブをAIチーム全員で支える技術

北川 亮
Track A

8/4 15:20 - 15:40

敵対的SRE: 300個のジョブをAIチーム全員で支える技術

エムスリーのAI・機械学習チームでは、10人ほどのチームメンバーが300個以上のジョブを運用しています。 それだけ多くのジョブを運用するには、SREの考え方を応用した効率的な監視が必要です。 本発表では、チーム全員が運用を効率化するために如何に全体を網羅したアラートを作っていくか・運用者負担を減らすために如何にアラートを絞るかをどう進めたかをお話します。 まるで生成器と識別器の2つが敵対的に学習し合い精度を高めるGANというアルゴリズムのように、アラート検出とアラート削減をし合いながらシステムの信頼性を向上させてきた知見の発表です

エムスリー株式会社 AI・機械学習チーム

北川 亮

エムスリー株式会社、AI・機械学習チーム所属。GoとVimとKubernetesが好き。

Track B

Enabling SRE by Guide Maps

清水 赳
Track B

8/4 15:20 - 15:40

Enabling SRE by Guide Maps

この発表では、エンジニア組織全体で SRE を実践するためのガイドライン整備の取り組みについてご紹介します。 日本経済新聞社のエンジニア組織は 80 人を超える集団に成長しました。私たちは、日経電子版をはじめ、良質なビジネスコンテンツをお届けする NIKKEI COMPASS など、多岐にわたるサービスを次々に展開しています。 サービスと組織の成長に伴い、私たち日経 SRE チームはいくつかの課題に直面しました。 1. 開発チームに SRE プラクティスを普及させるにあたり、どこから着手すべきか明確でない 2. 各開発チームでどのくらい SRE プラクティスが浸透しているか、把握しづらい 3. SRE チームと各開発チームとの間で、信頼性に関してどのような部分に課題があるか不明瞭になりがち 4. 機能開発が高速に進み、可観測性やドキュメントなどの信頼性に関わる部分の改善が後回しになる これらの解決のために、弊社で試みている SRE 実践のためのトレイルマップの提供をはじめ、ポストモーテムやドキュメントライティングなどに関するガイドラインの整備について紹介します。

株式会社日本経済新聞社 技術戦略ユニット サービス基盤第二グループ

清水 赳

2021 年に日本経済新聞社に新卒入社。社内横断の SRE チームの一員として、信頼性向上のための組織文化醸成に取り組んでいる。また、日経電子版の稼働環境を含む、社内アプリ共通基盤の開発を行う。

Track C

LT

Erika Takada
sogaoh
田口 雅教
島 翔平
Track C

8/4 15:20 - 15:40

LT

『社内留学を通じて加速するプロダクトチームとのコラボレーション』: Erika Takada 組織全体でSREの影響力を拡大する重要なタイミングにおいては、プロダクトチームとの信頼関係強化や相互理解が不可欠です。 弊社では、プロダクトチームからSREチームへの社内留学制度を通じて、下記のような取り組みを実施しました。 ・SREの役割と重要性についての議論 ・プロダクトのシステム構成図の作成 ・監視設定およびアラート対応プロセスの標準化 ・SREツールの共同開発 ・複数のプロダクトチームとの定期的なプロダクションミーティングへの参加 このセッションでは、これらの相互学習のプロセスがどのようにして両チーム間の相互理解と信頼関係を強化したかを詳しく解説します。 『複業SRE、どこまでいける?』: sogaoh 縁も運もあってか、今自分はなんと4社で明示的にSREロールを担う/もしくは委託されています。 暗黙的もしくは自称を加えるとあと数社これに乗ってきます。 ただでさえ、そう簡単ではない複業でのSRE稼業を、どのように掴み・回し・前に進めているのか。 振り返りつつ、プラスの面・マイナスの面を整理して、現状をご紹介します。 2024年7月時点の、課題に感じていることと直近数年程の展望も、お話ししたいと思います。 『現実と理想のSRE組織とは』: 田口 雅教 私はサイバーエージェントで、複数プロダクトを担当するSRE組織の開発責任者をしています。スタイルとしては、EmbeddedSREとPlatformSREとCenter Of Practiceの3視点を用いてチームの魅力を上げていけるように日々奮闘しています。 SREが主体的になれること、主体的になれないことや、評価ポイントや、悔しいところなど発表できればと思います 『FourKeysを導入したが生産性向上には至らなかった理由』: 島 翔平 DORAチームのOSSをベースにFourKeysを導入してみましたが、開発生産性の可視化と改善は単純なものではありませんでした。 用意されたFourKeysの指標を導入するだけでは、我が組織が計測すべき適切な指標や、本質的な課題を見つけられませんでした。 本講演では、FourKeysを実際に導入する際に直面した課題や、得られた学びについてお話しいたします。

株式会社モニクル SRE

Erika Takada

インフラエンジニアを経て2023年に株式会社モニクルにSREとして入社。SREチームの立ち上げ後、現在は社内の複数プロダクトの価値向上に取り組んでいます。

合同会社ant−in−giant 代表社員

sogaoh

2022/03 から 合同会社 ant-in-giant 代表社員。業務委託で十数社のクラウドインフラ構築/運用・CI/CD含むバックエンド実装など様々な改善に取り組んできた。

株式会社サイバーエージェント AI事業本部 アドテクDIV SREチーム 開発責任者

田口 雅教

2012年に株式会社サイバーエージェントに入社。事業としてメディア・ゲーム、職種として、バックエンド・ネイティブアプリエンジニアを経て、2020年にAI/広告/DXを主な母体とするAI事業本部のアドテクDIV SREチームの開発責任者となる。

ニフティ株式会社

島 翔平

2023年よりニフティ株式会社に中途入社。前職ではソフトウェア開発を担当していたが転職をきっかけにSREにキャリアチェンジし、現在はSRE文化の浸透に向けて日々活動中。

8/4 15:50
-
16:10
Track A

開発チームへのディープダイブで見えてきた 顧客 = 開発者 の本当の課題

伊藤遼
Track A

8/4 15:50 - 16:10

開発チームへのディープダイブで見えてきた 顧客 = 開発者 の本当の課題

本発表では、新機能開発チームの開発生産性向上を目指してイネーブルメントチームのメンバーとして体験した学びを紹介いたします。当初、開発者からのヒアリングを通じても、不確実性が高い新機能開発チームの全ての要求に応えることは難しく、重要な課題の特定も困難でした。そこで、開発チームの一員として実際の開発に参加し、直面する課題や高い認知負荷、実現困難な要求を自らの体験を通じて収集しました。これらの課題に対して、初めは個人的に解決策を模索し、次にそれを標準化することで、真に必要なプラットフォームのみを効率よく開発し、提供することが可能となりました。このプロセスを経ることで、ヒアリングだけでは得られなかった課題の解像度が明らかに向上し、実体験に基づく適切なソリューションを提供し、プラットフォームの開発を段階的に進めることができました。

株式会社リンクアンドモチベーション イネーブリンググループ エンジニア

伊藤遼

2019年新卒入社。モチベーションクラウドの開発に携わったのち、CREチーム(顧客信頼性エンジニアリングチーム)の立ち上げや新規プロダクトの立ち上げに関わる。現在はイネーブリングチームとして開発組織全体のメトリクス可視化や生産性向上に取り組みながら、ChatGPTなど最新技術の取り入れにも尽力している。

Track B

SREが考えるハイブリッド開催の技術イベントのライブ配信における信頼性

片平 直輝
Track B

8/4 15:50 - 16:10

SREが考えるハイブリッド開催の技術イベントのライブ配信における信頼性

最近、現地会場とオンライン会場を併用したハイブリッド形式で開催される技術イベントが増えています。それに伴い、視聴者数の観点からもライブ配信の重要性が高まっています。 配信が本業ではないSREが、小規模な技術イベントやコミュニティイベントの配信を複数手掛けてきた経験をもとに、『信頼性』や『品質』をどのように向上させてきたかを、試行錯誤の過程を交えて紹介します。

GMOペパボ株式会社 技術部プラットフォームグループ

片平 直輝

2022年4月GMOペパボ新卒入社。主にECサイト構築サービス カラーミーショップのSREとして活動。趣味は自作キーボードなど多数。

Track C

休憩

8/4 16:10
-
16:30

休憩

8/4 16:30
-
17:00
Track Aパネルディスカッション (オフライン限定)

SRE NEXT Chairs Talk

Track BTrack C

サテライト会場

8/4 17:00
-
17:10
Track A

閉会式

Track BTrack C

サテライト会場