SRE NEXT 2022講演。 https://sre-next.dev/2022/schedule/#jp37
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
5月14-15日に開催されたSREの国内カンファレンス SRE NEXT 2022 ONLINEにて、「AIOps研究録―SREのためのシステム障害の自動原因診断」と題して、ITシステムに障害が発生した際に、機械学習・統計解析の手法を用いて、障害の原因を自動で診断するための研究について講演しました。 講演に用いたスライド資料を以下に公開しています。 当日に配信された講演動画は、Youtubeに公開されています。 なお、この記事では、AIOpsという用語を、機械学習や統計解析をはじめとするAI(人工知能)と呼ばれる技術を用いて、ITオペレーターのオペレーション作業を自動化あるいは支援する技術の総称として使っています。 なぜAIOpsに着目したのか 自分が、統計や機械学習をはじめとするAIと呼ばれる技術をSRE分野に適用することを漠然と考えはじめたのは、2017年ごろでした。当時、今後のSRE
Amazon Web Services ブログ Failure Analysis Assistant – AIOps で障害分析を効率化してみよう – システムやサービスを提供する上で、障害はつきものです。障害を迅速に分析し対処することがユーザビリティやサービス信頼性を向上し、結果顧客満足度につながります。一方で近年システムは複雑さを増しており、障害特定が従来に比べて難しくなっています。したがって障害分析の効率化や高度化が重要になっています。 従来の手動による障害分析では、膨大なログデータの中から問題の根本原因を特定するのに多大な時間と労力を要し、ダウンタイムの長期化やサービス品質の低下につながる可能性がありました。そこで注目されているのが、人工知能 (AI) や機械学習 (ML) を活用した障害分析です。 AI/ML による高度な分析技術を用いることで、障害の早期発見、迅速な原因特定、さ
5/14 12:30 - 13:15 How We Foster "Reliability" in DiversitySRE において「信頼性」は最も重要な指標とされています。しかし、一言で「信頼性」といっても、会社の戦略やサービス、文化によって、計測方法や目指す値、その達成方法にいたる全てが同じになることはないでしょう。さらに、一度定義した信頼性が適切であり続けることはなく、会社や組織のフェーズによって、その時々で柔軟に変化していく必要がありそうです。 このように、サービスを取り巻く環境の変化に応じて適切な信頼性を定義し、またその信頼性を「育てて」いく方法として、サービスや組織の戦略と SRE チーム の方向性を揃えたり、SRE チームの垣根を超えて組織全体に SRE の文化を根付かせるための取り組みなどを紹介しながら、多様性とともに SRE がどのように歩んでいくかについてお話します。
ジュニパーネットワークスは、2024年3月1日、事業戦略説明会を開催。エンタープライズ向けの事業へのフォーカスとAIOpsを推進するプラットフォームの強化を発表した。 ジュニパーネットワークスの代表取締役社長である古屋知弘氏は、「“AIネイティブネットワーキングプラットフォーム”を全面的に押し出し、国内に展開していく。ジュニパーのすべてのソリューションはAIネイティブで開発されており、AIの力でITインフラに革命を起こしたい」と説明する。 エンタープライズにおけるAIOpsの浸透を加速させる ジュニパーがうたうAIネイティブネットワーキングプラットフォームは、2019年、AIエンジン(Mist AI)をコアとして備えた無線LANを展開するMist Systemsを買収したことから始まった。 「無線AP(アクセスポイント)をMist AIがクラウド上で一元管理をするところからスタートして、有
さくらインターネット研究所の坪内(@yuuk1t)です。11月25〜26日に開催された、情報処理学会 第14回インターネットと運用技術シンポジウム(IOTS 2021) にて、”Meltria: マイクロサービスにおける異常検知・原因分析のためのデータセットの動的生成システム”と題した論文を発表しました。 ここ1年ほど、研究員の鶴田さん(@tsurubee3)と一緒に、Webアプリケーションに代表されるクラウドの分散アプリケーションにて、インシデント対応の際に要するオペレーターの認知負荷を、統計・機械学習技術によりいかに低減するかをテーマに研究を進めています。このように、ITオペレーションにAIを活用する分野は、AIOps(Artificial Intelligence for IT Operations)と呼ばれています。
この記事は「Azure の運用を支える AIOps」シリーズの第2回です。今回は、Microsoft Azure のインシデント管理システムで活用されている AIOps のテクノロジーを紹介します。AIOps の概要や Microsoft と AIOps の関わり方については、第1回をご覧ください。 AIOps と インシデント管理 インシデント管理とは インシデント管理(Incident Management)とは、システムやサービスに発生した問題(インシデント)を、迅速かつ効果的に解決するためのプロセスです。単にインシデントを解決するだけでなく、その原因を特定し、将来のインシデントを予防するための対策を講じることも含まれます。そのため、インシデント管理は継続的な取り組みであり、IT サービスマネジメントの重要なプロセスの一つとして認識されます。 インシデント管理のフローには、以下のよう
この記事は、ファインディエンジニア #1 Advent Calendar 2025の21日目の記事です。 adventar.org はじめに こんにちは、ファインディのPlatform開発チームでSREを担当している原(こうじゅん)です。 2025年12月、ラスベガスで開催されたAWS re:Inventに参加してきました。re:InventはAWSが毎年開催する世界最大級のクラウドカンファレンスです。 今年は特にAI Agentを中心とした大きな変化を感じるイベントとなりました。 本記事では、私の体験したセッションを通じて見えてきたインフラ・運用の変化について、AIOps領域に焦点を当てて振り返りを書いていこうと思います。 会場の様子やセッション以外のイベントについてはまた別記事で書いていきます。 はじめに re:Invent 2025 今年の主要テーマの1つであるFrontier Ag
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く