株式会社InsightX 求人一覧SRE(Site Reliability Engineering)
株式会社InsightX 求人一覧

SRE(Site Reliability Engineering)

株式会社InsightX

仕事概要

会社概要

InsightXは、パーソナライズを軸としたCX変革AIプラットフォーム『InsightX』を開発・提供しています。オンワード様、パル様、ルミネ様、アーバンリサーチ様などの、自社ECを運営するBtoC企業様にご利用いただいております。
私たちInsightXは、あらゆる企業がAmazonやNetflix級の「自分のために用意されたかのような買い物体験(CX)」を当たり前のように提供できる世界を目指す、少数精鋭のAIネイティブ・プロフェッショナルカンパニーです。
弊社のクライアント企業様には、世界初の『シェルフ型レコメンド®』をプロダクトとしてご利用いただくだけでなく、弊社独自のAIプラットフォームを駆使した専門技術チームがCXの高速な変革(トランスフォーメーション)を支援する、プロフェッショナルパートナー企業として高く評価いただいております。


お任せしたい業務概要

InsightXのプラットフォームは、大手ECサイトにJSタグで組み込まれ、リアルタイムでユーザーひとりひとりの興味に合わせたシェルフ(売り場)を自動生成しています。顧客数が3倍に急拡大する中で、現在InsightXには専任SREが存在しません。監視・SLO・runbook・障害対応フロー・デプロイ安全性・データ品質監視——これらをゼロから設計・整備するのが、この1人目SREの役割です。

  • 何をどの順番で作るかを自分で決める立場に立てるか——完成されたSRE組織に入るのではなく、基盤そのものを0から築く仕事
  • 大手エンタープライズのECに組み込まれるSaaSとして、99.9%以上の可用性をどうコードで担保するか
  • マルチテナントSaaSならではの難しさとして、クライアントごとに挙動・データ特性が異なる中で、共通基盤として信頼性をどう担保するか
    • あるクライアントだけで起きる表示崩れやデータ欠損を、どう早く検知するか
    • 全体最適の監視と個別異常検知を、どう両立するか
    • ECの売上影響が大きい障害を、どう優先制御するか
  • 障害が起きても自動で検知・修復するシステムをどう設計するか
  • AIエージェントを活用した障害対応自動化という、SRE領域の最先端課題にどう取り組むか
  • 少数精鋭チームで、大規模インフラの品質を維持しながら高速な開発サイクルを両立するには

ミッション・主な業務

  • SRE基盤のゼロからの整備

    監視・SLO・runbook・障害対応フロー・デプロイ安全性・データ品質監視——現在存在しないこれらを自らの手で設計し、動かす

  • マルチテナント対応の異常検知基盤

    クライアントごとの挙動差を把握しながら、全体最適の監視とクライアント固有の異常検知を両立する仕組みの設計・実装

  • 自己修復システムの構築

    シェルフ表示の異常やデータ不具合を検知・自動修正する仕組みの設計・実装

  • モニタリング基盤の高度化

    OpenTelemetry / Prometheus / Grafanaを用いたオブザーバビリティの確立・SLO設計

  • AI/LLMを活用した障害対応自動化

    不具合調査からパッチ作成までを自動化するAIエージェントの構築

  • Kubernetes環境の信頼性強化

    大規模GKEクラスタの運用安定化・カオスエンジニアリングの導入

  • CI/CDパイプラインの信頼性向上

    デプロイの安全性を高めるカナリアリリース・ロールバック戦略の設計

  • インシデント対応プロセスの設計

    ポストモーテム文化の構築、SLI/SLOに基づくエラーバジェット運用


技術スタック一覧

1. クラウド基盤

  • プラットフォーム: Google Cloud Platform (GCP)

2. データエンジニアリング

  • データウェアハウス: BigQuery
  • ETL / データ変換: * dbt
    • Cloud Pub/Sub
    • Dataflow
  • ストリーミング: * Cloud Pub/Sub
    • Bigtable

3. 開発・バックエンド

  • バックエンド言語: * Go
    • TypeScript
    • Python
  • AI開発環境: * Claude Code
    • Cursor

4. 分析・可視化

  • 可視化ツール: * Redash
    • ix-prism(自社基盤)
  • トラッキング: * JSタグ
    • Google Tag Manager (GTM)

必須スキル

  • 大規模Webサービス(数百万MAU以上)でのSREまたはインフラエンジニアの実務経験 3年以上
  • Kubernetes環境の構築・運用・改善経験
  • モニタリング基盤(Prometheus / Grafana / Datadog等)の設計・構築経験
  • SLI/SLOの設計・運用経験
  • 障害対応・ポストモーテムのリード経験

歓迎スキル

  • 大規模サービスでのSRE経験
  • Istio / サービスメッシュの実装・運用経験
  • カオスエンジニアリング(Chaos Monkey / Litmus等)の設計・実施経験
  • GCP(GKE・BigQuery・Pub/Sub)を活用した本番システムの構築経験
  • OSSへのコントリビューション実績
  • スタートアップでの1人目SREまたはインフラリードの経験
  • Go / Pythonによるツーリング・バックエンド実装経験

求める人物像

  • 「障害が起きないシステム」より「起きても自動で直るシステム」を目指せる人
    運用で対処するのではなく、仕組みで解決することにこだわる人

  • 大規模インフラの知見をスタートアップのスピードで活かすことに燃える人
    大企業での経験を「こんな環境があれば自分ならもっとできる」と感じている人

  • AIを活用してSRE業務そのものを進化させたい人
    障害対応の自動化やインテリジェントなモニタリングに挑戦したい人

  • 自分が作った仕組みが、エンドユーザーの体験を守るということにやりがいを実感できる人
    技術が直接ビジネス・ユーザー価値に接続していることに喜びを感じる人

応募概要

給与

月額:90~120万円
※稼働時間によって変動がございます
※オファー金額は選考を通じてすり合わせをさせていただきますので、こちらの金額はあくまで想定となります

勤務地

東京都港区港南2-15-1 品川インターシティA棟 22階 SPROUND内

雇用形態
勤務体系

勤務時間:10:00〜19:00(休憩1時間、実働8時間)/フレックスタイム制
※ご都合に応じて柔軟に稼働いただいて問題ございません

試用期間
福利厚生
  • 社会保険完備
  • 生成AIの個人課金を支援
  • 個人の学びへの支援(本の購入・セミナー参加など)
  • リモートワーク併用可能
  • 快適なコワーキングスペース(ウォーターサーバー、コーヒーメーカー、リラクゼーションスペース)
  • 技術トレンド・業界動向のキャッチアップ支援
  • 社内での最新の取り組み・事例のKT会(Knowledge Transfer)の開催

企業情報

企業名
設立年月
本社所在地
資本金
従業員数