仕事概要
◆本求人は、kubernatesクラスタの構築経験者を対象としています◆
チューリングでは、今後大規模GPUクラスタをオンプレミス中心に新規構築し、機械学習エンジニアが高速に実験・学習できるプラットフォームを提供します。今回の求人のミッションは、SlurmとKubernetes を統合した独自スタックを自社で企画・運用することです。大規模GPUクラスタのプラットフォーム機能の設計・実装をリードし、MLワークロードの生産性を飛躍的に高める仲間を募集します。
◆具体的な業務内容
■プラットフォーム機能開発
・自由度/拡張性/使いやすさのトレードオフを見極めた大規模MLプラットフォーム機能の設計・開発
・機械学習ワークフローツール・実験管理ツール、GPUクラスタ向け統合開発環境の構築
・Kubernetes機能を活用した分散キャッシュシステム、コンテナイメージレジストリキャッシュの開発・運用
・計算資源を有効活用するKubernetes Schedulerの実装
・テナントユーザ向けモニタリングサービス、ユーザポータル/運用管理 UI の開発・運用
・コンテナイメージパイプライン(BuildKit など)やMLワークフローの提供
■ CI/GitOps/自動化
・大規模MLワークロードを支えるCI基盤の設計・実装
・Helm/Flux/Cluster API 等を用いたGitOpsと自動プロビジョニングの整備
・自動サーバプロビジョニング、パブリッククラウド連携を活かしたハイブリッド運用効率化
・運用健全性メトリクスの自動診断と保守省力化、SREプラクティスの導入
【今のチューリングで働く魅力】
Kaggle GrandMaster4名など非常に優秀な機械学習エンジニアが多く有する中で、ユーザーと非常に近い距離でコミュニケーションをとりながら計算基盤を最適化していくという経験はインフラエンジニアにおいても非常に大きく貴重な経験となると考えています。
【本ポジションの魅力】
・オンプレミスの大規模MLクラスタをハード〜ソフトまでフルスタックでコントロールできる
・オンプレ × パブリッククラウドのハイブリッド構成で双方の知見を習得できる
・HPCとクラウドネイティブの境界領域で、今後ますます重要となる技術経験を積める
必須スキル
・チューリングの理念への共感
※全てではなく、下記のいずれかやその他の技術に精通している方を探しています
・Kubernetesクラスタ運用経験(オンプレ or IaaS)
・GPUジョブ/AI ワークロードのリソーススケジューリング・チューニング経験
・Linuxサーバ(Ubuntu / Rocky / CentOS 等)の自動構築・運用(Ansible/Terraform/Cluster API)経験
・コンテナランタイム(containerd/Docker)およびプライベートイメージレジストリ運用経験
歓迎スキル
※全てではなく、下記のいずれかやその他の技術に精通している方を探しています
・Slurm × Kubernetes のハイブリッド運用、または HPCジョブスケジューラ導入経験
・Go/Python による Kubernetes Operator・Controller 開発経験
・分散学習フレームワーク(PyTorch DDP/Horovod 等)の性能チューニング経験
・Lustre/BeeGFS/GPFS 等の並列ファイルシステム運用経験
・InfiniBand/RoCEv2/NVLink/GPUDirect RDMA など低レイテンシ GPU ネットワークの知識
・CapEx/OpEx を考慮した大規模計算基盤の容量計画・コスト最適化経験
求める人物像
・世界的企業をつくる強い気概のある方
・自走力がありなんでも積極的に取り組める方
・常に謙虚で、相手目線を忘れない人間性
・急激な事業、組織の成長に伴う様々な変化を楽しめる柔軟性
・成長に対して前向きなスタンス
・困難も楽しみながら乗り越えられるタフさ
【参考情報】
▼会社HP
https://tur.ing/
▼ Turing Tech Blog
https://zenn.dev/p/turing_motors
▼チューリポ(オウンドメディア)
https://tur.ing/turipo
▼Turing TechTalk #6 スタートアップにおける自社GPUクラスタ構築の裏側
https://www.youtube.com/live/SSbslaLNaz0?feature=shared
【応募時のお願い】
・応募時の書類(履歴書・職務経歴書)はPDF形式にてご提出いただきますようお願い申し上げます
・応募時の書類(履歴書・職務経歴書)やエントリーページの入力箇所に年収情報(現在年収や希望年収)を記載するのはお控えください
- 年収情報については選考プロセスが進む中でHRよりヒアリングをさせていただきます
応募概要
給与 | 年収:1000万円~1900万円 ※経験・スキルを考慮して決定いたします。 |
---|---|
勤務地 | 〒141-0032 東京都品川区大崎一丁目11番2号 ゲートシティ大崎イーストタワー4F ▼アクセス 電車:JR山手線/JR埼京線/JR湘南新宿ライン/東京臨海高速鉄道りんかい線「大崎駅」南改札より徒歩1分 |
雇用形態 | 正社員 |
勤務体系 | フレックスタイム制 コアタイム:10:00~15:00 フレキシブルタイム:08:00~10:00、15:00~22:00 標準的な勤務時間:10:00-19:00 【休日休暇】 ■有給休暇・夏季休暇:入社時に有給として13日間付与 ■結婚休暇(5日間)等の慶弔休暇 ■出産休暇・育児休暇制度完備 ■小学校3年生が終わるまで取得可能な育児時短制度 ■子の看護休暇・介護休暇(無給) |
試用期間 | あり(3カ月間) |
福利厚生 | ■社会保険完備 ■交通費支給(上限:4万円) ■インフルエンザ予防接種の費用補助 ■定期健康診断 ■提携クリニックによる健康相談 ■社外カウンセリング窓口 ■PC選択制度(エンジニア対象) ■ChatGPT Pro利用料金補助制度(エンジニア対象) ■書籍購入制度 ■社用車の休日利用制度 ■駐車場代補助制度 ■ベビーシッター利用割引制度 ■妊活検査(AMH卵巣予備能力指数検査)の無料検査制度 ■提携クリニックによる女性特有の健康相談無料カウンセリング制度 ■Turing式オフィスグリコ有(水・コーヒーなど) ■社内交流会(All Hands、カジュアルナイト等)の費用補助 ■服装自由 ■その他スポーツジム・OA機器等の優待割引 |
企業情報
企業名 | Turing株式会社 |
---|---|
設立年月 | 2021年8月 |
本社所在地 | 東京都品川区大崎一丁目11番2号 ゲートシティ大崎イーストタワー4階(JR大崎駅徒歩1分) |
資本金 | 3000万円 (累計70億円調達) |
従業員数 | 54名 |