d. インフラエンジニア の求人一覧 - Turing株式会社
3020_インフラエンジニア・プラットフォーム開発 / Infrastructure Engineer・Platform Engineering
◆本求人は、kubernatesクラスタの構築経験者を対象としています◆
チューリングでは、今後大規模GPUクラスタをオンプレミス中心に新規構築し、機械学習エンジニアが高速に実験・学習できるプラットフォームを提供します。今回の求人のミッションは、SlurmとKubernetes を統合した独自スタックを自社で企画・運用することです。大規模GPUクラスタのプラットフォーム機能の設計・実装をリードし、MLワークロードの生産性を飛躍的に高める仲間を募集します。
◆具体的な業務内容
■プラットフォーム機能開発
・自由度/拡張性/使いやすさのトレードオフを見極めた大規模MLプラットフォーム機能の設計・開発
・機械学習ワークフローツール・実験管理ツール、GPUクラスタ向け統合開発環境の構築
・Kubernetes機能を活用した分散キャッシュシステム、コンテナイメージレジストリキャッシュの開発・運用
・計算資源を有効活用するKubernetes Schedulerの実装
・テナントユーザ向けモニタリングサービス、ユーザポータル/運用管理 UI の開発・運用
・コンテナイメージパイプライン(BuildKit など)やMLワークフローの提供
■ CI/GitOps/自動化
・大規模MLワークロードを支えるCI基盤の設計・実装
・Helm/Flux/Cluster API 等を用いたGitOpsと自動プロビジョニングの整備
・自動サーバプロビジョニング、パブリッククラウド連携を活かしたハイブリッド運用効率化
・運用健全性メトリクスの自動診断と保守省力化、SREプラクティスの導入
【今のチューリングで働く魅力】
Kaggle GrandMaster4名など非常に優秀な機械学習エンジニアが多く有する中で、ユーザーと非常に近い距離でコミュニケーションをとりながら計算基盤を最適化していくという経験はインフラエンジニアにおいても非常に大きく貴重な経験となると考えています。
【本ポジションの魅力】
・オンプレミスの大規模MLクラスタをハード〜ソフトまでフルスタックでコントロールできる
・オンプレ × パブリッククラウドのハイブリッド構成で双方の知見を習得できる
・HPCとクラウドネイティブの境界領域で、今後ますます重要となる技術経験を積める
3021_インフラエンジニア / Infrastructure Engineer(GPUクラスタ)
◆本求人は、GPUクラスタの構築経験者やインフラ・ネットワークエンジニアを対象としています◆
チューリングは完全自動運転の実現を目指しているディープテックスタートアップです。
大規模なGPU計算環境を利用し、ビジョンベース自動運転のための深層学習モデルやレベル5自動運転に利用するマルチモーダル基盤モデル・世界モデルなどの研究開発を行っています。現在、インフラ基盤であるGPUクラスターを構築・運用していくインフラエンジニアを募集しています。機械学習エンジニアが計算タスクに集中できる環境を整備し、限られた計算資源を最適化することでチューリングの完全自動運転開発を最大化することがミッションです。
◆インフラ/GPUクラスタエンジニアの業務内容
・計算環境の物理設計や選定機器の設計
・ネットワークの設計
・ストレージシステムの効率化・高速化
・クラスタリング技術の開発
・クラウド環境上での計算環境の整備/運用
◆具体的な業務内容
大規模GPU計算環境を使って完全自動運転の実現に向けたマルチモーダル基盤モデル・世界モデルを開発する。そのためのインフラの構築・運用などを主な業務とします。機械学習エンジニアにとって扱いやすい計算環境を構築してください。同時に、クラウド環境も積極的に活用しており、AWS/Azure/GCP上での計算環境も運用します。
今後、チューリングでは数年先を見据えた計算基盤の選定・設計・構築をしていく必要があります。来年末には次の世代の計算環境を作っていく予定です。2~3年周期でGPUクラスターを構築していくため、事業計画や投資計画などのビジネス/財務メンバーとコミュニケーションも実施していただきます。
【今のチューリングで働く魅力】
KaggleGrandMaster4名など非常に優秀な機械学習エンジニアが多く有する中で、ユーザーと非常に近い距離でコミュニケーションをとりながら計算基盤を最適化していくという経験はインフラエンジニアにおいても非常に大きく貴重な経験となると考えています。