ストックマーク株式会社の1179【Dev】LLM推論基盤エンジニア(LLM新規事業)の求人
✨ あなたと求人のマッチ度診断
β版職務経歴書など、あなたの経験やスキルが分かるファイルをアップロードすると、 求人とのマッチ度とその理由が表示されます💡
※AIにより自動生成するもので、選考結果を保証するものではありません。
※現在、本機能はPCブラウザでのみご利用いただけます。
募集概要
【会社概要】 ストックマーク株式会社は「価値創造の仕組みを再発明し、人類を前進させる」をミッションに掲げ、最先端の生成AI LLM技術を活用し、企業の変革を支援しています。 弊社の強みは、フルスクラッチで国産LLMを開発できる技術力です。2024年5月には、国内最大級となる1,000億パラメータの日本語特化LLM「Stockmark-2」を公開しました。 多くの企業が海外モデルの微調整やOSS活用にとどまる中、当社はゼロから自らの手でモデルを設計・構築。日本語とビジネス領域に最適化された性能は、国産最高クラスの水準を誇ります。さらに、ハルシネーションを大幅に抑えており、自社管理下で安全に運用可能です。 単なる“生成AIの利用企業”ではなく、“AIそのものを創る企業”として、日本の産業競争力を技術で支えていく存在となることを目指しています。 この技術力を活かして事業展開しており、現在はSaaS事業として製造業向けAIエージェント「Aconnect」、PaaS新規事業として業務AI実装支援プラットフォーム「SAT(Stockmark A Technology)」を運営しています。 創業時からエンタープライズ企業をターゲットとしており、すでに日経225の30%、300社を超える企業様での導入が進んでいます。今後は製造業のR&Dを起点に、国内のエンタープライズ企業はもちろん、日本企業全体そしてグローバル企業にも展開していく予定です。 2024年10月にはシリーズDにて45億円、累計88億円の資金調達を完了。 従業員も150名規模になり、更なる成長を目指すために人員を募集しております! 【現状の課題】 国産LLM・VLMの自社開発を進める中で、推論・モデル軽量化などの性能最適化がボトルネックとなっています。 既存のフレームワークやGPU構成に依存しない、高速・安定・安価な基盤を構築することが急務です。 研究開発レベルの知見をプロダクトとして成立させる実装力を持つエンジニアを求めています。 【業務内容】 自社プロダクトで活用する大規模言語モデル(LLM)およびマルチモーダルモデル(VLM)の推論・学習の高速化を担当します。 製品開発チームやリサーチチームと協働しながら、実際のプロダクトに最適な形で技術を落とし込んでいただきます。 ■具体的な業務内容 ・LLM/VLM推論パイプラインの最適化(高速化・省メモリ化・分散処理) ・モデル圧縮、量子化、蒸留などによる軽量化手法の検討と実装 ・推論基盤の設計(モデル並列・パイプライン並列・ロードバランシング) ・推論時間・コストの定量的改善に向けた性能計測と最適化サイクルの運用 ※変更の範囲:開発関連業務 【チーム構成】 PaaSユニット 事業責任者(CEO)1名 プロダクトマネージャー 1名 【開発環境】 [組織体制] <PaaSエンジニアチーム> ・プロダクトマネージャー1名 ・フロントエンドエンジニア1名 ・バックエンドエンジニア1名 ・機械学習エンジニア3名 [開発言語] TypeScript、Vue.js 、Node.js、Python [コンテナ] Docker [IaC] Terraform [クラウド] AWS, Azure 【ポジションの魅力】 ・国産LLMを自社でフルスクラッチ開発している希少な環境 ・研究成果を“動くプロダクト”として社会に届ける技術開発ができる ・OSSや論文に還元できるほどの技術的挑戦を実務で経験可能 ・LLM/VLM領域の先端研究者と密に協働できる 【関連資料】 ・Stockmark LLM特設LP https://llm.stockmark.co.jp/ ・業務AIの実装支援プラットフォーム「 SAT 」 https://sat.stockmark.co.jp/
必須スキル
※いずれか必須 ・PyTorchやTensorFlowなどを用いたLLM/VLMの実装・最適化経験 ・CUDA、NCCL、TensorRT、ONNX Runtimeなどを活用したGPU最適化知識 ・モデル推論のパフォーマンス改善・メモリ削減の実務経験 ・分散学習・推論に関する基礎理解(Data Parallel, Model Parallelなど) ・Python/C++などでの性能チューニング経験
歓迎スキル
・LLMの推論最適化や軽量化に関するOSS貢献または論文発表経験 ・Megatron-LM、DeepSpeed、vLLMなどのフレームワーク実装経験 ・Triton Inference ServerやRayなどの分散推論基盤の知識 ・GPUクラスタ環境での実運用経験(Kubernetes, Slurm, etc.) ・研究チームとの共同開発経験、MLPerfなど性能ベンチマークの知見
求める人物像
・LLMの推論最適化や軽量化に関するOSS貢献または論文発表経験 ・Megatron-LM、DeepSpeed、vLLMなどのフレームワーク実装経験 ・Triton Inference ServerやRayなどの分散推論基盤の知識 ・GPUクラスタ環境での実運用経験(Kubernetes, Slurm, etc.) ・研究チームとの共同開発経験、MLPerfなど性能ベンチマークの知見 <その他> ・日本国内に居住可能な方 ・開発に関する技術的な内容含め、日本語で円滑にコミュニケーションが取れる方 目安:日常会話レベル
応募概要
- 給与
■想定年収:7,550,000円〜13,058,000円 ※月給×12ヶ月+リモートワーク準備一時金5万円 ■月給:625,000円〜1,084,000円 ・基本給:463,424円〜803,763円 ・固定残業代45時間分:161,576円〜280,237円 ※超過分は別途支給 ■昇給あり(年2回/5月、11月)
- 勤務地
【本社所在地】 ■東京都港区南青山 1 丁目12-3 LIFORK MINAMI AOYAMA S209 【就業場所】 ■本社または自宅その他リモートワークが行える場所(変更の範囲なし) ※フルリモートワーク可 【リモートワークについて】 ■基本的にはフルリモート体制 居住地は日本国内に限ります(海外に居住してのフルリモート不可) ■本社への出社について 弊社の定める通勤圏(一都三県)居住者は、リモート/出社を回数制限なく自由に使い分けながら勤務可能です 一都三県以外の居住者は、月1回業務とは関係なく自由に出社可能です 仙台・京都・大阪などからフルリモートで働いている人、ワーケーションを楽しみながら働いている人、母国に数週間帰国して働いている外国籍社員、また出社メインの人など多様な働き方を実現しています
- 雇用形態
正社員
- 勤務体系
【就業時間】 ■フレックスタイム制 ■コアタイム:10:00~14:00 ■1ヶ月の標準労働時間:1日8時間×営業日数 ※時間外労働あり(平均10〜20時間) ・リモートワークと合わせて、時間や場所に縛られない柔軟な働き方が可能です。 ・勤務時間の調整や中抜けなどで、子育てや介護との両立もしやすい環境です。 【休日休暇】 ■年間休日123日 ■土日祝(完全週休2日制) ■年末年始休暇 ■有給休暇(入社時付与 ※付与日数は入社月による) ■産前産後休暇 ■育児休暇
- 試用期間
あり(3ヶ月) ※期間中の条件変更なし
- 福利厚生
【保険】 ■各種社会保険完備(関東ITソフトウェア健康保険組合加入) 【諸手当】 ■通勤交通費(リモートのため実費支給) ■リモートワーク準備一時金(初回給与にて一律5万円) リモートワークを行うための準備に要する費用として支給 【その他】 ■定期健康診断 ■インフルエンザ予防接種 ■希望のPC支給 ■オフィスにて水/コーヒー/炭酸/アルコールなどのドリンク無料提供 ■オフィスグリコ設置 ■屋内禁煙(屋外喫煙所あり) 【教育・スキルアップ】 ■入社後5日間のオンボーディングあり ■月1回の研究日制度(自身の技術向上・学習目的) 【社内コミュニケーション】 ■週1回全社オンラインミーティング ■月1回懇親会(オフライン開催、一部オンライン有り) ■半期1回キックオフ(オンライン&オフラインのハイブリッド開催)
更新日時:
2025/10/24 10:42