マッチングアプリPairsの機械学習システムの信頼性を守る!MLOps募集
エウレカのAI Teamにて、MLOpsエンジニアとして機械学習が関連するシステムの信頼性を担保する役割を担っていただきます。主に、機械学習パイプラインの構築、機械学習モデルのサービング、サービスの監視・運用、モデル性能の監視に至る、機械学習サービス全体に関わっていただきます。
【仕事の進め方】
・機械学習の学習/推論/監視プロセスにおいて必要となるバックエンド要素、主にGCP及びAWSのクラウドインフラストラクチャを機械学習エンジニアやスペシャリストと連携して継続的に改善
・機械学習に関する、設計/構築/運用
・全社として最適な環境構築や権限管理、よりユーザーのプライバシーに配慮したデータソース設計/構築のために、Data Reliabilityを担保するData Management EnginnerやSREとの連携
・特徴量データ供給のパイプライン(feature store)や機械学習の推論環境の設計/実装/運用/監視、推論結果の監視をはじめ、システムの一部としての機械学習システム環境の継続的改善に関連する業務
・専用の情報共有ツールを使って、ノウハウや議事録、日報などの情報共有
【使っているツール/環境】
・データベース:BigQuery, MySQL(AWS Aurora), DynamoDB, Redis, ElasticSearch
・データ処理:Google Cloud Dataflow, Cloud PubSub, Apache Airflow, Fluentd, Fluent-Bit, Embulk, Digdag etc
・BIツール:Tableau, redash
・構成管理:Terraform
・開発、その他:Github, Slack, JIRA, Google Workspace
・各種ツール:Google SpreadSheet / Google Slide
・インフラ:GCP/AWS各種サービス, Kubernetes
【必須条件】
・日本語ビジネスレベル以上
・WebApp開発の知識、スキル
・一般的なWebアプリケーションの大まかな構成を理解していること
・バックエンドアプリケーションの開発経験
・インフラ、SREの知識、スキル
・ソフトウェア信頼性を高めるための活動への理解、経験
・AWS/GCPのインフラ設計・構築・運用の業務経験、あるいはそれに類する経験
・データ処理におけるテクニカルスキル
・SQL言語の知識、技能
・Python/Ruby/Java/Scala/Goいずれかの業務での開発経験
・ストリーム/バッチのデータ処理経験
・RDB以外のデータベース利用経験
・ビジネス/エンジニアとのコミュニケーション力
・相手の課題・ニーズをヒアリング、解釈でき、要件に落とし込める
・複雑な要件を整理、適切なステークホルダーを巻き込んで合意形成できる
【歓迎条件】
・MLサービスの運用経験があるとベスト
・kubeflow/TFXなどMLパイプラインの開発/運用
・Kubernetesの監視・運用
・データエンジニアリングスキル
・リアルタイムでオンライン推論が行われる機械学習パイプラインの設計/構築/運用/監視経験(GCPを利用していると尚可)
・高トラフィックサービスのストリームデータ処理経験
・大規模データのバッチ処理経験
・データに対する要求水準が高い Applicationのデータストアやデータパイプラインの設計、技術選定の経験
・大規模システムの運用経験、トラブルシューティングスキル
・ボトルネックを特定し、適切な解決策を提案、実施した経験または運用を事前に考慮して、高可用性、高信頼性のあるシステムを設計した経験
・SREのプラクティスを改善しながら運用する経験(SLO, エラーバジェット等)
・統計学、機械学習の知識、スキル
・各種統計検定の違いが理解でき、結果が解釈ができる
・機械学習(主に教師あり学習)の評価指標を理解している
・NumPy, Pandas, SciPy, Matplotlib, scikit-learn, Tensorflow, Pytorchなど機械学習に関わるライブラリ・フレームワークの利用経験
【人物像】
・担当領域に関して、物事を前に進めるためのあらゆることを実践できる
・自身の仕事の価値を理解してやりきれる力がある
・最新技術を常にキャッチアップし、必要に応じてプロダクトに導入できる
・あるべき理想を持ちながら、現実問題に落とし込んでギャップを埋める議論ができる