Инженер по обеспечению надежности машинного обучения (Senior MLOps)
г. Москва
Инженерия и эксплуатация
25 июня 2026 г.
Чем предстоит заниматься:
- Разрабатывать и поддерживать инфраструктуру для экспериментов, обучения и деплоя ML-моделей в batch и online режимах на CPU/GPU
- Автоматизировать жизненный цикл модели от регистрации до промышленного сервинга: сборка образов, проверки, публикация артефактов, деплой, канареечные релизы, A/B-тесты и откаты
- Проектировать и развивать платформу инференса для batch- и online-сценариев на CPU/GPU
- Развивать ML-инфраструктуру на базе Kubernetes: кластеры, GPU-ресурсы, операторы, изоляция окружений, автоскейлинг, маршрутизация трафика и управление ресурсами
- Развивать и поддерживать платформенные компоненты для работы с признаками, моделями и ML-артефактами
- Развивать мониторинг ML-систем: инфраструктурные метрики, метрики сервинга, качество моделей, распределения входных данных, дрейф данных и деградация поведения моделей
- Обеспечивать воспроизводимость и управляемость ML-процессов: версионирование кода, данных и моделей, история экспериментов, изоляция сред обучения и инференса, аудит изменений
- Оптимизировать использование вычислительных ресурсов, включая GPU, с учетом надежности, производительности и стоимости
- Исследовать новые инструменты и подходы в MLOps, оценивать их применимость и внедрять там, где это повышает надежность, скорость разработки или эффективность платформы
Мы ожидаем:
- Опыт внедрения и сопровождения Kubernetes-кластеров для сервинга ML-моделей на GPU и CPU
- Практический опыт эксплуатации инструментов для деплоя и обслуживания моделей: Triton Inference Server, BentoML или аналогичных решений
- Опыт запуска и поддержки инференс-движков в Kubernetes
- Понимание подходов к автоскейлингу, балансировке нагрузки и маршрутизации запросов для ML-сервисов
- Понимание принципов мониторинга качества, поведения и эксплуатационных параметров ML-моделей
- Опыт настройки GPU-инфраструктуры: драйверы, CUDA Toolkit, MIG, GPU-enabled Docker, nvidia-container-toolkit
- Понимание жизненного цикла ML-экспериментов и инструментов их трекинга: MLflow, ClearML или аналогов
- Уверенное владение Python для автоматизации, разработки внутренних инструментов и интеграций
- Уверенный опыт работы с Kubernetes в production: workloads, операторы, Helm, HPA, ingress, storage, observability, диагностика и устранение проблем
- Опыт описания и автоматизации инфраструктуры на базе IaC: Terraform, Ansible, GitOps-подходы
- Опыт работы с системами контроля версий и организации CI/CD (GitLab, Bitbucket, Bamboo)
- Опыт работы с Docker и OCI-образами: сборка, оптимизация, публикация и эксплуатация
- Уверенное владение Linux: настройка, мониторинг, диагностика сетевых, файловых, ресурсных и производительных проблем
- Опыт настройки мониторинга и алертинга: Prometheus Stack
- Опыт безопасной работы с секретами, токенами, сертификатами и чувствительными данными
Мы предлагаем:
- ДМС со стоматологией, телемедициной и программой поддержки ментального здоровья;
- Страхование жизни;
- Ежемесячные промокоды на Lamoda: два по 25%, два по 15% и в день рождения — 40%;
- Программа привилегий и скидок от BestBenefits;
- До 15 дней больничного в год оплачиваем в размере 100% от действующего оклада;
- Бесплатные юридические консультации;
- Дополнительные выходные в случае важных событий;
- Яркие мероприятия и много неформального общения.
Развитие для каждого:
- Опытный наставник для каждого новичка;
- Обучение и участие во внешних конференциях;
- Помогаем развивать личный бренд, выступать на конференциях и писать статьи;
- Performance Review дважды в год, чтобы развиваться системно;
- Проводим митапы и demo-дни для обмена знаниями;
- Погружаем в fashion и каждый сезон знакомим с модными трендами.
Откликайтесь
Фамилия
Имя
E-mail
Введите данные
+7
– поля обязательные для заполнения
Здесь можно написать что-то особенное
Введите данные
Выберите файл или перетащите резюме сюда (pdf,doc,docx) Не более 10МБ
Перед отправкой резюме убедитесь, что во вложенном файле указаны контактные данные (email, телефон) для обратной связи
Ссылка на резюме Я даю согласие на обработку персональных данных
Откликнуться
Хочу работать в Lamoda!
Выбирай подходящую вакансию в подразделении ИТ, отправляй нам своё резюме и стань частью команды Lamoda.
Вакансии подразделения