Мы нанимаем инженера с приоритетом на backend для создания и эксплуатации систем, которые внедряют генеративный ИИ в производство для понимания документов и чертежей (текст и изображение). Эта роль сосредоточена на проектировании масштабируемых микросервисов, API и конвейеров вывода, которые вызывают базовые модели (на сегодняшний день: Bedrock на AWS) и делают возможности этих моделей надежными и готовыми к производству.
За что вы будете отвечать
- Проектировать и реализовывать backend микросервисы и API, которые интегрируются с базовыми моделями для обслуживания вывода при обработке документов и чертежей.
- Строить масштабируемые стратегии маршрутизации запросов, кэширования и очередей для трафика вывода (обработка пиков и нерегулярных нагрузок).
- Реализовывать CI/CD и наблюдаемость на уровне сервиса для конвейеров вывода (логирование, метрики, оповещения).
- Развёртывать и эксплуатировать сервисы в Kubernetes (развёртывания, обновления, проверки состояния); администрирование кластера обеспечивает платформа/SRE.
- Интегрироваться с сервисами AWS и обеспечивать корректные IAM/принцип наименьших привилегий для доступа сервисов друг к другу.
- Сотрудничать с дата-сайентистами / инженерами машинного обучения (они отвечают за обучение моделей; вы — за интеграцию в производство).
- Помогать формировать операционные практики для вывода в производство (область дежурств будет уточнена; ожидается поддержка реагирования на инциденты на уровне сервиса).
Обязательные требования (основные требования)
- Более 5 лет опыта создания производственных backend систем / API на Python.
- Сильный опыт проектирования и эксплуатации распределённых микросервисов (масштабируемость, маршрутизация, кэширование, режимы отказа).
- Практический опыт работы с AWS и интеграции внешних API моделей (в настоящее время мы в основном вызываем базовые модели через Bedrock).
- Опыт развёртывания сервисов в Kubernetes в производстве (вы развёртываете и эксплуатируете приложения там; команда платформы управляет инфраструктурой кластера).
- Опыт работы с CI/CD (требуется знание GitHub Actions).
- Твёрдое практическое понимание IAM и основных принципов облачной безопасности (принцип наименьших привилегий, роли сервисов).
- Демонстрируемый опыт работы с логированием/наблюдаемостью (структурированные логи, метрики, трассировки) и проектирования конвейеров для последующего анализа.
- Опыт работы с Terraform или другим инструментом инфраструктуры как кода (IaC).
- Чёткое, проверяемое общение — способность конкретно объяснять решения по проектированию системы и прошлую работу.
Желательные навыки (приветствуются)
- Предыдущий опыт интеграций с GenAI / LLM (Bedrock, маршрутизация API, выбор моделей)
- Опыт работы с конвейерами обработки изображений/документов (OCR, предварительная обработка изображений, парсинг технических чертежей)
- Опыт с паттернами оркестрации вывода (асинхронные воркеры, батчинг, оркестрация GPU) или знакомство с нагрузками на базе GPU
- Знакомство с инструментами жизненного цикла ML (MLflow, реестры моделей, отслеживание экспериментов)
- Опыт работы с сервисами вывода в реальном времени и пакетной обработкой, хранилищами признаков или производственным использованием SageMaker