Привет! Наша команда разрабатывает AI-стратегии, строит агентов для автоматизации бизнес-процессов и обучает компании работать с ИИ. Сейчас мы в поиске DevOps Engineer (LLMOps/GPU). Тебе предстоит управлять инфраструктурой для LLM-проектов — GPU-кластерами и inference-серверами. А также обеспечивать надёжные, безопасные и экономичные операции для GenAI-приложений.
Работаем по методологии VibeEvolve: рутину берут на себя ИИ-агенты, а команда выступает архитекторами — проектирует процессы и управляет их работой. Это не будущее, которое мы планируем — это то, что строим прямо сейчас, и ищем тех, кто хочет быть частью этого.
Чем предстоит заниматься:
- Проектировать и управлять GPU-инфраструктурой для LLM
- Настраивать и поддерживать CI/CD пайплайны
- Управлять контейнеризацией и оркестрацией (Docker, Kubernetes с GPU)
- Деплоить и масштабировать LLM inference (vLLM, TGI, Triton)
- Настраивать мониторинг, алертинг и логирование LLM-сервисов
- Оптимизировать GPU-утилизацию и затраты
- Обеспечивать security hardening и комплаенс
Мы ждем от тебя: - Опыт 3+ года DevOps/SRE
- Знание российских облачных платформ (Yandex Cloud, VK Cloud, SberCloud) или on-premise (VMware, OpenStack, Proxmox)
- Владение Infrastructure as Code (Terraform, Ansible)
- Владение Docker и Kubernetes (с поддержкой GPU)
- Знание CI/CD инструментов (GitLab CI, GitHub Actions)
- Владение Prometheus, Grafana, ELK
- Уверенное администрирование Linux
- Опыт управления GPU-инфраструктурой (NVIDIA, CUDA, GPU scheduling)
Будет плюсом:
- Знание LLMOps-инструментов: vLLM, Text Generation Inference (TGI), Triton Inference Server
- Опыт работы с model serving и autoscaling
- Навыки оптимизации inference (batching, quantization)
- Понимание FinOps для GPU-инфраструктуры