Чем предстоит заниматься?
Инфраструктура и облако
- Проектирование, развертывание и поддержка облачной инфраструктуры (Yandex Cloud / AWS) с использованием подхода Infrastructure as Code (Terraform, Pulumi, Bicep)
- Управление Kubernetes-кластерами (AKS / EKS / GKE): настройка, масштабирование, обновление, capacity planning
- Проектирование сетевой топологии: VPC, NSG, service mesh (Istio / Linkerd), ingress-контроллеры
CI/CD и автоматизация
- Разработка и поддержка CI/CD-пайплайнов (GitLab CI, ArgoCD)
- Внедрение GitOps-практик и управление релизным процессом (blue/green, canary, rolling deployments)
- Автоматизация рутинных операций: скриптинг на Bash, Python, Go
Мониторинг и надёжность
- Построение систем мониторинга, алертинга и трассировки (Datadog, Prometheus/Grafana, OpenTelemetry)
- Участие в SRE-практиках: определение SLI/SLO/SLA, управление error budget, разбор инцидентов (postmortem)
- Настройка централизованного логирования (ELK, Loki, Datadog Logs)
Безопасность и compliance
- Внедрение DevSecOps-практик: сканирование образов, SAST/DAST в пайплайнах, управление секретами (Vault, Azure Key Vault)
- Управление RBAC, IAM-политиками, network policies в Kubernetes
- Обеспечение соответствия требованиям безопасности (SOC2, ISO 27001 и др.)
Архитектура и развитие команды
- Участие в архитектурных ревью и проектировании новых сервисов совместно с разработчиками
- Менторство junior/middle инженеров, проведение code review инфраструктурного кода
- Разработка и поддержка внутренней документации, runbook'ов, архитектурных решений (ADR)
- Участие в on-call ротации, реагирование на production-инциденты
Что для нас важно?
- 5+ лет в DevOps / Platform Engineering / SRE
- Глубокие знания Linux, сетей, containerization
- Опыт работы с высоконагруженными production-системами
- Понимание принципов распределенных систем
- Опыт работы со стеком NodeJS и Go