Роль
Мы создаём глобальную линию поддержки L3 с нуля, чтобы владеть самым высоким уровнем технической эскалации для серверной и стоечной инфраструктуры по всей Европе и США. Работая на пересечении операций дата-центров, инженерных исследований и разработок (R&D) и партнёров ODM, эта команда будет полностью отвечать за сложные инциденты с серверами и прошивкой — обеспечивая выявление коренных причин и преобразование повторяющихся сбоев в масштабируемые архитектурные улучшения.
Вы будете руководить командой из примерно 10 инженеров L3 в Европе (головной офис в Амстердаме + другие районы дата-центров), тесно сотрудничая с региональным руководителем L3 для обеспечения круглосуточного глобального покрытия.
В этой роли вы будете выступать в качестве Командира инцидентов для событий высокой серьёзности в производственной среде, устанавливать формальные практики управления проблемами и разрабатывать корпоративные рамки поддержки для контрактных клиентов с bare-metal — включая двух крупных клиентов из FAANG на старте.
Это управленческая роль с глубокой технической ответственностью: вы будете руководить людьми и процессами, сохраняя при этом способность проводить продвинутые расследования по Linux, аппаратному обеспечению и прошивке, когда уровень L2 достигает своего технического предела.
Ваши обязанности будут включать:
Командование инцидентами (наивысший приоритет)
- Выступать в роли Командира инцидентов для инфраструктурных инцидентов высокой серьёзности
- Вести структурированную триаж и обеспечивать постоянное устранение коренных причин
- Согласовывать действия L2, Cloud Ops, R&D, NOC, DC Automation и поставщиков ODM во время критических событий
- Устанавливать чёткие постмортемы и механизмы последующего контроля
Управление проблемами и надёжность
- Выявлять повторяющиеся шаблоны сбоев и преобразовывать их в масштабируемые исправления
- Строить структурированные циклы эскалации с R&D и поставщиками
- Проводить ежеквартальные обзоры надёжности по платформам, прошивке и аппаратному обеспечению
- Переводить аналитику в превентивные улучшения
Создание и масштабирование функции L3
- Разрабатывать операционную модель L3 (приём, приоритизация, владение, эскалация)
- Нанимать и развивать распределённую команду по ЕС и США
- Определять модели сотрудничества между внутренними командами и внешними поставщиками
- Влиять на межфункциональные результаты без прямых полномочий
Корпоративная поддержка Bare Metal
- Определять процессы поддержки корпоративного уровня (обработка SLA, пути эскалации, модели серьёзности)
- Выступать в роли старшего интерфейса эскалации для сложных проблем, влияющих на клиентов
Мы ожидаем, что у вас есть:
- Опыт создания или руководства поддержкой L3 / эскалационной поддержкой для серверной инфраструктуры дата-центров
- Сильный опыт работы в роли Командира инцидентов в производственной среде
- Опыт поддержки корпоративных клиентов по контрактным SLA
- Доказанная способность создавать процессы управления инцидентами и проблемами с нуля
- Опыт руководства людьми (наём, наставничество, масштабирование команд)
- Хорошие навыки общения на английском языке
Будет дополнительным преимуществом, если у вас есть:
- Глубокие навыки устранения неполадок в Linux, аппаратном обеспечении и прошивке
- Опыт работы с GPU-серверными платформами (например, диагностика NVIDIA)
- Опыт управления эскалациями ODM/OEM
- Bash / базовое программирование на Python
- Опыт работы с платформами на базе OCP
Что мы предлагаем
- Конкурентоспособную зарплату и комплексный пакет льгот.
- Возможности профессионального роста внутри Nebius.
- Гибкие условия работы.
- Динамичную и совместную рабочую среду, которая ценит инициативу и инновации.
Мы растём и расширяем наши продукты каждый день. Если вы готовы к вызову и так же увлечены ИИ и машинным обучением, как и мы, присоединяйтесь к нам!