Роль:
Мы ищем ведущего инженера по поддержке аппаратного обеспечения для создания и руководства производственной функцией поддержки и эскалации L3 для крупномасштабной инфраструктуры дата-центров с высокой плотностью GPU. Эта роль отвечает за реагирование на инциденты высокой степени серьезности, сложные расследования аппаратных и прошивочных проблем, а также за эскалации корпоративных клиентов в рамках контрактных SLA.
Вы будете создавать процессы с нуля, руководить командованием инцидентов во время критических сбоев и формировать команду, способную работать в распределённых, многорегиональных средах. Роль сочетает в себе глубокие технические знания с операционным лидерством и управлением персоналом. Вы будете нести ответственность за стабильность парка оборудования, эффективность эскалаций, ясность причинно-следственных связей и непрерывное улучшение серверных аппаратных платформ.
Ваши обязанности будут включать:
- Создание и руководство функцией поддержки L3 и эскалации для серверной инфраструктуры дата-центров в нескольких регионах
- Выступать в роли Командира инцидента при инцидентах высокой степени серьезности в производственной среде, обеспечивая структурированное устранение и коммуникацию
- Полное владение процессами реагирования на инциденты, управления проблемами и межкомандной эскалации
- Поддержка корпоративных клиентов с выделенным оборудованием в рамках контрактных SLA, включая коммуникацию с руководителями на исполнительном уровне
- Проведение анализа коренных причин сбоев аппаратного обеспечения, прошивки и платформенного уровня с четкими корректирующими действиями
- Управление эскалациями поставщиков с ODM и OEM через официальные каналы поддержки и прямое взаимодействие
- Сотрудничество с операциями дата-центров, инженерией аппаратного обеспечения и инфраструктурными командами для повышения надежности на уровне всего парка
- Установление ключевых показателей эффективности (KPI), стандартов эскалации и операционных инструкций для поддержки производственного аппаратного обеспечения
- Найм, обучение и масштабирование высокоэффективной команды инженеров поддержки
- Обеспечение непрерывного улучшения времени реагирования, качества инцидентов и клиентского опыта
Что мы ожидаем от вас:
- Опыт создания или руководства функцией поддержки L3 и эскалации для серверной инфраструктуры дата-центров в распределённых, многорегиональных средах
- Опыт поддержки корпоративных клиентов с выделенным оборудованием в рамках контрактных SLA
- Сильный опыт лидерства в управлении инцидентами, включая роль Командира инцидента
- Доказанная способность создавать и формализовать процессы реагирования на инциденты, управления проблемами и межкомандной эскалации с нуля
- Опыт управления персоналом, включая найм, обучение и управление эффективностью
- Хорошие навыки коммуникации на английском языке, как письменные, так и устные
Будет плюсом, если у вас есть:
- Глубокие навыки устранения неполадок в Linux, серверном оборудовании и прошивке (BIOS/BMC), с возможностью руководить расследованиями на уровне системного инженера
- Хорошее знание серверных платформ с GPU и распространённых диагностических инструментов (например: nvidia-smi, dcgmi, корреляция логов Linux)
- Опыт управления эскалациями поставщиков ODM и OEM через порталы поддержки и прямые каналы
- Навыки скриптинга (bash и базовый Python) для устранения неполадок и лёгкой аналитики
- Опыт работы с аппаратными платформами на базе OCP
Условия работы:
- Удалённая работа в пределах Соединённых Штатов
- Полная занятость
Основные преимущества для сотрудников:
- Медицинская страховка
- Пенсионный план 401(k)
- Оплачиваемый отпуск
- Больничные дни
Компенсация:
Мы предлагаем конкурентоспособные зарплаты в диапазоне от $125k до $180k базовой части плюс квартальные бонусы за результаты.
Что мы предлагаем
- Конкурентоспособную зарплату и комплексный пакет льгот.
- Возможности профессионального роста внутри компании Nebius.
- Гибкие условия работы.
- Динамичную и совместную рабочую среду, которая ценит инициативу и инновации.
Мы растём и ежедневно расширяем наши продукты. Если вы готовы к вызовам и так же увлечены ИИ и машинным обучением, как и мы, присоединяйтесь к нам!