Роль
Мы ищем архитектора GPU-кластеров, который возглавит разработку нашей инфраструктуры следующего поколения для ИИ. В этой значимой и практической роли вы будете принимать архитектурные решения от начала до конца, охватывающие вычисления, сеть и хранение данных — обеспечивая, чтобы наши платформы соответствовали масштабным требованиям, производительности и надежности современных ИИ-нагрузок.
Это высокоэффективная, практическая архитектурная роль, в которой вы определите, как десятки тысяч GPU будут взаимосвязаны, охлаждены, запитаны и оптимизированы в нескольких дата-центрах.
Вы можете работать удаленно из США.
Ваши обязанности будут включать:
- Проектирование кластера: Архитектура масштабируемых топологий GPU-кластеров, включая вычислительные узлы, межсоединения (InfiniBand, Ethernet), хранение и управляющие плоскости.
- Моделирование производительности: Анализ ИИ/МО нагрузок (например, обучение больших языковых моделей, инференс) для принятия решений о компромиссах между задержкой, пропускной способностью и плотностью GPU.
- Архитектура сети: Согласование с архитектором сети соответствующего дизайна и проверка низколатентных, высокопроизводительных межсоединений (например, InfiniBand HDR/NDR, RoCEv2) на уровне POD и дата-центра.
- Интеграция хранения: Работа с командами хранения для оптимизации производительности при работе с обучающими наборами данных, контрольными точками и другими задачами.
- Надежность и мониторинг: Понимание и анализ сигналов из систем мониторинга для выявления проблем в дизайне.
- Сотрудничество: Взаимодействие с командами обеспечения надежности площадки, сетей, хранения и инженерии дата-центров для внедрения и масштабирования вашей архитектуры.
Мы ожидаем, что у вас есть:
- Более 5 лет опыта проектирования кластеров.
- Глубокое понимание современной архитектуры GPU (NVIDIA, AMD и др.).
- Опыт работы с HPC межсоединениями (InfiniBand и RoCE).
- Прочные знания в области системной архитектуры, сетей и надежности аппаратного обеспечения.
- Опыт написания скриптов для автоматизации и телеметрических конвейеров (Python, Go и др.).
Основные преимущества для сотрудников в США:
- Медицинская страховка: 100% оплачиваемое компанией медицинское, стоматологическое и офтальмологическое покрытие для сотрудников и их семей.
- План 401(k): Компания предоставляет до 4% совпадения взносов с немедленным правом собственности.
- Отпуск по уходу за ребенком: 20 недель оплачиваемого отпуска для основных опекунов, 12 недель для второстепенных.
- Компенсация за удаленную работу: До $85 в месяц на мобильную связь и интернет.
- Страхование от инвалидности и жизни: Компания оплачивает краткосрочное, долгосрочное и страхование жизни.
Что мы предлагаем
- Конкурентоспособную зарплату и комплексный пакет льгот.
- Возможности профессионального роста в компании Nebius.
- Гибкие условия работы.
- Динамичную и совместную рабочую среду, которая ценит инициативу и инновации.
Мы растем и ежедневно расширяем наши продукты. Если вы готовы к вызову и так же увлечены ИИ и МО, как и мы, присоединяйтесь к нам!