Привет! Мы — marsik.ai, онлайн-сервис, который помогает студентам с генерацией учебных работ: рефератов, курсовых, эссе и других текстов.
Ищем в команду DevOps / SRE инженера, который поможет сделать сервис стабильнее, прозрачнее с точки зрения мониторинга и готовым к росту нагрузки.
Сейчас у части пользователей периодически возникают проблемы с доступом к сервису, и нам нужен специалист, который сможет выявить причины, выстроить мониторинг, найти узкие места и предложить решения по масштабированию и отказоустойчивости.
Стек проекта
— Nuxt 3 / Vue.js
— Node.js
— MongoDB
— Vuetify
— OpenRouter / LLM API
Что нужно делать:
- разбираться в причинах падений, деградации производительности и недоступности сервиса
- настраивать мониторинг, логирование, метрики и систему алертов
анализировать нагрузку на приложение, базу данных и внешние API - находить и устранять инфраструктурные и архитектурные узкие места
подготавливать сервис к сезонному росту нагрузки - участвовать в улучшении reliability, performance и отказоустойчивости системы
- работать вместе с разработкой над стабильностью и масштабируемостью продукта
Что для нас важно: - опыт работы с production-инфраструктурой
- умение диагностировать проблемы и находить root cause
- опыт настройки мониторинга, алертинга и логирования
- понимание производительности backend-сервисов, баз данных и внешних интеграций
- опыт сопровождения высоконагруженных или быстрорастущих сервисов будет большим плюсом
Условия: - удалённая работа
- возможен как фуллтайм, так и частичная занятость
- уровень оплаты обсуждается индивидуально
- реальный продукт, быстрые решения и минимум бюрократии
Будем рады вашему отклику.
Пожалуйста, в сопроводительном письме напишите, с какими сервисами вы работали, какие задачи решали по части стабильности, мониторинга и инфраструктуры, и был ли у вас опыт сопровождения высоконагруженных систем