Чем предстоит заниматься:

Проектирование ETL-пайплайнов для документов: Разработка полного цикла обработки входного потока (PDF, JPEG, PNG).
CV-препроцессинг (OpenCV): нормализация изображений, выравнивание текста, адаптивная бинаризация, удаление шумов при сохранении важных элементов (печатей, подписей).
Семантическая сегментация PDF: разработка алгоритмов (эвристика + ML) для разделения многостраничных "слепых" сканов на отдельные документы по визуальным и текстовым якорям.
Интеграция с локальными VLM / LLM: развертывание и промпт-инжиниринг локальных моделей (Ollama, vLLM или аналоги) для извлечения сущностей (NER) в строгом формате.
Пост-процессинг и валидация: написание надежной логики очистки данных для защиты системы от галлюцинаций моделей.

Для успешной работы потребуется:

Уверенное владение Python: ООП, паттерны проектирования, написание чистого и поддерживаемого кода.
Computer Vision: Глубокое понимание OpenCV (работа с контурами, матрицами трансформаций, фильтрами) и Pillow.
Работа с PDF: Опыт работы с библиотеками PyMuPDF (fitz) и PyPDF2 (векторный парсинг, рендеринг, сборка/разборка документов на лету).
Machine Learning / LLM: Опыт работы с локальными LLM.
Понимание принципов Prompt Engineering, настройки параметров генерации (temperature, top_p, top_k, num_predict).
Data Processing: Уверенное владение Pandas и регулярными выражениями (re).

Будет плюсом:

Опыт работы с традиционными OCR-движками (Tesseract, EasyOCR, PaddleOCR).
Понимание принципов оптимизации инференса на GPU (TensorRT, квантование, кэширование).
Опыт работы с Docker и понимание принципов построения микросервисной архитектуры.
Навыки структурированного логирования и профилирования Python-кода.

Мы предлагаем:

Полностью белую заработную плату, все социальные гарантии согласно ТК РФ.
Удобный график работы: 5/2, гибкое начало рабочего дня.
Поддержку здоровья: программа ДМС, компенсация занятий спортом, корпоративные спортивные мероприятия.
Насыщенную корпоративная жизнь.
Профессиональное развитие и самореализацию, обучение за счет компании, корпоративную программу изучения английского в SkyEng.
Отличный офис в самом центре города, своя кухня, чай/ кофе/ фрукты за счет компании.

ML-инженер

Похожие вакансии