Чем предстоит заниматься:
Проектирование ETL-пайплайнов для документов: Разработка полного цикла обработки входного потока (PDF, JPEG, PNG).
CV-препроцессинг (OpenCV): нормализация изображений, выравнивание текста, адаптивная бинаризация, удаление шумов при сохранении важных элементов (печатей, подписей).
Семантическая сегментация PDF: разработка алгоритмов (эвристика + ML) для разделения многостраничных "слепых" сканов на отдельные документы по визуальным и текстовым якорям.
Интеграция с локальными VLM / LLM: развертывание и промпт-инжиниринг локальных моделей (Ollama, vLLM или аналоги) для извлечения сущностей (NER) в строгом формате.
Пост-процессинг и валидация: написание надежной логики очистки данных для защиты системы от галлюцинаций моделей.
Для успешной работы потребуется:
Уверенное владение Python: ООП, паттерны проектирования, написание чистого и поддерживаемого кода.
Computer Vision: Глубокое понимание OpenCV (работа с контурами, матрицами трансформаций, фильтрами) и Pillow.
Работа с PDF: Опыт работы с библиотеками PyMuPDF (fitz) и PyPDF2 (векторный парсинг, рендеринг, сборка/разборка документов на лету).
Machine Learning / LLM: Опыт работы с локальными LLM.
Понимание принципов Prompt Engineering, настройки параметров генерации (temperature, top_p, top_k, num_predict).
Data Processing: Уверенное владение Pandas и регулярными выражениями (re).
Будет плюсом:
Мы предлагаем: