Наша команда развивает ИИ-решения для автоматизации закупочных процессов: обработки заявок, коммерческих предложений, технических предложений, договоров, спецификаций, протоколов и сопутствующих документов. Ищем ML/LLM - инженера с практическим опытом в generative AI, который умеет быстро запускать и проверять модели, собирать прототипы и демо, а затем встраивать удачные решения в рабочие сервисы.
Обязанности:
Разработка ML/LLM-компонентов для закупочных процессов
Разработка пайплайнов OCR/LLM-извлечения данных из PDF, DOCX, XLSX, сканов, писем и вложений.
Формирование черновиков аналитических записок, протоколов сравнения, обоснований и итоговых материалов.
Интеграция ML-компонентов в backend-сервисы через API.
Прототипирование и запуск open-source моделей
Запуск и адаптация моделей с GitHub, Hugging Face и других open-source источников.
Создание рабочих ML/AI-прототипов и демо-стендов в короткие сроки.
Проверка применимости новых моделей и подходов на реальных данных.
Адаптация research/demo-кода под практические задачи.
Создание демо-интерфейсов для бизнеса и внутренних пользователей.
LLM, RAG и structured output
Разработка retrieval-логики, embeddings, rerank, chunking-стратегий и фильтрации по метаданным.
Реализация structured output через LLM: JSON Schema, pydantic-схемы, function calling / tool calling.
Валидация, нормализация и постобработка ответов модели.
Настройка confidence score и правил обработки ошибок.
Снижение галлюцинаций, невалидных JSON-ответов и неполных структурированных результатов.
Backend и frontend
Evaluation и контроль качества
Разработка метрик качества ML/LLM-модулей и пайплайнов разметки/валидации.
Оценка качества классификации (accuracy, precision, recall, F1), извлечения атрибутов (exact/partial match, полнота схем), RAG (precision, recall, MRR, nDCG, hit rate) и LLM-ответов (фактологичность, полнота, цитирование).
Подготовка регрессионных наборов и эталонных примеров.
Организация human-in-the-loop разметки и анализа ошибок.
Проектирование сценариев, где модель предлагает результат, пользователь подтверждает или исправляет, а исправления сохраняются для дальнейшего улучшения системы.
Generative AI и мультимодальные модели
Запуск и адаптация генеративных моделей для текста, изображений и мультимодальных сценариев.
Подбор моделей под конкретные прикладные задачи: извлечение информации, классификация, визуальный анализ, генерация, сравнение объектов.
Требования:
Уверенный навык Python, Streamlit и Gradio.
Опыт разработки backend-сервисов на FastAPI или аналогичных фреймворках.
Опыт работы с REST API, Docker, конфигурациями, секретами и CI/CD.
Умение писать код, который можно сопровождать, отлаживать, тестировать и передавать.
Опыт работы с очередями и асинхронной обработкой задач будет преимуществом.
Желательно понимание async/sync API, pydantic, типизации, тестирования, логирования и обработки ошибок.
LLM/RAG-практика
Практический опыт разработки RAG-систем, понимание embeddings, rerank, chunking, hybrid search, grounding, prompt engineering.
Опыт работы с tool calling / function calling и многошаговыми LLM-пайплайнами.
Опыт получения structured output от LLM.
Практика работы с JSON Schema, pydantic-моделями, structured output и валидацией результатов.
Понимание типовых проблем LLM: галлюцинации, потеря контекста, невалидный JSON, неполные ответы, нестабильность результата.
Умение оценивать качество LLM/RAG-пайплайнов не только визуально, но и через метрики и тестовые наборы.
Быстрый запуск моделей и generative AI
Практический опыт запуска open-source моделей с GitHub и Hugging Face, работа с PyTorch и Hugging Face Transformers, умение быстро разобраться с чужим research/demo-кодом.
Понимание зависимостей ML-проектов, окружений, CUDA, GPU-инференса и типовых проблем запуска моделей; опыт создания быстрых демо на Gradio, Streamlit, FastAPI или аналогичных инструментах.
Опыт работы с генеративными моделями — важное преимущество.
Опыт с Stable Diffusion, SDXL, ControlNet, LoRA или аналогичными image generation подходами — преимущество.
Понимание VQA, vision-language models и мультимодальных сценариев — преимущество.
Поиск и базы данных
Опыт работы с OpenSearch, Elasticsearch, PostgreSQL или аналогичными системами.
Понимание полнотекстового, векторного и гибридного поиска; индексов, фильтров, справочников и метаданных.
Опыт построения поиска по документам, чанкам, атрибутам и структурированным данным; trade-off между качеством поиска, скоростью, памятью и стоимостью индексации.
Опыт работы с SQL и базовыми схемами хранения данных.
ML evaluation
Умение считать качество ML/LLM-компонентов.
Понимание accuracy, precision, recall, F1 для классификации, precision/recall для извлечения сущностей и атрибутов, использование exact match и partial match для оценки структурированного извлечения.
Оценка качества RAG-ответов: релевантность источников, фактологичность, полнота, корректность цитирования.
Умение готовить тестовые выборки, эталонные примеры и регрессионные наборы.
Понимание human-in-the-loop подхода к разметке, исправлению и улучшению качества.
Информационное извлечение
Опыт NER, классификации и нормализации сущностей; извлечение закупочных атрибутов (наименование МТР, количество, единицы, сроки, цена, валюта, технические параметры) и сопоставление со справочниками.
Нормализация единиц, валют, дат, чисел и текстовых характеристик; правила валидации и проверки полноты данных.
Понимание выбора подхода: классические алгоритмы, ML-классификация или LLM для разных задач..
Оформление по договору ГПХ , срочный договор до конца 2026 с возможностью продления по результатам.
Гибкий формат работы.
Конкурентная проектная ставка, прозрачная система приёмки этапов.
Доступ к корпоративным ресурсам, современному стеку и техническому менторству.
Возможность перехода на постоянную основу по итогам проекта.
Будьте осторожны: если работодатель просит войти через Google, iCloud или Госуслуги, прислать код или пароль, запустить ПО или перевести деньги — это мошенники.