Описание проекта:
Разработка и поддержка бота, который будет работать с веб-сервисом только по картинке экрана и имитировать действия пользователя.
Задача - "научить" бот проходить по заранее заданным путям (последовательностям экранов) с совершением заданных действий:
- захват экрана/окна
- управление мышью и клавиатурой (клики, скролл, ввод, сочетания клавиш)
- работа с буфером обмена (чтение скопированного текста)
- распознавание экрана/состояния интерфейса
- находить элементы по картинке (кнопки, иконки) и по тексту. при необходимости использовать OCR
- хранить сценарии в YAML/JSON (я задаю путь словами, бот исполняет)
- уметь описывать: ожидаемый тип экрана, что искать (текст/номер схемы/синонимы), что делать (клик, скролл, ввод данных, копирование)
- обработка таймаутов, ошибок, всплывающих окон
- реализовать механизм “обучения на опыте”: логировать успешные/неуспешные шаги, расширять списки допустимых вариантов, оптимизировать маршрут (кэшировать удачные действия, уменьшать число поисков).
Ожидания от опыта:
- практический опыт автоматизации UI по картинке, а не по DOM
- опыт работы через RDP/удалённый рабочий стол
- опыт с OpenCV, template matching, поиск элементов по шаблону
- опыт работы с OCR (Tesseract или аналог) и обработкой текстов
- умение строить конфигурируемые сценарии
- описывать шаги в YAML/JSON и писать движок, который их исполняет
Плюсом будет:
- опыт разработки RPA решений но с реальной практикой кастомного кода (а не только drag-and-drop)
- опыт в computer vision и/или текстовых эмбеддингах (fuzzy search по названиям)
- любые проекты типа “бот, который играет/работает по скриншоту”