Мы набираем IT специалистов в большую команду для работы на проектах для крупного и динамичного российского банка.
Мы ищем высококвалифицированного специалиста, обладающего глубокими познаниями в области проектирования и разработки моделей данных для корпоративных хранилищ, с богатым опытом работы в банковской сфере. Данный специалист должен иметь обширные знания о принципах организации хранилищ данных, проектирование разных вариантов моделей данных на разных слоях хранилища (детальном, аналитическом, слое для отчетов), а также понимание особенностей банковского розничного, малого и среднего бизнеса.
Стек:
• Spark, SparkStreaming, Scala, как язык для перекладки и обработки данных (ETL).
Хранение данных:
• ClickHouse - зона витрин и для отчетов BI;
• GreenPlum - публичная зона для обмена данными между доменами;
• IceBerg, HDFS, S3, - детальные данные Домена;
• На развитие в плане использование Tarantool, Cassandra;
• Оркестраторы: из пула Argo, Dagster, AirFlow;
• BI: FineBI, PowerBI, SuperSet;
• Среда доступа к данным через SQL: Trino.
Задачи:
• Проектирование моделей данных хранилища розничного блока и мсб на стэке Hadoop с разными режимами загрузки, как батч, так и несколько раз в день;
• Проектирование с нуля физической модели данных хранилища;
• Создание правил проектирования, для возможности передачи этапа проектирования на аналитиков с последующим обязательным ревью. Обучение системных аналитиков;
• Проведение анализа существующих моделей данных, выявление узких мест и рекомендаций по оптимизации;
• Подготовка документации, спецификаций и руководств по проектированию модели данных и других стандартов;
• Ревью предложений по новым структурам баз данных и помощь командам разработки в выборе оптимальных решений;
• Работа над улучшением качества и data quality процессами;
• Участие в проектировании потоков данных хранилища с точки зрения проектирования особенных моделей под не стандартные сложные задачи;
• Реализация модели самостоятельно, если это требуется;
• Контроль и создание процессов ведения моделей в специальном ПО для возможности сбора метаданных и S2T;
• Оптимизация и улучшение модели для минимизации сроков и трудоемкости доработок при доработке систем источников (появлении новых продуктов, новых полей).