Руслан Суботів, Національний кліринговий центр - про big data в банкінгу і проблеми з legacy ПО

НКЦ - небанківська кредитна організація, виконує функції клірингової організації і центрального

контрагента на ринках Московської біржі .. Як центральний контрагент НКЦ бере на себе ризики за укладеними учасниками в ході біржових торгів операціях, виступаючи посередником між сторонами. Головна і основна функція НКЦ - забезпечення стабільності на обслуговуваних сегментах фінансового ринку за рахунок здійснення сучасної, що відповідає міжнародним стандартам системи управління ризиками.

Звітність легше проводити з big data

Банк Росії вимагає від усіх фінансових учасників- банків, фінансових організацій, в тому числі і НКЦ, звітувати про свою діяльність. Вони повідомляють, скільки коштів на балансі, як він б'ється на окремі рахунки, скільки пройшло операцій. Це все має готуватися і надаватися в ЦБ на регулярній основі. Щоб спростити завдання, ми впровадили автоматичну систему на основі рішень від компанії «Неофлекс». Ця компанія давно спеціалізується на побудові систем фінансової звітності для регуляторних органів.

Коли я працював в «Бінбанку», у нас теж булирішення «Неофлекс», але на старих технологіях. Це була база даних Oracle, і вся обробка і підготовка звітності відбувалися на ній. А в НКЦ було впроваджено рішення саме на основі технології big data - Hadoop, яке ми використовуємо як основне сховище даних і систему обробки інформації.

Бази даних Oracle - одні з найпопулярніших в світі баз,використовувані лідерами ІТ-ринку - Facebook, Twitter, YouTube. Наприклад, бази даних MySQL на основі рішень Oracle часто вибирають в якості вбудованої бази даних, яка розповсюджується тисячами постачальників програмного забезпечення і виробників обладнання.

Oracle Database або Oracle RDBMS - об'єктно-реляційна система управління базамиданих компанії Oracle. Більше 40 років Oracle допомагає компаніям, органам державного управління та іншим організаціям з різних країн світу збирати, упорядковувати і використовувати дані.

Hadoop - проект з відкритим вихідним кодом, що знаходитьсяпід керуванням Apache Software Foundation. Hadoop використовується для надійних, масштабованих і розподілених обчислень, а також застосовується як сховище файлів загального призначення, здатне вмістити петабайт даних.

Парадигми Hadoop і Oracle абсолютно різні. Можна, звичайно, сказати, що це подальший розвиток. Але насправді це відхід убік, тому що сама суть big data відрізняється від звичайних баз даних. Hadoop не має на увазі транзакційність, але як сховище і система обробки інформації - це саме вдале рішення. Витрати на ліцензії знижуються. Дуже хороша масштабованість, і, відповідно, висока продуктивність.

врізка

Різні банки використовують різні форми звітності,але є основні, властиві всім. Наприклад, НКЦ здає близько 200 форм звітності. З них на даний момент ми впровадили близько 20 форм, що створюються за допомогою Hadoop. Є дві системи джерел даних. З них ми забираємо детальні дані для побудови звітності. Це автоматизована банківська система. Друга є центральним контрагентом. Це вже не для банків, а спеціалізовано для нас. Після цього дані агрегуються в Hadoop. Спочатку заливаються в початковому вигляді, після цього обробляються, очищаються, готуються, агрегируются - і перекладаються вже в окремий шар. У ньому створюється повноцінний портфель даних по кожному клієнту і по кожній вітрині. А на базі Oracle вже знаходиться «обгортка», за допомогою якої ми отримуємо інформацію, яка існує в самій системі. І на основі цих даних будуємо повноцінні звіти, які підходять для подачі в регуляторні органи.

Data Lake - централізоване сховище, що дозволяє зберігативсі дані і структури. Дані можна зберігати прямо так, як вони є, з різними типами аналітики - від інформаційних панелей і візуалізації до режиму обробки big data, аналітики в режимі реального часу і машинного навчання для кращого прийняття рішень.

«Ми розв'язуємо аналітикам руки»

Однією з причин, чому ми вибрали саме Hadoop,був проект по впровадженню Data Lake в Групі «Московська біржа». Продукт ще молодий, постійно розвивається. Туди будуть складати дані не тільки фінансові підрозділи - бухгалтерія, наприклад, але і технічні департаменти, які будуть обробляти на потужностях Hadoop свої дані - ті ж самі логи від фінансових систем. На Московській біржі генерується дуже великий обсяг даних. Для того, щоб це обробити, стандартні ЦБД (центральні бази даних - «Хайтек») вже не підходять. Вони просто не можуть впоратися з цим потоком.

Рішення Data Lake дозволяє спростити цю задачуі підвищити продуктивність. Зараз у нас є звітність ЦБ, сюди додасться податкова звітність, Росфінмоніторинг. Це має на увазі зберігання іншого типу даних. Це можуть бути просто скани документів, необхідних для податкової. Зберігати бінарні файли в базі даних дуже накладно і нерозумно. Тому було вибрано рішення з точки зору big data.

Надалі у цього рішення можливо великемайбутнє. У нас група компаній, у кожної є свої завдання для обробки своїх даних. Можливо, в подальшому це все буде об'єднано в один кластер, в якому будуть оброблятися всі завдання всередині групи.

врізка

Ще один напрямок - зниження витрат назберігання архівних даних. Зберігати їх на Exadata досить затратно. Після перенесення даних на потужності Hadoop це стане дешевше, буде простіше аналізувати, а для аналітиків з'явиться більш висока продуктивність. На поточний момент вони обмежені тим, що виділяється під їх завдання ресурс досить вузький - через надмірну навантаження на основну систему.

Як legacy ПО може привести до дефолту банку

У будь-якому банку ландшафт використовуваного програмногозабезпечення дуже різноманітний. Починаючи від якихось власних розробок і закінчуючи промисловими рішеннями, що залишилися як legacy ПО, від якого вже не можна позбутися. Його спочатку вибрали. Перехід з нього на інші системи дуже дорогий. Зважаючи на це доводиться постійно його за собою тягнути і підтримувати. Наше рішення дозволяє позбутися від деяких болячок систем за допомогою використання нових технологій.

Наприклад, ми готували звітність на основіавтоматизованої банківської системи. Але у неї були обмеження - продуктивність і монопольне використання ресурсів при розрахунку одного звіту. Відповідно, продуктивність з точки зору розрахунку однієї форми за часом була вкрай низькою. Іноді у нас одна форма займала до шести годин і більше.

врізка

Від таких моментів просто так не втечеш: заміна автоматизованої системи в банку схожа на катастрофу. Тут з'являється дуже багато нюансів, які треба враховувати. Просто так за один день міграцію з одного ПО на інше зробити неможливо. У моїй практиці був кейс, коли банк переходив з двох або трьох автоматизованих банківських систем, що стояли в регіонах, на єдину, яка, в свою чергу, перебувала в головному офісі. Цей процес тривав кілька місяців.

Так само і в НКЦ - при впровадженні даного проектубуло задіяно дуже багато людей. Це і аналітики, і фінансові співробітники, які проводили аналіз того чи іншого підходу. Крім цього залучалося велику кількість технічного персоналу - потрібно займатися підготовкою інфраструктури, розгортанням і створенням регламентів з обслуговування.

Банки, що працюють давно, точно мають legacy ПО. Я працював в чотирьох банках, всюди було таке ПО. Починаючи з програмного забезпечення, написаного ще під DOS і закінчуючи великим ПО, від якого вже неможливо відмовитися, так як воно дуже сильно інтегрована в бізнес-процеси. Якщо залишатися на старих системах, знижується продуктивність, конкурентоспроможність фінансової організації, підвищуються ризики - якщо не дефолту, то відкликання ліцензії.

У банків і компаній, що тільки почали своєрозвиток, є більший простір для вибору технологій. У тому числі і у НКЦ, так як ми відносно молода компанія. ПО використовується практично скрізь сучасне.