Руслан Суботів, Національний кліринговий центр - про big data в банкінгу і проблеми з legacy ПО

НКЦ— небанківська кредитна організація, що виконує функції клірингової організації та центрального

контрагента на ринках Московської біржі.Як центральний контрагент НКЦ перебирає ризики по укладеним учасниками під час біржових торгів угодам, виступаючи посередником між сторонами. Головна та основна функція НКЦ — забезпечення стабільності на сегментах фінансового ринку, що обслуговуються, за рахунок здійснення сучасної, що відповідає міжнародним стандартам системи управління ризиками.

Звітність легше проводити з big data

Банк Росії вимагає від усіх фінансових учасників— банків, фінансових організацій, зокрема й НКЦ, звітувати про свою діяльність. Вони повідомляють скільки коштів на балансі, як він б'ється на окремі рахунки, скільки пройшло операцій. Це все має готуватися та надаватися в ЦП на регулярній основі. Щоб спростити завдання ми впровадили автоматичну систему на основі рішень від компанії «Неофлекс». Ця компанія давно спеціалізується на побудові систем фінансової звітності регуляторних органів.

Коли я працював в «Бінбанку», у нас теж булирішення «Неофлекс», але на старих технологіях. Це була база даних Oracle, і вся обробка і підготовка звітності відбувалися на ній. А в НКЦ було впроваджено рішення саме на основі технології big data - Hadoop, яке ми використовуємо як основне сховище даних і систему обробки інформації.

Бази даних Oracle— одні з найпопулярніших у світі баз,використовуються лідерами ІТ-ринку - Facebook, Twitter, YouTube. Наприклад, бази даних MySQL на основі рішень Oracle часто вибирають як вбудовану базу даних, що розповсюджується тисячами постачальників програмного забезпечення та виробників обладнання.

Oracle Database або Oracle RDBMS- Об'єктно-реляційна система управління базамиданих компанії Oracle. Понад 40 років Oracle допомагає компаніям, органам державного управління та іншим організаціям з різних країн світу збирати, впорядковувати та використовувати дані.

Hadoop— проект із відкритим вихідним кодом, що знаходитьсяпід керуванням Apache Software Foundation. Hadoop використовується для надійних, масштабованих та розподілених обчислень, а також застосовується як сховище файлів загального призначення, здатне вмістити петабайти даних.

Парадигми Hadoop і Oracle абсолютно різні. Можна, звичайно, сказати, що це подальший розвиток. Але насправді це відхід убік, тому що сама суть big data відрізняється від звичайних баз даних. Hadoop не має на увазі транзакційність, але як сховище і система обробки інформації - це саме вдале рішення. Витрати на ліцензії знижуються. Дуже хороша масштабованість, і, відповідно, висока продуктивність.

врізка

Різні банки використовують різні форми звітності,але є основні, властиві всім. Наприклад, НКЦ здає близько 200 форм звітності. З них на даний момент ми впровадили близько 20 форм, що створюються за допомогою Hadoop. Є дві системи джерел даних. З них ми забираємо детальні дані для побудови звітності. Це автоматизована банківська система. Друга є центральним контрагентом. Це вже не для банків, а спеціалізовано для нас. Після цього дані агрегуються в Hadoop. Спочатку заливаються в початковому вигляді, після цього обробляються, очищаються, готуються, агрегируются - і перекладаються вже в окремий шар. У ньому створюється повноцінний портфель даних по кожному клієнту і по кожній вітрині. А на базі Oracle вже знаходиться «обгортка», за допомогою якої ми отримуємо інформацію, яка існує в самій системі. І на основі цих даних будуємо повноцінні звіти, які підходять для подачі в регуляторні органи.

Data Lake- Централізоване сховище, що дозволяєзберігати всі дані та структури. Дані можна зберігати так, як вони є, з різними типами аналітики — від інформаційних панелей та візуалізації до режиму обробки big data, аналітики в режимі реального часу та машинного навчання для кращого прийняття рішень.

«Ми розв'язуємо аналітикам руки»

Однією з причин, чому ми вибрали саме Hadoop,був проект із впровадження Data Lake у Групі «Московська біржа». Продукт ще молодий, що постійно розвивається. Туди складатимуть дані не лише фінансові підрозділи — бухгалтерія, наприклад, а й технічні департаменти, які оброблятимуть на потужностях Hadoop свої дані — ті самі логи від фінансових систем. На Московській біржі генерується величезний обсяг даних. Для того щоб це обробити, стандартні ЦБД (центральні бази даних — «Хайтек») вже не підходять. Вони просто не справляються із цим потоком.

Рішення Data Lake дозволяє спростити цю задачуі підвищити продуктивність. Зараз у нас є звітність ЦБ, сюди додасться податкова звітність, Росфінмоніторинг. Це має на увазі зберігання іншого типу даних. Це можуть бути просто скани документів, необхідних для податкової. Зберігати бінарні файли в базі даних дуже накладно і нерозумно. Тому було вибрано рішення з точки зору big data.

Надалі у цього рішення можливо великемайбутнє. У нас група компаній, у кожної є свої завдання для обробки своїх даних. Можливо, в подальшому це все буде об'єднано в один кластер, в якому будуть оброблятися всі завдання всередині групи.

врізка

Ще один напрямок - зниження витрат назберігання архівних даних. Зберігати їх на Exadata досить затратно. Після перенесення даних на потужності Hadoop це стане дешевшим, буде простіше аналізувати, а для аналітиків з'явиться більш висока продуктивність. На даний момент вони обмежені тим, що ресурс, що виділяється під їх завдання, досить вузький — через надмірне навантаження на основну систему.

Як legacy ПО може привести до дефолту банку

У будь-якому банку ландшафт використовуваного програмногозабезпечення дуже різноманітний. Починаючи від якихось власних розробок і закінчуючи промисловими рішеннями, що залишилися як legacy ПЗ, якого вже не можна позбутися. Його спочатку обрали. Перехід з нього на інші системи дуже дорогий. Зважаючи на це, доводиться постійно його за собою тягнути і підтримувати. Наше рішення дозволяє позбавитися деяких болячок систем за допомогою використання нових технологій.

Наприклад, ми готували звітність на основіавтоматизованої банківської системи. Але вона мала обмеження — продуктивність і монопольне використання ресурсів при розрахунку одного звіту. Відповідно, продуктивність з погляду розрахунку однієї форми за часом була вкрай низькою. Іноді у нас одна форма займала до шести годин і більше.

врізка

Від таких моментів просто так не втечеш:заміна автоматизованої системи у банку схожа на катастрофу. Тут з'являється дуже багато нюансів, які треба враховувати. Просто так за один день міграцію з одного програмного забезпечення на інше зробити неможливо. У моїй практиці був кейс, коли банк переходив із двох або трьох автоматизованих банківських систем, що стояли в регіонах, на єдину, яка, своєю чергою, знаходилася в головному офісі. Цей процес тривав кілька місяців.

Так само і в НКЦ - при впровадженні даного проектубуло задіяно дуже багато людей. Це і аналітики, і фінансові співробітники, які проводили аналіз того чи іншого підходу. Крім цього залучалося велику кількість технічного персоналу - потрібно займатися підготовкою інфраструктури, розгортанням і створенням регламентів з обслуговування.

Банки, що працюють давно, мають legacy ПЗ.Я працював у чотирьох банках, скрізь було таке програмне забезпечення. Починаючи з програмного забезпечення, написаного ще під DOS і закінчуючи великим програмним забезпеченням, від якого вже неможливо відмовитися, оскільки воно дуже сильно інтегроване в бізнес-процеси. Якщо залишатися на старих системах, знижується продуктивність, конкурентоспроможність фінансової організації, підвищуються ризики — якщо не дефолту, відкликання ліцензії.

У банків та компаній, які тільки почали своєрозвиток, є більший простір вибору технологій. У тому числі й у НКЦ, оскільки ми щодо молодої компанії. ПЗ використовується практично скрізь сучасне.