Такий різний ІІ: діпфейкі, NLP і кібербезпека

Ми вже звикли до словосполучення «штучний інтелект», до того, що смартфон чи телевізор пропонує

нам фільми чи музику, які нам сподобаються, ахолодильник або розумна колонка Alexa нагадує про те, що необхідно купити молоко або незабаром розпочнеться той самий матч, який нещодавно обговорювали із друзями.

Але це не означає, що можливості технологіївичерпані чи обмежені лише простим побутом. Пандемія викликала новий стрибок у розвитку ІІ та алгоритмів машинного навчання (ML), у тому числі через різко змінилися економічні умови та звички людей. Споживання медіа різко зросла: допомогла у цьому соціальна ізоляція. Все це зажадало більш персоналізованої взаємодії з клієнтами, ЗМІ та сферою розваг (M&E). Наприклад, Netflix за допомогою ІІ-алгоритмів зміг не тільки зберегти якість потокової передачі, але й суттєво її покращити: платформа прогнозує майбутні потреби глядачів та розміщує ресурси у стратегічно важливих місцях розташування серверів. За рахунок попереднього розміщення відеоресурсів ближче до передплатників користувачі можуть транслювати високоякісне відео навіть у години пік. Але, безумовно, можливості штучного інтелекту набагато ширші та практично не мають меж: від передових систем квантових обчислень та медичної діагностики до побутової електроніки та розумних персональних помічників. Якщо сумніваєтеся, запитайте про це "Алісу" або Siri.

Експерти вважають, що 80% технологій, якібудуть розроблені в найближчі роки, будуть засновані на ІІ-алгоритмах та ML. Кількість та різноманітність додатків штучного інтелекту продовжують зростати, а дослідники та вчені постійно знаходять нові способи їх використання. Згідно з дослідженнями, вже сьогодні 77% пристроїв, які ми використовуємо у житті, мають вбудований штучний інтелект.

Поширення ІІ відбувається швидкими темпамияк на рівні мікросхем, так і на рівні програмного забезпечення. Причому обидва напрямки тісно пов'язані один з одним. Такі виробники, як NVIDIA, Intel і Qualcomm, активно покращують «залізо», що робить ІІ-системи більш швидкими і складними. Це призводить до більшої демократизації ІІ. Алгоритми штучного інтелекту можуть застосовувати все більше розробників ПЗ і корпоративних ІТ-співробітників при роботі з даними. Це вже відзначають багато постачальників хмарних послуг: AWS, Azure, Google, Oracle і IBM. Вони вбудовують і розширюють свої пропозиції ІІ для розгортання загальнодоступних і гібридних хмар. В кінцевому підсумку це означає більшу доступність обчислювальної потужності, фреймворків і алгоритмів, необхідних для застосування ІІ до всього: від розумного динаміка до мобільного пристрою і програмного забезпечення для корпоративних продажів і планування.

Як ІІ працює з текстами і чому він допомагає літнім людям

Генеративні моделі, що працюють на основірозмовного ІІ, в епоху пандемії стали як ніколи затребувані. Причина проста - життя і робота на удаленке викликала у людей запит на персоналізацію при використанні цифрових ресурсів. Такий досвід донедавна міг створити тільки людина. Тепер йому на зміну прийшли чат-боти і технологія обробки природної мови (NLP).

Недавній звіт ResearchandMarkets показав, Що глобальний ринок розмовного ІІ, як очікується, виросте з $ 4,8 млрд в 2020 році до $ 13,9 млрд в 2025-м.

Технологія NLP дозволяє імітувати людськийрозмова. А чат-боти, що працюють на її основі, сьогодні є одним із найбільш затребуваних способів персоналізації та оптимізації витрат: їх впровадження дозволяє багатьом підприємствам скоротити витрати до 90%. Але найголовніша цінність розмовного ІІ у тому, що він забезпечує персоналізоване спілкування. Його можна навчити багатомовність або навіть надавати емпатичну підтримку користувачеві. Інтелектуальні чат-боти можуть, наприклад, допомогти людям похилого віку впоратися з самотністю. Осмар Зайане, експерт із штучного інтелекту з Університету Альберти, наприклад, керував проектом, мета якого полягала в розробці чат-бота, який може імітувати динамічну розмову та забезпечувати соціальне задоволення для людей похилого віку, які відчувають самотність.

Одна з найбільш ефективних мовних моделей -Transformer. В Google активно експериментують з використанням цього методу генерації тексту. На початку цього року компанія оголосила, що їй вдалося навчити модель, яка містить 1,6 трлн параметрів. У квітні 2021 року рекорд Google побила дослідницька група китайської компанії Huawei, яка заявила про створення китайського еквівалента GPT-3: модель на 750 Гб, що отримала назву PanGu-Alpha, містить до 200 млрд параметрів - на 25 млн більше, ніж GPT-3, - і була навчена на 1,1 Тб електронних книг, енциклопедій, новин, соціальних мереж і веб-сторінок.

Метод «рідко який активується», який застосували всвоїх моделях Google і Huawei, об'єднує кілька моделей всередині більш глобальною, а також дозволяє вбудувати стробирующих мережу, яка і вирішує, до якої моделі звернутися в кожному конкретному випадку.

Під час експерименту дослідники ставили передучнями моделями завдання передбачати слова в уривках. При цьому в тексті відсутнє близько 15% слів. Правда, в Google не заперечують, що використання ІІ для генерації тексту все ще не до кінця пристосоване до реального світу. Перш за все, через наявність упередження і різних видів ксенофобії, які викликають у штучного інтелекту стереотипність мислення. Наприклад, ІІ-модель може поставити поруч зі словом «жінка» прикметник «неслухняна» або порадити пацієнтові вбити себе, як це було під час експерименту французької компанії Nabla.

Модель GPT-3, що з'явилася в минулому році, успішновпоралася з тим, що раніше вважалося виключно людським фондом роботи - вона написала статтю для The Guardian, в якій розповіла, чому ІІ не загрожує людству, а також навчилася перекладати тексти, відповідати на питання, складати вірші і прозу.

«Ощад» застосував аналогічну методику для навчаннямовної моделі для свого асистента. Модель навчали на російській літературі, доповнюючи її знання датасета з діалогами. Крім того, в асистента Джоя зашитий механізм ранжирування, що дозволяє йому вибирати найбільш цікаві відповіді. Причому Джой не вибирає заздалегідь заготовлені репліки, він в режимі реального часу будує фрази. Тому спілкування з ним виглядає схожим на спілкування з людиною.

Де вже активно застосовують алгоритми штучного інтелекту

кіно і ТБ;
персоналізація користувацького досвіду;
соціальні медіа;
журналістика;
музика;
гри;
спорт;
медицина;
кібербезпека;
боротьба з діпфейкамі;
автоматизація та персоналізація виробництва;
збір та обробка інформації.

Як ІІ допомагає людині створювати контент

ІІ-алгоритми допомагають людині розвивати своїталанти, творчість. Те, в чому завжди дорікають машинним моделям, — це без можливості створити те, що не може зробити людина. Зате вони легко дозволяють людині розширити свій простір фантазії. В інтернет-просторі користувачі зараз думають про образ, який вони подають людям, про контент. Щоб зібрати якнайбільше передплатників, потрібен якісний продукт, не схожий ні на що, і водночас характерний для автора. У PicsArt ми активно застосовуємо ІІ, щоб користувачі могли ні в чому себе не обмежувати, працюючи із зображеннями. Алгоритми допомагають нам вносити складні зміни - наприклад, змінювати фон, видаляти зайві об'єкти, покращувати якість зображень та змінювати їх стиль. Це також дозволяє нам покращити загальний користувальницький досвід.

Всі метадані, які ми збираємо, використовуютьсядля безпосереднього поліпшення взаємодії з користувачем. Це сприятливий цикл: знеособлені з дотриманням всіх законів про персональну інформацію дані користувачів допомагають поліпшити наш продукт, кращий продукт збільшує використання, а більш активне використання генерує більше даних, роблячи наш ІІ ще розумнішими. Цей цикл необхідний для масштабного зростання бізнесу, подібного до нашого.

Крім того, ІІ допомагає користувачам PicsArtспростити їх роботу: для цього в сервісі реалізовані системи пошуку контенту за тегами, рекомендації стікерів і пошук схожих зображень, який підбирає фото по самим часто зустрічається квітам або за описом сюжету на зображеннях. Є моделі, які просто оцінюють фотографії на схожість.

Якщо говорити безпосередньо про незвичайніспособах роботи з зображеннями, то, звичайно, це популярні зараз обробки - перетворення фото в мультик або аніме, накладення ефектів і візуальних рішень, таких як Canvas, Sketch effect, Style transfer, Upscale або поліпшення зображення з технічних і художніми критеріями. Мета в будь-якому випадку одна - створити контент, який приверне більше уваги.

Користувачам подобається, що вони можуть за допомогоюпростих для використання інструментів робити зі своїх фотографій картини, схожі на роботи великих художників. По суті, стати Діджитал-художниками. Але і за цим стоїть робота моделей глибокого навчання.

Для того, щоб пояснити, як створюються такімоделі, можна привести аналогію. Уявіть собі ситуацію, коли вам дають дві картинки: ваше фото і картину художника, а потім просять намалювати фото, але за допомогою фарб і квітів з картини. Як би ви це робили? Я б, наприклад, спробував зробити начерк олівцем, а потім спробував розфарбувати його в стилі художника, але при цьому не забуваючи про сам малюнок.

Один з арт-ефектів PicsArt - Canvas - на основіІІ-алгоритмів підбирає до завантаженої користувачем фотографії відому картину або скульптуру часів Античності, Середньовіччя або Ренесансу. За допомогою технології розпізнавання осіб арт-ефект створює здвоєне зображення людини і твори мистецтва. Для створення Canvas було проведено понад 6 000 експериментів з кутом нахилу і формами особи, щоб домогтися оптимального поєднання елементів. Для навчання нейромережі потрібен датасета з більш як 2 000 творів мистецтва.

Штучний інтелект допомагає іпрофесійним фотографам, яким доводиться обробляти сотні фотографій. ІТ-гігант Adobe в своєму продукті Sensei використовує движок на базі штучного інтелекту. Він здатний аналізувати фотографії і порівнювати їх з базою даних з тисяч професійно відредагованих зображень. На основі цього аналізу він грамотно рекомендує найбільш підходящі варіанти редагування і коригування для вашого знімка.

Фоторедактор Luminar AI також використовує ІІ, щовидно прямо з його назви. Правда, деякі користувачі вважають підхід редактора надто автоматизованим, але інструменти редактора, за заявами розробників, дозволять ретушувати особи без важких і вимагають посидючості операцій, додавати погодні умови на фото і підлаштовувати під них кольору і освітлення. Модель Composition AI автоматично вирівнює зображення і пропонує кадрування на основі рекомендацій по композиції і відгуків професійних фотографів.

Як ІІ визначає, що фото або відео - діпфейк

ІІ-алгоритми породили діпфейкі і тепер же самі зними борються. Цей напрямок - один із пріоритетних в кібербезпеки. Використання осіб або голосів топ-менеджерів - новий вид шахрайства. Але, на відміну від складних технологій, таких як програми-вимагачі, атаки з діпфейкамі спираються на соціальну інженерію: вони покладаються на обман. За даними ZDnet, середній збиток за скаргою на такі атаки становить $ 75 000. Збиток від шкідливого ПО на одну скаргу в середньому становить $ 4 400. Ось чому дослідники з Центру майбутніх злочинів Дауеса при Університетському коледжі Лондона оцінили діпфейкі з імітацією аудіо- та відеозображення людини як найбільш небезпечну кримінальну загрозу, пов'язану зі штучним інтелектом.

Історія дійсно грає злі жарти зрозробниками ІІ. Маніш Агравала зі Стенфорда два роки тому брав участь у розробці технології синхронізації губ, яка дозволила відеоредакторам практично непомітно змінювати слова тих, хто говорить. Інструмент міг легко вставляти слова, які людина ніколи не говорила, навіть у середині речення, або видаляти слова, які він сказав. Для неозброєного ока і навіть для багатьох комп'ютерних систем виглядало органічно.

Але ця технологія створила величезні можливостідля шахраїв, політичного шантажу і злочинів. Наприклад, в Росії шахраї створили deepfake-копію засновника Flocktory і Dbrain Дмитра Мацкевича. Протягом майже півгодинного відео deepfake-Мацкевич розповідав про платформу з новою системою заробітку. Зрозуміло, домен, на який вела посилання в цьому відео, належав кіберзлочинцям.

Тому через рік після закінчення розробкитехнології синхронізації губ Агравал представили ІІ-алгоритм, що вміє виявляти діпфейкі на відео. Програма точно визначає більше 80% підробок, розпізнаючи найдрібніші невідповідності між звуками, які видаються людьми, і формою їх рота.

Але, за словами Агравал, довгостроковоготехнічного рішення для пошуку та ідентифікації діпфейков не існує. Технології по їх створенню також не стоять на місці: вже сьогодні при наявності достатньої кількості зразків зображення особи і голосу людини творець діпфейк-відео може змусити людину «сказати» що завгодно.

Інструмент Агравал працює на основіІІ-алгоритму, який шукає невідповідності між «віземамі», або формами рота, і «фонемами», фонетичними звуками. Зокрема дослідники дивилися на рот людини, коли він видавав звуки «B», «M» або «P», тому що майже неможливо видати ці звуки, не замкнувши губи щільно.

ІІ-алгоритми продовжать активно розвиватися,пропонуючи користувачам цифрових сервісів все більше можливостей: починаючи від забезпечення безпеки і підвищення якості медицини до занять творчістю і голосових помічників. Впровадження ІІ буде йти все активніше, а ринок розвиватися.

У минулому році OpenAI дав найбільший стрибок вобробці природної мови. Однак ця модель штучного інтелекту вимагала величезної кількості обчислювальних ресурсів. Microsoft планує допомогти OpenAI спільними зусиллями використовувати суперкомп'ютери компанії для створення ще більш потужних і надійних моделей ІІ. Швидше за все, більший упор буде зроблений на ІІ, який також допоможе оптимізувати і знизити енергоспоживання цих вимогливих до даних машин.

Google DeepMind, AI for Good by Microsoft,Facebook AI, Intel University Research & Collaboration Office (URC), NVIDIA AI та OpenAI - це лише деякі з найвідоміших компаній та організацій, які проводять дослідження в області ІІ. Вони й допоможуть вирішити людям багато проблем, пов'язаних зі здоров'ям, бідністю, освітою, навколишнім середовищем та всім іншим, що стосується нашого життя.

Читати також:

Японські вчені пробурили дно океану поряд з Фукусімою на глибині 8 000 метрів

Математична модель мозку дозволить ІІ мислити як людині

Уран отримав статус самої дивної планети в Сонячній системі. Чому?

Geek Tech онлайн

Everything about technology and gadgets

Такий різний ІІ: діпфейкі, NLP і кібербезпека

Як ІІ працює з текстами і чому він допомагає літнім людям

Як ІІ допомагає людині створювати контент

Як ІІ визначає, що фото або відео - діпфейк