Вірші, аналітичні тексти і жарти: як ІІ навчився осмислено писати

Що таке обробка природної мови?

Обробка текстів природною мовою — загальний напрямок

штучного інтелекту та математичної лінгвістики. Воно вивчає проблеми комп'ютерного аналізу та синтезу текстів природними мовами.

Стосовно до штучного інтелекту аналізозначає розуміння мови, а синтез - генерацію грамотного тексту. Вирішення цих проблем буде означати створення більш зручної форми взаємодії комп'ютера і людини.

Завдання і обмеження

Теоретично, побудова природно-мовногоінтерфейсу для комп'ютерів - дуже приваблива мета. Ранні системи, такі як SHRDLU, працюючи з обмеженим «світом кубиків» і використовуючи обмежений словниковий запас, виглядали надзвичайно добре, надихаючи цим своїх творців. Однак оптимізм швидко вичерпався, коли ці системи зіткнулися зі складністю і неоднозначністю реального світу.

Розуміння природної мови іноді вважаютьAI-повної завданням, тому як розпізнавання живої мови вимагає величезних знань системи про навколишній світ і можливості з ним взаємодіяти. Саме визначення сенсу слова «розуміти» - одна з головних задач штучного інтелекту.

Складнощі розуміння російської мови

Якість розуміння залежить від безлічі факторів: від мови, від національної культури, від самого співрозмовника і т. Д. Ось деякі приклади складнощів, з якими стикаються системи розуміння текстів.

Складнощі з розкриттям анафор (розпізнавання,що є на увазі при використанні займенників): пропозиції «Ми віддали банани мавпам, тому що вони були голодні» і «Ми віддали банани мавпам, тому що вони були перезрілі» схожі за синтаксичною структурою. В одному з них займенниквонивідноситься до мавп, а в іншому - до бананів. Правильне розуміння залежить від знань комп'ютера, якими можуть бути банани та мавпи.
Вільний порядок слів може привести до абсолютно іншого пояснення фрази: «Буття визначає свідомість» - що визначає що?
У російській мові вільний порядок компенсується розвиненою морфологією, службовими словами і знаками пунктуації, але в більшості випадків для комп'ютера це створює додаткову проблему.
У промові можуть зустрітися неологізми, наприклад, дієслово «Пятідесятірубліруй» - тобто надсилай 50 рублів. Система повинна вміти відрізняти такі випадки від помилок і правильно їх розуміти.
Правильне розуміння омонімів – ще одна проблема. При розпізнаванні мови, окрім інших, виникає проблема фонетичних омонімів. У фразі «Сірий вовк у глухомулісізустрів рудулисицю»Виділені слова чуються однаково, і беззнання, хто глухий, а хто рудий, не обійтися (крім того, що лисиця може бути рудою, а ліс - глухим, ліс також може бути рудим (характеристика, в даному випадку позначає переважний колір листя в лісі), в той час як лисиця може бути глухий, що породжує додаткову проблему, що випливає з попередньої, хоча і частково компенсується морфологією - у прикметників в даній пропозиції рід явно різний).

Загальна класифікація:

категоризація текстів
Класифікація послідовностей символів:
Розпізнавання іменованих сутностей,
Визначення частин мови слів.

розпізнавання фраз
Витяг інформації з тексту
Синтаксична анотація
семантична анотація
Генерування тексту:
Генерація тексту на основі розпізнаної мови,
Машинний переклад,
Узагальнення тексту.

Як пише ІІ використовує в роботі?

The Washington Post

У серпні 2016 року The Washington Post впершестало використовувати бота Heliograf, який писав короткі новини про Олімпійські ігри в Ріо-де-Жанейро. Продуктивність «геліографа» вражала: бот генерував новини швидше, ніж редактор встигав поставити задачу, а читачі не відрізняли автоматичні замітки від написаних вручну.

Bloomberg

Близько 30% всіх новин Bloomberg сьогодністворюються за допомогою модуля Cyborg. Він генерує їх за шаблоном: що сталося, коли, де, з ким, хто і як прокоментував подію. Так економляться витрати на репортерів, але зовсім без них обійтися не виходить. Cyborg - просто система автоматизації, а не просунутий ШІ.

Reuters

Міжнародне агентство Reuters використовує ПОNews Tracer. Це інструмент прогнозування з елементами ШІ, який оцінює з'являються в Твіттері історії на основі статистичних та репутаційних критеріїв. Бот перевіряє понад 700 млн твітів щодня.

The Guardian

Вперше штучний інтелект вийшов за межіновинних заміток і став генерувати аналітичні статті. У січні 2019 року The Guardian опублікувала першу історію, написану штучним інтелектом ReporterMate. Вона була присвячена обсягами пожертвувань, зібраних різними партіями в Австралії. Крім тексту, ІІ згенерував графіки і склав рейтинг партій за підсумками зборів.

Читати далі:

Створено першу точна карта світу. Що не так з усіма іншими?

Саме штормове місце на Землі: чому протоку Дрейка - найнебезпечніший шлях в Антарктику

Нове уранове з'єднання побило рекорд аномальної провідності

Geek Tech онлайн

Everything about technology and gadgets