Що таке обробка природної мови?
Обробка текстів природною мовою — загальний напрямок
Стосовно до штучного інтелекту аналізозначає розуміння мови, а синтез - генерацію грамотного тексту. Вирішення цих проблем буде означати створення більш зручної форми взаємодії комп'ютера і людини.
Завдання і обмеження
Теоретично, побудова природно-мовногоінтерфейсу для комп'ютерів - дуже приваблива мета. Ранні системи, такі як SHRDLU, працюючи з обмеженим «світом кубиків» і використовуючи обмежений словниковий запас, виглядали надзвичайно добре, надихаючи цим своїх творців. Однак оптимізм швидко вичерпався, коли ці системи зіткнулися зі складністю і неоднозначністю реального світу.
Розуміння природної мови іноді вважаютьAI-повної завданням, тому як розпізнавання живої мови вимагає величезних знань системи про навколишній світ і можливості з ним взаємодіяти. Саме визначення сенсу слова «розуміти» - одна з головних задач штучного інтелекту.
Складнощі розуміння російської мови
Якість розуміння залежить від безлічі факторів: від мови, від національної культури, від самого співрозмовника і т. Д. Ось деякі приклади складнощів, з якими стикаються системи розуміння текстів.
- Складнощі з розкриттям анафор (розпізнавання,що є на увазі при використанні займенників): пропозиції «Ми віддали банани мавпам, тому що вони були голодні» і «Ми віддали банани мавпам, тому що вони були перезрілі» схожі за синтаксичною структурою. В одному з них займенниквонивідноситься до мавп, а в іншому - до бананів. Правильне розуміння залежить від знань комп'ютера, якими можуть бути банани та мавпи.
- Вільний порядок слів може привести до абсолютно іншого пояснення фрази: «Буття визначає свідомість» - що визначає що?
- У російській мові вільний порядок компенсується розвиненою морфологією, службовими словами і знаками пунктуації, але в більшості випадків для комп'ютера це створює додаткову проблему.
- У промові можуть зустрітися неологізми, наприклад, дієслово «Пятідесятірубліруй» - тобто надсилай 50 рублів. Система повинна вміти відрізняти такі випадки від помилок і правильно їх розуміти.
- Правильне розуміння омонімів – ще одна проблема. При розпізнаванні мови, окрім інших, виникає проблема фонетичних омонімів. У фразі «Сірий вовк у глухомулісізустрів рудулисицю»Виділені слова чуються однаково, і беззнання, хто глухий, а хто рудий, не обійтися (крім того, що лисиця може бути рудою, а ліс - глухим, ліс також може бути рудим (характеристика, в даному випадку позначає переважний колір листя в лісі), в той час як лисиця може бути глухий, що породжує додаткову проблему, що випливає з попередньої, хоча і частково компенсується морфологією - у прикметників в даній пропозиції рід явно різний).
Популярні завдання:
- розпізнавання мови
- Аналіз тексту:
- Витяг інформації,
- Інформаційний пошук,
- Аналіз висловлювань,
- Аналіз тональності тексту,
- Питально-відповідні системи.
- генерування тексту
- синтез мови
Загальна класифікація:
- категоризація текстів
- Класифікація послідовностей символів:
- Розпізнавання іменованих сутностей,
- Визначення частин мови слів.
- розпізнавання фраз
- Витяг інформації з тексту
- Синтаксична анотація
- семантична анотація
- Генерування тексту:
- Генерація тексту на основі розпізнаної мови,
- Машинний переклад,
- Узагальнення тексту.
Як пише ІІ використовує в роботі?
- The Washington Post
У серпні 2016 року The Washington Post впершестало використовувати бота Heliograf, який писав короткі новини про Олімпійські ігри в Ріо-де-Жанейро. Продуктивність «геліографа» вражала: бот генерував новини швидше, ніж редактор встигав поставити задачу, а читачі не відрізняли автоматичні замітки від написаних вручну.
- Bloomberg
Близько 30% всіх новин Bloomberg сьогодністворюються за допомогою модуля Cyborg. Він генерує їх за шаблоном: що сталося, коли, де, з ким, хто і як прокоментував подію. Так економляться витрати на репортерів, але зовсім без них обійтися не виходить. Cyborg - просто система автоматизації, а не просунутий ШІ.
- Reuters
Міжнародне агентство Reuters використовує ПОNews Tracer. Це інструмент прогнозування з елементами ШІ, який оцінює з'являються в Твіттері історії на основі статистичних та репутаційних критеріїв. Бот перевіряє понад 700 млн твітів щодня.
- The Guardian
Вперше штучний інтелект вийшов за межіновинних заміток і став генерувати аналітичні статті. У січні 2019 року The Guardian опублікувала першу історію, написану штучним інтелектом ReporterMate. Вона була присвячена обсягами пожертвувань, зібраних різними партіями в Австралії. Крім тексту, ІІ згенерував графіки і склав рейтинг партій за підсумками зборів.
Читати далі:
Створено першу точна карта світу. Що не так з усіма іншими?
Саме штормове місце на Землі: чому протоку Дрейка - найнебезпечніший шлях в Антарктику
Нове уранове з'єднання побило рекорд аномальної провідності