Шта је обрада природног језика?
Обрада текста на природном језику—општи правац
Анализа примењена на вештачку интелигенцијузначи разумевање језика, а синтеза значи генерисање писменог текста. Решавање ових проблема значиће стварање погоднијег облика интеракције између рачунара и особе.
Циљеви и ограничења
Теоријски, конструкција природног језикаинтерфејс за рачунаре је веома атрактивна мета. Рани системи као што је СХРДЛУ, који су радили са ограниченим „светом коцки“ и користећи ограничен речник, изгледали су изузетно добро, инспиришући своје креаторе. Међутим, оптимизам је брзо нестао када су се ови системи суочили са сложеношћу и двосмисленошћу стварног света.
Понекад се разматра природно разумевање језикаАИ је комплетан задатак, јер препознавање живог језика захтева огромно знање система о свету око њега и способност интеракције са њим. Сама дефиниција значења речи "разумети" један је од главних задатака вештачке интелигенције.
Потешкоће у разумевању руског језика
Квалитет разумевања зависи од многих фактора: од језика, од националне културе, од самог саговорника итд. Ово су неки од примера потешкоћа са којима се суочавају системи разумевања текста.
- Потешкоће са откривањем анафора (препознавање,шта се подразумева под употребом заменица): реченице „Дали смо банане мајмунима јер су били гладни“ и „Дали смо банане мајмунима јер су презреле“ сличне су по синтаксичкој структури. У једном од њих заменицаониодноси се на мајмуне, а у другом на банане. Тачно разумевање зависи од знања рачунара о томе шта могу бити банане и мајмуни.
- Слободан ред речи може довести до потпуно другачијег тумачења фразе: „Биће одређује свест“ – шта одређује шта?
- У руском, слободни поредак је надокнађен развијеном морфологијом, званичним речима и знацима интерпункције, али у већини случајева то представља додатни проблем за рачунар.
- Неологизми се могу срести у говору, на пример, глагол "Педесет рубаља" - то јест, послати 50 рубаља. Систем треба да буде у стању да разликује такве случајеве од грешака у куцању и да их правилно разуме.
- Правилно разумевање хомонима је још један проблем. У препознавању говора, између осталог, јавља се проблем фонетских хомонима. У фрази „Сиви вук у пустињишумасрео црвенокосулисица»Истакнуте речи чују се на исти начин и безпознавање ко је глув, а ко црвен је неопходно (осим што лисица може бити црвена, а шума глува, шума може бити и црвена (карактеристика, у овом случају, која означава преовлађујућу боју лишћа у шума), док лисица може бити глува, што ствара додатни проблем који произилази из претходне, иако је делимично надокнађен морфологијом – придеви у овој реченици се јасно разликују по роду).
Популарни задаци:
- Препознавање говора
- Анализа текста:
- Екстракција информација,
- Претрага информација,
- Анализа изјава,
- Анализа сентимента текста,
- Системи питања-одговори.
- Генерисање текста
- Синтеза говора
Општа подела:
- Категоризација текстова
- Класификација секвенци знакова:
- Препознавање именованих ентитета,
- Одређивање делова говора речи.
- Препознавање фраза
- Издвајање информација из текста
- Синтаксичка напомена
- Семантичка анотација
- Генерисање текста:
- Генерисање текста на основу препознатог говора,
- машински превод,
- Уопштавање текста.
Како га АИ користи на послу?
- Васхингтон Пост
У августу 2016, Тхе Васхингтон Постпочео да користи бот Хелиограф који је писао кратке вести о Олимпијским играма у Рио де Жанеиру. Перформансе „Хелиографа” биле су импресивне: бот је генерисао вести брже него што је уредник имао времена да постави задатак, а читаоци нису могли да разликују аутоматске белешке од ручно писаних.
- Блоомберг
Око 30% свих Блоомберг вести данаскреирани су помоћу модула Циборг. Генерише их према шаблону: шта се десило, када, где, са ким, ко је и како коментарисао догађај. Ово штеди трошкове новинарима, али не можете без њих. Киборг је само систем аутоматизације, а не напредна вештачка интелигенција.
- Реутерс
Међународна агенција Ројтерс користи софтверНевс Трацер. То је алатка за предвиђање вештачке интелигенције која процењује Твиттер приче на основу статистичких критеријума и критеријума репутације. Бот проверава преко 700 милиона твитова сваког дана.
- Старатељ
По први пут, вештачка интелигенција је отишла даљебелешке вести и почео да генерише аналитичке чланке. У јануару 2019. Гардијан је објавио прву причу коју је написала вештачка интелигенција РепортерМате. Посвећен је износу донација које су прикупиле различите странке у Аустралији. Поред текста, АИ је направио графиконе и рангирао игре на основу резултата тренинг кампа.
Опширније:
Створена је прва тачна мапа света. Шта није у реду са свима осталима?
Најбурније место на Земљи: зашто је пролаз Драке најопаснији пут до Антарктика
Ново једињење уранијума руши рекорд у аномалној проводљивости