Kas yra natūralios kalbos apdorojimas?
Natūralios kalbos teksto apdorojimas – bendroji kryptis
Analizė taikoma dirbtiniam intelektuireiškia kalbos supratimą, o sintezė - raštingo teksto generavimą. Šių problemų sprendimas reikš sukurti patogesnę kompiuterio ir asmens sąveikos formą.
Tikslai ir apribojimai
Teoriškai natūralios kalbos konstravimassąsaja kompiuteriams yra labai patrauklus taikinys. Ankstyvosios sistemos, tokios kaip SHRDLU, dirbančios su ribotu „kubo pasauliu“ ir vartojančios ribotą žodyną, atrodė nepaprastai gerai ir įkvėpė jų kūrėjus. Tačiau optimizmas greitai nuslūgo, kai šios sistemos susidūrė su realaus pasaulio kompleksiškumu ir dviprasmybe.
Kartais atsižvelgiama į natūralios kalbos supratimąDirbtinis intelektas yra išsami užduotis, nes norint atpažinti gyvą kalbą reikia didžiulių sistemos žinių apie supantį pasaulį ir sugebėjimo su juo bendrauti. Pats žodžio „suprasti“ reikšmės apibrėžimas yra vienas iš pagrindinių dirbtinio intelekto uždavinių.
Sunkumai suprantant rusų kalbą
Supratimo kokybė priklauso nuo daugelio veiksnių: nuo kalbos, nuo tautinės kultūros, nuo paties pašnekovo ir kt. Tai yra keletas sunkumų, su kuriais susiduria teksto supratimo sistemos, pavyzdžių.
- Sunkumai atskleidžiant anaforas (atpažinimas,ką reiškia įvardžių vartojimas): sakiniai „Atidavėme beždžionėms bananus, nes jos buvo alkanos“ ir „Bananus atidavėme beždžionėms, nes jie buvo pernokę“ sintaksine struktūra yra panašūs. Viename iš jų įvardisjie yrareiškia beždžiones, o kitame – bananus. Teisingas supratimas priklauso nuo kompiuterio žinių apie tai, kas gali būti bananai ir beždžionės.
- Laisva žodžių tvarka gali sukelti visiškai kitokią frazės interpretaciją: „Būtis lemia sąmonę“ - kas ką lemia?
- Rusų kalba laisvą tvarką kompensuoja išplėtota morfologija, oficialūs žodžiai ir skyrybos ženklai, tačiau daugeliu atvejų tai kelia papildomą kompiuterio problemą.
- Neologizmų galima sutikti kalbant, pavyzdžiui, veiksmažodis „Penkiasdešimt rublių“ - tai yra, siųsti 50 rublių. Sistema turėtų sugebėti atskirti tokius atvejus nuo rašybos klaidų ir teisingai juos suprasti.
- Kita problema yra teisingas homonimų supratimas. Atpažįstant kalbą, be kita ko, iškyla fonetinių homonimų problema. Frazėje „Pilkas vilkas dykumojemiškassutiko raudonplaukęlapė»Paryškinti žodžiai girdimi taip pat ir be jųbūtina žinoti, kas yra kurčias ir kas raudonas (išskyrus tai, kad lapė gali būti raudona, o miškas - kurčias, miškas taip pat gali būti raudonas (charakteristika, šiuo atveju žyminti vyraujančią miško lapijos spalvą) ), o lapė gali būti kurčia, o tai sukelia papildomą problemą, kylančią iš ankstesnės, nors ją iš dalies kompensuoja morfologija - šio sakinio būdvardžiai turi aiškiai skirtingą lytį).
Populiarios užduotys:
- Kalbos atpažinimas
- Teksto analizė:
- Informacijos gavimas,
- Informacijos paieška,
- Teiginių analizė,
- Sentimentinė teksto analizė,
- Klausimų-atsakymų sistemos.
- Teksto generavimas
- Kalbos sintezė
Bendra klasifikacija:
- Tekstų suskirstymas į kategorijas
- Simbolių sekų klasifikacija:
- Pavadintas subjekto atpažinimas,
- Žodžių kalbos dalių nustatymas.
- Frazės atpažinimas
- Informacijos išgavimas iš teksto
- Sintaksinė anotacija
- Semantinė anotacija
- Kuriamas tekstas:
- Teksto generavimas pagal atpažįstamą kalbą,
- Mašininis vertimas,
- Teksto apibendrinimas.
Kaip rašymas AI naudoja jį darbe?
- Vašingtono paštas
2016 metų rugpjūtį „The Washington Post“ pirmą kartąpradėjo naudoti robotą „Heliograf“, kuris parašė trumpas naujienas apie Rio de Žaneiro olimpines žaidynes. „Heliograf“ pasirodymas buvo įspūdingas: robotas sugeneravo naujienas greičiau, nei redaktorius turėjo laiko nustatyti užduotį, o skaitytojai negalėjo atskirti automatinių užrašų nuo ranka rašytų.
- „Bloomberg“
Šiandien apie 30% visų „Bloomberg“ naujienųyra sukurti naudojant „Cyborg“ modulį. Jis generuoja juos pagal šabloną: kas atsitiko, kada, kur, su kuo, kas ir kaip pakomentavo įvykį. Taip žurnalistams sutaupomos išlaidos, tačiau be jų niekaip neapsieisite. Kiborgas yra tik automatizavimo sistema, o ne pažangus AI.
- Reuters
Tarptautinė agentūra „Reuters“ naudoja programinę įrangąNaujienos Tracer. Tai PG nuspėjamasis įrankis, įvertinantis „Twitter“ istorijas, remiantis statistiniais ir reputacijos kriterijais. Botas kasdien tikrina daugiau nei 700 milijonų tviterių.
- Globėjas
Pirmą kartą dirbtinis intelektas peržengė ribasnaujienų užrašus ir pradėjo kurti analitinius straipsnius. 2019 metų sausį „The Guardian“ paskelbė pirmąją dirbtinio intelekto „ReporterMate“ parašytą istoriją. Ji buvo skirta įvairių Australijos partijų surinktų aukų sumai. Be teksto, AI sugeneravo grafikus ir pagal žaidynių stovyklos rezultatus surūšiavo žaidimus.
Skaityti daugiau:
Buvo sukurtas pirmasis tikslus pasaulio žemėlapis. Kas negerai visiems kitiems?
Audringiausia vieta Žemėje: kodėl „Drake Passage“ yra pavojingiausias kelias į Antarktidą
Naujas urano junginys pasiekia anomalaus laidumo rekordą