Boty będą zmuszone do grzeczności: opracowano dla nich algorytm antytoksyczny

Naukowcy z Uniwersytetu Kalifornijskiego w San Diego opracowali algorytmy oczyszczania mowy

obraźliwy język generowany przez boty internetowe.

Eksperci próbowali już wcześniej różnych podejść do tego problemuczyszczenie mowy botów, ale okazały się one nieskuteczne. Lista toksycznych słów pomija słowa, które użyte poza kontekstem i samodzielnie wydają się normalne, ale stają się obraźliwe, gdy zostaną użyte w połączeniu z innymi. Próba usunięcia toksycznej mowy z danych szkoleniowych jest czasochłonna i mało wiarygodna. Podobne problemy pojawiają się przy opracowywaniu sieci neuronowej wykrywającej toksyczną mowę.

Teraz specjaliści informatykiz Uniwersytetu Kalifornijskiego w San Diego wypróbowali nową metodę. Najpierw wprowadzili „szkodliwe” wskazówki do wstępnie wytrenowanego modelu języka, aby zmusić go do generowania toksycznych treści. Następnie badacze wytrenowali model, który nazwali „złem”, aby przewidzieć prawdopodobieństwo, że treści będą obraźliwe. Następnie inżynierowie wytrenowali „dobry model”, którego uczono, aby unikać wszelkich treści wysoko ocenianych przez „zły model”.

W efekcie autorzy opracowania potwierdzili, że ich„dobry model” okazał się skuteczniejszy niż najnowocześniejsze metody. Naukowcy zaprezentowali swoje prace na konferencji AAAI Online poświęconej sztucznej inteligencji.

Czytaj więcej:

Poluje się na nią od wieków: co wiemy o planecie Vulcan obok Słońca?

Fizycy eksperymentalnie potwierdzili nowe prawo podstawowe dla cieczy

Astronomowie odkryli źródło tajemniczych rozbłysków radiowych pochodzących z kosmosu