ボットは礼儀正しくすることを余儀なくされます:それらのために抗毒性アルゴリズムが開発されました

Исследователи из Калифорнийского университета в Сан-Диего разработали алгоритмы для очистки речи от

оскорбительных выражений, которую генерируют онлайн-боты.

Ранее эксперты пробовали разные подходы для очистки речи ботов, но они оказывались не эффективными. При составлении списка токсичных слов упускаются слова, которые при употреблении вне контекста и по отдельности кажутся нормальными, но становятся оскорбительными при использовании в сочетании с другими. Попытка удалить токсичную речь из обучающих данных отнимает много времени и далеко не надежна. Аналогичные проблемы возникают при разработке нейронной сети, которая выявляла бы токсичную речь.

Теперь специалисты по информатике из Калифорнийского университета в Сан-Диего попробовали новый метод. Сначала они запустили «вредные» подсказки в предварительно обученную языковую модель, чтобы заставить ее генерировать токсичный контент. Затем исследователи обучили модель, которую назвали «злой», прогнозировать вероятность того, что контент будет оскорбительным. После инженеры обучили «хорошую модель», которую научили избегать всего контента, высоко оцененного «злой моделью».

その結果、開発の作者は彼らの「優れたモデル」は、最新の方法よりも効果的であることが証明されました。研究者たちは、人工知能に関するAAAIオンライン会議で自分たちの研究を発表しました。

続きを読む:

それは何世紀にもわたって狩られてきました:太陽の隣の惑星バルカンについて私たちは何を知っていますか

物理学者は、液体の新しい基本法則を実験的に確認しました

天文学者は、宇宙から来る不思議な電波バーストの発生源を発見しました