Filtrowanie treści i diagnoza: jak sztuczna inteligencja uczy się wykonywać złożone zadania bez danych

Ogromne zbiory danych nie są potrzebne

Historia uczenia maszynowego rozpoczęła się u zarania XX wieku. W tym czasie modele przeminęły

od prostych algorytmów, które mogłyby to zrobićfiltruj e-maile i wykrywaj złośliwe oprogramowanie, po eksplorację danych, która może przewidzieć postęp choroby u pacjentów i pokonać światowej klasy szachistów.

Niezależnie od celu modelu, jego cel— przewiduj wynik na podstawie danych wejściowych. Im bardziej zróżnicowany jest zbiór danych (zbiór danych „zasilających” modele), tym łatwiej algorytmowi znaleźć wzorce, a co za tym idzie, tym dokładniejszy jest wynik wyjściowy.

Model do działania potrzebuje dwóch głównych elementów:dane i algorytm. Dane oznaczają już oznakowane informacje, w których każdemu przykładowi danych wejściowych (na przykład fotografii ulicy z pieszymi) przypisywany jest oczekiwany wynik sieci neuronowej (kontury postaci pieszych, które sieć neuronowa powinna uwydatnić).

Świat uczenia maszynowego jest obecnie zdominowany przezpodejście skoncentrowane na modelu, dlatego inżynierowie ML spędzają dużo czasu na algorytmach – drugim ważnym składniku wydajności modelu. Szybkość i dokładność pracy zależy od wyboru algorytmu. Ale pomimo tego, że to podejście jest prostsze i bardziej interesujące dla inżynierów, nie zapominaj o prostej zasadzie śmieci w środku, śmieci na zewnątrz. Jeśli zebrane dane nie są reprezentatywne, żadne sztuczki algorytmiczne nie pomogą poprawić jakości modelu. Dlatego uwaga inżynierów stopniowo skupia się na danych. 

Inżynierowie ML coraz częściej patrzą na bokAI zorientowana na dane, której ideą jest zbieranie mniej danych, ale lepszej jakości. To jest bardziej wydajne: rozwój algorytmów poprawia wydajność modelu o 0-10%, a pracę z jakością danych - o 10-30%.

Wszystko zaczyna się od danych 

W idealnym świecie firma, która używatechnologia uczenia maszynowego szanuje kulturę gromadzenia danych. Ale zbieranie danych to dopiero początek. Potem przychodzi czasochłonny i kosztowny proces znakowania. Zgodnie z koncepcją sztucznej inteligencji opartej na danych inżynierowie ML mogą osiągnąć znacznie wyższą wydajność modelu w porównaniu z etykietowaniem danych „tak tanio, jak to możliwe”. Oto główne zasady tego podejścia:

Wskazówki dotyczące znaczników wysokiej jakości

Możesz pomyśleć:po co formalizować każdy punkt procesu stawiania i rozwiązywania problemu, skoro można go sformułować w jednym zdaniu. Powiedzmy, że mówimy o znacznikach danych dla autopilota, może to brzmieć tak: „wybierz wszystkich pieszych na zdjęciach”. Ale adnotatorzy szybko natrafią na niejednoznaczne przypadki – czy wyróżnić rowerzystę, osobę na hulajnodze, czy pasażera w otwartym nadwoziu jako pieszego? Każdy adnotator sam wymyśli odpowiedź, ale będzie ona inna i zniszczy jednorodność danych. Dlatego konieczne jest wprowadzenie wszystkich skomplikowanych przykładów do bazy danych, do której mogą się zwrócić adnotatorzy w razie trudności. Ale aby taki dokument się pojawił, potrzebujesz opinii od adnotatorów.

Opinie

Baza danych nie może pojawić się znikąd.Wymaga to dwóch warunków: kultury szacunku dla opinii autorów komentarzy i pracowników odpowiedzialnych za aktualizację tej bazy danych. Z reguły jest to najbardziej doświadczony ze znaczników lub sam analityk danych. 

Zasoby muszą być połączone, ponieważ tworzy się rdzeń zespołu, który czuje całą odpowiedzialność i wagę procesu, pomagając nowoprzybyłym zaangażować się w niego.

Baza danych nie może pojawić się znikąd

Krzyżowa walidacja

Firma często zatrudnia więcej niż jednegokomentator z różnymi poziomami umiejętności. Dlatego ten sam zestaw danych można oznaczyć na różne sposoby. Dlatego wyniki pracy powinny być okresowo sprawdzane. Pozwoli to zrozumieć, gdzie specjaliści napotykają trudności, które należy wprowadzić do bazy danych – zmniejszy to czynnik błędu ludzkiego.

Przekazywanie danych przez analityka danych

Przed przekazaniem adnotatorom danych do zaznaczenia, pomocne jest, aby specjalista ds. danych zagłębił się w dane i zaznaczył pierwsze kilkaset przykładów. Pozwoli ci to zrozumieć, w jaki sposób problem można rozwiązać dla modelu.

Chociaż podział pracy jest atrakcyjny z punktu widzeniaPod względem kosztów pracy nie należy oczekiwać takiego samego poziomu pracy z danymi od adnotatorów, jak od analityków danych – markery nie mogą i nie powinny identyfikować problemów z uczeniem maszynowym.

Jeśli musisz pracować z konkretnymdanych, potrzebujesz wiedzy branżowej. Na przykład, jeśli algorytm musi rozpoznać zdjęcia rentgenowskie z guzem, model można prawidłowo wytrenować tylko wtedy, gdy żyjący specjaliści są pewni, że w każdym zaznaczonym fragmencie są nowotwory, a obraz jest wadliwy.

Ważne są przykłady „na granicy”

Główną zasadą ręcznego znakowania jest to, że musibądź inteligentny. Podczas procesu uczenia sieć neuronowa może odgadnąć, na które przykłady ze zbioru uczącego najprawdopodobniej się „natknie”. Lepiej oddać je do ręcznego znakowania; to bardziej poprawi jakość pracy modelu niż miliony zaznaczonych przykładów, trening, na którym model nie popełni błędów.

Augmentacja lub syntetyka danych

Jeśli jest mało danych lub znaczników zebranych danychzbyt drogie - możesz je propagować. Na przykład, jeśli dane są tekstowe, te same wywołania użytkownika mogą być przeformułowane. Jeśli są to obrazy, możesz zmienić jasność, wyciąć i odwrócić niektóre obrazy.

We wzroście ilości danych jest jeszcze jedenpodejście polega na ich syntezie. Ale takie dane nie zawsze mogą zastąpić dane rzeczywiste, zwłaszcza jeśli sieć neuronowa wytwarza dane tego samego typu lub dane wyidealizowane. W takim przypadku możesz używać danych syntetycznych tylko na niektórych etapach modelu.

Od teorii do praktyki

Portale społecznościowe

Aby chronić użytkowników i chronić ich przednegatywne, największe sieci społecznościowe integrują detektor toksycznych treści oparty na uczeniu maszynowym. W procesie pracy głównym problemem nie jest wybór modelu, ale zbieranie i analiza danych. Problem polega na tym, że treści toksycznych jest mniej niż normalnych, więc zespół musi zebrać bazę danych takich treści na platformie, czego nie da się zrobić bez algorytmu. Dlatego zbieranie danych zajmuje do 90% czasu naukowców zajmujących się danymi. Ale jakość końcowego modelu jest poprawiona.

Sklep internetowy

Podczas szkolenia modelu, który zmienia przepisdo listy zakupów opartej na 2 milionach przykładów model zgodnie z przewidywaniami wykazał jakość na poziomie 97%. W skali model sprawdził się świetnie, jednak w przypadku konkretnego sprzedawcy, oferującego nietypowe produkty, jakość gwałtownie spadła do nieakceptowalnych 70%. Aby rozwiązać ten problem, zespół zajmujący się adnotacjami skupił się na zapewnieniu, że nowe dane nie zostaną utracone w tle dojrzałego zbioru danych. Wystarczyło wytrenować model na kilku tysiącach przykładów i jakość ponownie wzrosła do 97%.

AI pomaga w handlu detalicznym, nie tylko wybierając preferowane produkty

Produkcja przenośników

Firma, która wykorzystała sztuczną inteligencjędo wykrywania defektów części na przenośniku taśmowym, po wstępnej pracy z danymi uzyskano 90% dokładność modelu. Jednak takie wskaźniki nie spełniały wymagań klienta. 

Próbując poprawić wydajność modelu, inżynierowie ML„Wypolerowaliśmy” pracę algorytmów bez pracy z danymi, co poprawiło wynik tylko o 0,4%. Po ponownej analizie danych, oczyszczeniu zestawu danych ze źle oznakowanych przykładów i ponownym oznakowaniu nowo zebranych danych, wynik wzrósł o 8%.

system rekomendacji

System rekomendacji aplikacji z przepisamikonsekwentnie wykazywał niski współczynnik klikalności wynoszący 5%. Praca z algorytmami nie pomogła, a analiza danych wykazała, że klienci, których dane zostały wykorzystane do trenowania modelu, byli w większości wegetarianami, a ogólna populacja użytkowników jadła głównie mięso. System nastawiony na wegetarian nie potrafił uchwycić interesów innych osób i był pod silnym wpływem preferencji wegetarian. Równoważenie danych treningowych poprawiło konwersje nawet o 11%.

W przeszłości dziedzina sztucznej inteligencji wskupiono się głównie na big data – szkolenie przeprowadzono na rozbudowanym zbiorze danych. Choć w tworzeniu takich modeli wciąż następuje postęp, uwaga stopniowo przesuwa się na małe dane i pracę z nimi. Poszerza to próg wejścia w dziedzinę AI – już przy niewielkiej ilości danych można tworzyć złożone rozwiązania.

Czytaj więcej:

Czarna dziura w galaktyce dowiodła, że Einstein miał rację. Główna rzecz

Kosmos niszczy kości i zmienia ich strukturę: naukowcy nie wiedzą, jak ludzie polecą na Marsa

Astronomowie odkryli planety, które różnią się od Ziemi, ale nadają się do życia

Geek Tech w Internecie

Wszystko o technologii i gadżetach

Filtrowanie treści i diagnoza: jak sztuczna inteligencja uczy się wykonywać złożone zadania bez danych

Ogromne zbiory danych nie są potrzebne

Wszystko zaczyna się od danych

Od teorii do praktyki

Ogromne zbiory danych nie są potrzebne

Wszystko zaczyna się od danych&nbsp;

Od teorii do praktyki

Wszystko zaczyna się od danych