Inhaltsfilterung und -diagnose: Wie KI beigebracht wird, komplexe Aufgaben ohne Daten zu erledigen

Riesige Datensätze werden nicht benötigt

Die Geschichte des maschinellen Lernens begann zu Beginn des 20. Jahrhunderts. In dieser Zeit verstarben die Modelle

Weg von einfachen Algorithmen, die das könntenE-Mails filtern und Malware erkennen, bis hin zu Data Mining, das den Krankheitsverlauf bei Patienten vorhersagen und Weltklasse-Schachspieler schlagen kann.

Was auch immer der Zweck des Modells ist, sein Zweck– Vorhersage des Ergebnisses anhand der Eingabedaten. Je vielfältiger der Datensatz (der Datensatz, der die Modelle „füttert“), desto einfacher ist es für den Algorithmus, Muster zu finden, und desto genauer ist daher das Ausgabeergebnis.

Das Modell benötigt zwei Hauptkomponenten, um zu funktionieren:Daten und Algorithmus. Daten sind bereits gekennzeichnete Informationen, wobei jedem Beispiel von Eingabedaten (z. B. Fotos einer Straße mit Fußgängern) das erwartete Ergebnis des neuronalen Netzes (die Konturen der Figuren von Fußgängern, die das neuronale Netz hervorheben soll) zugeordnet ist.

Die Welt des maschinellen Lernens wird derzeit dominiert vonein modellzentrierter Ansatz, weshalb ML-Ingenieure viel Zeit mit Algorithmen verbringen – der zweiten wichtigen Komponente der Modellleistung. Die Geschwindigkeit und Genauigkeit der Arbeit hängt von der Wahl des Algorithmus ab. Aber obwohl dieser Ansatz für Ingenieure einfacher und interessanter ist, sollten Sie das einfache Prinzip „Müll rein, Müll raus“ nicht vergessen. Wenn die gesammelten Daten nicht repräsentativ sind, helfen keine noch so großen algorithmischen Tricks, die Qualität des Modells zu verbessern. Daher verlagert sich der Fokus der Ingenieure allmählich auf Daten.

ML-Ingenieure schauen zunehmend zur Seitedatenzentrische KI, deren Idee es ist, weniger Daten zu sammeln, aber von besserer Qualität. Dies ist effizienter: Die Entwicklung von Algorithmen verbessert die Leistung des Modells um 0-10% und die Arbeit mit der Datenqualität um 10-30%.

Alles beginnt mit Daten 

In einer idealen Welt ein Unternehmen, das verwendetMachine-Learning-Technologie respektiert die Kultur der Datenerfassung. Aber die Datenerhebung ist nur der Anfang. Dann kommt der zeitaufwändige und teure Markierungsprozess. Dem Konzept der datengesteuerten KI folgend, können ML-Ingenieure eine viel höhere Modellleistung erzielen, verglichen mit der Kennzeichnung von Daten „so billig wie möglich“. Hier sind die Hauptprinzipien dieses Ansatzes:

  • Hochwertige Markup-Richtlinien

Du denkst vielleicht:warum sollte jeder Punkt des Prozesses der Problemstellung und -lösung formalisiert werden, wenn er in einem Satz formuliert werden kann? Nehmen wir an, wir sprechen über Datenauszeichnung für den Autopiloten, das könnte so klingen: "alle Fußgänger auf den Fotos auswählen". Kommentatoren werden jedoch schnell auf zweideutige Fälle stoßen - ob ein Radfahrer, eine Person auf einem Roller oder ein Beifahrer in einer offenen Karosserie als Fußgänger herausgegriffen werden soll? Jeder Kommentator wird für sich selbst eine Antwort finden, aber sie wird anders sein und die Homogenität der Daten zerstören. Daher ist es notwendig, alle komplexen Beispiele in eine Datenbank einzugeben, an die sich Kommentatoren bei Schwierigkeiten wenden können. Aber damit ein solches Dokument erscheint, benötigen Sie Feedback von Kommentatoren.

  • Rückkopplung

Eine Datenbank kann nicht aus dem Nichts entstehen.Dies erfordert zwei Bedingungen: eine Kultur des Respekts gegenüber dem Feedback der Kommentatoren und Mitarbeiter, die dafür verantwortlich sind, diese Datenbank auf dem neuesten Stand zu halten. In der Regel handelt es sich dabei um den erfahrensten Marker oder um einen Datenwissenschaftler selbst. 

Ressourcen müssen verbunden werden, wenn der Kern des Teams gebildet wird, der die gesamte Verantwortung und Wichtigkeit des Prozesses wahrnimmt und Neuankömmlingen hilft, sich daran zu beteiligen.

Die Datenbank kann nicht aus dem Nichts auftauchen

  • Kreuzvalidierung

Das Unternehmen beschäftigt oft mehr als einenKommentator mit unterschiedlichen Fähigkeiten. Daher kann derselbe Datensatz auf unterschiedliche Weise gekennzeichnet werden. Daher sollten die Ergebnisse der Arbeit regelmäßig überprüft werden. Dadurch wird ein Verständnis dafür geschaffen, wo Spezialisten auf Schwierigkeiten stoßen, die in die Datenbank eingetragen werden sollten – dies wird den menschlichen Fehlerfaktor reduzieren.

  • Weitergabe von Daten durch einen Data Scientist

Bevor Sie den Annotatoren die Daten zum Markieren geben, ist es hilfreich, den Datenwissenschaftler in die Daten eintauchen und die ersten paar hundert Beispiele markieren zu lassen. Dadurch können Sie verstehen, wie das Problem für das Modell lösbar ist.

Auch wenn die Arbeitsteilung vom Punkt her attraktiv istIn Bezug auf den Arbeitsaufwand sollte man von Annotatoren nicht den gleichen Arbeitsaufwand erwarten wie von Data Scientists – Marker können und sollten Machine-Learning-Probleme nicht identifizieren.

Wenn Sie mit bestimmten arbeiten müssenDaten benötigen Sie Branchenkenntnisse. Muss der Algorithmus beispielsweise Röntgenbilder mit einem Tumor erkennen, kann das Modell nur dann richtig trainiert werden, wenn lebende Spezialisten sicher sind, dass in jedem markierten Fragment Neubildungen stecken und das Bild fehlerhaft ist.

  • „Rand“-Beispiele sind wichtig

Das Hauptprinzip der manuellen Markierung besteht darin, dass es notwendig istintelligent sein. Während des Trainingsprozesses kann das neuronale Netzwerk erraten, über welche Beispiele im Trainingssatz es am wahrscheinlichsten „stolpert“. Es ist besser, sie zur manuellen Markierung abzugeben. Dies verbessert die Qualität der Arbeit des Modells um mehr als Millionen markierter Beispiele und trainiert, bei denen das Modell keine Fehler macht.

  • Erweiterung oder Datensynthese 

Wenn es wenig Daten oder Markups von gesammelten Daten gibtzu teuer - man kann sie vermehren. Wenn es sich bei den Daten beispielsweise um Textdaten handelt, können dieselben Benutzeraufrufe umformuliert werden. Wenn es sich um Bilder handelt, können Sie die Helligkeit ändern, einige der Bilder ausschneiden und spiegeln.

In der Zunahme der Datenmenge gibt es eine andereDer Ansatz besteht darin, sie zu synthetisieren. Aber solche Daten können reale Daten nicht immer ersetzen, insbesondere wenn das neuronale Netzwerk den gleichen Typ oder idealisierte Daten produziert. In diesem Fall können Sie synthetische Daten nur in bestimmten Schritten des Modells verwenden.

Von der Theorie zur Praxis

  • Soziale Netzwerke

Um Benutzer zu schützen und sie davor zu schützennegativ, die größten sozialen Netzwerke integrieren einen Detektor für toxische Inhalte, der auf maschinellem Lernen basiert. Im Arbeitsprozess ist das Hauptproblem nicht die Auswahl eines Modells, sondern das Sammeln und Analysieren von Daten. Das Problem ist, dass es weniger toxische Inhalte als normale Inhalte gibt, sodass das Team eine Datenbank mit solchen Inhalten auf der Plattform sammeln muss, was ohne einen Algorithmus nicht möglich ist. Daher nimmt die Datenerfassung bis zu 90 % der Zeit von Data Scientists in Anspruch. Aber die Qualität des endgültigen Modells wird verbessert.

  • Online Einzelhandel

Beim Training eines Modells, das das Rezept umdrehtAuf eine Einkaufsliste basierend auf 2 Millionen Beispielen zeigte das Modell vorhersehbar eine Qualität von 97 %. Im Maßstab funktionierte das Modell hervorragend, aber im Fall eines bestimmten Einzelhändlers mit atypischen Produkten sank die Qualität stark auf inakzeptable 70 %. Um dieses Problem zu lösen, konzentrierte sich das Annotationsteam darauf, sicherzustellen, dass neue Daten nicht im Hintergrund des ausgereiften Datensatzes verloren gingen. Es reichte aus, das Modell anhand einiger tausend Beispiele zu trainieren, und die Qualität stieg erneut auf 97 %.

KI hilft im Handel, und zwar nicht nur bei der Auswahl bevorzugter Produkte

  • Förderbandproduktion

Ein Unternehmen, das künstliche Intelligenz nutzteUm Fehler in Teilen auf einem Förderband zu erkennen, wurde nach der ersten Arbeit mit den Daten eine Genauigkeit des Modells von 90 % erreicht. Solche Indikatoren entsprachen jedoch nicht den Anforderungen des Kunden. 

In einem Versuch, die Modellleistung zu verbessern, haben ML-IngenieureWir haben die Arbeit der Algorithmen „poliert“, ohne mit den Daten zu arbeiten, was das Ergebnis nur um 0,4 % verbesserte. Nach erneuter Analyse der Daten, Bereinigung des Datensatzes von schlecht gekennzeichneten Beispielen und erneuter Kennzeichnung der neu gesammelten Daten stieg das Ergebnis um 8 %.

  • Empfehlungssystem

Rezept-App-Recommender-Systemzeigten durchgehend eine niedrige Klickrate von 5 %. Die Arbeit mit Algorithmen half nicht, und die Datenanalyse zeigte, dass die Kunden, deren Daten zum Trainieren des Modells verwendet wurden, hauptsächlich Vegetarier waren und die allgemeine Bevölkerung der Benutzer hauptsächlich Fleisch aß. Ein auf Vegetarier ausgerichtetes System war nicht gut darin, die Interessen anderer zu erfassen, und wurde stark von den Vorlieben vegetarischer Nutzer beeinflusst. Der Trainingsdatenausgleich verbesserte die Conversions um bis zu 11 %.

In der Vergangenheit war der Bereich der künstlichen Intelligenz inkonzentrierte sich hauptsächlich auf Big Data – die Schulung wurde anhand eines umfangreichen Datensatzes durchgeführt. Obwohl es bei der Erstellung solcher Modelle immer noch Fortschritte gibt, verlagert sich der Schwerpunkt allmählich auf kleine Datenmengen und die Arbeit damit. Dies erweitert die Einstiegsschwelle in den Bereich KI – bereits mit einer geringen Datenmenge können komplexe Lösungen erstellt werden.

Weiter lesen:

Ein Schwarzes Loch in der Galaxie gab Einstein Recht. Die Hauptsache

Der Weltraum zerstört Knochen und verändert ihre Struktur: Wissenschaftler wissen nicht, wie Menschen zum Mars fliegen werden

Astronomen haben Planeten gefunden, die sich von der Erde unterscheiden, aber für Leben geeignet sind