Φιλτράρισμα και διάγνωση περιεχομένου: Πώς η τεχνητή νοημοσύνη διδάσκεται να κάνει περίπλοκες εργασίες χωρίς δεδομένα

Δεν χρειάζονται τεράστια σύνολα δεδομένων

Η ιστορία της μηχανικής μάθησης ξεκίνησε στην αυγή του 20ου αιώνα. Σε αυτό το διάστημα τα μοντέλα πέρασαν

τρόπο από απλούς αλγόριθμους που θα μπορούσανφιλτράρει τα email και ανιχνεύει κακόβουλο λογισμικό, για την εξόρυξη δεδομένων που μπορεί να προβλέψει την εξέλιξη της νόσου σε ασθενείς και να κερδίσει σκακιστές παγκόσμιας κλάσης.

Όποιος κι αν είναι ο σκοπός του μοντέλου, ο σκοπός του— προβλέψτε το αποτέλεσμα από τα δεδομένα εισαγωγής. Όσο πιο διαφοροποιημένο είναι το σύνολο δεδομένων (το σύνολο δεδομένων που «τροφοδοτεί» τα μοντέλα), τόσο πιο εύκολο είναι για τον αλγόριθμο να βρει μοτίβα, και επομένως, τόσο πιο ακριβές είναι το αποτέλεσμα εξόδου.

Το μοντέλο χρειάζεται δύο βασικά στοιχεία για να λειτουργήσει:δεδομένα και αλγόριθμος. Δεδομένα σημαίνει πληροφορίες που έχουν ήδη επισημανθεί, όπου σε κάθε παράδειγμα δεδομένων εισόδου (για παράδειγμα, φωτογραφίες δρόμου με πεζούς) αποδίδεται το αναμενόμενο αποτέλεσμα του νευρωνικού δικτύου (τα περιγράμματα των μορφών των πεζών που πρέπει να τονίσει το νευρωνικό δίκτυο).

Ο κόσμος της μηχανικής μάθησης κυριαρχείται επί του παρόντος απόμια προσέγγιση με επίκεντρο το μοντέλο, γι' αυτό οι μηχανικοί ML ξοδεύουν πολύ χρόνο σε αλγόριθμους - το δεύτερο σημαντικό στοιχείο της απόδοσης του μοντέλου. Η ταχύτητα και η ακρίβεια της εργασίας εξαρτάται από την επιλογή του αλγορίθμου. Όμως, παρά το γεγονός ότι αυτή η προσέγγιση είναι απλούστερη και πιο ενδιαφέρουσα για τους μηχανικούς, μην ξεχνάτε την απλή αρχή του σκουπιδιού μέσα, σκουπίδια έξω. Εάν τα δεδομένα που συλλέγονται δεν είναι αντιπροσωπευτικά, κανένας αριθμός αλγοριθμικών τεχνασμάτων δεν θα βοηθήσει στη βελτίωση της ποιότητας του μοντέλου. Ως εκ τούτου, η εστίαση των μηχανικών σταδιακά μετατοπίζεται στα δεδομένα. 

Οι μηχανικοί ML κοιτάζουν όλο και περισσότερο στο πλάιdata-centric AI, η ιδέα της οποίας είναι η συλλογή λιγότερων δεδομένων, αλλά καλύτερης ποιότητας. Αυτό είναι πιο αποτελεσματικό: η ανάπτυξη αλγορίθμων βελτιώνει την απόδοση του μοντέλου κατά 0-10%, και η εργασία με την ποιότητα των δεδομένων - κατά 10-30%.

Όλα ξεκινούν με δεδομένα 

Σε έναν ιδανικό κόσμο, μια εταιρεία που χρησιμοποιείΗ τεχνολογία μηχανικής εκμάθησης σέβεται την κουλτούρα της συλλογής δεδομένων. Όμως η συλλογή δεδομένων είναι μόνο η αρχή. Στη συνέχεια έρχεται η χρονοβόρα και δαπανηρή διαδικασία σήμανσης. Ακολουθώντας την ιδέα της τεχνητής νοημοσύνης που βασίζεται σε δεδομένα, οι μηχανικοί ML μπορούν να επιτύχουν πολύ υψηλότερη απόδοση μοντέλου σε σύγκριση με την επισήμανση των δεδομένων «όσο το δυνατόν φθηνότερα». Ακολουθούν οι βασικές αρχές αυτής της προσέγγισης:

Οδηγίες σήμανσης υψηλής ποιότητας

Μπορεί να σκεφτείτε:γιατί να επισημοποιήσετε κάθε σημείο της διαδικασίας τοποθέτησης και επίλυσης ενός προβλήματος όταν μπορεί να διατυπωθεί σε μία πρόταση. Ας υποθέσουμε ότι μιλάμε για σήμανση δεδομένων για τον αυτόματο πιλότο, μπορεί να ακούγεται ως εξής: "επιλέξτε όλους τους πεζούς στις φωτογραφίες". Αλλά οι σχολιαστές θα συναντήσουν γρήγορα διφορούμενες περιπτώσεις - είτε να ξεχωρίσουν έναν ποδηλάτη, ένα άτομο σε σκούτερ ή έναν επιβάτη σε ανοιχτό σώμα ως πεζό; Κάθε σχολιαστής θα βρει μια απάντηση μόνος του, αλλά θα είναι διαφορετική και θα καταστρέψει την ομοιογένεια των δεδομένων. Επομένως, είναι απαραίτητο να εισαγάγετε όλα τα σύνθετα παραδείγματα σε μια βάση δεδομένων, όπου οι σχολιαστές, σε περίπτωση δυσκολιών, μπορούν να στραφούν. Αλλά για να εμφανιστεί ένα τέτοιο έγγραφο, χρειάζεστε σχόλια από τους σχολιαστές.

Ανατροφοδότηση

Μια βάση δεδομένων δεν μπορεί να εμφανιστεί από το πουθενά.Αυτό απαιτεί δύο προϋποθέσεις: μια κουλτούρα σεβασμού για τα σχόλια των σχολιαστών και τους υπαλλήλους που είναι υπεύθυνοι για τη διατήρηση αυτής της βάσης δεδομένων ενημερωμένη. Κατά κανόνα, αυτός είναι ο πιο έμπειρος από τους δείκτες ή ο ίδιος ο επιστήμονας δεδομένων. 

Οι πόροι πρέπει να συνδέονται καθώς σχηματίζεται ο πυρήνας της ομάδας, ο οποίος αισθάνεται όλη την ευθύνη και τη σημασία της διαδικασίας, βοηθώντας τους νεοφερμένους να εμπλακούν σε αυτήν.

Η βάση δεδομένων δεν μπορεί να εμφανιστεί από το πουθενά

Διασταυρωμένη επικύρωση

Η εταιρεία συχνά απασχολεί περισσότερους από ένανσχολιαστής με διαφορετικά επίπεδα δεξιοτήτων. Επομένως, το ίδιο σύνολο δεδομένων μπορεί να επισημανθεί με διαφορετικούς τρόπους. Επομένως, τα αποτελέσματα της εργασίας θα πρέπει να ελέγχονται περιοδικά. Αυτό θα δώσει μια κατανόηση για το πού αντιμετωπίζουν οι ειδικοί δυσκολίες που πρέπει να εισαχθούν στη βάση δεδομένων - αυτό θα μειώσει τον παράγοντα ανθρώπινου σφάλματος.

Διαβίβαση δεδομένων μέσω ενός επιστήμονα δεδομένων

Πριν δώσετε στους σχολιαστές τα δεδομένα για σήμανση, είναι χρήσιμο να ζητήσετε από τον επιστήμονα δεδομένων να βουτήξει στα δεδομένα και να σημειώσει τα πρώτα δύο εκατοντάδες παραδείγματα. Αυτό θα σας επιτρέψει να κατανοήσετε πώς το πρόβλημα είναι επιλύσιμο για το μοντέλο.

Αν και ο καταμερισμός της εργασίας είναι εκ του σημείου ελκυστικόςΌσον αφορά το κόστος της εργασίας, δεν πρέπει να περιμένει κανείς το ίδιο επίπεδο εργασίας με δεδομένα από σχολιαστές όπως από επιστήμονες δεδομένων - οι δείκτες δεν μπορούν και δεν πρέπει να προσδιορίσουν προβλήματα μηχανικής μάθησης.

Εάν πρέπει να δουλέψετε με συγκεκριμέναδεδομένα, χρειάζεστε γνώση του κλάδου. Για παράδειγμα, εάν ο αλγόριθμος πρέπει να αναγνωρίσει εικόνες ακτίνων Χ με όγκο, το μοντέλο μπορεί να εκπαιδευτεί σωστά μόνο εάν οι ζώντες ειδικοί είναι σίγουροι ότι υπάρχουν νεοπλάσματα σε κάθε σημειωμένο θραύσμα και η εικόνα είναι ελαττωματική.

Τα παραδείγματα «συνόρων» είναι σημαντικά

Η βασική αρχή της χειροκίνητης σήμανσης είναι ότι πρέπεινα είσαι έξυπνος. Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, το νευρωνικό δίκτυο μπορεί να μαντέψει ποια παραδείγματα στο εκπαιδευτικό σύνολο είναι πιο πιθανό να «σκοντάψει». Είναι καλύτερο να τα παραδώσετε για χειροκίνητη σήμανση, αυτό θα βελτιώσει την ποιότητα της εργασίας του μοντέλου περισσότερο από εκατομμύρια επισημασμένα παραδείγματα, εκπαίδευση στα οποία το μοντέλο δεν θα κάνει λάθη.

Αύξηση ή συνθετικά δεδομένων

Εάν υπάρχουν λίγα δεδομένα ή σήμανση των συλλεγόμενων δεδομένωνπολύ ακριβό - μπορείτε να τα διαδώσετε. Για παράδειγμα, εάν τα δεδομένα είναι κείμενο, οι ίδιες κλήσεις χρήστη μπορούν να επαναδιατυπωθούν. Εάν πρόκειται για εικόνες, μπορείτε να αλλάξετε τη φωτεινότητα, να κόψετε και να αναστρέψετε μερικές από τις εικόνες.

Στην αύξηση του όγκου των δεδομένων, υπάρχει ένα άλλοπροσέγγιση είναι η σύνθεσή τους. Αλλά τέτοια δεδομένα δεν μπορούν πάντα να αντικαταστήσουν τα πραγματικά δεδομένα, ειδικά εάν το νευρωνικό δίκτυο παράγει τον ίδιο τύπο ή εξιδανικευμένα δεδομένα. Σε αυτήν την περίπτωση, μπορείτε να χρησιμοποιήσετε συνθετικά δεδομένα μόνο σε ορισμένα βήματα του μοντέλου.

Από τη θεωρία στην πράξη

Κοινωνικά δίκτυα

Για την προστασία των χρηστών και την προστασία τους απόαρνητικά, τα μεγαλύτερα κοινωνικά δίκτυα ενσωματώνουν έναν ανιχνευτή τοξικού περιεχομένου που βασίζεται στη μηχανική μάθηση. Στη διαδικασία της εργασίας, το κύριο πρόβλημα δεν είναι η επιλογή μοντέλου, αλλά η συλλογή και ανάλυση δεδομένων. Το πρόβλημα είναι ότι υπάρχει λιγότερο τοξικό περιεχόμενο από το κανονικό περιεχόμενο, επομένως η ομάδα πρέπει να συλλέξει μια βάση δεδομένων τέτοιου περιεχομένου στην πλατφόρμα, κάτι που δεν μπορεί να γίνει χωρίς αλγόριθμο. Επομένως, η συλλογή δεδομένων διαρκεί έως και το 90% του χρόνου των επιστημόνων δεδομένων. Αλλά η ποιότητα του τελικού μοντέλου είναι βελτιωμένη.

Ηλεκτρονικό λιανικό εμπόριο

Κατά την εκπαίδευση ενός μοντέλου που γυρίζει τη συνταγήσε μια λίστα αγορών που βασίζεται σε 2 εκατομμύρια παραδείγματα το μοντέλο έδειξε αναμενόμενα ποιότητα 97%. Σε κλίμακα, το μοντέλο λειτούργησε εξαιρετικά, αλλά στην περίπτωση ενός συγκεκριμένου λιανοπωλητή, με άτυπα προϊόντα, η ποιότητα έπεσε απότομα στο απαράδεκτο 70%. Για την επίλυση αυτού του προβλήματος, η ομάδα σχολιασμού επικεντρώθηκε στη διασφάλιση ότι δεν θα χαθούν νέα δεδομένα στο φόντο του ώριμου συνόλου δεδομένων. Ήταν αρκετό να εκπαιδεύσουμε το μοντέλο σε μερικές χιλιάδες παραδείγματα και η ποιότητα αυξήθηκε ξανά στο 97%.

Η τεχνητή νοημοσύνη βοηθά στη λιανική, και όχι μόνο επιλέγοντας προτιμώμενα προϊόντα

Παραγωγή μεταφορέων

Μια εταιρεία που χρησιμοποιούσε τεχνητή νοημοσύνηγια την ανίχνευση ελαττωμάτων σε εξαρτήματα σε έναν ιμάντα μεταφοράς, έλαβε 90% ακρίβεια του μοντέλου μετά την αρχική εργασία με τα δεδομένα. Ωστόσο, τέτοιοι δείκτες δεν πληρούσαν τις απαιτήσεις του πελάτη. 

Σε μια προσπάθεια να βελτιώσουν την απόδοση του μοντέλου, οι μηχανικοί ML«γυάλισε» την εργασία των αλγορίθμων χωρίς να δουλέψει με τα δεδομένα, γεγονός που βελτίωσε το αποτέλεσμα μόνο κατά 0,4%. Μετά την εκ νέου ανάλυση των δεδομένων, τον καθαρισμό του συνόλου δεδομένων από παραδείγματα με κακή επισήμανση και την εκ νέου επισήμανση των δεδομένων που συλλέχθηκαν πρόσφατα, το αποτέλεσμα αυξήθηκε κατά 8%.

σύστημα συστάσεων

Σύστημα συστάσεων εφαρμογής συνταγώνπαρουσίαζε σταθερά χαμηλή αναλογία κλικ προς αριθμό εμφανίσεων 5%. Η εργασία με αλγόριθμους δεν βοήθησε και η ανάλυση δεδομένων έδειξε ότι οι πελάτες των οποίων τα δεδομένα χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου ήταν κυρίως χορτοφάγοι και ο γενικός πληθυσμός των χρηστών έτρωγε κυρίως κρέας. Ένα σύστημα προσανατολισμένο προς τους χορτοφάγους δεν ήταν καλό στο να συλλαμβάνει τα ενδιαφέροντα των άλλων και επηρεαζόταν σε μεγάλο βαθμό από τις προτιμήσεις των χορτοφάγων χρηστών. Η εξισορρόπηση δεδομένων προπόνησης βελτίωσε τις μετατροπές έως και 11%.

Στο παρελθόν, ο τομέας της τεχνητής νοημοσύνης σεεπικεντρώθηκε κυρίως σε μεγάλα δεδομένα - η εκπαίδευση πραγματοποιήθηκε σε ένα εκτεταμένο σύνολο δεδομένων. Αν και υπάρχει ακόμη πρόοδος στη δημιουργία τέτοιων μοντέλων, η εστίαση σταδιακά στρέφεται στα μικρά δεδομένα και στην εργασία με αυτά. Αυτό επεκτείνει το όριο εισόδου στον τομέα της τεχνητής νοημοσύνης - πολύπλοκες λύσεις μπορούν ήδη να δημιουργηθούν ακόμη και με μικρό όγκο δεδομένων.

Διαβάστε περισσότερα:

Μια μαύρη τρύπα στον γαλαξία απέδειξε ότι ο Αϊνστάιν είχε δίκιο. Το κύριο πράγμα

Το διάστημα καταστρέφει τα οστά και αλλάζει τη δομή τους: οι επιστήμονες δεν γνωρίζουν πώς θα πετάξουν οι άνθρωποι στον Άρη

Οι αστρονόμοι έχουν βρει πλανήτες διαφορετικούς από τη Γη, αλλά κατάλληλους για ζωή

Geek Tech Online

Όλα για την τεχνολογία και τα gadgets

Φιλτράρισμα και διάγνωση περιεχομένου: Πώς η τεχνητή νοημοσύνη διδάσκεται να κάνει περίπλοκες εργασίες χωρίς δεδομένα

Δεν χρειάζονται τεράστια σύνολα δεδομένων

Όλα ξεκινούν με δεδομένα

Από τη θεωρία στην πράξη

Δεν χρειάζονται τεράστια σύνολα δεδομένων

Όλα ξεκινούν με δεδομένα&nbsp;

Από τη θεωρία στην πράξη

Όλα ξεκινούν με δεδομένα