İçerik Filtreleme ve Tanılama: Yapay zekaya karmaşık görevleri veri olmadan nasıl yapması öğretilir?

Büyük veri kümelerine ihtiyaç yoktur

Makine öğreniminin tarihi 20. yüzyılın şafağında başladı.

E-postaları filtreleyebilen ve kötü amaçlı yazılımları bulabilen basit algoritmalardan, hastalarda hastalık gelişimini tahmin edebilecek ve birinci sınıf satranç oyuncularını yenebilecek veri madenciliğine giden yol.

Modelin amacı ne olursa olsun, amacı sonucu tahmin etmektirVeri kümesi ne kadar çeşitli olursa(modelleri "besleyen" veriler), algoritmanın kalıpları bulması o kadar kolay olur ve bu nedenle sonuç o kadar doğru olurçıkış yolunda.

Modelin çalışması için iki ana bileşene ihtiyacı vardır:veri ve algoritma. Veri, her bir girdi verisi örneğine (örneğin, yayaların olduğu bir sokağın fotoğrafları) sinir ağının beklenen sonucunun (sinir ağının vurgulaması gereken yaya figürlerinin dış hatları) atandığı, önceden etiketlenmiş bilgiler anlamına gelir.

Şu anda, makine öğrenimi dünyasına model merkezli bir yaklaşım hakimdir, bu nedenle makine öğrenimi mühendisleri harcama yapıyorAlgoritmalara harcanan çok zaman, modelin çalışmasının ikinci önemli bileşenidir .Algoritma seçimi, işin hızına ve doğruluğuna bağlıdır.Yaklaşım mühendisler için daha basit ve daha ilginçtir, çöp içeri, çöp dışarı basit prensibini unutmayınız.Toplanan veriler temsili değilse, hiçbir algoritmik hile yardımcı olmazBu nedenle, mühendislerin odağı yavaş yavaş verilere kayıyor. 

ML mühendisleri giderek daha fazla yan tarafa bakıyorfikri daha az veri toplamak olan, ancak daha kaliteli olan veri merkezli yapay zeka. Bu daha verimlidir: algoritmaların geliştirilmesi, modelin performansını %0-10 oranında artırır ve veri kalitesiyle çalışır - %10-30 oranında.

Her şey verilerle başlar

İdeal bir dünyada, kullanan bir şirketmakine öğrenimi teknolojisi, veri toplama kültürüne saygı duyar. Ancak veri toplama sadece başlangıçtır. Ardından zaman alıcı ve pahalı markalama süreci gelir. Veriye dayalı yapay zeka konseptini takip eden makine öğrenimi mühendisleri, verileri "mümkün olduğunca ucuza" etiketlemeye kıyasla çok daha yüksek model performansı elde edebilir. İşte bu yaklaşımın ana ilkeleri:

  • Yüksek kaliteli işaretleme yönergeleri

Düşünebilirsin:Neden bir cümlede formüle edilebilecek bir problem belirleme ve çözme sürecinin her noktasını resmileştiriyorsunuz? Diyelim ki otopilot için veri işaretlemesinden bahsediyoruz, kulağa şöyle gelebilir: "fotoğraflardaki tüm yayaları seç." Ancak yorumcular, belirsiz durumlarla çabucak karşılaşacaklar - bir bisikletçiyi mi, bir scooterdaki bir kişiyi mi yoksa açık bir vücuttaki bir yolcuyu bir yaya olarak mı seçecek? Her annotatör kendi başına bir cevap bulacaktır, ancak bu farklı olacak ve verilerin homojenliğini bozacaktır. Bu nedenle, tüm karmaşık örnekleri, zorluk durumunda yorumlayıcıların dönebileceği bir veritabanına girmek gerekir. Ancak böyle bir belgenin görünmesi için ek açıklama yapanlardan geri bildirim almanız gerekir.

  • geribesleme

Bir veritabanı birdenbire ortaya çıkamaz, iki şeye ihtiyacınız vardır: yorumcuların geri bildirimlerine saygı kültürü ve onu güncel tutmaktan sorumlu kişiler.Kural olarak, bu, biçimlendirme uzmanlarının veya veri bilimcisinin en deneyimlisidir. 

Sürecin tüm sorumluluğunu ve önemini hisseden ve yeni gelenlerin sürece dahil olmasına yardımcı olan ekibin çekirdeği oluşturulurken kaynakların birbirine bağlanması gerekir.

Veritabanı birdenbire ortaya çıkamaz

  • Çapraz doğrulama

Şirket genellikle birden fazla kişiyi istihdam etmektedir.farklı beceri seviyelerine sahip açıklayıcı. Bu nedenle, aynı veri seti farklı şekillerde etiketlenebilir. Bu nedenle çalışmanın sonuçları periyodik olarak kontrol edilmelidir. Bu, uzmanların veritabanına girilmesi gereken zorluklarla nerede karşılaştıklarını anlayacaktır - bu, insan hatası faktörünü azaltacaktır.

  • Veri bilimcisi aracılığıyla veri aktarma

Yorumculara işaretlenecek verileri vermeden önce, veri bilimcisinin verilere dalmasını ve ilk birkaç yüz örneği işaretlemesini sağlamak faydalı olacaktır. Bu, sorunun model için nasıl çözülebileceğini anlamanıza izin verecektir.

İş bölümü bu açıdan çekici olsa daİşin maliyeti açısından, veri bilimcilerden gelen verilerle aynı düzeyde çalışma beklenmemelidir - belirteçler makine öğrenimi sorunlarını tanımlayamaz ve tanımlamamalıdır.

Özel olarak çalışmak zorundaysanızveri, endüstri bilgisine ihtiyacınız var. Örneğin, algoritmanın bir tümörlü röntgen görüntülerini tanıması gerekiyorsa, model ancak yaşayan uzmanlar işaretli her parçada neoplazmalar olduğundan ve görüntünün kusurlu olduğundan emin olduklarında doğru şekilde eğitilebilir.

  • "Sınır" örnekleri önemlidir

Manuel işaretlemenin temel prensibi, eğitim süreci intelligent.In olması gerektiğidir, sinir ağı, eğitim örneğindeki hangi örneklerin "tökezlemesi" olasılığının en yüksek olduğu tahmin edilebilir.Onlara manuel işaretleme için vermek daha iyidir, bu, modelin çalışmasının kalitesini, modelin zaten hata yapmayacağı milyonlarca işaretli örnekten daha fazla artıracaktır.

  • Veri Büyütme veya Sentetik 

Toplanan verilerde çok az veri veya işaretleme varsaçok pahalı - onları çoğaltabilirsiniz. Örneğin, veriler metinsel ise, aynı kullanıcı çağrıları yeniden ifade edilebilir. Bunlar resimse, parlaklığı değiştirebilir, bazı resimleri kesebilir ve çevirebilirsiniz.

Veri miktarındaki artışta bir başkayaklaşım onları sentezlemektir. Ancak bu tür veriler, özellikle sinir ağı aynı türde veya idealleştirilmiş verileri üretiyorsa, her zaman gerçek verilerin yerini alamaz. Bu durumda, sentetik verileri yalnızca modelin belirli adımlarında kullanabilirsiniz.

Teoriden pratiğe

  • Sosyal ağlar

Kullanıcıları korumak ve onları korumak içinNegatif, en büyük sosyal ağlar, makine öğrenimine dayalı bir toksik içerik dedektörü entegre ediyor. Çalışma sürecinde asıl sorun model seçimi değil, verilerin toplanması ve analizidir. Sorun şu ki, normal içerikten daha az toksik içerik var, bu nedenle ekibin platformda bu tür içeriğin bir veritabanını toplaması gerekiyor, bu bir algoritma olmadan yapılamaz. Bu nedenle, veri toplama, veri bilimcilerinin zamanının %90'ını alır. Ancak son modelin kalitesi artırıldı.

  • Çevrimiçi perakende

Bir tarifi 2 milyon örneğe dayalı bir alışveriş listesine dönüştüren model eğitildiğinde, model tahmin edilebileceği gibi —'lik bir kalite gösterdi.Ölçekte, model mükemmel bir şekilde çalıştı, ancak belirli bir perakendeci söz konusu olduğunda, atipik ürünlerle, kalite önemli ölçüde kabul edilemez bir p'e düştü.Bu sorunu çözmek için açıklama ekibi, tükenmiş veri kümesinin arka planında yeni verilerin kaybolmamasını sağlamaya odaklandı.Modelin birkaç bin örnek için eğitilmesi yeterliydi ve kalite tekrar% 97'ye yükseldi.

Yapay zeka, yalnızca tercih edilen ürünleri seçerek değil, perakendede de yardımcı olur

  • Konveyör üretimi

Bir konveyör bandındaki parçalardaki kusurları tespit etmek için yapay zeka kullanan bir şirket, başlangıçta verilerle çalıştıktan sonra modelin  doğruluğunu elde etti.Ancak bu tür göstergeler müşterinin gereksinimlerine ulaşmadı. 

Model performansını iyileştirmek için makine öğrenimi mühendisleriAlgoritmaların çalışmasını verilerle çalışmadan "parlattık", bu da sonucu yalnızca %0,4 oranında iyileştirdi. Verileri yeniden analiz ettikten, kötü etiketlenmiş örneklerden veri kümesini temizledikten ve yeni toplanan verileri yeniden etiketledikten sonra sonuç %8 arttı.

  • tavsiye sistemi

Tarif Uygulaması Öneri Sistemisürekli olarak %5'lik düşük bir tıklama oranı gösterdi. Algoritmalarla çalışmak yardımcı olmadı ve veri analizi, verileri modeli eğitmek için kullanılan müşterilerin çoğunlukla vejetaryen olduğunu ve genel kullanıcı nüfusunun çoğunlukla et yediğini gösterdi. Vejetaryenlere yönelik bir sistem, başkalarının ilgi alanlarını yakalamakta iyi değildi ve vejetaryen kullanıcıların tercihlerinden oldukça etkilendi. Eğitim verilerinin dengelenmesi, dönüşümleri %11'e kadar iyileştirdi.

Geçmişte, yapay zeka alanı ağırlıklı olarak büyük verilere odaklanıyordu ve eğitim kapsamlı bir veri kümesi üzerinde yürütülüyordu.Bu tür modellerin oluşturulmasında hala ilerleme olsa da, odak noktası yavaş yavaş küçük verilere kayıyor ve onunla çalışıyor.Bu, yapay zeka alanına giriş eşiğini genişletir - şimdi bile az miktarda veriyle bile karmaşık çözümler oluşturulabilir.

Daha fazla oku:

Galaksideki bir kara delik Einstein'ın haklı olduğunu kanıtladı. Ana fikir

Uzay kemikleri yok eder ve yapılarını değiştirir: bilim adamları insanların Mars'a nasıl uçacağını bilmiyor

Gökbilimciler Dünya'dan farklı, ancak yaşam için uygun gezegenler buldular.