콘텐츠 필터링 및 진단: 데이터 없이 복잡한 작업을 수행하도록 AI를 가르치는 방법

거대한 데이터 세트가 필요하지 않습니다.

머신러닝의 역사는 20세기 초에 시작되었습니다. 이 기간 동안 모델이 통과했습니다.

간단한 알고리즘에서 벗어나이메일을 필터링하고 맬웨어를 탐지하며, 환자의 질병 진행을 예측하고 세계적 수준의 체스 선수를 이길 수 있는 데이터 마이닝에 이르기까지 다양합니다.

모델의 목적이 무엇이든, 그 목적은— 입력 데이터의 결과를 예측합니다. 데이터 세트(모델에 "공급"하는 데이터 세트)가 다양할수록 알고리즘이 패턴을 찾는 것이 더 쉬워지고 결과적으로 출력 결과가 더 정확해집니다.

모델이 작동하려면 두 가지 주요 구성 요소가 필요합니다.데이터와 알고리즘. 데이터는 이미 레이블이 지정된 정보를 의미하며 입력 데이터의 각 예(예: 보행자가 있는 거리 사진)에 신경망의 예상 결과(신경망이 강조 표시해야 하는 보행자의 윤곽선)가 할당됩니다.

현재 머신러닝의 세계는 다음과 같은 것들이 지배하고 있습니다.모델 중심 접근 방식이 있기 때문에 ML 엔지니어는 모델 성능의 두 번째 중요한 구성 요소인 알고리즘에 많은 시간을 소비합니다. 작업의 속도와 정확성은 알고리즘 선택에 따라 달라집니다. 그러나 이 접근 방식이 엔지니어에게 더 간단하고 흥미롭다는 사실에도 불구하고 쓰레기를 넣으면 쓰레기가 나온다는 간단한 원리를 잊지 마십시오. 수집된 데이터가 대표적인 것이 아니라면 어떠한 알고리즘 트릭도 모델의 품질을 향상시키는 데 도움이 되지 않습니다. 따라서 엔지니어의 초점은 점차 데이터로 이동하고 있습니다. 

ML 엔지니어는 점점 더 측면을 찾고 있습니다.데이터 중심 AI, 더 적은 데이터를 수집하지만 더 나은 품질이라는 아이디어. 이것은 더 효율적입니다. 알고리즘 개발로 모델의 성능이 0-10% 향상되고 데이터 품질 작업이 10-30% 향상됩니다.

모든 것은 데이터에서 시작됩니다 

이상적인 세상에서머신 러닝 기술은 데이터 수집 문화를 존중합니다. 그러나 데이터 수집은 시작에 불과합니다. 그런 다음 시간과 비용이 많이 드는 마킹 프로세스가 발생합니다. 데이터 기반 AI의 개념에 따라 ML 엔지니어는 "가능한 한 저렴하게" 데이터에 레이블을 지정하는 것과 비교하여 훨씬 더 높은 모델 성능을 달성할 수 있습니다. 이 접근 방식의 주요 원칙은 다음과 같습니다.

  • 고품질 마크업 가이드라인

그렇게 생각 할수 있겠지:한 문장으로 공식화할 수 있는 문제를 설정하고 해결하는 과정의 각 요점을 공식화하는 이유는 무엇입니까? 자동 조종 장치의 데이터 마크업에 대해 이야기하고 있다고 가정해 보겠습니다. "사진에서 모든 보행자 선택"과 같이 들릴 수 있습니다. 그러나 주석가는 모호한 경우를 빠르게 발견할 것입니다. 자전거를 타는 사람, 스쿠터를 탄 사람 또는 열린 몸을 입은 승객을 보행자로 고를 것인지? 각 애노테이터는 스스로 답을 내놓을 것이지만, 그것은 다를 것이고 데이터의 동질성을 파괴할 것입니다. 따라서 모든 복잡한 예를 데이터베이스에 입력해야 하며, 여기에서 애노테이터는 어려움이 있을 때 돌릴 수 있습니다. 그러나 그러한 문서가 나타나려면 어노테이터의 피드백이 필요합니다.

  • 피드백

데이터베이스는 갑자기 나타날 수 없습니다.이를 위해서는 주석 작성자의 피드백을 존중하는 문화와 이 데이터베이스를 최신 상태로 유지할 책임이 있는 직원이라는 두 가지 조건이 필요합니다. 일반적으로 이 사람은 마커 중 가장 경험이 많은 사람이거나 데이터 과학자 자신입니다. 

리소스는 팀의 핵심이 형성될 때 연결되어야 하며, 이는 프로세스의 모든 책임과 중요성을 느끼고 신규 이민자가 참여할 수 있도록 도와줍니다.

데이터베이스는 갑자기 나타날 수 없습니다.

  • 교차 검증

회사는 종종 한 명 이상을 고용합니다.다른 기술 수준을 가진 주석가. 따라서 동일한 데이터 세트에 다른 방식으로 레이블을 지정할 수 있습니다. 따라서 작업 결과를 주기적으로 확인해야 합니다. 이렇게 하면 전문가가 데이터베이스에 입력해야 하는 어려움이 있는 위치를 이해할 수 있습니다. 이렇게 하면 인적 오류 요소가 줄어듭니다.

  • 데이터 과학자를 통해 데이터 전달

애노테이터에게 마크업할 데이터를 제공하기 전에 데이터 과학자가 데이터를 자세히 살펴보고 처음 몇백 개의 예제를 마크업하도록 하는 것이 좋습니다. 이를 통해 모델에서 문제를 해결할 수 있는 방법을 이해할 수 있습니다.

분업은 점에서 매력적이지만작업 비용 측면에서 데이터 과학자와 동일한 수준의 애노테이터 데이터 작업을 기대해서는 안 됩니다. 마커는 머신 러닝 문제를 식별할 수 없고 식별해서는 안 됩니다.

특정 작업을 해야 하는 경우데이터, 산업 지식이 필요합니다. 예를 들어 알고리즘이 종양이 있는 X선 이미지를 인식해야 하는 경우 살아있는 전문가가 표시된 각 조각에 신생물이 있고 이미지에 결함이 있다고 확신하는 경우에만 모델을 올바르게 훈련할 수 있습니다.

  • "테두리" 예제가 중요합니다.

수동 마킹의 주요 원칙은 다음과 같습니다.똑똑해지세요. 훈련 과정에서 신경망은 훈련 세트에서 "실수"할 가능성이 가장 높은 예를 추측할 수 있습니다. 수동 마킹을 위해 넘겨주는 것이 더 낫습니다. 이렇게 하면 모델이 실수하지 않는 훈련인 수백만 개의 표시된 예보다 모델 작업의 품질이 향상됩니다.

  • 증강 또는 데이터 합성 

수집된 데이터의 데이터 또는 마크업이 적은 경우너무 비싸 - 전파할 수 있습니다. 예를 들어 데이터가 텍스트인 경우 동일한 사용자 호출을 바꿀 수 있습니다. 이것이 이미지인 경우 밝기를 변경하고 일부 사진을 자르고 뒤집을 수 있습니다.

데이터의 양이 증가함에 따라 또 다른접근 방식은 그것들을 합성하는 것입니다. 그러나 이러한 데이터가 항상 실제 데이터를 대체할 수는 없습니다. 특히 신경망이 동일한 유형 또는 이상적인 데이터를 생성하는 경우에는 더욱 그렇습니다. 이 경우 모델의 특정 단계에서만 합성 데이터를 사용할 수 있습니다.

이론부터 실습까지

  • 소셜 네트워크

사용자를 보호하고 보호하기 위해네거티브, 가장 큰 소셜 네트워크는 머신 러닝을 기반으로 하는 유독성 콘텐츠 감지기를 통합하고 있습니다. 작업 과정에서 가장 큰 문제는 모델의 선택이 아니라 데이터의 수집과 분석이다. 문제는 일반 콘텐츠에 비해 유해 콘텐츠가 적기 때문에 팀이 플랫폼에서 이러한 콘텐츠의 데이터베이스를 수집해야 하는데, 이는 알고리즘 없이는 수행할 수 없다는 것입니다. 따라서 데이터 수집은 데이터 과학자의 시간 중 최대 90%를 차지합니다. 그러나 최종 모델의 품질은 향상되었습니다.

  • 온라인 소매

레시피를 바꾸는 모델을 훈련할 때200만 개의 예시를 기반으로 한 쇼핑 목록에 대한 모델의 예상 품질은 97%로 나타났습니다. 규모 면에서 이 모델은 훌륭하게 작동했지만 특정 소매업체의 경우 비정형 제품의 경우 품질이 허용할 수 없는 70%로 급격히 떨어졌습니다. 이 문제를 해결하기 위해 주석 팀은 성숙한 데이터 세트의 백그라운드에서 새 데이터가 손실되지 않도록 하는 데 중점을 두었습니다. 수천 개의 예시로 모델을 훈련하는 것만으로도 충분했고 품질은 다시 97%로 향상되었습니다.

AI는 선호하는 제품을 선택하는 것뿐만 아니라 소매업을 돕습니다.

  • 컨베이어 생산

인공지능을 활용한 기업컨베이어 벨트 부품의 결함을 감지하기 위해 데이터를 사용한 초기 작업 후 모델의 90% 정확도를 얻었습니다. 그러나 그러한 지표는 고객의 요구 사항을 충족하지 못했습니다. 

모델 성능을 개선하기 위해 ML 엔지니어는우리는 데이터 작업 없이 알고리즘 작업을 "연마"하여 결과를 0.4%만 향상시켰습니다. 데이터를 다시 분석하고 레이블이 제대로 지정되지 않은 예제에서 데이터 세트를 정리하고 새로 수집된 데이터에 레이블을 다시 지정하면 결과가 8% 증가했습니다.

  • 추천 시스템

레시피 앱 추천 시스템지속적으로 5%의 낮은 클릭률을 보여주었습니다. 알고리즘 작업은 도움이 되지 않았으며 데이터 분석에 따르면 모델을 훈련하는 데 데이터가 사용된 클라이언트는 대부분 채식주의자였으며 일반 사용자는 대부분 고기를 먹었습니다. 채식주의자를 대상으로 하는 시스템은 타인의 이익을 잘 포착하지 못하고 채식주의자의 선호도에 영향을 많이 받습니다. 훈련 데이터 밸런싱으로 전환율이 최대 11% 향상되었습니다.

과거에는 인공지능 분야에서주로 빅 데이터에 중점을 두고 광범위한 데이터 세트를 대상으로 교육이 수행되었습니다. 이러한 모델을 만드는 데는 아직 진전이 있지만 점점 작은 데이터로 초점을 옮겨 작업하고 있습니다. 이는 AI 분야로의 진입 문턱을 확장합니다. 적은 양의 데이터로도 이미 복잡한 솔루션을 만들 수 있습니다.

더 읽어보기 :

은하계의 블랙홀은 아인슈타인이 옳았다는 것을 증명했습니다. 중요한 것은

우주는 뼈를 파괴하고 구조를 변경합니다: 과학자들은 사람들이 어떻게 화성으로 날아갈지 모릅니다.

천문학자들은 지구와 다르지만 생명체에 적합한 행성을 발견했습니다.