나만의 선생님: 알고리즘이 인간의 도움 없이 학습하고 드론을 개선하는 방법

무인자동차, 디지털트윈, 통신자동제어는 불가능

SF 작가들의 예측, 그리고 이미가까운 미래. 강화학습 분야에서 응용 인공지능과 연구에 종사하는 과학자들이 이를 더욱 가까이 다가가고 있습니다. Hi-Tech는 연례 Segalovich Prize 수상자 Oleg Svidchenko, Alexander Grishin 및 Alexey Shpilman과 함께 기술의 미래에 대해 이야기했습니다.

AI가 멘토 없이 학습하는 방법

강화학습,RL)은 AI 자체가 특정 환경과 상호 작용한다고 가정합니다. 예를 들어 바둑 게임용 보드 또는 로봇이 따라 움직이는 경우 외부 세계입니다. 장치는 작업을 수행할 때 일반적인 패턴을 식별하고 해당 패턴에 집중해야 합니다. 그리고 "선생님"과 함께 배울 때 AI가 훈련할 올바른 행동을 나타내야 하는 사람이 필요합니다.

"RL의 본질은 기계 또는 우리가 말했듯이,에이전트는 끊임없는 연습 방식으로 학습합니다.”라고 Yandex 과학상 수상자인 Oleg Svidchenko는 말합니다. - AI는 특정 조건에 배치되고 "말하기" - 행동합니다. 이것은 마우스가 미로에서 치즈를 찾으러 가는 상황과 유사합니다. 잘못된 방향으로 회전한 동물은 벽에 부딪쳤다가 돌아와서 다시 시도하는 등의 방식으로 진행됩니다. 강화 학습의 경우 올바른 단계가 보상됩니다. 행동이 정확할수록 AI는 더 많은 점수를 받습니다. 선택이 잘못된 것으로 판명되면 에이전트는 포인트를 잃습니다. 훈련하는 동안 기계는 어떤 조합의 작업이 더 수익성이 좋은지 기억하고 다음에 사용할 것입니다.”

솔루션에 대한 독립적인 검색은 에이전트가조만간 남자를 능가합니다. 이것은 예를 들어 수십 개의 오래된 Atari 비디오 게임, 체스 및 바둑 유형 보드 게임을 하도록 학습한 DeepMind의 MuZero 알고리즘에 의해 보여졌습니다. 그것을 만들기 위해 그들은 회사의 이전 개발을 사용했습니다. 예를 들어 AlphaGo 덕분에 바둑 챔피언 이세돌을 이길 수 있었고 AlphaZero는 체스에 사용되었습니다. 개선된 알고리즘은 더 적은 데이터에서 더 많은 정보를 추출합니다. 이제 절반의 훈련 단계가 필요합니다.

강화 학습 알고리즘은다양한 산업 분야에서 유용합니다. 예를 들어 의학에서 - 개인화된 동적 치료를 조직하기 위해, 엔터테인먼트 산업에서 - 컴퓨터 게임의 자동 테스트를 위해 또는 항공에서 - 성층권 풍선의 자율 제어를 위해.

AI가 사람들을 도울 영역

소매의 디지털화: 완전 자동화된 상점

업계 최초의 기계 학습 구현많은 양의 데이터를 수집하고 디지털화하는 프로세스가 디버깅되는 곳입니다. 예를 들어, 소매업에서 모든 정보는 금전 등록기를 통과하므로 AI가 함께 작업할 수 있습니다. Alexey Shpilman에 따르면 AI 알고리즘을 사용하면 모든 프로세스가 사람의 개입 없이 이루어지는 모든 곳에서 자동화된 매장을 만들 수 있습니다.

이 형식은 2016년에 테스트되었습니다.아마존 회사. 구매자는 카트를 가져 와서 상품을 집어 들고 그냥 떠납니다. 구매 금액은 카드에서 자동으로 인출됩니다. 러시아에서는 Azbuka Vkusa가 유사한 프로젝트를 개발했습니다.

"구매자는 트롤리를 가져 와서 상품을 집어 들고 그냥 떠납니다. 구매 금액은 카드에서 자동으로 인출됩니다."

통신 관리: 네트워크 오류 식별 

강화학습 덕분에기술 혁신은 통신, 난방 네트워크, 전력 산업과 같은 다양한 네트워크 관리에서 발생할 수 있습니다. 여기의 많은 프로세스는 사람과의 상호 작용이 많지 않기 때문에 로봇화하기가 매우 쉽습니다.

자동화는 다음과 같은 시스템의 생성으로 이어질 것입니다.더 많은 정보를 바탕으로 결정을 내리고 에너지 소비를 최적화할 것입니다. 예를 들어, RL 알고리즘을 기반으로 HVAC 컨트롤러(Heating, Ventilation, & Air Conditioning의 약어 - Heating, Ventilation and Air Conditioning)가 개발되고 있습니다. 이는 실내 온도 및 환기 제어 시스템입니다. 기업에서 이 기술을 사용하면 에너지 소비를 절약하고 탄소 배출을 줄이는 데 도움이 됩니다.

무인 차량: 테스트 기술 및 법률

덕분에 돌파구가 기다리고 있는 또 다른 영역강화 학습 - 교통. 오늘날에도 이미 무인 차량과 배달 로봇을 거리에서 볼 수 있습니다. 업계의 기술 발전에도 불구하고 McKinsey 분석가들은 드론이 빠르면 2030년까지는 주류가 되지 않을 것이라고 예측합니다. 규정을 개발해야 하기 때문에 구현이 복잡합니다. 싱가폴과 미국에서는 이미 고속도로를 따라 자율운송이 본격화되고 있으며 최근 러시아에서도 무인택시를 시험할 수 있는 허가가 나온 것으로 보인다.

“자동화는 거의 항상 개선됩니다.하지만 사람들은 그러한 기술의 도입을 두려워하며 환영합니다.” Oleg Svidchenko는 확신합니다. — 모든 운송 수단을 무인 테슬라로 교체하면 도로 사고 건수가 몇 배로 줄어들 것입니다. 그러나 모든 사고는 많은 질문을 불러일으킬 것입니다. 사람의 경우처럼 사고의 원인이 무엇인지 확실히 말할 수는 없습니다. 그리고 사람들은 알려지지 않은 것을 두려워합니다.”

“강화학습 덕분에 돌파구를 기다리고 있는 또 다른 분야는 교통”

디지털 트윈이 인류에게 어떻게 유용할 것인가

강화학습 알고리즘이 이를 가능하게 했습니다디지털 트윈(원본과 동일한 속성 및 특성을 포함하는 객체, 프로세스, 심지어 사람의 가상 프로토타입)을 만듭니다. 예를 들어, 산업체에서는 이 기술을 사용하여 새 컨베이어를 출시하기 전에 모든 프로세스가 적절하게 조정되었는지 확인합니다. 물론 플러그를 콘센트에 바로 꽂아도 되지만, 고장이 나면 고치는 데 시간과 자원이 필요하다. 따라서 컨베이어는 먼저 컴퓨터에서 실행됩니다. 

인간 디지털 트윈으로 모든 것이 훨씬 더 좋습니다.살아있는 유기체는 더 복잡한 시스템이기 때문에 더 어렵습니다. 그러나 과학자들은 계속해서 기술을 숙달하여 개별 기관과 전체 유기체의 가상 사본을 만듭니다. 예를 들어, 보스턴 병원은 심장의 디지털 트윈을 사용하여 수술을 계획합니다. 미래에는 이를 통해 가상 환자에 대한 치료 방법을 테스트하고 질병을 예측할 수 있으며 의학의 혁명이라고 할 수 있습니다.

"RL을 포함한 AI의 개발은사람들이 자신을 더 잘 이해하기 시작할 것이라는 사실”이라고 Aleksey Shpilman은 제안합니다. “인간은 폐쇄된 시스템입니다. 왜냐하면 우리는 자기 지식을 위해 뇌를 사용하기 때문입니다. 그러나 이 도구가 우리에게 충분합니까? 심리학에서도 성찰에는 두 사람이 필요하고, 우리는 우리 자신 안에 닫혀 있다. 전 세계적으로 우주의 맥락에서 인류는 여전히 혼자입니다. 이것은 우리 자신에 대해 새로운 것을 배우고 외부에서 보기 위해 이야기할 사람이 없음을 의미합니다. 아마도 강화 학습 덕분에 우리는 우리 외부에 어떤 종류의 실체를 만들 수 있을 것입니다. 그것은 우리의 두뇌와 의식에 의해 제한되지 않고 사람에게 새로운 답과 의미를 줄 수 있을 것입니다.”

RL의 광범위한 구현이 여전히 제한된 이유

과학자들의 발전에도 불구하고 RL의 실제 적용은 여전히 ​​제한적입니다. 시스템은 학습하는 데 오랜 시간이 걸리고 실수도 많이 하기 때문에 모든 곳에 알고리즘을 구현하는 것은 어렵고 수익성이 없습니다.

"에이전트는 더 많은 반복이 필요하므로 프로세스가학습에는 꽤 오랜 시간이 걸린다고 - Alexander Grishin은 설명합니다. - 게다가 AI가 최선의 행동을 하는 것만으로는 충분하지 않습니다. 그는 현재 매력적이지 않은 움직임 뒤에 큰 보상이 숨겨져 있을 수 있으므로 환경을 탐색해야 합니다. 강화 학습의 전체 논리는 AI가 장기적인 성공을 위해 단기적 이익을 희생하는 법을 배운다는 사실로 귀결됩니다. 이렇게 하려면 미리 생각하고 이벤트 개발에 대한 가능한 시나리오를 계산해야 합니다. 예를 들어 요원이 여왕을 잡기 위해 기사를 포기하면 과학자들은 매우 기뻐할 것입니다.”

과학자의 임무는 AI가 성장하도록 하는 것입니다.학습 속도가 빨라지고 분석 능력이 향상됩니다. 그러나 한 가지 일상적인 문제로 인해 빠른 발전이 이루어지지 않습니다. 바로 R&D 연구소와 IT 기업에 인력이 부족하다는 것입니다. 대학은 실험실과 연구 센터를 만들고 있으며, 거대 기술 기업은 전문 과정을 개설하고 있습니다.

“지금 머신러닝 연구수요가 매우 많습니다. 산업은 빠르게 발전하고 있으며 인력 부족은 매일 증가하고 있습니다.”라고 Alexey Shpilman은 말합니다. “전문가들은 인식을 초월하여 세상을 변화시킬 프로세스에 참여할 수 있는 좋은 기회가 있습니다. 흥미로운 작업이 많습니다. 이제 우리는 경로의 맨 처음에 있지만 이미 좋은 결과를 얻었습니다. RL의 사용을 통해 인류에게 어떤 전망이 열릴지 상상할 수 있습니까?

더 읽어보기 :

우주 탐사선은 수성에서 200km를 비행했습니다. 그가 본 것을 봐

과학자들은 비타민이 암 발병에 어떻게 영향을 미치는지 밝혀냅니다.

포르노 콘텐츠를 본 사람이 경보를 울리는 중국의 마음 읽기 헬멧