EITC/AI/ARL Advanced Reinforcement Learning은 인공 지능의 강화 학습에 대한 DeepMind의 접근 방식에 대한 유럽 IT 인증 프로그램입니다.
EITC/AI/ARL 고급 강화 학습의 커리큘럼은 이 EITC 인증에 대한 참조로 포괄적인 비디오 교훈 콘텐츠를 포함하는 다음 구조 내에서 조직된 DeepMind의 관점에서 강화 학습 기술의 이론적 측면과 실용적인 기술에 중점을 둡니다.
강화 학습 (RL)은 누적 보상의 개념을 극대화하기 위해 지능형 에이전트가 환경에서 조치를 취해야하는 방식과 관련된 머신 러닝 영역입니다. 강화 학습은지도 학습 및 비지도 학습과 함께 세 가지 기본 기계 학습 패러다임 중 하나입니다.
강화 학습은 레이블이 지정된 입력/출력 쌍을 표시 할 필요가없고 명시 적으로 수정해야하는 차선책이 필요하지 않다는 점에서 감독 학습과 다릅니다. 대신 탐구 (미지의 영토)와 착취 (현재 지식) 사이의 균형을 찾는 데 초점을 맞추고 있습니다.
이 컨텍스트에 대한 많은 강화 학습 알고리즘이 동적 프로그래밍 기술을 사용하기 때문에 환경은 일반적으로 MDP (Markov Decision Process) 형식으로 지정됩니다. 고전적인 동적 프로그래밍 방법과 강화 학습 알고리즘의 주요 차이점은 후자는 MDP의 정확한 수학적 모델에 대한 지식을 가정하지 않으며 정확한 방법이 실행 불가능한 대규모 MDP를 대상으로한다는 것입니다.
일반성으로 인해 강화 학습은 게임 이론, 제어 이론, 운영 연구, 정보 이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 군집 지능 및 통계와 같은 많은 분야에서 연구됩니다. 운영 연구 및 제어 문헌에서 강화 학습은 근사 동적 프로그래밍 또는 신경 동적 프로그래밍이라고합니다. 강화 학습에서 관심있는 문제는 최적의 솔루션의 존재와 특성화 및 정확한 계산을위한 알고리즘과 관련이있는 최적 제어 이론에서도 연구되었습니다. 환경의 수학적 모델. 경제학 및 게임 이론에서 강화 학습은 제한된 합리성 하에서 균형이 어떻게 발생할 수 있는지 설명하는 데 사용될 수 있습니다.
기본 강화는 Markov 의사 결정 프로세스 (MDP)로 모델링됩니다. 수학에서 마르코프 의사 결정 프로세스 (MDP)는 이산 시간 확률 적 제어 프로세스입니다. 결과가 부분적으로 무작위이고 부분적으로 의사 결정자의 통제를받는 상황에서 의사 결정을 모델링하기위한 수학적 프레임 워크를 제공합니다. MDP는 동적 프로그래밍을 통해 해결 된 최적화 문제를 연구하는 데 유용합니다. MDP는 적어도 1950 년대에 알려졌습니다. Markov 의사 결정 프로세스에 대한 핵심 연구는 Ronald Howard의 1960 년 저서 Dynamic Programming and Markov Processes에서 비롯되었습니다. 로봇 공학, 자동 제어, 경제 및 제조를 포함한 많은 분야에서 사용됩니다. MDP의 이름은 러시아의 수학자 Andrey Markov에서 따온 것입니다.
각 시간 단계에서 프로세스는 일부 상태 S에 있으며 의사 결정자는 상태 S에서 사용할 수있는 조치 a를 선택할 수 있습니다. 프로세스는 다음 시간 단계에서 무작위로 새로운 상태 S '로 이동하고 의사 결정자에게 상응하는 보상 Ra (S, S ').
프로세스가 새로운 상태 S '로 이동할 확률은 선택한 조치 a의 영향을받습니다. 구체적으로는 상태 전이 함수 Pa (S, S ')에 의해 주어집니다. 따라서 다음 상태 S '는 현재 상태 S와 의사 결정자의 조치 a에 따라 달라집니다. 그러나 S와 a가 주어지면 이전의 모든 상태 및 작업과 조건부로 독립적입니다. 즉, MDP의 상태 전이는 Markov 속성을 충족합니다.
Markov 의사 결정 프로세스는 Markov 체인의 확장입니다. 차이점은 행동 (선택 허용)과 보상 (동기 부여)의 추가입니다. 반대로, 각 상태에 대해 하나의 조치 만 존재하고 (예 : "대기") 모든 보상이 동일한 경우 (예 : "XNUMX"), Markov 결정 프로세스는 Markov 체인으로 축소됩니다.
강화 학습 에이전트는 개별 시간 단계에서 환경과 상호 작용합니다. 매 시간 t에서 에이전트는 현재 상태 S (t)와 보상 r (t)를받습니다. 그런 다음 사용 가능한 작업 집합에서 작업 a (t)를 선택하여 나중에 환경으로 보냅니다. 환경이 새로운 상태 S (t + 1)로 이동하고 전환과 관련된 보상 r (t + 1)이 결정됩니다. 강화 학습 에이전트의 목표는 예상 누적 보상을 극대화하는 정책을 학습하는 것입니다.
문제를 MDP로 공식화하면 에이전트가 현재 환경 상태를 직접 관찰한다고 가정합니다. 이 경우 문제는 완전히 관찰 가능하다고합니다. 에이전트가 상태의 하위 집합에만 액세스 할 수 있거나 관찰 된 상태가 노이즈로 인해 손상된 경우 에이전트는 부분적으로 관찰 할 수 있다고하며 공식적으로 문제는 부분적으로 관찰 가능한 마르코프 의사 결정 프로세스로 공식화되어야합니다. 두 경우 모두 에이전트가 사용할 수있는 작업 집합을 제한 할 수 있습니다. 예를 들어, 계정 잔액의 상태는 양수로 제한 될 수 있습니다. 상태의 현재 값이 3이고 상태 전환이 값을 4로 줄이려고하면 전환이 허용되지 않습니다.
에이전트의 성능을 최적으로 행동하는 에이전트의 성능과 비교할 때 성능의 차이는 후회라는 개념을 낳습니다. 거의 최적으로 행동하기 위해 에이전트는 행동의 장기적인 결과 (즉, 미래 소득 극대화)에 대해 추론해야합니다. 그러나 이와 관련된 즉각적인 보상은 부정적 일 수 있습니다.
따라서 강화 학습은 특히 장기 대 단기 보상 절충을 포함하는 문제에 적합합니다. 로봇 제어, 엘리베이터 스케줄링, 통신, 백개 먼, 체커, 바둑 (알파 고) 등 다양한 문제에 성공적으로 적용되었습니다.
두 가지 요소는 강화 학습을 강력하게 만듭니다. 샘플을 사용하여 성능을 최적화하고 함수 근사를 사용하여 대규모 환경을 처리하는 것입니다. 이 두 가지 주요 구성 요소 덕분에 강화 학습은 다음 상황에서 대규모 환경에서 사용할 수 있습니다.
- 환경 모델이 알려져 있지만 분석 솔루션을 사용할 수 없습니다.
- 환경의 시뮬레이션 모델 만 제공됩니다 (시뮬레이션 기반 최적화의 주제).
- 환경에 대한 정보를 수집하는 유일한 방법은 환경과 상호 작용하는 것입니다.
이러한 문제 중 처음 두 가지 문제는 계획 문제로 간주 될 수 있으며 (어떤 형태의 모델을 사용할 수 있기 때문에) 마지막 문제는 진정한 학습 문제로 간주 될 수 있습니다. 그러나 강화 학습은 두 가지 계획 문제를 기계 학습 문제로 전환합니다.
탐사 대 착취 절충안은 다중 슬롯 머신 문제와 Burnetas 및 Katehakis (1997)의 유한 상태 공간 MDP를 통해 가장 철저하게 연구되었습니다.
강화 학습에는 영리한 탐색 메커니즘이 필요합니다. 추정 된 확률 분포를 참조하지 않고 무작위로 행동을 선택하면 성능이 저하됩니다. (작은) 유한 마르코프 결정 과정의 경우는 비교적 잘 알려져 있습니다. 그러나 상태 수에 따라 확장 (또는 무한 상태 공간 문제로 확장)하는 알고리즘이 부족하기 때문에 간단한 탐색 방법이 가장 실용적입니다.
탐사 문제를 무시하고 상태를 관찰 할 수 있더라도 과거 경험을 사용하여 어떤 행동이 더 높은 누적 보상으로 이어지는 지 알아내는 문제가 남아 있습니다.
인증 커리큘럼에 대해 자세히 알아보기 위해 아래 표를 확장하고 분석할 수 있습니다.
EITC/AI/ARL Advanced Reinforcement Learning 인증 커리큘럼은 비디오 형식의 개방형 학습 자료를 참조합니다. 학습 과정은 관련 커리큘럼 부분을 다루는 단계별 구조(프로그램 -> 수업 -> 주제)로 나뉩니다. 도메인 전문가와의 무제한 컨설팅도 제공됩니다.
인증 절차 확인에 대한 자세한 내용은 어떻게 시작하나요?.
커리큘럼 참조 리소스
Deep Reinforcement Learning 출판물을 통한 인간 수준 제어
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
UC Berkeley의 심층 강화 학습에 대한 오픈 액세스 과정
http://rail.eecs.berkeley.edu/deeprlcourse/
Manifold.ai의 K-armbed bandit 문제에 RL 적용
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL 고급 강화 학습 프로그램을 위한 전체 오프라인 자가 학습 준비 자료를 PDF 파일로 다운로드하세요.