질문사항
- 정의
- 주로 어느 문제를 해결하는데 사용되는지
- 기존 ML, 딥러닝 차이점
- 가장 쉬운 예시 소개
정의
강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.
출처: 강화 학습,위키
강화(Reinforcement)는 시행착오(Trial and Error)를 통해 학습하는 방법 중 하나를 의미합니다. 이러한 강화를 바탕으로 강화학습은 실수와 보상을 통해 학습을 하여 목표를 찾아가는 알고리즘입니다. 기존의 신경망들이 라벨(정답)이 있는 데이터를 통해서 가중치와 편향을 학습하는 것과 비슷하게 보상(Reward)이라는 개념을 사용하여 가중치와 편향을 학습하는 것입니다. 목적은 최적의 행동양식 또는 정책을 학습하는 것입니다.
용도 및 목적
이러한 문제는 매우 포괄적이기 때문에 게임 이론, 제어이론, 운용 과학, 정보 이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 떼 지능, 통계학, 유전 알고리즘 등의 분야에서 사용된다.
강화 학습은 장기, 단기의 포상 사이 트레이드오프가 존재하는 문제를 다루는 데 적합하다. 이것은 로봇 제어, 엘리베이터 스케줄링, 통신망, 백개먼과 체스 같은 게임에 성공적으로 적용되어 왔다.
[위키]
- 보드게임에서 월드 챔피언을 이기는 일
- 투자 포트폴리오 관리: 이윤이 Reward
- 휴머노이드를 걷게 하는 것: 넘어지면 패널티, 잘 걸으면 보상
- 사람보다 플레이를 잘하는 Atari 게임
[강화학습 1강] 강화학습 Introduction, 팡요랩
다른 학습과 차이점
강화 학습이 원하지 않는 행동을 명시적으로 수정하는 '지도 학습'과 다른 점은 온라인 수행에 중심을 두고 있다는 점이다. 강화 학습은 아직 조사되지 않는 영역을 탐험하는 것과 이미 알고 있는 지식을 이용하는 것의 균형을 잡는 것이다.
- 사람 지도 없이 스스로 학습한다.
- 사람이 지도하기 어려운 문제를 해결해볼 수 있다. 사람보다 더 뛰어날 수 있다.
- 피드백이 즉각적이지 않다.
- 내가 10분동안 여러 액션을 했는데, 10분 뒤에 Reward 가 주어질 수 있다. 그럼 어떤 액션이 Reward에 영향을 주었는지 알기 어려운 점이 있다. Classification지도학습에서는 바로 피드백이 주어진다.
- 시간이 중요하다. 순서가 중요
- 데이터가 순차적이어야 한다. 액션 순서 중요.
- Independent and identically distributed random variables (i.i.d) 데이터가 아니여야 한다. 이벤트 간 독립적이다
- 에이전트의 액션은 이후에 받을 데이터에 영향을 준다
- 내가 어떻게 세팅하는냐에 따라 받는 데이터가 달라진다.
[강화학습 1강] 강화학습 Introduction, 팡요랩
알고리즘
매 시점 t에 에이전트는 자신의 상태(state)와 가능한 행동(atcion)을 가지고 있다. 에이전트는 어떤 행동을 취하고, 환경으로부터 t+1 새로운 상태와 포상을 받는다. 이 상호작용에 기반해서 강화 학습 에이전트는 누적된 포상값 R을 최대화하는 정책(policy)를 개발한다. [위키]
학습 자료
'공부노트 > 머신러닝' 카테고리의 다른 글
강화학습 기본 용어 (0) | 2022.05.08 |
---|