공부노트/머신러닝
강화학습 기본 용어
이 포스팅은 [강화 학습 1강] 강화 학습 Introduction, 팡요랩 을 바탕으로 작성했습니다. 보상 Rewards 모든 목적은 축적된 보상의 합을 최대화하는 것이다 Scalar feedback signal: Scalar 값이 주어진다 에이전트가 각 t 스텝마다 얼마나 잘하고 있는지 알려주는 것이다 에이전트의 일은 누적된 보상을 최대화하는 것이다 Sequential Decision Making 목적: 미래 받을 보상을 최대화하는 액션을 선택하는 것 행동은 장기적인 보상을 발생시킬 수 있다 즉각적인 Reward보다 긴 기간의 Reward가 좋을 경우가 있다. 예시로는 재무투자가 있다. 환경 Environment History And State History는 observations, actions, ..
강화 학습
질문사항 정의 주로 어느 문제를 해결하는데 사용되는지 기존 ML, 딥러닝 차이점 가장 쉬운 예시 소개 정의 강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 출처: 강화 학습,위키 강화(Reinforcement)는 시행착오(Trial and Error)를 통해 학습하는 방법 중 하나를 의미합니다. 이러한 강화를 바탕으로 강화학습은 실수와 보상을 통해 학습을 하여 목표를 찾아가는 알고리즘입니다. 기존의 신경망들이 라벨(정답)이 있는 데이터를 통해서 가중치와 편향을 학습하는 것과 비슷하게 보상(Rewa..