- 강화학습 시작하기 (CartPole 게임)
- 환경 (Environments)
- 관찰 (Observations)
- 공간 (Spaces)
- 첫번째 알고리즘
- 첫번째 뉴럴 네트워크
- 강화학습 (Reinforcement Learning)
- Q-learning
- Deep Q-learning
- Epsilon-greedy 정책
- 첫번째 훈련
- Epsilon의 영향
- Python Tutorial
- NumPy Tutorial
- Matplotlib Tutorial
- PyQt5 Tutorial
- BeautifulSoup Tutorial
- xlrd/xlwt Tutorial
- Pillow Tutorial
- Googletrans Tutorial
- PyWin32 Tutorial
- PyAutoGUI Tutorial
- Pyperclip Tutorial
- TensorFlow Tutorial
- Tips and Examples
강화학습 (Reinforcement Learning)¶
강화학습을 이해하기 위해 몇가지 기본적인 용어 또는 개념을 이해해야 합니다.
‘에이전트’는 주어진 ‘환경’에서 ‘행동’을 선택하고,
그 ‘환경’에서 ‘상태’와 ‘보상’이 만들어집니다.
에이전트의 목표는 주어진 환경에서 상태와 행동을 통해 얻어지는 보상이라는 정보를 잘 확인해서 보상을 최대화하는 것입니다.
에이전트는 주어진 환경과의 반복되는 상호작용 속에서, 보상을 최대화하기 위해 어떤 선택이 가장 좋은 선택일지 학습하게 됩니다. 에이전트가 이러한 과정으로 행동을 선택하는 것을 행동 정책 (action policy)이라고 합니다.
또한 에이전트가 주어진 환경의 특정 상태에서 행동을 선택하는 과정, 그리고 행동 정책을 구현하는 과정에서 가장 흔하게 Deep Q network 와 epsilon-greedy 정책 을 사용합니다.
다음 페이지에서는 Q-learning에 대해서 소개합니다.
이전글/다음글
이전글 : 첫번째 뉴럴 네트워크
다음글 : Q-learning