- 강화학습 시작하기 (CartPole 게임)
- 환경 (Environments)
- 관찰 (Observations)
- 공간 (Spaces)
- 첫번째 알고리즘
- 첫번째 뉴럴 네트워크
- 강화학습 (Reinforcement Learning)
- Q-learning
- Deep Q-learning
- Epsilon-greedy 정책
- 첫번째 훈련
- Epsilon의 영향
- Python Tutorial
- NumPy Tutorial
- Matplotlib Tutorial
- PyQt5 Tutorial
- BeautifulSoup Tutorial
- xlrd/xlwt Tutorial
- Pillow Tutorial
- Googletrans Tutorial
- PyWin32 Tutorial
- PyAutoGUI Tutorial
- Pyperclip Tutorial
- TensorFlow Tutorial
- Tips and Examples
환경 (Environments)¶
아래의 코드는 동작하는 가장 간단한 예제입니다. 이 코드를 통해 CartPole-v0 환경의 인스턴스를 1000회의 시간 스텝 동안 실행하고, 각 스텝에서의 환경을 렌더링합니다.
클래식 cart-pole 문제를 보여주는 창을 볼 수 있습니다.
예제¶
import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
env.render()
env.step(env.action_space.sample()) # Take a random action
env.close()
아래와 같은 화면을 볼 수 있습니다.
보통 cart-pole이 화면을 벗어나기 전에 시뮬레이션을 종료합니다. 지금은 아래의 경고는 무시해도 괜찮습니다.
WARN: You are calling 'step()' even though this environment has already returned done = True.
이전글/다음글
이전글 : 강화학습 시작하기 (CartPole 게임)
다음글 : 관찰 (Observations)