1 This is a hack for the popular game, Flappy Bird.
2 The array Q is initialized with zeros and I always chose the best action, the action that will maximize my expected reward.
3 Q[s,a] ← Q[s,a] + α (r + γ*V(s') - Q[s,a])
트위터 반응

@goodhyun: 플래피 버드를 강화학습(RL)한 인공지능이 게임하는 풍경 (+소스 포함) : https://t.co/DQsVzoKxCf 게임 학습 15분만에 여러분보다 잘하게 됩...