개요 구글 딥마인드(DeepMind)의 알파고(AlphaGo)를 모르는 사람은 드물 것입니다. 알파고가 세계적인 프로 바둑 기사인 이세돌 9단과의 시합에서도 승리하고 2017년 5월에는 세계 랭킹 1위인 커제 바둑 기사와의 상대로도 이긴 것으로 세상을 놀라게 했기 때문입니다. 경우의 수가 $10^{360}$개나 되는 바둑을 알파고가 계산하고 문제를 풀어 승리를 했으니 놀랄 수 밖에 없었죠. 이 알파고가 엄청난 경우의 수를 학습할 때 사용된 기술이 바로 강화학습입니다. 알파고는 강화학습을 이용하면 엄청나게 경우의 수가 많은 문제도 풀 수 있다는 가능성을 열어 준 것입니다. 이 도약은 로봇분야에 있어서 더 큰 의미를 가져다 주는데, 로봇이 무한대의 경우의 수를 가졌다고 할 수 있는 현실세계에 대해서 강화학습..