Home > #새소식 > 이세돌과 대국 준비하는 인공지능 ‘알파고’는 어떻게 바둑을 두는 걸까?

이세돌과 대국 준비하는 인공지능 ‘알파고’는 어떻게 바둑을 두는 걸까?

그동안 진행했던 간담회 사상 가장 흥미로웠던 시간이라는 소회를 밝힌 구글 코리아 홍보 이사의 의견에 이의를 달고 싶지 않을 만큼 28일 오후 5시부터 1시간 동안 구글 코리아에서 진행된 알파고 간담회는 매우 흥미로운 시간이었다. 물론 모든 기술적 내용을 다 알아들어서 그런 것은 아니다. 바둑을 두는 인공 지능의 출현과 아울러 프로 기사에게 도전하는 것 자체가 충분히 재미있는 이야기 소재여서다. 더구나 28일 새벽에 유럽 바둑 챔피언인 판 후이 2단을 내리 다섯 판 이긴 인공 지능 알파고에 대한 소식이 네이처에 게재된 데다 3월에 이세돌 9단과 인공지능의 바둑 대국을 준비 중이라는 소식까지 겹치며 다른 때보다 이 간담회의 취재 열기는 더욱 뜨거워졌다.

이처럼 화제를 모은 알파고를 다듬고 있는 곳은 구글이 인수한 2014년 인수한 딥마인드(DeepMind)다. 시뮬레이션과 게임, 전자 상거래 등 범용 학습 알고리즘을 연구해왔고, 이미 인공 지능 스스로 스페이스 인베이더와 퐁, 팩맨 등 아타리 게임을 하는 법을 터득하는 알고리즘을 공개하기도 했던 그곳이다. 어제 간담회는 영국에 있는 딥마인드 창업자 데니스 하사비스와 프로젝트 책임자 데이빗 실버를 행아웃으로 연결해 화상 통화 형식으로 진행했는데, 이들은 알파고가 바둑을 어떻게 둘 수 있는지는 물론 인공 지능과 관련한 여러 질문에 성실히 답했다.

딥마인드 창업자 데니스 하사비스(왼쪽)과 고 프로젝트을 맡은 데이빗 실버(오른쪽)

게임은 인공지능 알고리즘을 실험할 수 있는 가장 좋은 수단인데, 그 중에서도 “왜 바둑을 택했는가?”라는 질문을 던지기 전에 두 사람이 먼저 그 이유를 밝혔다. 바둑에 존재하는 복잡하고 심오한 두 가지 때문이란다. 우주에 존재하는 원자의 수보다 많은 변수가 바둑에 있다는 것이다. 체스가 각 차례마다 20여 개의 브랜칭 팩터(다음 단계에서 가능한 행동)가 있는 반면 바둑은 그게 200개나 되는데, 바둑판 위에 올려 놓는 흰돌과 검은돌의 수를 감안하면 어마어마한 변수다. 더구나 체스는 이미 판 위에 올려진 각 말들의 역할, 그러니까 퀸이나 킹 같은 가치가 부여된 반면, 바둑은 돌을 하나씩 올려 놓을 때마다 그 돌의 가치를 하나씩 평가해야만 한다. 바둑판 위에서 일어나는 수많은 변수를 고려하고 그 가치를 판단해 이기는 법을 터득해야 하는 데 이를 알고리즘으로 입력하는 것은 불가능하다.

때문에 알파고는 승리를 위해 바둑의 복잡성을 단순화하기 위한 두 가지 심화 신경망 기법을 쓴다. 먼저 정책망은 지금 두고 있는 바둑에서 승리를 안겨다 줄 수 있는 가장 좋은 수로 축소하고, 가치망은 현재 돌이 놓인 상황의 승률을 평가한다. 이 둘을 합쳐 알파고는 이기는 데 필요한 가장 성공적인 수를 시뮬레이션한 뒤 다음 수를 실행한다. 그러니까 이기는 데 유리한 수만 찾아내도록 한 다음 돌이 놓인 위치를 평가함으로써 그 순간의 승자를 판단한 뒤 그 이후에 알맞은 수를 실행하는 것이다.

그런데 알파고는 그냥 정해진 알고리즘을 입력하고 반복 훈련시키는 게 아니다. 이기는 법을 자체 학습하는 것이다. 과거 체스 인공 지능이었던 딥블루는 무작위의 20여 개 경우의 수를 모두 넣어서 답을 찾았고, 제퍼러디 인공 지능이었던 왓슨은 IBM이 특성 사례를 입력해 단순하고 계측화된 프로세스를 거쳐 답을 찾았던 것이었다. 즉, 사람이 정해놓은 인공 지능 알고리즘에 따라 답을 찾아간 것이다. 하지만 알파고는 알고리즘을 사람이 일일이 넣는 게 아니다. 이기는 알고리즘 자체를 인공지능 스스로 찾아낸다는 것이 차이점이다.

이기는 알고리즘을 찾기 위해 알파고는 바둑 기사가 기보를 보며 대국 연습을 하는 것처럼 스스로 연습 게임을 한다. 전원이 공급되는 한 결코 지치지 않는 체력을 바탕으로 끊임 없이 신경망을 훈련하는 것이다. 물론 알파고의 연습 상대는 이미 실전을 치렀던 대국들. 그들의 수를 미리 입력한 뒤 알파고에게 연습 대국을 시켜 이기는 법을 찾으라 했던 것이다. 알파고가 4주 동안 중단 없이 치른 대국만 해도 1백만 번쯤 된다고 한다. 바둑 기사 1명이 1년에 1천번을 둔다고 가정하면 거의 1천년에 이르는 학습량이다.

이 간담회에는 상당히 많은 취재진이 몰려 사람과 인공 지능의 대결에 대한 뜨거운 관심을 나타냈다

그렇다면 알파고의 현재 바둑 수준은 모든 기사를 이길 수 있는 수준일까? 아직은 아니다. 앞서 말한 대로 모든 상황에서 이기는 법을 다 알고 있는 것은 아니라는 것이다. 딥마인드 측의 자료에 따르면 5단 정도다. 더구나 학습 대국에서 시간을 오래 잡을수록 알파고가 유리한 것은 사실이나 짧게 잡으면 알파고 역시 약점은 있다. 그래도 500개의 연습 대국에서 딱 한번만 빼고 모두 승리를 했는데, 이는 지금 나온 인공 지능 중 가장 좋은 성과라고 자부하고 있다.

그래서 이세돌 9단과 대국은 흥미로운 점이 많다. 최고의 바둑 기사인 이세돌 9단은 변칙 바둑에도 능한 것으로 알려졌는데, 이에 알파고가 어떻게 대응할지 궁금한 것이다. 물론 이세돌 9단은 이 소식이 나간 이후 여러 인터뷰에서 이길 것을 자신하고 있는데, 이세돌 9단과 붙을 즈음에 알파고가 얼마나 더 학습했을 지에 따라 결과는 달라질 수도 있긴 하다. 특히 문제를 해결하기 위해 다양한 지식을 복합해 해결하려는 사람과 오직 바둑만 이기려는 인공 지능은 어쨌든 충분히 흥미로운 이벤트인 것은 부인할 수 없다.

하지만 사람과 인공 지능의 바둑 대결이 흥미롭기는 해도 사실 구글과 딥마인드가 이 인공지능 알고리즘을 개발한 목적이 따로 있다. 알파고가 바둑을 두는 것으로 눈길을 끌고 있지만, 사실은 다른 문제를 해결하기 위한 범용 인공지능 방법론을 훈련시키고 있는 것이다. 이를 테면 인간이 직면한 기후나 의료 같은 문제의 해결에 인공 지능의 능력을 활용해 예측과 해결 과정 수립 등 같은 목적으로 활용하고 싶다는 점을 분명히 했다. 우리는 지금 인간과 바둑을 두는 인공 지능에 대한 흥미로운 이슈를 접하지만, 어디까지나 바둑만 두려는 이유로 인공 지능을 만드는 데 시간과 비용을 허비하는 것은 아니라는 것을 알아둬야 할 듯하다.

PHiL
글쓴이 | 칫솔(PHILSIK CHOI)

직접 보고 듣고 써보고 즐겼던 경험을 이야기하겠습니다.
chitsol@techg.kr
You may also like
다시 돌아보는 2016 IT 이슈 다섯 가지
엔비디아, AI 스타트업 지원 프로그램 ‘인셉션’ 발표
[컴퓨텍스2016] 엔비디아 CEO, 파스칼 GPU는 구글 TPU와 다르다
한국어 배우는 인공지능 왓슨, 내년 한국에 도입된다

Leave a Reply

error: Content is protected !!