PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2017/12/14 15:52:36
Name bemanner
Link #1 https://alphagoteach.deepmind.com/ko
Subject [일반] [바둑] 알파고의 근황
1.올해 10월 18일에 발표한 알파고 제로 버전의 성장 속도입니다.

5
초보 단계 - 돌 따먹기, 집짓기 규칙을 깨닫는데 3시간,
6
중수 단계 - 사활과 전략을 이해하는데 19시간,
7
초인 단계 - 인간 최고수 상대로 90% 이상의 승률을 기록하는데 70시간,
3
반신 단계 - 인간의 기보를 토대로 학습을 진행한 알파고 마스터(인간 최고수 상대 63승 0패) 를 제끼는데 21일,

완성 단계 - 성장이 거의 멈추는 단계가 40일이라고 하네요.

(1) 사람의 기보를 참고하는 것보다 '참고하지 않는 게' 더 좋은 결과를 낳는 점
(2) '제대로 된 학습 알고리즘이 작용할 때', AI가 인간을 초월하는 데 걸리는 시간이 매우 짧다는 것
은 인공지능의 힘을 보여주는 부분이고

(3) 때때로 학습의 성과가 퇴보하는 구간이 보이는 점
(4) (인간의 경지를 초월한 구간이긴 하지만) 무한히 강해지는 게 아니라 ELO 5000 근방에서는 거의 기력이 상승하지 않는 점
은 제대로 학습된 인공지능에도 한계가 존재하는 걸 보여주는 부분이라고 보입니다.

뭐.. ELO 점수가 400점 차이날 때마다 승률이 9:1로 벌어지고, 그렇다면 단순무식한 계산으로는
3200~3600점 대 인간 최고수 상대로 4800~5200점 대 AI가 이길 확률은 99.9~99.999%니까
인공지능의 한계라는 게 인간, 특히 보통 수준의 인간(ELO 1200점)에게는 사실상 의미가 없긴 합니다만
AI가 사람보다 압도적으로 뛰어날 지언정 신은 아니라고 할 수는 있겠습니다.


2. 알파고 제로 선생님께서 올해 12월 11일에 자신이 생각하는 바둑의 정석을 인터넷에 공개하였습니다.


알파고가 왜 특정 수를 정석으로 보는지는 저는 당연히 모르고, 프로들도 해석하기 어려워하는 관계로
'왜 이런 가르침을 내리는지'는 생략하고, '어떤 가르침을 주는지'만 짚어보려고 합니다.

image

(1) 첫 수에서, 알파고가 생각하는 최적의 수는 3x4 혹은 4x4선에 놓는 것입니다.
사람의 바둑이 완전히 잘못된 방향은 아니라고 할 수 있겠네요.
이 때, 흑의 기대 승률은 47%입니다. 현재의 덤이 백에게 더 유리하다고 결론지으셨네요.
(알파-스타크래프트가 종족 밸런스 논란도 끝내주면 좋을텐데요)

그 외에, 사람이 간혹 시도해보던 정중앙, 5x5 같은 곳은 굉장히 안좋게 평가하셨고(6x4보다도 안좋은 자리들)
3x4랑 4x4에 안둘거면 그냥 삼삼 두라고 하십니다.

image

(2) 알파고가 생각하기에, 승리확률이 가장 높은 수를 차례대로 두는 정석은 첫 수를 4x4에 두는 일련의 진행입니다.
이 수뿐만이 아니라, 대부분의 수순에서 알파고는 삼삼을 굉장히 선호하고 우선시합니다.

image

(3) 그 외에 승리확률이 가장 높지는 않지만, 알파고가 '선호하는' 수는 첫 수를 3x4에 두는 일련의 진행입니다.
알파고가 '선호하는' 수라는 게 도대체 무슨 의미인지는 홈페이지의 설명을 읽어봐도 알 수가 없습니다만, 아무튼 그렇다고 합니다.

(4) 알파고의 정석에 대한 프로들의 현재 평가는,
'해석이 어렵다', 
'프로들은 기존에 다른 방식으로 오랫동안 배워서 자신들이 써먹기는 어렵고, 새로 배우는 사람에게 유용할 듯하다',
'이런 식의 나열보다는 좀더 자세한 설명과 다양한 수순이 있으면 좋겠다' 등이 있습니다.



2줄 요약 : 알파고는 절대적인 의미에서 신은 아니지만, 상대적인 의미에서는 신의 경지에 다다랐습니다.
               그리고, 그 경지에 도달함에 있어서 사람의 도움은 오히려 방해가 되었습니다.




통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
17/12/14 15:55
수정 아이콘
'(4) (인간의 경지를 초월한 구간이긴 하지만) 무한히 강해지는 게 아니라 ELO 5000 근방에서는 거의 기력이 상승하지 않는 점
은 제대로 학습된 인공지능에도 한계가 존재하는 걸 보여주는 부분이라고 보입니다'

가 혹시 바둑의 최적화가 끝나서 그런건 아닌걸까요...

알파고님 충성!
bemanner
17/12/14 15:57
수정 아이콘
그럴 수도 있는데, 딥마인드 측에서 '바둑의 필승 수순'을 내놓지는 않는 걸로 봐서는 알파고도
바둑을 완벽하게 정복한 상황은 아니지 않나 추측해봅니다
마스터충달
17/12/14 16:00
수정 아이콘
근데 이러다 말 그대로 "필승 수순"이 나와버리면 게임으로서의 바둑은 그냥 망하는 거 아닌가요??
bemanner
17/12/14 16:02
수정 아이콘
만약에라도 필승 수순이 나온다면 바둑인들의 흥미가 줄어들긴 할 거 같습니다.
물론 알파고의 수준에서 필승일 뿐이고, 사람이 알파고처럼 두는데 상대방이 다른 수를 두면 그걸 응징하지 못할 가능성이 높지만요.

아직 체스조차도 필승 수순이 안나온 걸 보면 근시일 내에 필승법이 나오지는 않을 거 같아요.
세츠나
17/12/14 16:37
수정 아이콘
애초에 필승 수순이 없는 게임일 확률이 높죠. 체스도 그렇고...
세종머앟괴꺼솟
17/12/14 15:56
수정 아이콘
알파-님이 현재까지 진정한 의미의 인공지능에 가장 근접한 개체죠 크
17/12/14 15:57
수정 아이콘
10년도 전에 바둑을 배웠었지만 그 때의 정석이랑은 너무나 큰 차이가 있네요.
bemanner
17/12/14 16:00
수정 아이콘
초등학생 때 바둑 배우면서 초반에 33놓을 때마다 혼났던 기억이 있는데.. 흑흑
물론 제가 뭘 알고 둔 게 아니라 그냥 정석 외우기 싫고 땅따먹기 하고 싶어서 그렇게 둔 겁니다만 크크
물맛이좋아요
17/12/14 15:57
수정 아이콘
(수정됨) 인간의 학습을 참고하지 않은 개체가 더욱 한계가 높다는 것은...

인간이 지금까지 잘못된 방향으로 왔다는 것을 의미할까봐 조금 겁이나네요.
세종머앟괴꺼솟
17/12/14 16:01
수정 아이콘
겁낼 필요 없이 부분적으로는 그게 맞는 거죠.
잘못됐다는 거 자체가 애매한 말인데 귀부터 시작하는 대전략 자체는 인간이 잘 찾아낸 것이고,
세부적으로 들어가면 인간이 잘못한 부분이 천지였다-라는 게 알사범님 가르침인데
인간이 완벽하지 않은 건 다들 알고 있는 상식인데 겁낼 필요가..
Korea_Republic
17/12/14 16:04
수정 아이콘
고정관념에 사로잡힐 필요가 없다로 받아들이면 되지 않을까요??
17/12/14 16:26
수정 아이콘
잘못된 방향이라고 해도 맞겠지만..
가장 완벽한 방향은 아니다.. 정도가 맞을것 같네요 흐흐
티모대위
17/12/14 17:55
수정 아이콘
애초에 바둑에서 나온 모든 격언과 정석들은 '인간이 계산하기 어려울 정도로 많은 경우의 수를, 인간이 학습하기 좋도록' 타협한 거라고 생각하면.. 그리 겁날 일도 아닙니다. 인간도 지금까지 잘 해왔어요. 보드 게임 자체가 인간에게 압도적으로 불리한 영역인걸요.
17/12/15 00:18
수정 아이콘
저는 사람의 수는 사람에게 최적화 된 것이라고 봐요. 사람은 2-3선이면 확실히 지키지만 못 나가고, 4선은 싸우고 5선은 지킬공간이 넓어서 위험하다고 하지만 알파고는 알파고lee시절부터 5-6선에서 싸우고 이득을 본걸요. 파워의 차이때문에 그렇다고 생각해요.
17/12/14 15:59
수정 아이콘
깨알같은 존칭 크.. 잘봤습니다.
RainbowWarriors
17/12/14 15:59
수정 아이콘
멋지네요. 다른 말이 잘 안떠오릅니다. 멋저요.
이영나영2
17/12/14 16:00
수정 아이콘
이제 바둑은 그만해도 될꺼같은데....
포커같은거 해봤으면 좋겠네요
실력으로 운을 얼마나 커버가능한지가 궁금
물맛이좋아요
17/12/14 16:03
수정 아이콘
포커는 이미 이전에 박살이 났네요..

http://m.hani.co.kr/arti/science/science_general/780828.html?_adtbrdg=e#cb
다빈치
17/12/14 16:30
수정 아이콘
2016년도 대회에 최고수들이라는데 왜 정작 최고수들은 한명도 보이질 않...
염력 천만
17/12/14 18:42
수정 아이콘
이거 헤즈업일거에요 (1대1 경기)
포커는 플레이어가 많아질수록 경우의수가 확 증가하므로 정복이 어려워요
Achievement
17/12/14 16:00
수정 아이콘
그래봐야 어차피 헤머 한방이면...알파고도 플러그만 뽑으면 고철덩어리일 뿌...읍읍!!
HA클러스터
17/12/14 16:04
수정 아이콘
요즘은 클라우드 서버에, 전세계 각지 DC에 다중화및 백업이 가능해서 햄머한방이나 플러그 한두개 뽑는걸로는 어림도 없습니다.
알파고님 충성! 충성!
물맛이좋아요
17/12/14 16:07
수정 아이콘
그건 인간도 마찬가지..

너도 한 방, 나도 한 방
개망이
17/12/14 16:13
수정 아이콘
알파고님! 여기예요! 여기에 반동분자가 있습니다!
17/12/14 16:25
수정 아이콘
해머에 대한 내구성은 인간보다 높지 않을까요 크크
피식인
17/12/14 16:08
수정 아이콘
알파고님 충성충성!
17/12/14 16:13
수정 아이콘
우리에겐 아직 하스스톤이 있습니다
아라가키
17/12/14 16:18
수정 아이콘
??? "아니 , 인간 , 왜 크툰.. 거기? "
17/12/14 17:46
수정 아이콘
알파고 : 디스.. 갈뷔쥐 게임.. 럭키빨 페일... 겜... 무엇...
17/12/14 16:13
수정 아이콘
그러니까 극에 달하려면 백으로 승률 100%수순이 나오는 거겠네요.
그럼 바둑판 늘려야하나..
17/12/14 17:37
수정 아이콘
그럼 백이 한수 두자마자 흑이 resign을..
17/12/14 16:13
수정 아이콘
두 줄 요약 중에서 사람의 도움은 방해가 되었다는 것은 오해의 소지가 있어 보이네요.
알파고 제로가 기존 알파고 보다 알고리즘에서 향상되어서 저런 결과가 나온듯 합니다.
알파고 제로의 알고리즘으로 인간의 기보를 학습시키면 약간의 도움(19~70시간정도?) 정도를 기대할 수 있지 않을까요?
(그러나 40일에 비하면 별 의미없는 시간이겠지요.)
bemanner
17/12/14 16:20
수정 아이콘
알파고 마스터가 그 전의 알파고와 다른 메커니즘으로 수를 탐색한 건 찾을 수 있었는데
알파고 제로가 알파고 마스터와 다른 메커니즘으로 수름 탐색했는지는 제 짧은 영어로는 탐색이 어려워서
제로와 마스터는 같은 방식으로 수를 찾되 인간의 기보 유무만이 차이점이 아닌가? 하고 추정했습니다.
제로와 마스터의 알고리즘이 달라졌다면 '제로가 인간의 도움 없이 마스터를 넘었다'라고 딥마인드 측에서 홍보하는 게 의미가 별로 없을테니까요.
(인간의 도움이 없어서인지, 알고리즘 빨인지 알 수 없어서)
순둥이
17/12/14 16:19
수정 아이콘
그러면 제대로 학습한 알파고 버전끼리 했을때 덤은 얼만가요?
bemanner
17/12/14 16:23
수정 아이콘
이세돌이 뒀던 버전과 커제가 뒀던 버전은 3점이라고 주워들었고,
커제가 뒀던 버전과 알파고 제로의 차이는 레이팅으로 봐서는 정선과 호선 사이 정도로 보입니다. 불확실한 정보입니다.
위원장
17/12/14 16:26
수정 아이콘
더 나은 인공지능이 나와서 제로가 하는 말 다 무시할지도 모르죠.
어쨌든 이젠 인공지능은 바둑으로는 이기기 어렵겠네요
공부맨
17/12/14 16:28
수정 아이콘
덤을 다섯집반으로 줄였을때 결과가 궁금해지네요
bemanner
17/12/14 16:34
수정 아이콘
딥마인드는 바둑 그 자체가 목적이 아니라서 그런가.. 다른 바둑인공지능회사와는 달리 설명을 이것저것 안해줘서 아쉽네요.
알트라
17/12/14 16:29
수정 아이콘
알파고의 메커니즘이 궁금해지네요. 프로들이 해석이 어렵다 하는 걸 보면 알파고가 왜 그런 수를 두는지 설명이 없는 것 같은데요. 그럼 알파고는 자기가 두는 수가 왜 좋은지 이해를 못하는 건가요. 예를 들어 테플전에서 투팩이 안 좋은 이유를 사람이라면 투팩 해보았자 막히고 앞마당만 늦어져서 안 좋음이라고 인식하겠죠. 그런데 알파고는 그런 이유는 모르고 그냥 투팩 해보니 승률이 안좋아서 안 좋음. 이런 식으로 인식하는 건가요? 만약 그렇다면 그걸 정말로 바둑을 이해하고 있다고 해야 할지 모르겠네요.
세종머앟괴꺼솟
17/12/14 16:34
수정 아이콘
기계학습적으로 분석하자만 만약에 알파고A가 a라는 수를 두었을 때 이후 진행들에서 상대방 B가 놓는 수 중 A의 승률을 가장 낮추는 수 b를 찾을 수 있겠죠. 그러면 이러이러한 흐름으로 진행 시 B가 b라는 수로 응징이 가능하기 때문에 a라는 수는 안 좋다-라고 분석이 될 겁니다. 저는 이 정도 수준의 분석이 가능하다면 바둑을 이해하고 있다고 봐도 무리없다고 생각하는데, 만약에 이 정도 수준의 해석을 이해라고 보기는 어렵다라고 생각하시면 그냥 기계일 뿐이죠 크
bemanner
17/12/14 16:38
수정 아이콘
현재 알파고의 메커니즘은 1) 경우의 수 2) 가치망 3) 정책망 을 혼합해서 결정하고
여기에 비슷한 승리확률을 가진 수가 여럿 있으면 임의로 둬보면서 테스트하는 걸로 알고 있습니다.

정책망은 빌드오더, 가치망은 각 빌드오더 간의 승률, 경우의 수는 내가 이렇게 하고 상대가 저렇게 할 때 결과가 어떻게 나올지 예측하는 거고..
알파고는 불친절하게 틱틱 던져주는데 알파고보다 부족한 바둑 인공지능 프로그램들은 친절하게 경우의 수를 알려주는 걸 보면
그냥 '설명 기능'을 굳이 안넣어서 그런 거 같습니다.
자유의영혼
17/12/14 18:05
수정 아이콘
알파고 마스터 버전에서는 뉴럴넷을 합쳐서 하나로 만들었다고 합니다. 가치망 정책망 합쳐졌어요.
세종머앟괴꺼솟
17/12/14 16:39
수정 아이콘
좀더 쉽게 스타 알파고 있다고 가정해보면, 초중반 흐름이 비슷한 게임끼리 클러스터링이 가능할 겁니다. 그러면 (투팩류 vs A) 가 포함된 다양한 클러스터 중에서 (투팩류 vs 원겟더블) 에서의 투팩 승률이 유의미하게 낮다는 수치를 발견할 수 있다면 이런 식으로 분석하는 분석 기계를 만들 수 있겠죠. 알파고는 분석의 토대가 되는 수치만 제공했다고 볼 수도 있지만, 사실상 훈련시에 이런 팩터들이 다 고려되어서 학습된 것이고요.
달달한고양이
17/12/14 17:56
수정 아이콘
알파고 뿐 아니라 현재 인공지능이 새로운 무언가를 학습해서 결론을 도출해 내는 과정은 제대로 밝혀지지 않았다고 알고 있습니다. 그래서 그 부분이 블랙박스 라고 불리우고...학습 데이터만 엄청 쌓아주면 어느순간 얘가 음 이건 이거! 라는 답을 도출해 내는데 왜 그런 답이 나오는지(이를 테면 공식이나 법칙같은) 매커니즘은 모르는 상황. 그래서 그 매커니즘을 밝혀내는 방법?에 대한 연구도 한창이라고 하더군요.
솔로13년차
17/12/14 16:30
수정 아이콘
일단 속도는 의미가 없는 것 같구요. 하드웨어를 더 투자하면 빨라지는 거니까요.
한계점이 궁금한데, 기존 알파고들도 한계점을 보인 상태에서 멈췄던 건가요? 지금까지 알파고 기사에서는 한계점을 이야기한 경우가 없거든요.
그나저나 백이 유리하게 덤을 갖고 시작한 것이 좋았네요. 먼저 둔 사람이 불리한 것이 맞다고 생각하거든요.
bemanner
17/12/14 16:33
수정 아이콘
공식적으로 딥마인드에서 '이것이 알파고의 한계다'라고 한 것은 아니고(이런 말을 할 이유도 없겠지요), ELO 상승곡선의 둔화를 토대로 추측해보았습니다.
기존의 알파고들도 한계점을 보인 상태에서 멈춘 건지는 모르겠습니다.
솔로13년차
17/12/14 16:39
수정 아이콘
네. 상승곡선의 둔화에서 멈췄는지가 궁금한 거죠.
개인적으론 어느 버전이건 '시간'은 차이가 있지만 상승곡선의 둔화는 비슷한 위치에서 멈출거라 생각했는데, 그게 아닌가 싶어서요.
물맛이좋아요
17/12/14 16:53
수정 아이콘
인간의 기보를 바탕으로 학습했던 알파고 마스터의 한계 ELO 보다 인간의 기보 없이 학습한 알파고 제로의 한계 ELO가 더 높다고 읽었습니다.
bemanner
17/12/14 16:55
수정 아이콘
딥마인드에 물어보고 싶은 건 많은데 얘네는 자기 할 말만 하는 스타일이라... 추측은 해도 확정은 어렵네요.
손금불산입
17/12/14 16:37
수정 아이콘
알파고로 고스톱을 치게하면 어떨까 궁금해지네요 알타짜가 되는건가
붉은밭
17/12/14 16:39
수정 아이콘
알파고 : am i bingdari hotbaji? bring me warhammer
Proactive
17/12/14 17:25
수정 아이콘
10100101101101101010101111111111111111
17/12/14 16:40
수정 아이콘
화점> 소목,3.3 > 고목,외목 > 대고목 > 천원이 확률적으로 승률이 나오니 재밌네요
인간도 감각적으로 저리들 둬 오곤 있었습니다만 말이죠
소시적에 대고목을 주력으로 하는 바둑학원 신입 동생에게 전체 학원생이 다 탈탈 털린 다음
복수하고 싶어서 이 책 저 책 다 뒤져봤지만 당시에 공개된 대고목 정석 정보가 없어서 아쉬웠던 기억이 나네요
나중에 원장님이 일부 정석 트리를 알려주셨지만 그 녀석은 그 수업을 같이 들었기에 본인이 또 변형을 해버려서... 어휴. ㅡㅜ
알사범님은 답을 알고 계시겠죠?
bemanner
17/12/14 16:47
수정 아이콘
링크에 들어가보시면 알사범님이 대고목 고목 외목에 대한 수순도 알려주시긴 합니다.
화점 소목 3,3 보다 경우의 수가 확연히 적은 걸 봐서는 소위 '응징'이라고 볼 수 있는 수를 두는 거 같긴 한데
왜 그런 수순을 밟고 왜 그 수순이 흑이 화점 두는 것보다 더 불리한 건지는......
17/12/14 16:49
수정 아이콘
그렇네요. 왜일지는 모르겠지만 그게 좋다고 하니 몇 가지 경우를 놓고 시도해보고 외우면 되니까요.
다만 그 동생이랑 연락이 끊긴지라 이젠 알아도 응징할수가.. ㅠㅠ
빛날배
17/12/14 17:08
수정 아이콘
프로 상대로 몇점 두고 시합해야 알파고가 질까요? 바둑의 신이와도 4점인가 둬준다면 이긴다 이런소리도 있고..
bemanner
17/12/14 17:13
수정 아이콘
현재의 알파고가 몇점까지 접어줄 수 있는지는 해봐야 아는 거긴 한데,
알파고는 이세돌 버전 때부터 이미 다른 인공지능 상대로 접바둑 둬도 곧잘 이겼던 거를 생각하면
인간에게는 쉽지 않은 승부가 될 거 같습니다.
확실한건 알파고가 소위 맞바둑은 잘두면서 접바둑(양학)에는 상대적으로 약한 스타일은 아니라는 거 정도입니다.
자유의영혼
17/12/14 18:08
수정 아이콘
저도 이게 되게 궁금한데..
현재 알파고가 접바둑을 둘 수 있도록 설계학습되어 있지는 않아서..
물론 변형이 어려울 거 같지는 않은데 궁금하네요.
17/12/14 17:44
수정 아이콘
아직 알파고도 연애는 정복하지 못하겠죠?
"오빠는 왜 맨날 미안해만해?" 의 답을 빨리 알려주세요 알파고님....
킥킥킥이나
17/12/15 08:43
수정 아이콘
크크크크크 이건 저도 궁금합니다
17/12/14 17:44
수정 아이콘
본문에 나온 3시간, 19시간 된 시점에서의 기보를 토대로 추정을 해볼때, 인간이 학습하는 방식과 완전히 같다는 느낌이었습니다.
960시간동안 3천만판이니 1시간에 3만판 속도. 최초에는 여기저기 다 놓아가면서 완전 노가다식으로 터득을 해가면서, 3시간째 되면 7~8세 어린이들이 처음 바둑을 배워서 두는 모습과 같아집니다. 19시간쯤 되면 대충 그럴싸한 모습이 되고.

인간의 지식을 토대로 하지 않았다고 해서 인간과 다른 무언가가 만들어지는 것이 아니라, 수만판 수십만판 노가다를 통해 개념을 하나하나 익혀가며 '인간이 발전하는 것과 동일한 경로를 밟아가면서 동일한 결과를 나타내는' 것 같습니다.

바둑을 전문적으로 두는 사람들, 즉 프로기사들은 기존의 알파고VS알파고 대국에 대한 평을 할때 '인간으로서 이해하기 힘들 정도로 높은 수준'에 대해 주로 지적을 하는데 그것은 프로기사로서의 감상이라는 면이 강한것 같고,
과학자들은 '기존 기보를 안넣었더니 오히려 더 낫더라'라는 것을 토대로 '인간지식의 한계에 얽매이지 않았다'는 것에 대해 얘기를 하는 것 같고 그것은
인공지능 개발에 있어서의 기술적인 면을 얘기하는 것일텐데,
개인적으로, 단순히 바둑 자체만을 볼때는 '인간과 같은 학습을 통해 인간적으로 두는구나' 하는 감상입니다.

인간의 한계를 많이 넘어선 시점 이후에 인간의 바둑과 많이 달라보이는 것은, 인간이 기존에 뭘 딱히 잘못해서가 아니라 단지 알파고의 수준이 너무 높아졌다는 것에서 비롯되는 것일 가능성이 큰 것 같습니다.
인간보다 월등한 연산 능력으로부터 약간의 추상적 개념차이가 만들어지고 그런 개념들의 총체가 되는 좀 더 추상적인 개념이 발생을 하면서 현재의 인간으로서는 이해자체가 불가능한 지경에 이르렀다는 점이 중요하지, 단순히 바둑에서 표면적으로 나타나는 양상만을 가지고 얘기하는 것은 곤란할 것 같습니다.
인간을 총체적으로 넘은 단계에서 인간보다 높은 연산능력을 바탕으로 하여 만들어진 개념에 의한 수라면 그것을 '새롭다'고 할 수 있고 그것은 인간에 대한 우위를 나타내는 것이겠지만, 넘지 않은 단계에서의 학습 과정에서 나온 수가 인간이 '자주' 쓰지 않는 것이라고 해서 그것을 인간과의 차이점이라고 하기는 어려울 것입니다. 어떤 시도를 하건 그것은 단지 '어디든 두게된 결과 그 중 그런게 나올 수 있는 것'이고, 그건 인간의 바둑에서도 나올 수 있습니다.

본문의 알파고 선생 정석을 현재 인간이 참고하기는 어려울것 같습니다.
알파고의 실력이 인간을 초월하고 또 거기서 계속 증가를 거듭한 과정을 인간이 쫓아간 이후, 즉 상당한 시간동안 아주 많은 학습을 통해 좀 더 차원이 높은 개념을 습득하는 과정이 계속 누적되어야 사용이 가능할 것 같습니다.
물론 사용자체야 그냥 하면 그만이기는 하지만, 이해를 못하고 사용한다면 별 의미가 없죠.
bemanner
17/12/14 18:10
수정 아이콘
확실히 방법론에서는 인간의 방법이 크게 잘못되지 않은 게 확인된 거 같습니다.
알파고의 학습이 사실상 인간이 대국-복기를 반복하는 거나 마찬가지고, 인간이 밟아온 과정을 알파고도 밟아나가니까요.

알파고 선생님의 정석은.. 특히 저 화점 정석은 이게 진짜 바둑의 최선의 수인가 황당할 따름입니다 크크
이해가 안되도 외우라는 사람도 있을 거고 음.. 이건 진짜 전혀 전혀 모르겠어요.

개인적으로는 앞으로 바둑 인기가 현재 수준으로 유지되는 가운데 인공지능의 정석과 수순을 보고 공부한 어린이가
성인이 되서 바둑 기사로 데뷔하면 어느 정도의 활약을 보여줄지가 궁금합니다.
소인배
17/12/14 18:11
수정 아이콘
흔한 오해가, 사람의 기보를 사용했을 때보다 사람의 기보를 사용하지 않았을 때 결과가 더 낫다고 생각하는 건데, 이건 따지고 보면 근거가 없습니다.

우선 논문에 있는 supervised learning vs. reinforcement learning 비교는 이 맥락에서는 정확하지 않습니다. 전자는 강화학습을 전혀 하지 않았으니까요. 그러면 Bootstrapping을 ​SL로 시작했느냐 무작위한 ANN으로 시작했느냐를 비교해야 하는데, 그렇게 따지면 알파고 마스터와 알파고 제로를 비교해야 합니다만, 이것도 비교를 명확히 할 수가 없습니다. 마스터의 경우 블록이 몇 개인지도 엄밀히 따지면 쓰여 있지 않고(맥락상 40 blocks라 추측하는 정도), 마스터가 강화학습을 얼마나 거쳤는지도 모르기 때문에 비교할 수 있는 데이터 자체가 없어요. 반면 Zen 개발자가 메일링 리스트에서 얘기한 바에 의하면, 같은 정도로 훈련을 하면 지도학습으로 시작한 네트워크 쪽이 더 강했다는 말도 있구요.
bemanner
17/12/14 18:15
수정 아이콘
좋은 지적 감사합니다. 제로와 마스터를 동일 조건에서 비교했어야 '제로가 마스터보다 강하다'라는 게 의미를 띄는 거라서
동일 조건이겠거니 하긴 했는데 근거가 거의 없긴 합니다.

만약에 딥마인드가 제로를 더 좋은 재료, 더 좋은 방법으로 더 많이 훈련시켜서 마스터보다 강한 거라면
인간의 기보 없이 강해졌다 하는 거는 의미없는 소리가 되겠네요.
젠 이야기는 몰랐습니다. 그런 주장도 있군요. 감사합니다.
자유의영혼
17/12/14 18:12
수정 아이콘
저는 재미있었던 부분이..
축의 개념을 몇십시간 뒤에나 깨닫게 되었다고 나오더군요.
이세돌과 붙었던 알파고 버전에서는 축이라는 개념을 미리 넣어줬었는데 이번에는 저절로 학습되도록 했구요.
인간은 감각뿐만 아니라 로직도 바탕으로 학습하기 때문에 매우 초기에 깨닫게 되는게 축의 개념인데..
이런 측면에서 알파고도 아직 완전체는 아니겠지요.
자유의영혼
17/12/14 18:41
수정 아이콘
이거 파이어폭스나 엣지에서는 직접 두어볼 수 있군요.
크롬이나 익스플로러에서는 안되는거 같습니다.
직접 해보는데 신세계네요.
17/12/14 19:13
수정 아이콘
나랑 해보지도 않고 인간을 이기네 마네 하는 소리하고 자빠져 있네요.

아, 물론 저는 시간이 안되서 알파고랑 바둑은 못둡니다.
계란말이
17/12/14 19:15
수정 아이콘
제가 알파고입니다! 제가 어릴 때부터 집요하게 3×3에 두었다구요!
태연이
17/12/14 19:42
수정 아이콘
바둑 외에 알파고가 또 괴력을 발휘할만한 게 뭐가 있을까요
체스는 이미 옛날에 정복됬다고 들었고
위에 잠깐 지나간 고스톱같은 건 어떨가요(..)
스타같은 e스포츠 게임은 어느정도로 인간과 차이를 벌릴 지도 궁금하네요
(아 근데 e스포츠쪽 특히 FPS쪽은 알파고에게 뭔가 특별히 패널티를 주지 않으면 더 답이 없겠네요;)
17/12/14 19:55
수정 아이콘
스타도 결국가서는 단순 운영만으로도 인간과 차이가 많이 날테고, apm제한 같은 것이 없다면 유닛 하나하나가 춤추며 컨트롤할테니 인간으로서는 도저히 상대가 안되겠죠.

스타같은 게임은 인공지능보다는 '로봇'기술의 발전 정도를 측정하는 기준으로서 효용이 있을 것 같습니다.
인간과 같은 조건으로 로봇에 팔 두개 붙여놓고 게임하는거죠. 지금은 어림도 없겠지만 꽤 시간이 지나면 그것도 결국 로봇이 이길 정도로 발전을 하겠죠.
태연이
17/12/14 20:04
수정 아이콘
그렇군요 상세한 답변 감사합니다
알파고 글을 읽고나니깐 뭔가 다른 보드게임들? 혹은 종목들에선 어떨지 계속 궁금증이 커지네요 흐흐흐
프로피씨아
17/12/16 22:26
수정 아이콘
아닙니다. 스타가 바둑보다 훨씬 어려운 게임이고 현재까지 등장한 그 어떤 딥러닝 네트워크도 스타 정도의 복잡성을 가진 게임에서 인간을 이기기는커녕 게임의 목적조차 파악을 못하고 있는게 현실입니다. 이건 단순히 하드웨어를 많이 붙인다고 해결될 것도 아니어서 새로운 돌파구가 필요한 상황입니다.

만약에 진전이 있어서 어느정도 판단이 된다 하더라도 팔 두개 로봇 붙여놓고 게임하는거야말로 보여주기 외에 무슨 의미가 있나요?
그렇구만
17/12/15 00:23
수정 아이콘
(수정됨) 약간 단순히 생각해서 인간이 두는 바둑의 카운터 빌드 아닐까요? 어차피 계속 상대는 사람이었으니까 그걸 이기는 최고의 수만을 학습했을거같은데... 저 알파고 제로를 상대로 또 다른 알파고를 키우면 제로를 이기는 카운터 빌드가 나올거고 다음 알파고가 또 카운터 빌드를... 이런식의 반복이 아닐까요?
Lord Be Goja
17/12/15 05:47
수정 아이콘
학습을 할때는 ai들하고(대다수는 자신과의 싸움) 했죠
해피바스
17/12/15 02:23
수정 아이콘
바둑에 대해서 인간이 갖고 있는 개념이 알파고한테는 단순한 편견일수도 있겠네요
단적인 예로 삼삼침투는 초보 시절부터 곧바로 침투하는 것은 좋지 않다고 합니다.
귀에서 조그맣게 사는 댓가로 상대에게 흠집없는 두터움을 내주기 때문에 반드시 걸쳐둔 돌을 기점으로 침투하라고 하죠
알파고는 오히려 극초반에 확정가를 갖고 시작하는게 낫다고 보는지도 모르겠네요.
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
74998 [일반] 가상, 실물을 위협하다 [77] 유유히12357 17/12/15 12357 5
74996 [일반] 그가 사랑하는 나, 그리고 내가 사랑하는 그 [30] 메모네이드7703 17/12/15 7703 27
74995 [일반] MBC 공채를 기다리며 [35] 러블리즈서지수12071 17/12/15 12071 12
74994 [일반] 포스와 함께한 스타워즈 결혼식 ft. 스톰트루퍼 (사진스압) [60] 삭제됨9540 17/12/15 9540 65
74993 [일반] 가상화폐는 왜 돈이 될까 [59] grrrill11567 17/12/15 11567 3
74992 [일반] "행운이 되어줘서 감사합니다" [10] 스타슈터5669 17/12/15 5669 21
74990 [일반] 우병우 前민정수석 구속 [63] 최강한화13808 17/12/15 13808 38
74988 [일반] 다음지도로 한 번씩 찾아보는 옛날 집 [16] style8825 17/12/15 8825 6
74987 [일반] 오늘 뉴스룸 정우성 인터뷰 [37] 인사이더12322 17/12/14 12322 11
74986 [일반] [잡담] 피자 [25] 언뜻 유재석7928 17/12/14 7928 61
74985 [일반] 스포 포함된 스타워즈: 라스트 제다이 감상평 [94] Mr.Doctor8450 17/12/14 8450 1
74984 [일반] [짤평] <강철비> - 현실적인 한반도 전쟁 시나리오 [153] 마스터충달13952 17/12/14 13952 19
74983 [일반] [스포 있음]스타워즈:라스트 제다이 보고 왔습니다. [68] norrell7425 17/12/14 7425 4
74982 [일반] 바둑 인공지능 이야기 [13] 소인배7864 17/12/14 7864 9
74981 [일반] 40살이 되어도 달라지는건 없다. [7] 영혼의공원8018 17/12/14 8018 3
74980 [일반] 시장 큰손들의 합법적 주가조작 [33] 삭제됨10548 17/12/14 10548 2
74979 [일반] 군 장병은 왜 아픈가? [76] 여왕의심복12928 17/12/14 12928 134
74978 [일반] 성범죄 혐의 교원 즉각 직위해제 법안 발의 [149] MirrorShield11685 17/12/14 11685 8
74977 [일반] [바둑] 알파고의 근황 [75] bemanner15623 17/12/14 15623 18
74976 [일반] 유방과 항우의 싸움 (4) 암흑책사 진평 [10] 신불해10744 17/12/14 10744 19
74975 [일반] 중국에서 대통령 수행 기자단들이 폭행 당했습니다 [199] 내일은해가뜬다17580 17/12/14 17580 0
74973 [일반] 검찰 '국정농단 정점' 최순실 징역 25년 구형(속보) [61] 손나이쁜손나은9405 17/12/14 9405 3
74972 [일반] 재미로 하는 정치성향 테스트 [32] 렌야9898 17/12/14 9898 0
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로