PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2025/02/01 14:14:25
Name Quantumwk
File #1 수능29.png (23.3 KB), Download : 1635
Subject [일반] AI가 수능 수학 킬러문제도 맞추네요 - 오류 발견, 수정 글 추가 작성 (수정됨)


GPT가 자기 풀이과정이 틀리지 않았다고 계속 우겨서(?) 검토를 계속 하던 도중에 오랜만에 무한 급수의 재배열 정리라던지 이런 것 까지 살펴 본 끝에 해당 문제를 GPT가 텍스트로 옮기는 과정에서 원래 문제랑은 좀 다르게 된 점을 발견했습니다.

그래서 제가 단 댓글과 본문에 오류가 있었으며 수정 한 글을 링크로 달았습니다.

결론은 문제 잘못 알려 줘서 수학 강사랑 다르게 푼거고 제대로 알려주니 정상적으로 풀었습니다. (여전히 약간 비효율 적이기는 함)

제가 'GPT가 무한 급수를 다루던 과정에서 오류가 있었습니다'라고 단 댓글은 모두 틀렸습니다. 혼란을 드려 죄송합니다

ps도 선 그어 놨습니다.


수정한 글 링크

https://pgr21.co.kr/freedom/103655


open AI가 딥시크에 자극 받았는지 수학-코딩이 대폭 강화된 O3-mini-high를 예상보다 빨리 내놓았습니다. (어제 새벽)

혹평도 있지만, 수학-코딩은 엄청난 향상이 있었다고 해서 올해 수능 킬러문제 풀려 봤는데  정답을 맞췄습니다.

예전 버전은 뒷걸음 질 치다가 우연히 맞추는 경우는 있었지만 풀이가 틀렸거나, 아예 엉뚱하게 풀었는데 이번에는 어느정도는 제대로 푸는 느낌.(유튜브로 풀이 보니까 쓸데 없이 복잡하게 풀긴함) 푸는 시간은 36초 걸렸습니다. 풀이 쓰는데 한 3~4분 걸렸고

메가 스터디 가보니 난이도 최상으로 분류 되어있고, 정답률은 21프로로 올해 수능 수학에서 3번째로 어려운 문제입니다. (미적분 기준)

수학강사 유튜브 풀이만 봤을 때에는 아주 어려운 문제는 아니긴 하지만, 시험장에서 제한되어있는 시간내에 풀기에는 만만치 않은 문제임. 이제 이런 류의 수학은 안 한지 오래되서 그냥 시간 주고 풀라고 하면 풀어도 시험장에서 풀라고 하면 시간내에는 못 풀었을 거 같네요. 하지만 이제 AI 님한테는 36초짜리 문제일 뿐이네요....

풀이과정은 인간에 비해서는 좀 비효율 적인 느낌이 있고 너무 길어서 문제만 이미지 따고 풀이는 링크로 겁니다.

딥시크에 자극 받았는지 cot (chain of thought)도 앞에 집어 넣어줬네요.

o3-mini-high 풀이
https://chatgpt.com/share/679dad31-36cc-8000-8481-b4c68e3062c0

수학 강사 풀이
https://www.youtube.com/watch?v=3HlhPrcOdUY



ps. o3 풀이를 다시 검토해보니 오류가 하나 있습니다. 수학 강사님의 풀이 마지막이랑 o3의 풀이 마지막이랑 비교해보니 약간 값 차이가 나서 검토해보니 o3에서 무한급수 계산할때 오류를 범한거 같네요. 무한 급수 summation index의 끝값이 2n이라 그냥 무한대로 취급하면 안될 텐데 그냥 무한대를 대입해버리고 계산 했습니다. 끝값이 n이었다면 맞겠지만 2n이기 때문에 똑같지 않을 텐데 lim n -> 무한대라고 2n을 그냥 무한대 취급하고 계산해 버렸고, 수학강사 풀이와 좀 달라져 버렸음. 훨씬 비효율 적으로 풀기도 했구요.

결국은 이번에도 뒷걸음 치다가 맞았기는 했음. 그래도 대수 분야에서는 어느 정도 감 잡고 거의 정답에 가깝게 푼다고 봐야 합니다. 실제 풀이랑 소수점만 다른 정도이고, 어차피 부등호 문제라서 답을 맞추는 데에는 문제는 없었음. 근데 만약에 급수의 값을 물어 보는 문제 였다면 오답이긴 했을 듯 합니다.

어쨌든 중요한건 사칙연산도 제대로 못하던 2년전에 비하면 발전속도가 엄청 나고 올해 늦어도 내년 중에는 수능 수석도 가능하지 않을 까 싶습니다.





통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
데몬헌터
25/02/01 14:50
수정 아이콘
컴퓨터가 가장 강한 분야가 계산이죠. 다들 울브램알파는 몰라도 계산기는 쓰잖아요?(지금까지는 돈받고 로그를 팔았지만요..)
Quantumwk
25/02/01 14:53
수정 아이콘
(수정됨) 수학 강사 풀이 보니 o3가 무식하게 푼 느낌은 있습니다. o3는 an을 구한 후 집어넣고 직접 계산했는데 수학강사들 풀이보면 그렇게 할 필요가 없더군요. 그리고 다시 검토해보니 오류가 하나 있습니다. 이번에도 뒷걸음 치다가 맞은 게 맞기는 함. 그래도 이제는 대수 분야에서는 어느정도 감 잡고 거의 정답에 가깝게 푸네요.

어쨌든 간단한 사칙연산도 틀리던 2년 전쯤에 비하면 장족의 발전이죠. 발전 속도가 무시무시하고 올해, 늦어도 내년 정도에는 AI가 수능 수석 충분히 할 수 있지 않을 까 하는 생각도 듭니다.
사다드
25/02/01 15:02
수정 아이콘
29번은 킬러문항이 아닙니다. 또한 올림피아드 문제에 대한 AI의 능력은 이미 알려져 있고요. 다만 미적분, 수2의 그래프 관련 킬러문항은 AI가 어떻게 접근하는지, 어떻게 해결하는지가 궁금하네요. 잘 푸는 것보다 잘 가르치는 것이 중요한 영역이라 조금은 다르게 접근할 필요는 있어보입니다.
Quantumwk
25/02/01 15:05
수정 아이콘
(수정됨) 요즘 수능 수학에 대해서 잘 모르고 그냥 메가스터디 통계 보니 정답률 하위 3위라 킬러 문항이라고 생각했습니다. 킬러문항의 기준을 잘 몰라서....

아직은 문제에 따라 헤메는 경우도 많다 합니다. 기하 문제 30번 풀게 해봤는데 틀리더군요. 그냥 현재 AI의 발전상을 소개 하는 측면에서 써봤습니다. AI가 얼마나 똑똑해졌는지를 한국사람들한테 가장 확 와닿게 하는 것 중 하나가 수능 문제 푸는 거 보여주는 거니깐요.

그리고 o3 풀이를 다시 검토해보니 오류가 하나 있습니다. 이번에도 뒷걸음 치다가 맞았기는 했음. 그래도 대수 분야에서는 어느 정도 감 잡고 거의 정답에 가깝게 푸네요.
그렇군요
25/02/01 15:02
수정 아이콘
수포자는 웁니다 ㅠ
Quantumwk
25/02/01 22:31
수정 아이콘
수포자일 수록 오히려 좋을 수도 있습니다. 수포자나 수학 잘하는 사람이나 이제 AI 앞에서는 곧 평등해 지니깐요.....
사업드래군
25/02/01 15:15
수정 아이콘
근데 O1 PRO로 초등학교 약간 어려운 수학문제 올려서 풀어보게 했는데 풀이과정의 논리가 이상해서 이게 맞아? 할 때마다 답을 다르게 내놓더라고요. 저만 그런 경험을 하는지는 몰라도 저는 아직 완전히 신뢰를 하지 못하겠더라고요.
Quantumwk
25/02/01 15:18
수정 아이콘
(수정됨) 사람들 평으로는 계산으로 때려 박는 대수 문제는 잘 풀고 함수, 기하 이쪽은 아직도 좀 해메는 듯 합니다. 이 문제도 풀이과정 검토해보니 오류가 하나 있었는데 소숫점 차이만 나고 어차피 부등호 문제 답을 맞추는 데에는 문제가 없었지만 무한급수의 정확한 값을 물어 봤으면 틀렸을 거에요.

그리고 이번에 나온 o3가 언어를 너프 시키고 수학 쪽을 특히 강화 시킨거라 (언어쪽에서는 혹평이 많음) 언어에 강점이 있는 o1 pro는 더 오류가 많이 날꺼에요. o1 PRO는 대신에 언어는 이제 거의 다 맞춘다고 하더군요.
전기쥐
25/02/01 15:26
수정 아이콘
컴퓨터는 단순 사칙연산에 강하고 언어능력이 떨어지는 거라는 게 일반 상식이었는데 지피티는 그 반대인 거 같아요. 이번 버젼은 본문처럼 한번 테스트해보고 판단해야겠네요.
Quantumwk
25/02/01 15:28
수정 아이콘
제가 흥분해서 좀 급하게 올렸는데 여러 사람들의 평이나 제가 다른 문제로 테스트 해본 결과로 보면 아직은 부족한 면이 있습니다. 다시 검토해보면 이 문제도 좀 운이 좋아서 맞춘거고(이전처럼 완전히 쌩뚱맞게 풀었는데 우연히 맞춘건 아니라 한 군데 실수가 있던거지만....), 함수나 기하 문제는 완전 핀트 잘못 잡는 경우가 꽤 있어요.

그래도 엄청난 발전이고, 수능 수석급이 되는데에는 긴 시간이 걸리지 않을 것이 확실해보입니다.
25/02/01 15:31
수정 아이콘
저도 문제 몇개 넣고 돌려봤는데 수능 문제 학습한거 같습니다. 풀이 다 틀리고 정답만 맞추는 경우가 자주 있어요.
Quantumwk
25/02/01 15:33
수정 아이콘
(수정됨) 이 문제는 학습했다기 보다는 (학습했다기에는 비효율 적으로 품) 설명 했듯이 부등호 문제라 약간의 오류가 있어도 답 맞추는 거에는 문제가 없었던거였습니다. 비효율적으로 풀어서 그렇지 이전 처럼 완전 엉뚱한 풀이는 아니네요. 무한 급수 처리하는 과정에서 오류하나가 있었을 뿐 거의 정답에 근접하게 풀었고, 부등호 문제여서 답도 맞췄습니다.

그리고 기하나 함수 문제는 아예 답도 틀리고, 풀이도 엉뚱하게 합니다.

어쨌든 수능 수석급이 되는 데에는 오랜 시간이 걸리지는 않을 거 같습니다.
25/02/01 15:47
수정 아이콘
주장에 대한 근거가 명확하다면야
사람들이 그것에 대해 동의도 하도, 납득도 하겠지만

그냥 계속 수능 수석만 외치고 있는 상황을 보니까
좀 당황스럽네요

어느 부분에서 그렇게 강한 흥분을 느꼈는지 전혀 모르겠습니다
악의적으로 쓴 댓글은 아닙니다
Quantumwk
25/02/01 15:58
수정 아이콘
(수정됨) GPT 2년 전 버전 만 해도 간단한 사칙연산도 다 틀리는 수준이었습니다.... 그리고 언어쪽에 더 강점이 있는 o1 pro의 경우는 이미 수능 언어영역 대부분 맞추고 있구요.

이 문제도 메가스터디상에서는 난이도 '최상'으로 분류된 문제고 정답률 20프로대인데 맞췄습니다. 풀이 검토해보니 좀 비효율 적으로 풀었고 오류도 있었지만 값 차이가 거의 없었고 부등호 문제라서 답 맞 추는데에는 문제가 없었음. 심지어 이건 o3-mini 버전으로 아직 릴리즈 안된 o3에 비해서는 많이 너프된 버전입니다. 이 정도 발전 속도면 수석급이 되는 데에는 그리 오랜 시간이 걸리지 않을 거라고 추론 할 수 있죠.

사실 어제 o3-mini 나오기 전 논문에서 수학 올림피아드 문제에서 보인 성과 들만 봐도 (윗 댓글에도 올림피아드에 대한 언급은 있었음) 충분히 예측은 가능한건데 우리한테 가장 잘 와닿는 건 수능 문제 푸는 거이기에.....
Quantumwk
25/02/01 15:59
수정 아이콘
(수정됨) 지금 정도의 결과로 수능 수석급이 되는게 아무 근거가 없어보여서 당혹 스럽고 함부로 추측하는 게 잘못되었다면 2년전에 간단한 사칙 연산도 다 틀리는 gpt를 보고 2년내에 지금 정도 레벨에 도달한다고 말하는 것도 굉장히 당혹스럽고 근거 없는 잘못된 추측에 불과했겠죠.
25/02/01 16:41
수정 아이콘
사실 아까 전에 댓글로 쓰려다가, 너무 비아냥 거리는 거 같아서 그냥 지운 내용인데

그래도 수능 문제 굳이 찾아보고, 무슨 문제들 있나 살펴볼 정도면
객관식/주관식 정답률이 어느 정도 느낌인지는 알고 있지 않나요?

가형 나형 전부 섞은 표본 기준으로, 주관식 정답률 20%면 진짜 말도 안 되게 높은 겁니다
좀 더 와닿게 말하면, 가형 4등급 학생들도 저 문제 맞춘다는 말입니다
이거는 수능 제도가 바뀌고 말고 하기 전에, 30년전 응시하셨던 현재 50대 분들도 다 아는 내용이지 않을까요

아니 정답률을 따지기 전에, 무슨 문제인지 한 번 직접 풀어보세요
저도 도대체 저게 뭔 문제인가 싶어서 한 번 a4 용지 꺼내서 풀어보고, 버벅거리긴 했지만 답이 나왔는데
시간만 있으면 무슨 최첨단 ai가 아니라 그냥 지극히 평범한 일반 사람들도 다 맞히고 바로 다음 문제 넘어가는 난이도입니다

문제 정답률에 의탁해서 그냥 넘겨짚지 말고, 직접 풀어보세요
전혀 흥분할 필요도 없고, 놀랄 이유도 없습니다
Quantumwk
25/02/01 16:47
수정 아이콘
(수정됨) GPT가 2년전에 수학문제 풀었던 거 보면 충분히 놀랄만합니다..... 수능 고득점 출신에 수능 본지 얼마 안됐거나 관련 업계 분이신 입장이라면 호들갑떨 정도 까지는 아니라고 볼 수는 있겠지만 핵심은 발전 속도와 지금 여러 벤치마크에서 나오는 결과를 보는 게 중요한겁니다. 그냥 일반 사람들 와닿게 수능 문제 푸는 거 가져왔을 뿐이고, 논문이나 벤치마크 테스트에서 아직 대중한테 릴리즈 안된 AI들이 고급 수학문제를 대상으로 보여주는 결과들 보면 무시 무시 합니다.

전 업계 사람도 아니고 수능 본지 너무 오래 되서 감도 없습니다만은 어쨌든 통계에서 보니 정답률 하위에서 3번째에 드는 문제입니다. 수능 30문제 중에 3번째로 어려웠던 문제라는 뜻이죠. 최상위권 or 수학 강사 입장에서는 별거 아닐 수 있겠지만 어쨌든 평균 보다는 훨씬 어려운 문제임이 명백하죠. 전 아직도 수학 어느 정도는 접하는 사람인데도 이런 입시 수학은 손 놓은지 오래되서 그런지 풀이 따라가고 분석하는 것도 애먹었습니다. o3 풀이 오류도 못 찾았다가 한참 들여다보고 알아냈구요.

수능이 너무 오래된 시험이라 문제 난이도가 많이 올라갔다고 들었는데 정말 그렇게 느껴 집니다. 경기고-서울대 물리학과 학부(예비고사 수석임)-스탠포드 박사에 이 과정에서 엥간한 시험은 다 휩쓸었던 오세정 교수도 나중에 문제 출제 요원으로 들어 갔다가 수능 수학 거의 하루종일 붙잡고 풀면서 기겁했다고 하죠.

참고로 2년전에는 LLM들한테 수능 문제 던져 주면 핀트 거의 하나도 못 잡고 완전 엉뚱하게 풀었습니다. 기본적인 사칙연산도 다 틀렸었구요.
25/02/01 16:49
수정 아이콘
뭐 제 생각이 당연히 틀릴 수도 있는 거니까
재차 말씀하시는 그 발전 속도에 저도 조금 더 마음 열어서 관심 기울여 보겠습니다
마그데부르크
25/02/01 16:57
수정 아이콘
수능때 핸드폰 들고가서 ai로 수학문제 푸는거 가능할까요?
Quantumwk
25/02/01 22:31
수정 아이콘
가능 할리가....
Quantumwk
25/02/01 22:31
수정 아이콘
다른 모델 비교 해보니 GPT 현재 무료 결제 버전인 4o-mini와 4-legacy는 이 문제 손도 못 댑니다. 유료 결제에서도 Default model인 4o는 중간에 삼천포로 빠져버리구요..... 유료결제에서 주 50회 제한인 o1은 o3-mini와 거의 똑같은 풀이로 정답. 대신에 70초로 좀 더 오래 걸렸습니다. 벤치 마크 점수 보면 이거보다 더 어려운 문제 던지면 o1이랑 o3-mini의 격차는 더 벌어질 듯. 대신에 o1은 언어 능력은 o3-mini 압도 한다는 평.

딥시크 V3이 본문이랑 거의 똑같은 풀이로 정답 직전까지 가다가 막판에 짝수만 해당된다는 조건 놓쳐서 틀렸고, R1은 계속 먹통이라 테스트 못해봤습니다. 추론을 끈 V3 모델도 잘 푸는 거 보면 사람들이 딥시크에 왜 이리 충격 받았는 지 알 수 있음.
주파수
25/02/01 17:50
수정 아이콘
AI는 종국에는 인류의 난제를 해결할 수준으로 활용될 것으로 사실 다른 의미로 전혀 흥분할 필요도 없고, 놀랄 이유도 없다고 생각합니다.
수능정도 난도의 수학문제를 100%로 맞추는 정도의 지능 상승은 그냥 스쳐지나갈 과정 수준입니다.
Quantumwk
25/02/01 19:49
수정 아이콘
(수정됨) 한국에서 수능이라는 의미가 워낙 크다보니 AI가 수능 수석 한다는걸 굉장히 크게 받아들이시는 분들이 있어서 그런것 같습니다. 솔직히 제가 어느정도 의도한 바기도 하구요....

전 특이점 주의자라 수능 잘 푸는걸 대단하게 보는건 아닙니다. 다만 여러번 얘기했듯이 한국사람들한테 AI성능을 가장 직관적으로 보여줄 방법중에 하나니까 그런식으로 의도하고 쓴건 있음.
25/02/01 18:00
수정 아이콘
댓글 분위기가 오히려 신기하네요. 그림이랑 번역업계 초토화시킨 것만 봐도 이런 쪽으로 차근차근 나아가는게 어떤 느낌인지 알 수 밖에 없지 않나 싶은데
25/02/01 18:54
수정 아이콘
그 초토화당하는 분들이 적대감을 많이 보이시더라구요
이해도 되고 러다이트 운동을 괜히 했겠나 싶어요
25/02/01 19:23
수정 아이콘
딱히 그런 이해관계 때문으로 보이지는 않고,
어떤 이들에게는 본문의 AI 학습 단계가 발전 과정에서 필연적으로 거쳐갈 하나의 마일스톤 정도로만 인식되는데
글쓴이는 이를 커다란 전환점 혹은 변곡점이 되는 것처럼 (그들 기준에서는)과장되게 서술해서, 그에 따른 딴지 내지는 반작용의 댓글들이 나오는 게 아닐까 합니다.
Quantumwk
25/02/01 19:46
수정 아이콘
(수정됨) 전 AI에 워낙 관심 많고 특이점도 믿는 사람이라 이게 전환점이라는 생각은 전혀 안하구요....

한국에서 수능이라는 의미가 워낙 크다보니 AI가 수능 수석 한다는걸 굉장히 크게 받아들여서 그런것 같습니다. 여러번 얘기했듯이 한국사람들한테 AI성능을 가장 직관적으로 보여줄 방법중에 하나니까 그런식으로 의도하고 쓴건 있음.
25/02/01 18:29
수정 아이콘
추론 성능이 많이 올라간건 맞는것 같습니다.

다만, 수능 문제 풀이를 벤치마크로 삼기는 어려운게 시간제한으로 보통은 쓸 수 없는 방식으로 푸는 경우가 많다고 보시면 됩니다.
위에서도 좀 무식하게 돌아가는 방법으로 풀었죠.

수틀리면 수치해석으로 해결해버리는 식이라 객관식 시험만으로는 능력 평가가 어렵다고 봅니다.
Quantumwk
25/02/01 20:00
수정 아이콘
(수정됨) 좀 무식하게 풀긴 했어도 수치해석으로 접근한건 아니고 나름대로 맞는 방법으로 풀었다고 봅니다. 사람이 적용하기에는 실용적이지도 않고 실수도 있었지만....
Mini Maggit
25/02/01 19:46
수정 아이콘
왜 수능 수석을 강조하시는지 이해가 안되니 의아한 반응이 나올 수밖에요. 킬러문제를 풀어내는 게 우리가 특별히 인지해야 하는 변곡점인가요? 본문 내용상 29번 풀이에 헛점도 있고, 당일 유게 올라온 가형 30번은 수리 나형에 경수 꼴지해서 재수강 수없이 반복한 저보다 못 풀길래 오히려 매우 실망스러웠는데요.

설사 이게 대단한 지표라 하더라도 자격시험의 영역에서는 무슨 의미가 있는지 모르겠습니다. AI가 인지하는 시험의 난이도 위계는 인간과 전혀 다를텐데 9급 정도 제외하면 하급 시험인 수능에 주목해야 하는 부분이 특별히 있나요. 훨씬 어려운 의 회 변 5 이런 건 모조리 다 외워서 계산 쉽게 해내고 판례 귀신같이 써내겠지만 그렇다고 우리 인지가 변화한 것도 아니고.
Quantumwk
25/02/01 19:57
수정 아이콘
(수정됨) 변곡점이라던가 대단한 지표가 되었다는 의미가 아니라 (특이점 주의자라서...) 그냥 발전상을 강조하려고 얘기한거고 그동안 LLM이 약했던 수학 영역에서도 큰 발전이 있었다는건데 받아들이는 분들이 그렇게 느끼는거 같습니다. 물론 의도한것도 있지만요...
Diadochi
25/02/01 19:59
수정 아이콘
개인적으로는 AI 특이점 중 하나로 AI가 국제수학올림피아드 문제를 풀 수 있는 지점을 꼽습니다
Quantumwk
25/02/01 20:07
수정 아이콘
(수정됨) 이미 시중에 풀리지 않은 인공지능(o3)의 벤치마크 결과를 보면 올림피아드 수준 문제에서도 상당히 괜찮은 성적을 보였습니다.

https://gigazine.net/gsc_news/en/20241225-ai-frontiermath/

Mathematicians talk about the shock of OpenAI's o3 model scoring 25.2% on the ultra-difficult math dataset 'FrontierMath'
Quantumwk
25/02/01 20:19
수정 아이콘
https://news.hada.io/topic?id=18413

FrontierMath의 문제들은 연구 수학자에게도 비전형적이며, 일부 문제는 박사 과정 수준의 지식이 필요함.
데이터셋의 문제들은 수학적 증명보다는 숫자를 찾는 데 중점을 두고 있음.
수학 연구자들은 주로 증명이나 아이디어를 찾는 데 시간을 쓰기 때문에, FrontierMath는 AI 수학 연구에 중요한 데이터셋임.
25/02/01 20:15
수정 아이콘
앞으로 10년 후에는 이공 계통 일자리는 큰 변화를 맞이 할 것 같습니다.
Quantumwk
25/02/01 20:20
수정 아이콘
네 이공계 관련 종사자로서 앞으로 어떻게 될지 기대되기도 하고 두렵기도 합니다

사실 이공계 뿐만 아니라 모든 분야가 대변혁을 맞이 하겠죠
25/02/01 21:24
수정 아이콘
진짜 5년 후도 엄청 날 거 같아요...
Quantumwk
25/02/01 22:25
수정 아이콘
네.... 10년도 너무 길게 잡았습니다. 근데 사람들의 저항이 워낙 거샐거라서 본격적인 변화는 10년 까지도 봐야 함.
안군시대
25/02/01 20:37
수정 아이콘
이번에 노벨상을 받은 딥마인드의 프로젝트는 인류의 난제 중 하나였던 단백질 폴드 문제를 풀어냈는데 수능 수학 문제 정도로 호들갑 떨 일인가 싶긴 하죠.
물론 범용 AI가 이런 분야에서도 성능을 발휘한다는 건 고무적인 일이긴 합니다. 하지만 사람들이 AI에 기대하는건 이 정도가 아니긴 해요. 아직까지도 과학자들 조차도 답을 못 내놓고 있는 여러 난제들을 풀어낼 수 있는 인공지능을 기대하고 있으니까요.
Quantumwk
25/02/01 20:41
수정 아이콘
재밌는건 전 그냥 '수능 수석 곧 할거 같다, LLM은 원래 수학에 약했는데 발전속도가 빨라서 고무적이다' 이렇게 얘기한건데 읽는사람들이 '호들갑이네, 대단한 건가?'라고 말한다는겁니다

이건 역으로 읽는 사람들이 'AI가 곧 수능 수석 정도는 곧 할거 같아요'를 '우리 AI가 정말 대단한 일을 해냈어요'라고 무의식중에 받아들였다는 얘기기도 합니다. 제가 어느정도 의도한바기도 하구요....
안군시대
25/02/02 01:43
수정 아이콘
만약 수능문제들을 중점적으로 학습시킨 AI를 만든다면 현재의 기술만으로도 수능 수석도 충분히 가능할걸로 보입니다. 규모를 충분히 늘려서 한다면 만점도 가능할걸요? 단지 수능에만 특화시킨 AI를 개발하지 않고 있을 뿐이지요.
이민들레
25/02/01 20:43
수정 아이콘
얼마전에는 간단한 금리계산도 삐걱대더니 금방 많이 좋아졌나보네요..
Quantumwk
25/02/01 21:15
수정 아이콘
(수정됨) LLM이 언어쪽은 많이 발전했어도 수학은 형편 없었죠.
이 o3버전은 언어를 너프시키고 대신에 수학을 엄청 향상 시켰다 합니다. '이과형' 인공지능 인거죠

이게 장기적 관점에서 보면 별거 아닌거지만 단기적으로는 꽤나 큰 향상이 맞습니다. '이게 뭐라고?'라고 한다면 o3 이전버전으로 수학문제 풀게 해본적이 없었던 사람일 확률이 높음.

근데 딥시크 R1 끄고 (추론 끄고) 해도 거의 유사한 풀이로 정답 직전까지 가긴 하네요. 딥시크가 확실히 대단합니다.
Quantumwk
25/02/01 22:19
수정 아이콘
(수정됨) 참고로 GPT4는 legacy 모델, GPT4o-mini (무료 버전)은 이 문 아예 손도 못댔습니다.

GPT4o(유료결제시 기본 버전)의 경우는 풀긴 했는데 중간 부터 완전 엉뚱하게 풀었고, 1주일에 50회 사용할 수 있는 o1은 맞게 풀었습니다.

정리해보면
1) 정답 맞춤
GPT-o3mini, GPT-o1: 다만 둘 다 무한급수 계산 미스는 있었음.
2) 거의 정답에 근접
딥시크 V3: 1)과 똑같이 풀어나가다가 마지막에 홀수만 해당된다는 거 놓쳐서 틀림. R1이 답 맞추는 지가 궁금하네요. R1이 계속 먹통이라
3) 오답
GPT4o: 중간 부터 삼천포로 빠짐
4) 손도 못댐
GPT4o-mini (무료시 기본 모델), GPT4 legacy
발적화
25/02/01 20:55
수정 아이콘
딥시크 로는 300초 정도 걸리네요...보기엔 딥시크가 더 깔끔? 하고요.
Quantumwk
25/02/01 21:15
수정 아이콘
딥시크 자꾸 먹통되서 못쓰고 있는데 한번 풀려보려구요
Quantumwk
25/02/01 22:08
수정 아이콘
(수정됨) 딥시크 R1 끄고 해도 꽤 잘 해나가는 데 (o3랑 유사하게 품) 마지막에 오류가 있어서 오답.
딥시크가 확실히 대단하긴 합니다.

R1 키면 자꾸 먹통이 되서 이건 아직 못해봤네요ㅠㅠㅠ 왠지 R1은 제대로 풀거 같은??

근데 테스트 결과들을 보면 o3는 수학, 코딩에서는 확실히 우월하긴 해서 다른 문제로 비교해봐야 할 수도 있습니다. 이제 딥시크와 o3 수준에서 이 정도 문제는 대단한 문제는 아닌 거겠죠.
JILLSTUART
25/02/01 21:48
수정 아이콘
그림쟁이의 슬픔을 모두가 평등..하게 누려보셨으면 합니다 하하 ㅜㅜ
Quantumwk
25/02/01 22:00
수정 아이콘
(수정됨)
삭제, 일반탭 정치 발화 (벌점 4점)
타도멸콩
25/02/02 00:04
수정 아이콘
미국이랑 극소수 국가만 AI 혜택을 보고 나머지는 기본소득은 커녕 최하위 극빈국으로 떨어질 가능성을 많이 보더군요. 그리고 중고생 무상급식도 반대가 심했던 한국 (결국 오세훈 서울시장 사퇴로 통과)
현재는 이재명 25만원 지역화폐(현금도 아니고 그 지역에서만 쓸수있고 소비기한이 정해져 있음)도 포퓰리즘이라고 반대하는거 보면 한국에서 기본소득제는 불가능하다고 봅니다.
Quantumwk
25/02/02 09:03
수정 아이콘
근데 잘사는 국가들도 그 다음 국가들이 어느정도의 삶의 수준은 영위해야 본인들도 잘살게 되는거라 정치색,국가를 떠나 AI의 발전상을 인식하고 어느정도 마음의 준비를 해야 할때가 온거 같습니다.
25/02/01 23:54
수정 아이콘
솔직한 얘기로 바이오쪽도 대부분의 연구영역에서 막 엄청나게 높은 수준의 지적능력이 필요하지 않아서 가설설정 실험디자인 결과분석 등 대부분의 지적활동은 다 대체될거라고 봅니다. 실험 수행하고 데이터 만들어줄 생체로봇(aka 인간)이 필요할 뿐이죠. 인간이 연구하는 현재시점에도 바이오쪽 바틀넥은 정확한 실험과 결과나오는 속도지 지적활동은 아니거든요. 처음 가설설정할 때 가설 기각되면 그 다음 가설 그다음 가설 그 다음 가설 정도는 뭐...
Quantumwk
25/02/02 08:51
수정 아이콘
(수정됨) 바이오가 아니라 타 이공계도 노가다 뛰는거 아니면 다 대체될듯 합니다. 인간은 AI가 시키는대로 실험이나 하는.... 그래도 저도 실험을 종종 하기 때문에 조금은 더버틸듯 크크

요즘 로봇 발전도 눈부시기는 한데 로봇이 인간보다 가성비가 좋아지려면 아직은 시간이 좀 필요해보이거든요
25/02/02 01:13
수정 아이콘
엄청난 성과라고 봐요. o1이나 r1은 확실히 변곡점이죠. 추론시간을 스케일링하면 reasoning이 나온다는게 혁명급이죠. 위에 부정적인 댓글단 사람들은 ai에 대해 정확히 잘 모를거에요
Quantumwk
25/02/02 08:48
수정 아이콘
(수정됨) 그렇죠 그리고 LLM이 유독 수학을 못했었는데 1~2년전 LLM으로 수학문제 안 풀려봐서 그리생각하는듯 합니다

멀리 갈것도 없이 지금 유료버전 default model인 4o는 아직도 이 문제 엉뚱하게 풉니다
FlutterUser
25/02/02 04:46
수정 아이콘
부정적인 댓글 단 분들은 그냥 AI발전을 잘 모르거나, [내가 수능 못하진 않았어] 라고 표현하고싶은마음 그 이상도 이하도 아닙니다.
이 속도라면 10년뒤에는 꽤 충격적일 것 같아요. AGI 같은건 안나올것 같지만, 적어도 온라인세계에서 표현 가능한 지식에 대해서는 두려울 정도로 발전할지도요.
Quantumwk
25/02/02 08:52
수정 아이콘
(수정됨) 네 그럴겁니다. 솔직히 10년도 좀 넉넉하게 잡았다봐요

한국이 수능에 관한거에 워낙 예민하게 반응하긴합니다.
특히 소시적에 수능 좀 잘쳤던 사람들일수록... 사실 그걸 잘 알기에 AI발전 마일스톤에서 그리 대단하다고 할수 없는 수능 문제 풀기를 가져온거기도 합니다.

전 수능 공부를 아주 열심히 한타입도 아니고 다만 전공 공부를 좋아하고 재밌어한다고 착각(?)해서 (다행히 소질이 아주 없지는 않았음. 학계에서 살아 남을 수준은 안됐지만....) 여기 까지 왔는데 ,전문직종에 있는 사람이라던가 이런분들은 다른 사람과의 차별화를 위해 이를 악물고 공부한거라 시험 공부 잘 하는게 크게 의미가 없어지는 세상이 오고 있는 걸 받아들이기 어려워하는듯 합니다.
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
공지 [정치] [공지] 정치카테고리 운영 규칙을 변경합니다. [허들 적용 완료] [126] 오호 20/12/30 287865 0
공지 [일반] 자유게시판 글 작성시의 표현 사용에 대해 다시 공지드립니다. [16] empty 19/02/25 349151 10
공지 [일반] [필독] 성인 정보를 포함하는 글에 대한 공지입니다 [51] OrBef 16/05/03 470530 31
공지 [일반] 통합 규정(2019.11.8. 개정) [2] jjohny=쿠마 19/11/08 349229 3
103658 [정치] 오세훈, AI인재 1만명 양성하겠다. [76] 바람돌돌이7324 25/02/02 7324 0
103657 [정치] 안철수 "20조 규모 AI·민생 추경 추진해야" [66] 호옹이 나오7506 25/02/02 7506 0
103656 [일반] 美, 4일부터 캐나다·멕시코에 25% 전면 관세…中에 10% [107] 유머8391 25/02/02 8391 4
103655 [일반] AI가 수능 수학 킬러문제도 맞추네요2 - 오류 수정 및 기타 AI모델 테스트 결과 [1] Quantumwk2288 25/02/02 2288 0
103654 [일반] <러브레터> - 어쩌면, 우리 모두는 그림자를 그리워하는지도 모른다. (약스포) [15] aDayInTheLife3198 25/02/02 3198 4
103653 [정치] 남산 판타지 - 그 아름다운 곳 [5] singularian2857 25/02/02 2857 0
103652 [정치] 尹측 "헌재 문형배·이미선·정계선 재판관 스스로 탄핵 심리서 빠져야" 의견서 제출 [80] 빼사스10606 25/02/01 10606 0
103651 [일반] AI가 수능 수학 킬러문제도 맞추네요 - 오류 발견, 수정 글 추가 작성 [57] Quantumwk8404 25/02/01 8404 2
103650 [일반] 미국 필라델피아 도심지에서 경비행기 추락사고가 발생했습니다 [8] EnergyFlow7955 25/02/01 7955 0
103649 [일반] 눈 내리는 서울, 겨울 출사(사진 多) [4] 판을흔들어라5073 25/01/31 5073 20
103648 [일반] 그 여자는 무슨 생각을 했을까 [14] 글곰9340 25/01/31 9340 15
103645 [정치] 트럼프 "워싱턴 항공 충돌 사고, FAA의 다양성 채용이 문제일 수도 있다" [94] EnergyFlow14474 25/01/31 14474 0
103644 [일반] 이제는 대부분의 사람들이 모르는 SK하이닉스의 놀라운 과거 [23] 독서상품권10291 25/01/31 10291 2
103643 [정치] 우려되는 국민의힘 지지자들의 극우화 [206] 계층방정18195 25/01/31 18195 0
103642 [일반] 소리로 찾아가는 한자 72. 볕 양(昜)에서 파생된 한자들 [4] 계층방정1760 25/01/31 1760 2
103641 [정치] 전한길 선을 한참 넘네요. [140] This-Plus19125 25/01/30 19125 0
103640 [일반] 방송 pd로 살아남기(pd는 어떻게 나뉘는가) [26] 만렙법사7027 25/01/30 7027 40
103639 [일반] 영화 도망자 로 본 미국 행정 경찰제도 [5] 흰둥5375 25/01/30 5375 7
103638 [일반] 자작 소설입니다. '대학원생 그녀' (최종화) [10] 우르르쾅쾅4332 25/01/30 4332 12
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로