:: 게시판
:: 이전 게시판
|
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
25/02/01 14:53
수학 강사 풀이 보니 o3가 무식하게 푼 느낌은 있습니다. o3는 an을 구한 후 집어넣고 직접 계산했는데 수학강사들 풀이보면 그렇게 할 필요가 없더군요. 그리고 다시 검토해보니 오류가 하나 있습니다. 이번에도 뒷걸음 치다가 맞은 게 맞기는 함. 그래도 이제는 대수 분야에서는 어느정도 감 잡고 거의 정답에 가깝게 푸네요.
어쨌든 간단한 사칙연산도 틀리던 2년 전쯤에 비하면 장족의 발전이죠. 발전 속도가 무시무시하고 올해, 늦어도 내년 정도에는 AI가 수능 수석 충분히 할 수 있지 않을 까 하는 생각도 듭니다.
25/02/01 15:02
29번은 킬러문항이 아닙니다. 또한 올림피아드 문제에 대한 AI의 능력은 이미 알려져 있고요. 다만 미적분, 수2의 그래프 관련 킬러문항은 AI가 어떻게 접근하는지, 어떻게 해결하는지가 궁금하네요. 잘 푸는 것보다 잘 가르치는 것이 중요한 영역이라 조금은 다르게 접근할 필요는 있어보입니다.
25/02/01 15:05
요즘 수능 수학에 대해서 잘 모르고 그냥 메가스터디 통계 보니 정답률 하위 3위라 킬러 문항이라고 생각했습니다. 킬러문항의 기준을 잘 몰라서....
아직은 문제에 따라 헤메는 경우도 많다 합니다. 기하 문제 30번 풀게 해봤는데 틀리더군요. 그냥 현재 AI의 발전상을 소개 하는 측면에서 써봤습니다. AI가 얼마나 똑똑해졌는지를 한국사람들한테 가장 확 와닿게 하는 것 중 하나가 수능 문제 푸는 거 보여주는 거니깐요. 그리고 o3 풀이를 다시 검토해보니 오류가 하나 있습니다. 이번에도 뒷걸음 치다가 맞았기는 했음. 그래도 대수 분야에서는 어느 정도 감 잡고 거의 정답에 가깝게 푸네요.
25/02/01 15:15
근데 O1 PRO로 초등학교 약간 어려운 수학문제 올려서 풀어보게 했는데 풀이과정의 논리가 이상해서 이게 맞아? 할 때마다 답을 다르게 내놓더라고요. 저만 그런 경험을 하는지는 몰라도 저는 아직 완전히 신뢰를 하지 못하겠더라고요.
25/02/01 15:18
사람들 평으로는 계산으로 때려 박는 대수 문제는 잘 풀고 함수, 기하 이쪽은 아직도 좀 해메는 듯 합니다. 이 문제도 풀이과정 검토해보니 오류가 하나 있었는데 소숫점 차이만 나고 어차피 부등호 문제 답을 맞추는 데에는 문제가 없었지만 무한급수의 정확한 값을 물어 봤으면 틀렸을 거에요.
그리고 이번에 나온 o3가 언어를 너프 시키고 수학 쪽을 특히 강화 시킨거라 (언어쪽에서는 혹평이 많음) 언어에 강점이 있는 o1 pro는 더 오류가 많이 날꺼에요. o1 PRO는 대신에 언어는 이제 거의 다 맞춘다고 하더군요.
25/02/01 15:26
컴퓨터는 단순 사칙연산에 강하고 언어능력이 떨어지는 거라는 게 일반 상식이었는데 지피티는 그 반대인 거 같아요. 이번 버젼은 본문처럼 한번 테스트해보고 판단해야겠네요.
25/02/01 15:28
제가 흥분해서 좀 급하게 올렸는데 여러 사람들의 평이나 제가 다른 문제로 테스트 해본 결과로 보면 아직은 부족한 면이 있습니다. 다시 검토해보면 이 문제도 좀 운이 좋아서 맞춘거고(이전처럼 완전히 쌩뚱맞게 풀었는데 우연히 맞춘건 아니라 한 군데 실수가 있던거지만....), 함수나 기하 문제는 완전 핀트 잘못 잡는 경우가 꽤 있어요.
그래도 엄청난 발전이고, 수능 수석급이 되는데에는 긴 시간이 걸리지 않을 것이 확실해보입니다.
25/02/01 15:33
이 문제는 학습했다기 보다는 (학습했다기에는 비효율 적으로 품) 설명 했듯이 부등호 문제라 약간의 오류가 있어도 답 맞추는 거에는 문제가 없었던거였습니다. 비효율적으로 풀어서 그렇지 이전 처럼 완전 엉뚱한 풀이는 아니네요. 무한 급수 처리하는 과정에서 오류하나가 있었을 뿐 거의 정답에 근접하게 풀었고, 부등호 문제여서 답도 맞췄습니다.
그리고 기하나 함수 문제는 아예 답도 틀리고, 풀이도 엉뚱하게 합니다. 어쨌든 수능 수석급이 되는 데에는 오랜 시간이 걸리지는 않을 거 같습니다.
25/02/01 15:47
주장에 대한 근거가 명확하다면야
사람들이 그것에 대해 동의도 하도, 납득도 하겠지만 그냥 계속 수능 수석만 외치고 있는 상황을 보니까 좀 당황스럽네요 어느 부분에서 그렇게 강한 흥분을 느꼈는지 전혀 모르겠습니다 악의적으로 쓴 댓글은 아닙니다
25/02/01 15:58
GPT 2년 전 버전 만 해도 간단한 사칙연산도 다 틀리는 수준이었습니다.... 그리고 언어쪽에 더 강점이 있는 o1 pro의 경우는 이미 수능 언어영역 대부분 맞추고 있구요.
이 문제도 메가스터디상에서는 난이도 '최상'으로 분류된 문제고 정답률 20프로대인데 맞췄습니다. 풀이 검토해보니 좀 비효율 적으로 풀었고 오류도 있었지만 값 차이가 거의 없었고 부등호 문제라서 답 맞 추는데에는 문제가 없었음. 심지어 이건 o3-mini 버전으로 아직 릴리즈 안된 o3에 비해서는 많이 너프된 버전입니다. 이 정도 발전 속도면 수석급이 되는 데에는 그리 오랜 시간이 걸리지 않을 거라고 추론 할 수 있죠. 사실 어제 o3-mini 나오기 전 논문에서 수학 올림피아드 문제에서 보인 성과 들만 봐도 (윗 댓글에도 올림피아드에 대한 언급은 있었음) 충분히 예측은 가능한건데 우리한테 가장 잘 와닿는 건 수능 문제 푸는 거이기에.....
25/02/01 15:59
지금 정도의 결과로 수능 수석급이 되는게 아무 근거가 없어보여서 당혹 스럽고 함부로 추측하는 게 잘못되었다면 2년전에 간단한 사칙 연산도 다 틀리는 gpt를 보고 2년내에 지금 정도 레벨에 도달한다고 말하는 것도 굉장히 당혹스럽고 근거 없는 잘못된 추측에 불과했겠죠.
25/02/01 16:41
사실 아까 전에 댓글로 쓰려다가, 너무 비아냥 거리는 거 같아서 그냥 지운 내용인데
그래도 수능 문제 굳이 찾아보고, 무슨 문제들 있나 살펴볼 정도면 객관식/주관식 정답률이 어느 정도 느낌인지는 알고 있지 않나요? 가형 나형 전부 섞은 표본 기준으로, 주관식 정답률 20%면 진짜 말도 안 되게 높은 겁니다 좀 더 와닿게 말하면, 가형 4등급 학생들도 저 문제 맞춘다는 말입니다 이거는 수능 제도가 바뀌고 말고 하기 전에, 30년전 응시하셨던 현재 50대 분들도 다 아는 내용이지 않을까요 아니 정답률을 따지기 전에, 무슨 문제인지 한 번 직접 풀어보세요 저도 도대체 저게 뭔 문제인가 싶어서 한 번 a4 용지 꺼내서 풀어보고, 버벅거리긴 했지만 답이 나왔는데 시간만 있으면 무슨 최첨단 ai가 아니라 그냥 지극히 평범한 일반 사람들도 다 맞히고 바로 다음 문제 넘어가는 난이도입니다 문제 정답률에 의탁해서 그냥 넘겨짚지 말고, 직접 풀어보세요 전혀 흥분할 필요도 없고, 놀랄 이유도 없습니다
25/02/01 16:47
GPT가 2년전에 수학문제 풀었던 거 보면 충분히 놀랄만합니다..... 수능 고득점 출신에 수능 본지 얼마 안됐거나 관련 업계 분이신 입장이라면 호들갑떨 정도 까지는 아니라고 볼 수는 있겠지만 핵심은 발전 속도와 지금 여러 벤치마크에서 나오는 결과를 보는 게 중요한겁니다. 그냥 일반 사람들 와닿게 수능 문제 푸는 거 가져왔을 뿐이고, 논문이나 벤치마크 테스트에서 아직 대중한테 릴리즈 안된 AI들이 고급 수학문제를 대상으로 보여주는 결과들 보면 무시 무시 합니다.
전 업계 사람도 아니고 수능 본지 너무 오래 되서 감도 없습니다만은 어쨌든 통계에서 보니 정답률 하위에서 3번째에 드는 문제입니다. 수능 30문제 중에 3번째로 어려웠던 문제라는 뜻이죠. 최상위권 or 수학 강사 입장에서는 별거 아닐 수 있겠지만 어쨌든 평균 보다는 훨씬 어려운 문제임이 명백하죠. 전 아직도 수학 어느 정도는 접하는 사람인데도 이런 입시 수학은 손 놓은지 오래되서 그런지 풀이 따라가고 분석하는 것도 애먹었습니다. o3 풀이 오류도 못 찾았다가 한참 들여다보고 알아냈구요. 수능이 너무 오래된 시험이라 문제 난이도가 많이 올라갔다고 들었는데 정말 그렇게 느껴 집니다. 경기고-서울대 물리학과 학부(예비고사 수석임)-스탠포드 박사에 이 과정에서 엥간한 시험은 다 휩쓸었던 오세정 교수도 나중에 문제 출제 요원으로 들어 갔다가 수능 수학 거의 하루종일 붙잡고 풀면서 기겁했다고 하죠. 참고로 2년전에는 LLM들한테 수능 문제 던져 주면 핀트 거의 하나도 못 잡고 완전 엉뚱하게 풀었습니다. 기본적인 사칙연산도 다 틀렸었구요.
25/02/01 22:31
다른 모델 비교 해보니 GPT 현재 무료 결제 버전인 4o-mini와 4-legacy는 이 문제 손도 못 댑니다. 유료 결제에서도 Default model인 4o는 중간에 삼천포로 빠져버리구요..... 유료결제에서 주 50회 제한인 o1은 o3-mini와 거의 똑같은 풀이로 정답. 대신에 70초로 좀 더 오래 걸렸습니다. 벤치 마크 점수 보면 이거보다 더 어려운 문제 던지면 o1이랑 o3-mini의 격차는 더 벌어질 듯. 대신에 o1은 언어 능력은 o3-mini 압도 한다는 평.
딥시크 V3이 본문이랑 거의 똑같은 풀이로 정답 직전까지 가다가 막판에 짝수만 해당된다는 조건 놓쳐서 틀렸고, R1은 계속 먹통이라 테스트 못해봤습니다. 추론을 끈 V3 모델도 잘 푸는 거 보면 사람들이 딥시크에 왜 이리 충격 받았는 지 알 수 있음.
25/02/01 17:50
AI는 종국에는 인류의 난제를 해결할 수준으로 활용될 것으로 사실 다른 의미로 전혀 흥분할 필요도 없고, 놀랄 이유도 없다고 생각합니다.
수능정도 난도의 수학문제를 100%로 맞추는 정도의 지능 상승은 그냥 스쳐지나갈 과정 수준입니다.
25/02/01 19:49
한국에서 수능이라는 의미가 워낙 크다보니 AI가 수능 수석 한다는걸 굉장히 크게 받아들이시는 분들이 있어서 그런것 같습니다. 솔직히 제가 어느정도 의도한 바기도 하구요....
전 특이점 주의자라 수능 잘 푸는걸 대단하게 보는건 아닙니다. 다만 여러번 얘기했듯이 한국사람들한테 AI성능을 가장 직관적으로 보여줄 방법중에 하나니까 그런식으로 의도하고 쓴건 있음.
25/02/01 18:00
댓글 분위기가 오히려 신기하네요. 그림이랑 번역업계 초토화시킨 것만 봐도 이런 쪽으로 차근차근 나아가는게 어떤 느낌인지 알 수 밖에 없지 않나 싶은데
25/02/01 19:23
딱히 그런 이해관계 때문으로 보이지는 않고,
어떤 이들에게는 본문의 AI 학습 단계가 발전 과정에서 필연적으로 거쳐갈 하나의 마일스톤 정도로만 인식되는데 글쓴이는 이를 커다란 전환점 혹은 변곡점이 되는 것처럼 (그들 기준에서는)과장되게 서술해서, 그에 따른 딴지 내지는 반작용의 댓글들이 나오는 게 아닐까 합니다.
25/02/01 19:46
전 AI에 워낙 관심 많고 특이점도 믿는 사람이라 이게 전환점이라는 생각은 전혀 안하구요....
한국에서 수능이라는 의미가 워낙 크다보니 AI가 수능 수석 한다는걸 굉장히 크게 받아들여서 그런것 같습니다. 여러번 얘기했듯이 한국사람들한테 AI성능을 가장 직관적으로 보여줄 방법중에 하나니까 그런식으로 의도하고 쓴건 있음.
25/02/01 18:29
추론 성능이 많이 올라간건 맞는것 같습니다.
다만, 수능 문제 풀이를 벤치마크로 삼기는 어려운게 시간제한으로 보통은 쓸 수 없는 방식으로 푸는 경우가 많다고 보시면 됩니다. 위에서도 좀 무식하게 돌아가는 방법으로 풀었죠. 수틀리면 수치해석으로 해결해버리는 식이라 객관식 시험만으로는 능력 평가가 어렵다고 봅니다.
25/02/01 20:00
좀 무식하게 풀긴 했어도 수치해석으로 접근한건 아니고 나름대로 맞는 방법으로 풀었다고 봅니다. 사람이 적용하기에는 실용적이지도 않고 실수도 있었지만....
25/02/01 19:46
왜 수능 수석을 강조하시는지 이해가 안되니 의아한 반응이 나올 수밖에요. 킬러문제를 풀어내는 게 우리가 특별히 인지해야 하는 변곡점인가요? 본문 내용상 29번 풀이에 헛점도 있고, 당일 유게 올라온 가형 30번은 수리 나형에 경수 꼴지해서 재수강 수없이 반복한 저보다 못 풀길래 오히려 매우 실망스러웠는데요.
설사 이게 대단한 지표라 하더라도 자격시험의 영역에서는 무슨 의미가 있는지 모르겠습니다. AI가 인지하는 시험의 난이도 위계는 인간과 전혀 다를텐데 9급 정도 제외하면 하급 시험인 수능에 주목해야 하는 부분이 특별히 있나요. 훨씬 어려운 의 회 변 5 이런 건 모조리 다 외워서 계산 쉽게 해내고 판례 귀신같이 써내겠지만 그렇다고 우리 인지가 변화한 것도 아니고.
25/02/01 19:57
변곡점이라던가 대단한 지표가 되었다는 의미가 아니라 (특이점 주의자라서...) 그냥 발전상을 강조하려고 얘기한거고 그동안 LLM이 약했던 수학 영역에서도 큰 발전이 있었다는건데 받아들이는 분들이 그렇게 느끼는거 같습니다. 물론 의도한것도 있지만요...
25/02/01 20:07
이미 시중에 풀리지 않은 인공지능(o3)의 벤치마크 결과를 보면 올림피아드 수준 문제에서도 상당히 괜찮은 성적을 보였습니다.
https://gigazine.net/gsc_news/en/20241225-ai-frontiermath/ Mathematicians talk about the shock of OpenAI's o3 model scoring 25.2% on the ultra-difficult math dataset 'FrontierMath'
25/02/01 20:19
https://news.hada.io/topic?id=18413
FrontierMath의 문제들은 연구 수학자에게도 비전형적이며, 일부 문제는 박사 과정 수준의 지식이 필요함. 데이터셋의 문제들은 수학적 증명보다는 숫자를 찾는 데 중점을 두고 있음. 수학 연구자들은 주로 증명이나 아이디어를 찾는 데 시간을 쓰기 때문에, FrontierMath는 AI 수학 연구에 중요한 데이터셋임.
25/02/01 20:20
네 이공계 관련 종사자로서 앞으로 어떻게 될지 기대되기도 하고 두렵기도 합니다
사실 이공계 뿐만 아니라 모든 분야가 대변혁을 맞이 하겠죠
25/02/01 20:37
이번에 노벨상을 받은 딥마인드의 프로젝트는 인류의 난제 중 하나였던 단백질 폴드 문제를 풀어냈는데 수능 수학 문제 정도로 호들갑 떨 일인가 싶긴 하죠.
물론 범용 AI가 이런 분야에서도 성능을 발휘한다는 건 고무적인 일이긴 합니다. 하지만 사람들이 AI에 기대하는건 이 정도가 아니긴 해요. 아직까지도 과학자들 조차도 답을 못 내놓고 있는 여러 난제들을 풀어낼 수 있는 인공지능을 기대하고 있으니까요.
25/02/01 20:41
재밌는건 전 그냥 '수능 수석 곧 할거 같다, LLM은 원래 수학에 약했는데 발전속도가 빨라서 고무적이다' 이렇게 얘기한건데 읽는사람들이 '호들갑이네, 대단한 건가?'라고 말한다는겁니다
이건 역으로 읽는 사람들이 'AI가 곧 수능 수석 정도는 곧 할거 같아요'를 '우리 AI가 정말 대단한 일을 해냈어요'라고 무의식중에 받아들였다는 얘기기도 합니다. 제가 어느정도 의도한바기도 하구요....
25/02/02 01:43
만약 수능문제들을 중점적으로 학습시킨 AI를 만든다면 현재의 기술만으로도 수능 수석도 충분히 가능할걸로 보입니다. 규모를 충분히 늘려서 한다면 만점도 가능할걸요? 단지 수능에만 특화시킨 AI를 개발하지 않고 있을 뿐이지요.
25/02/01 21:15
LLM이 언어쪽은 많이 발전했어도 수학은 형편 없었죠.
이 o3버전은 언어를 너프시키고 대신에 수학을 엄청 향상 시켰다 합니다. '이과형' 인공지능 인거죠 이게 장기적 관점에서 보면 별거 아닌거지만 단기적으로는 꽤나 큰 향상이 맞습니다. '이게 뭐라고?'라고 한다면 o3 이전버전으로 수학문제 풀게 해본적이 없었던 사람일 확률이 높음. 근데 딥시크 R1 끄고 (추론 끄고) 해도 거의 유사한 풀이로 정답 직전까지 가긴 하네요. 딥시크가 확실히 대단합니다.
25/02/01 22:19
참고로 GPT4는 legacy 모델, GPT4o-mini (무료 버전)은 이 문 아예 손도 못댔습니다.
GPT4o(유료결제시 기본 버전)의 경우는 풀긴 했는데 중간 부터 완전 엉뚱하게 풀었고, 1주일에 50회 사용할 수 있는 o1은 맞게 풀었습니다. 정리해보면 1) 정답 맞춤 GPT-o3mini, GPT-o1: 다만 둘 다 무한급수 계산 미스는 있었음. 2) 거의 정답에 근접 딥시크 V3: 1)과 똑같이 풀어나가다가 마지막에 홀수만 해당된다는 거 놓쳐서 틀림. R1이 답 맞추는 지가 궁금하네요. R1이 계속 먹통이라 3) 오답 GPT4o: 중간 부터 삼천포로 빠짐 4) 손도 못댐 GPT4o-mini (무료시 기본 모델), GPT4 legacy
25/02/01 22:08
딥시크 R1 끄고 해도 꽤 잘 해나가는 데 (o3랑 유사하게 품) 마지막에 오류가 있어서 오답.
딥시크가 확실히 대단하긴 합니다. R1 키면 자꾸 먹통이 되서 이건 아직 못해봤네요ㅠㅠㅠ 왠지 R1은 제대로 풀거 같은?? 근데 테스트 결과들을 보면 o3는 수학, 코딩에서는 확실히 우월하긴 해서 다른 문제로 비교해봐야 할 수도 있습니다. 이제 딥시크와 o3 수준에서 이 정도 문제는 대단한 문제는 아닌 거겠죠.
25/02/02 00:04
미국이랑 극소수 국가만 AI 혜택을 보고 나머지는 기본소득은 커녕 최하위 극빈국으로 떨어질 가능성을 많이 보더군요. 그리고 중고생 무상급식도 반대가 심했던 한국 (결국 오세훈 서울시장 사퇴로 통과)
현재는 이재명 25만원 지역화폐(현금도 아니고 그 지역에서만 쓸수있고 소비기한이 정해져 있음)도 포퓰리즘이라고 반대하는거 보면 한국에서 기본소득제는 불가능하다고 봅니다.
25/02/02 09:03
근데 잘사는 국가들도 그 다음 국가들이 어느정도의 삶의 수준은 영위해야 본인들도 잘살게 되는거라 정치색,국가를 떠나 AI의 발전상을 인식하고 어느정도 마음의 준비를 해야 할때가 온거 같습니다.
25/02/01 23:54
솔직한 얘기로 바이오쪽도 대부분의 연구영역에서 막 엄청나게 높은 수준의 지적능력이 필요하지 않아서 가설설정 실험디자인 결과분석 등 대부분의 지적활동은 다 대체될거라고 봅니다. 실험 수행하고 데이터 만들어줄 생체로봇(aka 인간)이 필요할 뿐이죠. 인간이 연구하는 현재시점에도 바이오쪽 바틀넥은 정확한 실험과 결과나오는 속도지 지적활동은 아니거든요. 처음 가설설정할 때 가설 기각되면 그 다음 가설 그다음 가설 그 다음 가설 정도는 뭐...
25/02/02 08:51
바이오가 아니라 타 이공계도 노가다 뛰는거 아니면 다 대체될듯 합니다. 인간은 AI가 시키는대로 실험이나 하는.... 그래도 저도 실험을 종종 하기 때문에 조금은 더버틸듯 크크
요즘 로봇 발전도 눈부시기는 한데 로봇이 인간보다 가성비가 좋아지려면 아직은 시간이 좀 필요해보이거든요
25/02/02 01:13
엄청난 성과라고 봐요. o1이나 r1은 확실히 변곡점이죠. 추론시간을 스케일링하면 reasoning이 나온다는게 혁명급이죠. 위에 부정적인 댓글단 사람들은 ai에 대해 정확히 잘 모를거에요
25/02/02 08:48
그렇죠 그리고 LLM이 유독 수학을 못했었는데 1~2년전 LLM으로 수학문제 안 풀려봐서 그리생각하는듯 합니다
멀리 갈것도 없이 지금 유료버전 default model인 4o는 아직도 이 문제 엉뚱하게 풉니다
25/02/02 04:46
부정적인 댓글 단 분들은 그냥 AI발전을 잘 모르거나, [내가 수능 못하진 않았어] 라고 표현하고싶은마음 그 이상도 이하도 아닙니다.
이 속도라면 10년뒤에는 꽤 충격적일 것 같아요. AGI 같은건 안나올것 같지만, 적어도 온라인세계에서 표현 가능한 지식에 대해서는 두려울 정도로 발전할지도요.
25/02/02 08:52
네 그럴겁니다. 솔직히 10년도 좀 넉넉하게 잡았다봐요
한국이 수능에 관한거에 워낙 예민하게 반응하긴합니다. 특히 소시적에 수능 좀 잘쳤던 사람들일수록... 사실 그걸 잘 알기에 AI발전 마일스톤에서 그리 대단하다고 할수 없는 수능 문제 풀기를 가져온거기도 합니다. 전 수능 공부를 아주 열심히 한타입도 아니고 다만 전공 공부를 좋아하고 재밌어한다고 착각(?)해서 (다행히 소질이 아주 없지는 않았음. 학계에서 살아 남을 수준은 안됐지만....) 여기 까지 왔는데 ,전문직종에 있는 사람이라던가 이런분들은 다른 사람과의 차별화를 위해 이를 악물고 공부한거라 시험 공부 잘 하는게 크게 의미가 없어지는 세상이 오고 있는 걸 받아들이기 어려워하는듯 합니다.
|