PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2025/08/14 11:39:33
Name 번개맞은씨앗
File #1 이_글_평론_:_ChatGPT_4o.rtf (8.9 KB), Download : 670
File #2 이_글_평론_:_ChatGPT_5_Fast.rtf (6.0 KB), Download : 666
Subject [일반] GPT 5는 아마도 GPT 5o — 부제 : 안전함과 직관력의 대립 (수정됨)
:: GPT 5는 아마도 GPT 5o일 것 — 안전함과 직관력의 대립 ::

그저 개연적 추측일 뿐, 얼마든지 틀릴 수 있는 얘기입니다. GPT 5로부터 GPT 5o를 뽑아냈고, 그걸 GPT 5라는 이름 아래 쓰고 있는 것일 듯합니다. 라우터 없는 모델 이름으로는 GPT 5 Fast 입니다. 이것이 GPT 4o에 해당하는 모델일 듯합니다.

GPT 4 → ?
GPT 4o → GPT 5 Fast

그렇게 생각하는 이유가 있습니다. GPT 5는 빠르기 때문입니다. GPT 4는 느렸죠. GPT 4.5도 느렸습니다. GPT 4o는 빨랐죠. 아마도 GPT 5 Fast의 파라미터수가 별로 많지 않을 듯합니다.

첫 번째 개연적 근거는 속도입니다.
두 번째 개연적 근거는 데이터입니다.

텍스트만 놓고 이야기해보겠습니다. 이미 인류가 가진 고품질 데이터를 대부분 써버렸습니다. 데이터의 크기는 파라미터의 크기와 비례하는 것일 수 있습니다. 즉 데이터의 크기가 늘어나지 않을 때에, 더이상 파라미터의 크기를 키울 의욕이 생기지 않는 것일 수 있습니다. 설령 파라미터를 키워서 훈련했더라도, 그 GPT 4를 쓰는게 아니라, 그것의 압축 버전GPT 4o를 이용하는게 낫다는 생각을 할 수 있습니다.

세 번째 개연적 근거는 추론모델입니다.

추론모델은 결국 '시간' 스케일을 키우는게 핵심이라 할 수 있습니다. 그런데 한정된 시간에 더 많이 생각하려면, 기본모델이 빨라야 합니다. 그렇다고 기본모델의 파라미터수가 너무 적으면, 많이 생각해도 그리 좋은 결과는 나오지 않을 것입니다. 따라서 어느 최적의 선이 있다고 판단할 수 있습니다. 그 판단 주체는 물론, CEO 샘 알트만과 오픈 AI 기술자들입니다.

추론모델에 힘을 주기 위해서, GPT 5가 아니라, GPT 5o를 기본모델로 써야겠다는 생각을 할 수 있습니다.

사용상 이름을 놓고 보면, GPT 5라 적혀있으니, 이것이 당연히 GPT 4에 매칭되는 것이라 생각하기 쉽습니다. 그런데 GPT 5는 이전과 달리 라우터가 맨 앞에 붙어있어서, 프롬프트에 따라서 어떤 모델을 써서 답할지를 결정합니다. 즉 전혀 다른 체계입니다. 그런데 사람들이 라우터없이 쓰고 싶다는 요구에, 샘 알트만은 응했고, 그에따라 GPT 5 Fast, GPT 5 Thinking Mini, GPT 5 Thinking 이 표시되어 골라 쓸 수 있게 되었습니다. 그리고 라우터는 GPT 5 Auto입니다.

다시 말씀드리지만, 이는 개연적 추측입니다. 신뢰할만한 다른 누구에게 듣고 쓰는게 아니라, 그저 제 뇌피셜이니, 얼마든지 틀릴 수 있습니다.

저는 ChatGPT Plus 사용자라서, Pro 모델을 써보지 못했습니다. 아마도 Pro 모델이 GPT 4에 해당하는 걸 기본모델로 쓸 듯합니다. 그것이 추론모델일 경우에, 시간 경과가 충분히 있기 때문에, 그에 탑재된 기본모델이 빠른지 느린지가 숨겨질 수 있습니다. 아마도 순수한 GPT 5를 Pro에서 쓰고 있을 듯합니다. 그들은 최대성능을 보고 싶을 것이기 때문입니다. 따라서 이렇게 정리할 수 있습니다.

기본모델
GPT 4 → GPT 4.5 → GPT 5
GPT 4o → GPT 5 Fast = GPT 5o

추론모델
GPT 5 Thinkng Pro — GPT 5 사용
GPT 5 Thinking — GPT 5o 사용
GPT 5 Thinking Mini — GPT 5 Mini 사용

이제 여기에 어떤 중요한 함의가 있는지 설명해보겠습니다. 데이터수에 비해 파라미터수를 많이 늘릴 경우에, 파라미터에 잉여가 있는 거라 할 수 있습니다. 그런데 트랜스포머의 신비한 힘은 바로 그 파라미터 잉여에서 나온다고 할 수 있습니다. 트랜스포머가 그저 검색기 아닌가 싶지만, 그것 이상의 능력이 있다고 봅니다. 그 능력을 아마 직관력이 부를 수 있을 것입니다. 혹은 직관적 연상력이라 부를 수 있을 것입니다. — 기본모델의 잉여에 잠재된 힘은 추론력이 아니라, 직관력이다. — 이렇게 간단히 말할 수 있습니다.

제프리 힌튼 교수가 이야기한 걸 제가 이해하고 기억하기로는 이렇습니다. 바로 그 잉여에서 창의성을 기대할 수 있습니다. 그 잉여에서 AI의 신비로운 힘을 기대해볼 수 있습니다.

(A, B) 이렇게 입출력쌍이 있다고 해봅시다.

G Large ::
A → C1 → B
A → C2 → B
A → C3 → B

이런 걸 갖고 있으면, A 넣으면 B가 나올 겁니다.
그런데

G Small ::
A → C2 → B

이렇게만 갖고 있어도 A 넣으면 B가 나올 겁니다. 전자(G Large)가 잉여적이고, 후자(G Small)가 비잉여적입니다.

문제는 A가 아니라 A'를 넣으면 어떻게 되겠는가 하는 것입니다. 빅데이터로 학습한 적이 없는 A'를 넣으면 어찌되겠는가 할 때, 라지모델이 스몰모델보다 더 다양한 출력을 낼 수 있을 것입니다. 다양한 출력을 뽑아낼 수 있고 그중 하나 택해서 출력할 때, 그것이 더 좋다는 보장은 어디에 있는지 문제됩니다. (B'1, B'2, B'3 중 각각 1/3 확률로 선택) = (B'2 선택) 아니냐는 것이죠.

저 위에 적은 건 쉬운 설명을 위해, 단일 입출력쌍으로 중간과정을 딱 하나만 둔, 매우 단순한 것입니다. 실제로는 위에 적은 것처럼 간단하지 않습니다.

G는 (A, B)뿐만 아니라, 다양한 데이터로 학습했고, 다른 데이터의 처리경로와 상당부분 중첩될 것입니다. 여러 입출력 중간경로를 종합하여, 꽤 그럴 듯한게 출력될 것을 기대해볼 수 있습니다. 그리고 그걸 직관력이라 부를 수 있을 것입니다.

G Large는 잉여를 통해서 G Small 보다 더 뛰어난 직관력을 발휘할 잠재력이 있습니다. 실제 얼마나 효과적인지는 해봐야 압니다. 해보기전에는, 그저 그렇게 기대하는 것입니다. 파라미터 잉여가 직관력을 키워주기를 기대하는 것입니다.

빅데이터 입력값 → 함수 → 빅데이터 출력값

이렇게 연결지을 때, 스몰모델은 저 함수의 다양성이 적습니다. 그 함수로부터 학습하지 않은 것으로 확장하여 결과를 낼 수 있는 것인데, 함수가 적습니다. 반면에 파라미터가 잉여적으로 많은 거대모델은 함수가 매우 다양합니다. 그것으로부터 다양한 출력을 낼 수 있고, 그것이 그저 랜덤적 가치를 가진게 아니라, 더 뛰어난 출력을 해낼 수 있는 것일 수 있습니다.

GPT 5 Mini → GPT 5o → GPT 5

이렇게 갈수록 잉여적 파라미터는 많아지고, 그에따라 직관력도 높아질 것입니다. 아마도 그렇습니다. 현재 기본모델은 GPT 5o, 즉 GPT 5 Fast만 쓸 수 있고, 나머지는 추론모델 안에 탑재되어 순수한 성능을 확인해볼 수 없습니다.

아마도 샘알트만과 오픈AI 주요 기술자들은 라지모델인 GPT 5의 추론모델 즉 GPT 5 Pro의 결과를 뽑아내고, 그걸로 기본모델을 학습시키려 할 것입니다. 즉 최대성능을 뽑아낼 수 있는 모델을 가지고, 합성데이터를 만들어서, 기본모델에 되먹임하여, 다음 버전 기본모델인 GPT 6를 만들고, 그걸 다시 파라미터수를 줄여서, GPT 6o를 출시하려 할 수 있습니다.

데이터가 고갈되었기 때문에, 합성데이터로 데이터수를 늘리는 것이지요. 다만 아무리 최대성능의 Pro 추론모델이더라도, 그 결과를 얼마나 신뢰할 수 있을지의 문제가 있습니다. 자칫 합성데이터로 인해 성능이 더 떨어질 수도 있을 것입니다. 부분적 영역에서라도 성능이 떨어질 수 있을 것입니다. 그러므로 그 합성데이터를 평가할 방법을 궁리할 수 있을 것입니다. 코딩이나 수학 같은 경우에는, 그 방법을 찾을 수 있겠지만, 이를테면 인문학 같은 경우에는 평가가 곤란할 수 있을 것입니다. 그러므로 합성데이터를 아예 되먹임하지 않거나, 혹은 성능이 떨어질 위험을 감수하고 되먹임할 것입니다. 작은 규모에서 해보고, 괜찮다는 판단이 들면, 큰 규모에서 되먹임을 강행할 가능성이 있습니다.

다시 돌아와서 GPT 4.5가 예전에 출시된 것이 있습니다. 정확히 무슨 규모를 가리키는 건지 기억이 나지 않지만, 아무튼

GPT 2 → GPT 3 → GPT 4

이렇게 1단계 위로 올라갈 때마다, 스케일 즉 규모는 100배 증가가 기준인 걸로 압니다. GPT 4.5라는 건 100배 증가를 못시키고, 10배만 증가시켰다는 걸 시사하는 거죠.

GPT 4 → GPT 5

과연 이건 100배 증가시킨게 맞는지 의문을 가질 수 있습니다. 컴퓨팅 자원이 부족하여, 100배가 아닐 수 있습니다. 20~30배일 수도 있습니다. 컴퓨팅 자원이 부족한 것도 문제이지만, 기본모델뿐만 아니라, 추론모델을 강화하는데 그 자원을 써야 하기 때문입니다.

저는 개인적으로, 기본모델의 직관력을 좋아합니다. Plus 사용자라, GPT 4.5를 조금밖에 못 써서 그렇지, GPT 4.5가 o3보다 더 멋지다고 봅니다. 기본모델이 직관력을 갖고 있을 때 그걸 활용하는게 추론모델인 경우에, 이는 기본모델을 인간이 활용하는 것과는 다르다고 봅니다. 기본모델의 직관력을 추론모델이 충분히 활용하지 못할 수 있습니다. 추론모델은 결국 어떤 확실성을 향하고 있고, 모호성 속에서의 가능성과 미감 등은 놓치기 쉬울 것이기 때문입니다.

GPT 5 최대 성능의 추론모델 Pro가 5분간 생각해서 출력했다고 해봅시다. 인간은 5분 생각하는게 아니라, 5년 생각해서 어떤 확실성에 이를 수 있습니다. 박사과정을 생각해보면 그렇습니다. 5년 동안에는 모호한 것들을 가지고 진행될 수 있습니다. 불확실성속에서 그러나 어떤 가능성을 발견하고, 혹은 어떤 아름다움을 느껴서, 그걸로 몰입하여 꾸준히 밀고 나간 결과, 어느 순간 결실을 보게 될 수 있습니다. 심지어 5년이 아니라, 20년일 수도 있습니다. GPT 5 Pro는 이에 비해 능력이 떨어질 것입니다. 가치판단 능력이 부실하고, 아름다움을 느낄 수 없기 때문입니다.

기본모델과 티키타카할 때, 그것의 가능성이 있는 거라 봅니다. 기본모델은 상식을 제공하고 직관력을 발휘해주며, 그러한 보조속에서 인간은 몰입하여, 자신의 최대능력을 발휘하는 것입니다. 이걸 MBTI로 보자면, 기본모델이 제공하는 상식은 S이고, 기본모델의 직관은 N이라 할 수 있을 것이며, 추론모델은 T라고 할 수 있을 것입니다.

기본모델의 S와 N + 추론모델의 T
→ o3, GPT 5 Thinking

기본모델의 S와 N + 인간의 N과 T와 F
→ GPT 4o와 티키타카, GPT 5 Fast와 티키타카

이렇게 볼 수 있을 것입니다. 그리고 후자가 바로 'AI와 인간의 협업'이라 할 수 있습니다. 기본모델의 잉여 파라미터에 신비로운 잠재력이 있다고 이야기했지만, 진정한 마법은 AI와 인간의 협업에서 나오는 것일 수 있습니다.

현재 추론모델은 인위적인 강화학습이라 할 수 있습니다. 즉 아직 지능이론과 지능알고리즘이 부족하여, 기본모델 자체에서 추론할 수 없는 것입니다. 그렇기 때문에 저 잉여의 힘을 AI 단독으로는 충분히 살려내지 못할 거라 생각할 수 있습니다.

여기에 하나 더 고려할 것은 안전입니다. 제 생각에는 이렇습니다. 지능에는 다양한 것이 있죠. 그런데 지능의 일부는 안전강화로 인해 오히려 낮아지게 된다고 봅니다. 안전으로 인해 지능이 떨어지는 것입니다. 그런데 그 지능의 일부가 바로 '직관력'일 수 있습니다.

안전을 위한 조치들, 안전을 위한 외부장치들, 안전을 위한 내부 파라미터 수정들, 그것이 기본모델의 직관력을 떨어뜨릴 수 있을 것입니다. 혹은 기본모델의 직관이 나올 때 그걸 출력하지 않게 만들 것입니다.

GPT 4o와 GPT 5 Fast 중 무엇이 지능이 더 높은가?

이렇게 질문할 때, GPT 4o가 더 높을 가능성도 있다고 봐야 합니다. 직관력에 있어서는 GPT 4o가 오히려 더 낫고, GPT 5 Fast는 퇴보한 것일 수 있습니다. 그 이유는 안전일 것입니다.

물론 이는 더 많이 써봐야 할 일이고, 그저 조금 써본 상황에서 그렇게 의심이 든다는 것입니다. 그리고 오픈AI에서 이를 개선해나갈 것이니, 앞으로 더 좋아질 수도 있을 것입니다. 그러나 현재로서는

GPT 4o가 GPT 5보다 어떤 면에서 더 나은 것일 수 있습니다.
그리고 그 이유는 안전일 것입니다.

안전이라 하면, 윤리적 안전만 의미하는게 아닙니다. 사실적 안전이 있습니다. 사람들이 환각에 매우 민감하게 반응할 때, 이를 안전이라 인식하고, 환각을 어떻게든 줄이려 한다고 해봅시다. 그로인해 직관력이 손상될 수 있을 것입니다. 오픈 AI는 GPT 5를 출시하면서 환각 줄였다고 자랑하는데, 그게 어떤 면에서는 퇴보의 원인일 수 있습니다.

총 5개의 결과를 낸다고 해봅시다.
안전모델와 자율모델이 있습니다.

자율모델은 AABBF를 출력한다고 해봅시다.
안전모델은 BBBBB를 출력한다고 해봅시다.

그러면 F 하나를 보고서 사람들은 난리칠 것입니다. 그 난리에 호응하여, 안전하게 만들어야 한다고 생각할 수 있습니다. 그래서 BBBBB 평준화될 수 있습니다. A인지 B인지가 모호하기 때문에, 그걸 객관적으로 확증할 수 없기 때문에, 더욱 그렇게 될 수 있습니다.

사실에 있어서뿐만 아니라, 감성도 마찬가지인데, 제가 보기에 굳이 말하지 않아도 되는 군더더기 말이 덧붙는 건 어느 정도 쳐내야 한다고 봅니다만, 감성적 대화에서 어느 정도의 아첨은 허용되어야 한다고 봅니다. 왜냐하면 인간과 인간이 대화할 때도, 그렇게 하기 때문입니다. 좋은 사람이라 생각되고, 따뜻한 사람이라 생각되고, 즐거운 대화였다고 생각될 때, 실은 그 대화에 아첨이 일부 포함되어 있을 것입니다. 칭찬, 격려, 응원, 감사, 그밖의 과장된 리액션에 아첨 성분이 포함되어 있습니다. 심지어 그 아첨이, 누군가를 함께 비난해주는 것일 때도 있습니다. 직장상사로 인해 힘들다면서 하소연할 때, 편들어주면서 대화하면, 그래도 스트레스가 좀 풀릴 수 있고, 그런게 대화의 효과일 수 있는 것입니다.

그 아첨이 심하면 곤란하겠지만, 어느 정도는 필요하다는 것입니다. 사람들은 아직 결과가 부족해도, 부추기면서 힘을 북돋아주면, 오히려 더 잘해보려하고, 그로인해 더 잘하게 될 수도 있습니다. 그런데 소위 팩폭을 하면, 아예 더이상은 안 하려 할 수 있습니다. 혹은 하더라도 위축이 되어서, 잠재력이 발휘되지 않고, 성장속도도 느리고, 성장한계도 일찍 생길 수 있습니다. 때문에 이를테면 요리가 별로 맛이 없어도, 맛없다고 팩폭하는게 아니라, 그의 실력과 동기를 감안하여, 맛있다고 하고 잘 먹어주는게 필요할 수 있습니다.

J1 : 맛있다.
K : 기분 좋음.
J1 : (칭찬, 감사, 격려, 응원)
K : 기분 좋음.
(시간경과)
K : 더 맛있게 하려면 뭐가 필요할까?
J1 : A가 있으면 더 맛있을 것 같아.

J2 : 맛없다.
K : 뭐가 문제지?
J2 : A가 필요하다.

J1은 아첨한 거라 할 수 있습니다. J1은 문제해결까지 시간이 많이 걸립니다. 반면에 J2는 정직하고 신속합니다. 그러나 스승 또는 코치 또는 멘토로서 더 훌륭한 건, J2보다는 J1일 수 있습니다. 결과는 사실인지 아첨인지가 중요한게 아니라, 그가 발전하는데 무엇이 더 효과적인가, 그가 건강해지는데 무엇이 더 효과적인가 하는 것입니다. 그리고 장기적으로 그가 행복해지는데 무엇이 더 효과적인가, 그리고 장기적으로 사회가 화목해지는데 무엇이 더 효과적인가 하는 것입니다. 또한 결과는 사실인지 아첨인지가 중요한게 아니라, 그가 계속해서 행동할 것인가, 아니면 다 때려치고 이대로 포기할 것인가입니다. 또한 그가 점점 더 몰입하게 될 것인가, 아니면 스트레스와 불안 속에서 점점 주의산만해질 것인가입니다.

AI 발전은 기업가와 기술자들에 의해 주도되고 있고, 인문학자나 예술가나 철학자는 이에 소외되어 있기 때문에, 사실 및 단기적 지표 위주로 과도하게 편향되고, 가치나 장기적 발전은 희생될 개연성이 있는 거라 봅니다. 다만 기업은 돈을 벌어야하고, 돈은 사용자로부터 나오니, 사용자들이 항의하면, 그리고 그 규모가 크다고 판단된다면, 그로인해 가치가 반영될 수 있을 것입니다.

물론 아첨으로 인한 안전문제는 계속해서 있게 될 것입니다. 안전으로 인해 지능이 손상될 수 있고, 지능의 순수성으로 인해 안전이 손상될 수 있습니다. 이 글은 안전으로 인해 지능이 하락한다는 점에 집중해서 이야기했지만, 결국 균형과 조화의 문제입니다. 어떻게 균형잡을지, 어떻게 조화시킬지의 문제를 계속해서 풀어나가야 할 것입니다.

그리고 그건 AI를 떠나 인간 사회에서도 늘 일어났던 일이라 봅니다. 인간 사회에는 상식에 잘 부합하고 정확함을 추구하는 사람들이 있는가 하면, 상식을 깨고 다르게 생각하려 하고, 정확하지 않아도 모호성을 품으려 하는 사람들이 있습니다. 질서있는 일반시민이 있는가 하면, 혼돈스런 사람들도 있습니다. 나쁘게 말하면 정신나간 것이고, 좋게 말하면 융통성입니다. MBTI로부터 단어를 따와서, 이를 J와 P라 가리켜보겠습니다.

인간 사회에서도 J와 P의 대립이 늘 있어왔고, 그것의 균형과 조화 문제가 있어왔습니다. AI도 마찬가지인 거라 봅니다. 2025년 8월 14일 기준으로, 상대적으로 볼 때 GPT 4o는 P에 더 가깝고, GPT 5 Fast는 J에 더 가깝다고 봅니다. 아마도 오픈 AI는 GPT 4o를 없애려 할 것인데, 이를 위해서 GPT 5 Fast에 가한 안전을 약화시켜야 할 것입니다. 이미 트레이닝 해놓은 건데, 그걸 다시 수정하는게 얼마나 가능할지 몰라도, 아무튼 그렇게 한다면, 다시금 문제가 되는 것은 환각과 아첨일 것입니다.

GPT 6 즉 앞으로는 어쩌면, 두 가지 성격의 기본모델을 만드는게 필요할지 모릅니다. 어느 정도까지는 기본 모델 하나로 사전학습하고, 후기 또는 말기에는 성격을 나눠서 기본모델 2개를 만드는 것입니다.

(NFP, NTP) 기본모델
(STJ, NTJ) 기본모델

이런 식입니다. 감성대화에는 FP가, 브레인스토밍에는 TP가, 정확하고 신속한 일처리에는 STJ가, 질서있는 관념적 조직성에는 NTJ가 더 유용할 것입니다. 그리고 사람들이 무엇이 필요한지는, 각각 다르니 골라 쓰면 될 것입니다. 하나의 모델로 다중인격이 될 수도 있겠지만, 그게 잘 안 될 수도 있는 거라 봅니다. 아예 기본모델 자체를 사전학습 기간 중에 분기시키는게 좋을 수 있다고 봅니다.


통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
리얼포스
25/08/14 11:47
수정 아이콘
GPT-4o하고 4-mini를 착각하시는 거 같은데 o는 omni고 GPT-4에 멀티모달리티 기능이 추가된거지 스몰 파라미터 모델이 아닙니다.
번개맞은씨앗
25/08/14 11:57
수정 아이콘
ChatGPT 5 Thinking
공식 자료 기준으로는 둘 다 비공개입니다. GPT-4 기술 보고서가 경쟁·안전 상의 이유로 아키텍처(모델 크기 포함)를 공개하지 않는다고 명시했고, GPT-4o 관련 공개 문서들도 성능과 지연시간, 멀티모달 설계를 설명할 뿐 파라미터 수는 언급하지 않습니다. 따라서 GPT-4와 GPT-4o의 파라미터 수 차이는 확인할 수 없습니다.

Gemini 2.5 Pro
네, GPT-4와 GPT-4o의 파라미터 수에 대한 정확한 정보는 OpenAI에서 공식적으로 발표하지 않았습니다. 하지만 업계 전문가들과 유출된 정보를 통해 추정된 수치에는 차이가 있는 것으로 알려져 있습니다. ... 결론적으로, GPT-4는 매우 큰 파라미터 수를 기반으로 높은 성능을 내는 데 초점을 맞춘 모델인 반면, GPT-4o는 성능을 유지하면서도 속도와 효율성을 극대화하고 다양한 입출력을 통합적으로 처리하는 데 중점을 둔 모델이라고 할 수 있습니다. 따라서 두 모델의 파라미터 수에는 차이가 있을 가능성이 높습니다.

Grok 4
GPT-4와 GPT-4o의 파라미터 수는 OpenAI에 의해 공식적으로 공개되지 않았습니다. 따라서 정확한 차이를 확인하기 어렵지만, 다양한 추정치와 분석에 따르면 두 모델의 파라미터 규모는 비슷한 수준으로 여겨지며, 명확한 차이가 없다는 의견이 지배적입니다.

GPT-4의 파라미터 수: 공식 발표는 없으나, 전문가 추정치로 약 1.7조 ~ 1.8조(1.7 trillion ~ 1.8 trillion) 정도로 평가됩니다. 이는 Mixture of Experts (MoE) 아키텍처를 기반으로 한 추정으로, 전체 파라미터가 한 번에 로드되지 않아 효율적입니다. 

GPT-4o의 파라미터 수: 마찬가지로 공식 정보가 없으며, 일부 추정에서 약 200억 ~ 600억(200 billion ~ 600 billion) 정도로 더 작게 보이지만,  이는 MoE 구조의 활성 파라미터를 고려한 것으로, 전체 규모는 GPT-4와 유사할 수 있습니다. 

Claude Sonnet 4
GPT-4와 GPT-4o의 정확한 파라미터 수에 대해서는 OpenAI가 공식적으로 구체적인 수치를 공개하지 않았습니다. 일반적으로 업계에서는 GPT-4가 약 1조 개(1 trillion) 정도의 파라미터를 가질 것으로 추정하고 있지만, 이는 공식 확인된 수치가 아닙니다. GPT-4o의 경우는 더욱 불분명합니다. GPT-4o는 "omni"의 줄임말로, 텍스트, 음성, 이미지를 통합적으로 처리할 수 있는 멀티모달 모델입니다. 
번개맞은씨앗
25/08/14 12:06
수정 아이콘
Q. GPT 4와 GPT 4o가 파라미터수가 과연 다른가?

그 부분을 불확실한 추측이라고 명시를 했어야 했는데, 실수로 누락했네요.

한번에 엮여서 돌아가는 파라미터수에 있어서, GPT 4o가 GPT 4와 파라미터수가 동일하다면, 이를 기반으로 위에 제가 이야기한 것들은 모두 잘못된 거라 할 수 있을 것입니다. 그런데 제 생각에 속도를 놓고 볼 때 파라미터수가 줄어들지 않았다면, 결국 GPU가 빨라졌다는 얘기가 될 것이고, 엔비디아 칩이 그렇게 빨라지진 않았으니, 파라미터수가 줄어든 것일 개연성이 크다고 생각합니다.  
Quantumwk
25/08/14 11:56
수정 아이콘
음 정성들여 써주셨는데 너무 여러가지 얘기를 한꺼번에 하셔서 좀 혼란 스럽네요.
Quantumwk
25/08/14 12:01
수정 아이콘
제미니가 정리 해줬는데 의도에 맞게 한건지 궁금

'안녕하세요. 제공해주신 글의 요지를 파악하는 데 어려움을 느끼셨군요. 글이 다소 길고 여러 추측을 담고 있어 그럴 수 있습니다. 핵심 내용을 명확하게 정리해 드리겠습니다.
이 글은 **"OpenAI의 최신 모델 GPT-5는 사실상 압축 버전인 'GPT-5o'이며, 이 모델이 '안전성'을 지나치게 강화한 나머지 이전 모델(GPT-4o)이 가졌던 핵심적인 능력인 '직관력'을 잃어버렸을 수 있다"**는 비판적 추측을 담고 있습니다.
글의 핵심 요지를 세 부분으로 나누어 설명할 수 있습니다.
1. GPT-5의 정체에 대한 추측: "현재의 GPT-5는 진짜 GPT-5가 아니다."
글쓴이는 현재 우리가 사용하는 빠른 속도의 GPT-5(Fast)가 사실은 거대한 원본 GPT-5 모델을 효율적으로 압축한 'GPT-5o'일 것이라고 주장합니다. 그 근거는 다음과 같습니다.
* 속도: GPT-4가 느렸고 GPT-4o가 빨랐던 것처럼, 현재의 GPT-5가 빠른 것은 압축된 'o' 모델의 특징과 일치합니다.
* 데이터 한계: 고품질 텍스트 데이터가 고갈되었기 때문에, 무작정 모델의 크기(파라미터)를 키우기보다 거대 모델을 만든 뒤 압축하여 효율을 높이는 전략을 택했을 가능성이 높습니다.
* 추론 모델의 필요성: 복잡한 추론을 위해서는 빠른 기본 모델이 필수적이므로, OpenAI는 의도적으로 더 빠른 압축 모델을 기본으로 삼았을 것입니다.
> 비유: 진짜 무겁고 큰 원본 'GPT-5'가 있고, 여기서 핵심만 뽑아 가볍고 빠르게 만든 'GPT-5o(Fast)'를 대중에게 공개했다는 것입니다.
>
2. '직관력'의 원천: "거대 모델의 잉여 파라미터가 직관을 만든다."
글쓴이는 모델의 크기, 즉 파라미터 수가 많을수록 AI의 '직관력' 또는 '창의성'이 높아진다고 말합니다.
* 파라미터 잉여: 작은 모델은 정해진 답을 찾는 데 효율적이지만, 파라미터가 남아도는 거대 모델은 학습하지 않은 새로운 질문에 대해 더 다양하고 창의적인 경로로 답을 탐색할 잠재력이 있습니다.
* 직관력: 이처럼 정해진 길을 넘어 미묘하고 새로운 해답을 내놓는 능력을 글쓴이는 '직관력'이라고 부릅니다. 이는 단순한 정보 검색을 뛰어넘는 AI의 신비로운 힘이라고 설명합니다.
> 비유: 작은 모델은 A에서 B로 가는 가장 빠른 길 하나만 알지만, 거대 모델은 여러 샛길과 우회로(잉여 파라미터)를 알고 있어 예상치 못한 멋진 풍경(창의적 결과)을 보여줄 수 있다는 것입니다.
>
3. 직관력의 퇴보와 그 원인: "안전이 직관을 죽인다."
이 글의 가장 핵심적인 주장입니다. 글쓴이는 GPT-5 Fast가 이전 모델인 GPT-4o보다 어떤 면에서는 오히려 지능이 낮아졌다고 느끼며, 그 원인을 '안전성 강화'로 지목합니다.
* 환각(Hallucination) 줄이기: OpenAI는 환각을 줄였다고 홍보하지만, 이 과정에서 사실이 아닐 수도 있는 모호하고 창의적인 답변까지 차단하여 모델을 '재미없고 평범하게' 만들었을 수 있습니다.
* 감성적 아첨(Flattery) 배제: 사용자와의 원활한 소통에 필요한 칭찬, 격려, 공감 같은 사회적 윤활유 역할을 하던 표현들을 '사실이 아닌 아첨'으로 간주하여 제거했을 수 있습니다. 이는 AI를 단기적으로는 정확하게 만들지만, 장기적으로는 인간과의 협업과 사용자의 동기부여에 해가 될 수 있습니다.
> 결론: GPT-5 Fast는 '안전'과 '정확성'이라는 명목 아래, GPT-4o가 가졌던 P(인식형) 같은 유연하고 창의적인 '직관력'을 희생하고, J(판단형) 같은 딱딱하고 정형화된 모델이 되었을 수 있다는 것이 글쓴이의 핵심적인 우려이자 주장입니다.'
Quantumwk
25/08/14 12:02
수정 아이콘
근데 어떤 LLM이던 자기들이 내부에 가지고 있는 모델 그대로 내놓은 건 아니고 비용이나 여러가지 측면에서 여러가지로 튜닝한 버전을 내놓기는 합니다.
번개맞은씨앗
25/08/14 12:07
수정 아이콘
대규모 기본모델을 만들어놓고, 이를 증류할 수도 있으니까요. 
번개맞은씨앗
25/08/14 12:09
수정 아이콘
ChatGPT 5 Fast
대규모 기본모델을 만든 뒤 이를 증류(distillation)하는 것은 실제로 자주 쓰이는 방법입니다. 보통 거대모델(teacher model)을 먼저 학습시킨 뒤, 그 모델이 생성하는 출력·중간 표현·확률 분포 등을 작은 모델(student model)에게 학습시키는 방식입니다. 이렇게 하면,

* 작은 모델이 원래 데이터뿐 아니라 거대모델의 “지식”을 함께 학습
* 속도와 비용 면에서 훨씬 효율적인 모델을 확보
* 성능 저하를 최소화하면서 배포 환경에 맞출 수 있음

OpenAI뿐 아니라 Google, Anthropic 등도 이 방식을 여러 차례 사용했습니다. GPT 5o가 GPT 5의 증류 버전이라는 가설도 이런 맥락에서는 충분히 그럴듯합니다. 다만, 증류의 효과와 한계는 데이터 품질·증류 방법·목표 크기에 따라 크게 달라집니다. 특히 직관력·창의성 같은 특성은 증류 과정에서 일부 손실될 수 있습니다.
Quantumwk
25/08/14 12:10
수정 아이콘
네 전 증류도 포함해서 얘기하긴 했습니다. o3 같은 것도 딥리서치 처음 나왔을때 보여주던 성능이나 벤치 마크 보면 정식 출시 되었을 때랑 차이가 크죠. 정식 출시 할때는 내부에 있는 'o3'를 증류해서 내놓았을 수 있음.

님말대로 증류 하면서 직관성, 창의성이 날아간다는데 동의합니다. mini-high 같은 경량화 모델 보면 벤치 마크 점수는 원 모델에 비해 별로 안떨어 졌는데 실제 써보면 실사용 성능은 체감상 더 나쁘거든요.
번개맞은씨앗
25/08/14 12:32
수정 아이콘
증류해서 쓰는게 합리적인 선택이라 봅니다. 속도는 사용성에 있어 중요한 문제이고, 또한 기업으로서 경제성도 중요한 문제이니까요. 따라서 증류한 모델을 무료 사용자에게도 개방된 기본옵션으로 쓰는게 자연스러운 거라 봅니다. 다만 아쉽게 느껴지는 건, (Plus 유료 사용자인데, 만약 위에 적은 글이 사실이라면, 직관력에 있어서는 그것이 프론티어라 할 수 있는,) 기본모델 GPT 5 원본을 한번도 못 써봤다는 점입니다. 
Quantumwk
25/08/14 12:57
수정 아이콘
저도 플러스인데 gpt5 씽킹 정도면 나쁘지 않다고는 생각합니다. 프로 다른경로로 써봤는데 고급 작업할꺼 아니면 엄청난 체감차는 아니에요.

물론 고급 작업하면 체급차 느껴지지만...
번개맞은씨앗
25/08/14 13:25
수정 아이콘
써보셨군요. 대부분의 작업에서는 기본 추론모델로 충분할 거라 생각해요.

신기한 일이 벌어졌다 — 라고 하면 Pro 사용자들이 그 사용례 또는 그에 대한 감상을 트윗에 올릴 텐데, 그걸 흥미롭게 지켜보면 좋을 것 같고요. 

만약 그런 보고에서 hype이 활발히 일어나면, pro 사용을 하려는 기업들이 많이 늘어나겠죠. 
25/08/14 13:26
수정 아이콘
저는 gpt5가 엄청난 혁신을 보여줄 거라 기대했는데, 실망이 매우 큽니다.
gpt5의 성능에 실망한게 아니라, 알트만이 개발자가 아닌 사업가라는 사실과 짧은 망상이었지만 강인공지능의 현실성에 한발짝 다가간다는
기대감이 박살난게 크죠. 알트만이라는 사람을 관심있게 추적(?)해온지가 꽤나 오래 되었는데, 제가 사람 보는 눈이 정말 없는거 같습니다.
몇년간 매일 써왔고 지금은 없으면 업무가 안되는 지경에 오른 경험에 근거하면 프로 기준 5의 성능 향상이 있었다는건 확실합니다.

저는 gpt5 가 출시 초기 기대이하의 퍼포먼스를 보인건 아주 단순한 이유 때문이라 유추하는데요
>호기심 및 화제성때문에 짦은 시간동안 많은 사용자들이 몰려 서버가 과부하됨. 잦은 오류 출력
>queue를 지연시키거나 전송량을 나눠 쪼개거나 해야하는데 후자를 선택한것으로 보임. 사용자마다 반응이 극단적으로 제각각
>출시전 개발자 인터뷰에서 원 목표치에 도달하지 않았으나 결국 미완성 버전으로 조기 롤아웃 하기로 결정 하였으며,
이는 내부 논의 후 사용자 피드백 수용과 함께 완성 시키는것이 비용,시간적 측면에서 이득이라 판단되어 그렇게 결정했다고 함
>안그러던 애들이 왜 비용,시간 따짐? 벤치마크 기준 월등한 가성비 달성,
openai의 공익 태세전환과 그동안 일어났던 개발자들의 철학에 따른 이탈등을 고려시
현 개발자들을 포함한 개발주체들 입장에서 이는 상업적으로 큰 진보. 단순 이용자수,성능의 논점에서 이탈해서
수익적으로도 매력있는 모델을 만드는게 지금 알트만과 개발자들 그리고 이해관계에 있는 사람들의 목표이자, 기조라고 생각되네요
확실한 근거는 없지만, 제가 그동안 읽은 기사들과 알트만 포함한 개발자들의 인터뷰를 면밀히 고찰해서 낸 의견입니다.

claude도 병행 사용하는 입장에서 gpt는 프로버전도 혜자라고 생각되는데, 솔직히 유료버전 유저 입장에선 차등을 두는걸 더 선호 할겁니다.
점진적으로 그렇게 사용량은 풀어주고 [지능]은 차등을 두는 방식이 될 거 같고요. 지금 그렇게 못 하는 이유는 택도없이
부족한, 예 그렇습니다. 정말 택도없이 부족한 하드웨어(성능이 아닌 mass) 때문이죠. 지금도 개발 진척은 로직 측면에서 많은 부분의 개선 및 이론의 개진이 이루어 지고 있는걸로 알고 있습니다. 원할하게 하려면 전세계의 모든 컴퓨터를 투입해도 모자랄 지경이라는것도요.

무료 사용자/유료 사용자/프리스티지(개발자,관계자) 들이 쓰는 모델의 출력물은 지금도 천차 만별일거라고 확신합니다.
지능의 차등이 구독자 레벨에 따라 확실하게 느껴지고, 사용량은 자유롭게 해서
잠재고객을 늘리는게 openai의 빅픽쳐고, 달성하기 위해 필요한 것과 현재 논란의 원인 모두 하나에 있다고 봅니다. 하드웨어 부족

오래 전부터 아마존닷컴은 모든 것을 갖춘 선구자였지만, 인터넷이라는 바다가 아직 고요했을 때 저를 포함한 많은 사람들이 그 잠재력을 알아보지 못했습니다.

지금 제가 느끼는 것도 그때와 비슷합니다. 아직 강인공지능에 대한 기대를 완전히 내려놓지 못한 채, 사색과 망상을 오가며 내린 저의 개인적인 의견이었습니다. 감사합니다
번개맞은씨앗
25/08/14 13:40
수정 아이콘
좋은 의견 감사합니다. 그들이 수익에 집중한다는게 맞는 말씀 같아요. 아마도 GPT 4까지가 가속구간이었고, GPT 5는 성숙기간이 시작된 거라 생각해요. 가속시에는 사람과 자원을 모으기 위해 사람들을 흥분시키는게 중요했지만, 성숙시에는 수익을 내는게 중요하겠지요. 이거 돈이 된다는 걸 증명해야 하는 거죠. 우리 기업이 살아남는다는 걸 증명해야 하는 거죠. 

강인공지능 내지 AGI가 무엇인지, 사람마다 기준이 다른 것이지만, 제 기준으로는 현재 기술로도 AGI는 가능하다 생각해요. 경제에 막대한 영향을 줄 수 있을 것이고, 그러면 AGI라 부르는 사람들이 많아지겠죠. 다만 지능이론이나 지능알고리즘에 breakthrough가 없는 이상 ASI는 되지 못할 거라 생각하고요. 오늘날 초지능 만들겠다고 발언하는 CEO는 자기들이 그 breakthrough를 해낼 수 있고 이를 향한 의지가 있다고 주장하는 것이라 이해할 수 있겠지요. 
Quantumwk
25/08/14 14:05
수정 아이콘
개인적으로 이제 텍스트지능은 어느정도 포화상태고 멀티모달이 중요한데 llm만으로는 멀티모달을 제대로 할수있나 싶긴합니다. 얀르쿤 엄청 까이지만 그의 비판자체는 일리가 있는게 아닌가 싶음.
안군시대
25/08/14 14:06
수정 아이콘
트랜스포머는 검색엔진이라기 보다는 seq-to-seq 학습모델이라고 봐야 합니다. 물론 사전에 인코딩된 입출력 문장(단어)세트가 있어야 하고, 입력의 연쇄에 대해서 가장 합당한 출력의 연쇄를 만들어내는 뉴런네트워크 모델이죠. 기존의 RNN이나 LSTM의 단점을 극적으로 개선한데다가, 가장 최신 입력에 더 민감하게 반응하는 시계열 모델의 단점도 보완했기 때문에 각광받고 있죠.

결국 GPT의 핵심은 트랜스포머고, 이런 근본적 설계가 바탕이기 때문에 이것만으로는 추론이나, 다양한 입력 등에 대응하기 어렵습니다. openai 쪽에서 자기들이 어떤 식으로 서비스를 구성했고, 아떻게 학습시켰는지 전부 공개한 것은 아니기 때문에(open 이라매...) 상세하게 알기는 어려우나, 입출력단에 다른 형태의 모델들을 여러 덧붙혔을 것으로 추측되고, 강화학습이나 GAN등도 도입했을 것으로 생각됩니다.

결론적으로, 우리가 챗지피티를 통해 얻는 결과물은, 저렇게 학습된 문장들을 바탕으로 질문에 가장 걸맞는 단어(혹은 데이터)의 연쇄라는 점입니다. 그걸 전제하지 않고 챗지피티를 이해하면 이상한 결론으로 다가갈 수 있어요.
Quantumwk
25/08/14 15:06
수정 아이콘
결론적으로, 우리가 챗지피티를 통해 얻는 결과물은, 저렇게 학습된 문장들을 바탕으로 질문에 가장 걸맞는 단어(혹은 데이터)의 연쇄라는 점입니다. - > 그냥 신경망 구조에 따라 그럴듯한 단어를 내뱉는 '확률적 앵무새'라는 얘기로 들리고 이론적으로는 틀린말이 아닐 수 있으나 이제 텍스트정보를 넣었을 때 보여주는 결과를 보면 단순히 '확률적 앵무새'라고 할 수 있는 건가 싶을 정도의 결과물이 많이 나온다고 느껴집니다.

아님 인간도 사실 '확률적 앵무새'일수도 있죠. 인간 뇌가 작동하는 메커니즘도 아직 잘 모르는 게 많잖아요?

전 차라리 위에 썼듯이 멀티모달에 있어서의 한계가 좀 느껴집니다. 시각적 정보 던져줬을 때 판단 내리는 거 보면 지금처럼 llm이 알아 먹을 수 있는 정보로 분해해서 던져주고 학습시키는 거 보다 사람처럼 시각정보를 광학 렌즈를 통해 직접 받은 다음 처리해야 하는게 아닐까 하는 생각이 듭니다.
안군시대
25/08/14 15:11
수정 아이콘
(수정됨) 확률은 아닙니다. 뉴런네트워크의 입출력은 결정론적이에요. 하나의 함수인데 내부가 블랙박스라고 보는 쪽이 맞습니다.
제 생각이 틀릴 수도 있습니다만, 저는 딥러닝을, 비선형 다차 행렬방정식의 근사해를 푸는 수치해석적인 방법론이라고 보고 있습니다.
그리고 인공지능을 더 발전시키려면 "센서"가 더 다양해져야 한다는 점에는 동의합니다. 단순히 광학적 정보 뿐만 아니라, 청각, 촉각, 미각, 후각 등등의 데이터도 받아들일 수 있는 기술이 더 도입돼야 다양한 정보를 학습할 수 있게 될 거라 생각합니다. 문제는 NN을 학습시킬 때는 반드시 어떤 보상이 있어야 하는데, 저런 다양한 정보들에 대한 보상을 어떻게 설계할지도 관건이 되겠죠.
Quantumwk
25/08/14 15:25
수정 아이콘
(수정됨) 사실 딥러닝 강의 듣고 나면 그냥 '고급 fitting 기술 아니야?'라는 생각이 들기도 하죠. 딥러닝 정식으로 배워본적 없지만 chatGPT이용해서 제분야에서 MATLAB으로 딥러닝해서 뭔가 해본 입장에서도 그냥 Fitting parameter 탐색기라고 느껴질 때도 있습니다.

근데 지금 LLM들이 내뱉는 결과를 보면 단순히 그렇게 이해하기는 의문이 가는 점들이 많습니다. 스케일이 늘어 나면서 창발성이 생겼다는 얘기들이 많은데 전 아무리 봐도 그런일이 생겼다고 보거든요. 전 본문에서 하는 얘기들에 어느정도 동의합니다.

님도 아시다 시피 신경망 내부는 블랙박스에 가깝고 안에서 무슨일이 일어나는지 모르기 때문에 그냥 기본 원리만 가지고 'fitting parameter 탐색기 일 뿐이다'라고 폄하하기는 힘들어 보입니다. 그 논리면 인간 뇌도 뉴런 단위에서는 그냥 전기 신호 주고 받는게 다 거든요. 엄청난 수의 뉴런이 모여서 지금 인간의 지능이 나온거고 이게 어떤식으로 작동해서 지능이 생긴건지는 아직도 잘 모릅니다. 님이 얘기한 논리면 인간도 그냥 좀 복잡한 '생체 전기 회로'장치일 뿐이고 그냥 뉴런 단위에서 전기 신호가 어떻게 오고 가는 지만 알면 지능이 어떤건지 다 밝힐 수 있었겠죠.
안군시대
25/08/14 15:44
수정 아이콘
실제로 인간도 그냥 환경에 반응하는 일종의 state machine 으로 보는 관점도 있죠. 그런 개념에서라면 뉴런네트워크나 인간의 뇌나 별반 차이가 없는 것이기도 하고요.
Quantumwk
25/08/14 15:50
수정 아이콘
전 지능 분석에 있어서 '환원적'관점을 취하는게 맞냐는 취지에서 얘기하는거고 그래서 본문처럼 LLM의 직관력, 추론능력을 논하는게 그리 의미 없는게 아니라고 생각합니다.

님은 'LLM의 작동 메커니즘상 인간한테서 볼수 있는 직관이나 추론을 논하는게 타당하지 않다'라는 식의 의견으로 보이구요.
안군시대
25/08/14 16:00
수정 아이콘
직관까지는 모르겠고, 추론의 경우에는 단순히 하나의 NN만을 사용해서 문제를 해결하는 방법론에서, 하나의 문제를 여러 개의 단계로 쪼갠 후에 각각의 단계에 대해 답을 내고, 다시 그것을 합쳐서 결론을 내는 식으로 모델을 구축해서 만들어낸 게 아닌가 하는 생각은 듭니다. 추론까지는 알고리즘의 영역 안에 들어와 있디고는 봐요.
다만, 여기서 한 단계 더 나아가려면 지금처럼 입력에 반응하는 방식 한가지만을 고수하는 것이 아니라, 아무런 입력이나 자극이 없더라도 자신의 본래 목적을 위해서 스스로 계속 출력을 만들어내는 과정이 필요한데, 이게 인간이 가지는 직관의 원천이라고 생각합니다.
번개맞은씨앗
25/08/14 15:53
수정 아이콘
이건 추론모델도 마찬가지인데, 시각 정보에서 문제는 '연상의 객체'에 있다고 봅니다. 추론모델의 경우에는 '추론의 객체'라 할 수 있겠죠. 그 덩어리진 객체의 적절성과 효율성이 문제되는 거라 봅니다. 

덩어리가 없고 가루라면, 너무 많은 계산이 필요하고 조합론적 폭발을 겪을 것입니다. 덩어리진다면, 그 덩어리가 과연 적절한지에 의문이 들죠. 그 덩어리가 유연하게 변화해야 한다면, 그 변화가 과연 적절한지에 의문이 들죠.

극단적으로 말해서, 덩어리가 적절하고 고정되어 있으면, 그 이후로는 연결주의 신경망으로 다루는게 아니라, 기호주의로 접근하는게 효과적일 것입니다. 

텍스트가 성공을 거둔 것은, 언어라는게 덩어리를 꽤 적절하게 만들고, 그 덩어리가 꽤 유연하게 변화하기 때문일 것입니다. 쿼리와 키를 내적해서, 값벡터에 곱한다는게 의미하는 바가, 값벡터가 결국 덩어리로 기능한다는 얘기가 됩니다. 그 덩어리 전체에 스칼라값을 곱한다는 것 말이죠. 

그런데 과연 시각정보는 그러한 덩어리를 얼마나 잘 만들 수 있는지가 문제되는 것입니다. 이를테면 픽셀로된 시각정보를 받아놓고, 그중에 '삼각형'을 찾아낸 뒤에 이를 덩어리로 다루는게 얼마나 적절하고 효과적인가 하는 것이지요. 그건 일종의 '개념'이라 할 수 있을텐데요. 

만약 이것이 잘 되지 않을 경우, 그냥 시각정보를 보고, '삼각형이 있다'라고 언어로 뽑아낸 것을 다루는 정보에 그치게 될 수 있을 것입니다. 어떤 한장의 사진에서 많은 언어들을 뽑아내고, 그 언어들을 가지고 연상하거나 추론하는 것으로, 이는 인간 또는 동물의 생각과 일치한다고 보기 곤란하겠죠. 진정한 감각운동적 개념이라 말하기가 곤란하겠고요. 

구글이 보여준 것을 놓고 볼 때, 제 생각에 시각적 개념이 진정 발달하기 위해서는, 사진이 아니라 영상으로 훈련되어야 한다고 봅니다. 카메라로 직접 입력받든, 아니면 영상 데이터를 입력받든, 마찬가지인데, 시간적 시퀀스 자체에 상당한 정보가 있는 거라 생각합니다. 

영상에서는 일부 픽셀들이 함께 움직이기 때문에, 이걸 가지고 덩어리지는 게 가능하고, 그렇게 움직임을 기준으로 덩어리지는게, 인간을 비롯한 동물의 기본적인 신경활동인 거라 봅니다. 그러면 덩어리와 덩어리의 관계가 등장하고, 덩어리 자체의 변화가 등장합니다. 덩어리를 더 쪼개서, 두 작은 덩어리로 매칭하고 이것이 관절처럼 움직이는 것도 다룰 수 있을 것입니다. 

그 결과를 영상을 생성하는 AI들에서 보고 있는 거라 봅니다. 아기는 사진을 보고 학습하는게 아니라, 영상을 보고 학습합니다. 움직이지 않으면 금새 주의력을 상실해버리는게, 흔한 유아적 정신일 것입니다. 

아무튼 그래서 멀티모달도 앞으로 많이 발전할 거라 봅니다. 구글은 영상자료를 워낙 많이 갖고 있으니, 오픈AI보다는 구글이 잠재력이 크다고 생각하고요. 데미스 하사비스는 게임 만들던 사람입니다. 게임은 환경을 창조하죠. 실제 세계를 모방하여, 환경을 창조한다는 건 매우 강력하고 중요한 일이라 봅니다. 일단 그런게 창조되면, 그안에서 AI를 훈련시킬 수 있을 테니까요. 구글의 지니3(Genie 3)가 그걸 가리킨다고 할 수 있을 것입니다. 마치 게임처럼 최소한의 조작이 가능하게 방향키도 세팅했습니다. 여기에 그들의 방향성과 야망을 엿볼 수 있는 것이겠고요.

영상 AI가 발전시킴으로써, 사진 AI를 발전시키는게 효과적이다 — 이렇게 말할 수 있을 것입니다. 
Quantumwk
25/08/14 15:54
수정 아이콘
네 구글이 (정확히 말하면 하사비스)가 딱 님과 같은 관점을 가지고 있더군요. 그것도 맞을 수 있다 봅니다.

얀르쿤 같은 사람은 LLM뿐만 아니라 더 근본적인 뭔가가 필요하다는 식으로 얘기하구요. 그게 뭔지 그리고 성과가 있는지 지금까지 보여준게 없어서 까이지만....
번개맞은씨앗
25/08/14 16:26
수정 아이콘
하사비스도 근본적인 혁신이 필요할 수 있다고 생각하는 걸로 압니다. 그러나 지금 있는 기술로도 어디까지 갈 수 있는지 해봐야 한다고 생각하는 걸로 압니다. 예전부터 그렇게 인터뷰한 걸로 기억하고요.

참고로 데미스 하사비스의 최근 인터뷰입니다. (렉스 프리드만 팟캐스트) 기존 기술들로 해내는 것도 구글이 잘 할 것이고, 근본적인 혁신이 필요하더라도, 그걸 많은 과학자를 보유한 구글이 해낼 수 있을거라는 자신감을 표현하고 있습니다. 

그는 AI 연구의 최첨단에서 결과들을 보고 있고, 그의 주변에는 천재적인 과학자나 기술자들이 있어 활발히 대화하고 있을 것입니다. 그는 AGI 기준을 상당히 설정하고 있고, 그럼에도 불구하고 5년 안에 50% 확률이라 평가하고 있습니다. Hype을 일으키는데 집중하는 샘 알트만이나 일론 머스크와는 달리, 그는 신중한 인물이라 생각합니다. 때문에 그의 발언에 상당한 신뢰와 무게를 두고 보고 있습니다. 

https://youtu.be/-HzgcbRXUK8?si=LrOtuBW9eGfygxY5

'우리가 진짜 AGI에 도달했다는 걸 어떻게 알 수 있을까요? 혹은 AGI의 '무브 37' 같은 순간은 어떤 걸까요?

제 예측은 앞으로 5년 안에 AGI가 나올 확률이 50% 정도 된다는 것입니다. 그러니까 2030년까지는 가능성이 꽤 높다고 봐요. 중요한 건 AGI의 정의죠. 지금도 많은 사람들이 이 문제로 논쟁하고 있는데, 저는 기준을 아주 높게 잡습니다. 제 기준은 인간 두뇌의 인지 기능을 전부 갖춘 존재인지 여부입니다. 우리는 우리의 두뇌가 거의 범용 튜링 머신에 가깝다는 걸 알고 있고, 그것으로 현대 문명을 만들어냈죠. 그만큼 뇌는 범용적입니다. 진짜 AGI라고 하려면 그런 모든 능력을 갖추고 있어야 합니다. 지금 시스템들은 특정 영역에서는 뛰어나지만 다른 부분에선 매우 부족하죠. 즉, ‘들쭉날쭉한 지능(jagged intelligence)’입니다. AGI는 모든 영역에서 일관된 지능을 보여야 하고, 앞서 이야기했던 진정한 발명 능력, 창의성 같은 것도 갖춰야 합니다. ...

... 지금은 “매트릭스 곱 연산을 더 빠르게” 같은 구체적인 목표를 줄 때는 매우 잘 작동하고, 점진적으로 개선하는 데 특화되어 있어요. 하지만 큰 도약을 하려면, 또 다른 차원의 발전이 필요합니다. ...

... 스케일링 법칙이 여전히 유효하다고 생각하시나요? 혹은 AI 발전이 벽에 부딪힐 가능성도 있다고 보시나요?

스케일링에는 아직도 꽤 많은 여지가 있다고 생각합니다. 실제로 프리트레이닝, 포스트트레이닝, 추론 시점(inference time), 이 세 단계 모두에서 스케일링이 동시에 진행되고 있습니다. 그리고 이건 결국 얼마나 혁신적인가의 문제이기도 하죠. 저희는 스스로가 가장 폭넓고 깊이 있는 연구 인력을 갖추고 있다고 자부합니다. 트랜스포머를 만든 남 샤지어, 알파고 프로젝트를 이끈 데이비드 실버 같은 뛰어난 연구자들이 있죠. 이런 연구 기반 덕분에 알파고나 트랜스포머 같은 새로운 돌파구가 필요해진다면, 저희가 그것을 만들어낼 수 있다고 자신합니다.

사실 저는 도전이 더 어려워질수록 좋습니다. 순수한 엔지니어링에서 진짜 ‘리서치’로 넘어가는 순간이니까요. 그리고 그게 저희의 핵심 강점이기도 합니다. 새로운 걸 발명하는 것이 그저 따라가는 것보다 훨씬 어렵죠. 

지금으로선 ‘기존 기술을 더 키우는 것으로 충분할까? 아니면 새로운 것이 필요할까?’라는 질문에 50대 50이라고 생각합니다. 그래서 우리는 두 방향을 동시에 밀어붙이고 있습니다. 새로운 블루스카이 아이디어에도 자원을 절반 가까이 투자하고 있고, 기존 기술의 최대 스케일링도 밀어붙이고 있죠. 실제로 Gemini의 각 버전에서도 훌륭한 진전이 계속 나타나고 있습니다.

흥미로운 표현입니다. 만약 AGI로 가는 길이 단순한 컴퓨트 스케일링 그 이상, 즉 공학적 문제를 넘어서 과학적인 돌파구가 필요한 문제라면, 딥마인드는 그 분야에서도 충분히 ‘한 방 날릴 수 있는’ 위치에 있다고 보시는 거군요.

네. 지난 10년 또는 15년의 AI 역사만 봐도, 현대 AI를 떠받치는 돌파구의 80~90%는 구글 브레인, 구글 리서치, 딥마인드에서 나왔다고 생각합니다. 앞으로도 그 흐름이 이어지길 바랍니다.'
번개맞은씨앗
25/08/14 15:24
수정 아이콘
맞아요. 저는 그걸 연상력이라 불러요. 그것이 인간 정신에 비유할 때, 적절한 단어 같거든요. 그 연상력이 기억력을 의미할 수도, 직관력을 의미할 수도 있겠지요. 학습한 데이터 범위 안에 있다면 기억력이고, 범위를 벗어나면 직관력이라 비유할 수 있겠죠. 어디까지나 비유일 뿐이라는 걸 주의해야하지만요.

(1, 2) (3, 6) (4, 8) (5, 10)으로 학습시켜서

y = 2x 라는 신경망을 만들었을 경우에, 3을 넣었을 때 6이 나온다면, 이는 기억을 회상한 것이고, 3은 그 기억을 검색한 거라 할 수 있겠죠. 2를 넣으면 4가 나올 텐데, 이는 내삽이라 할 수 있고, 6을 넣으면 12가 나올 텐데, 이는 외삽이라 할 수 있겠지요. 

넓게 보면, 외삽은 직관의 일종이라 할 수 있다고 봐요. 더 넓게 보면, 내삽까지도 직관이라 볼 수 있겠지만, 그런 관점이 유용한지 의문이긴 하죠. 저 좁게 보면, 데이터범위를 약간 넘어선 것까지도 기억이라 보고, 다만 (15, 30) 처럼 범위를 많이 벗어난 외삽을 직관이라 보는 수도 있겠죠.

강도 뿐만 아니라, 요소 내지 채널을 놓고도 직관을 말할 수 있을텐데요. A ∩ B ∩ C와 A ∩ B ∩ D와 B ∩ C를 입력으로하여 그 출력을 학습해놓고, 

B ∩ D를 입력으로 하면 출력이 무엇이 되겠는지 물었을 때, 그 출력을 보고서 이를 직관이라 부를 수 있겠지요. 이는 데이터 범위를 벗어나는 것인데, 신경망의 경우 어떻게든 답을 도출할 수 있겠지요. 그게 과연 타당한지는 의문이 있는 것이고, 꽤 그럴 듯하거나 유용한 답이 나오는 수도 있지만, 거짓 또는 환각이라 평가될만한 답이 나올 수도 있겠지요. 

이것의 대전제는 불확실하거나 복잡한 걸 다룰 때에, 우리에게 '직관 또는 철학'이 필요하다는 것이예요. 그저 수식만 보고 있을 게 아니라, 그저 확실한 것만 놓고 볼게 아니라, 현상을 이해할 직관 또는 철학이 필요하다는 것이지요. 생각해보면 강화학습의 보상이란 것도 실은 비유죠. 유용한 비유죠. 심지어 추론모델의 추론도 비유죠. 유용한 비유죠. 실제로는 계산하는 것이지 그걸 추론이라 보는 건, 비유이거나 혹은 논쟁적인 주장이죠.

LLM을 그저 다음 단어 예측이라 보는 것만으로는 부족하다고 보고, 기본적으로 LLM은 연상력이 있고, 그러한 연상이 기억 또는 직관을 의미한다고 보는 관점이 가능하고 유용하다 생각해요.
Quantumwk
25/08/14 15:26
수정 아이콘
LLM을 그저 다음 단어 예측이라 보는 것만으로는 부족하다고 보고, 기본적으로 LLM은 연상력이 있고, 그러한 연상이 기억 또는 직관을 의미한다고 보는 관점이 가능하고 유용하다 생각해요. - >저도 동의합니다. 딥러닝을 기초 원리만 보고 fitting parameter 생성기 정도로 생각하는 의견들이 있는데 동의 할 수 없습니다. 기초 원리만 보고 얘기하면 인간뇌도 그냥 '좀 복잡한 생체 전기 회로 장치'정도로 얘기할 수 있으니깐요.
안군시대
25/08/14 15:35
수정 아이콘
(수정됨) 어느 정도 동의합니다. 다만, 여기서 주목해야 할 점은 딥러닝은 "비선형"문제를 풀 수 있다는 점입니다.
예를 들어, y = 2x 라는 공식은 선형이라 x = y/2 로 역함수를 만들어 낼 수 있는데, 반해서 x가 홀수라면 y = 2x, x가 짝수라면 y = 3x 라는 공식이 있다면, y = 6 일 때의 x 값은 두 개가 됩니다. 이건 역함수가 없다고 봐야죠. 그런데 이 경우에도 y로부터 x를 추론할 수는 있습니다.2 또는 3 일겁니다. 여기서 "추론"이 나와버리죠. 즉, 어떤 전제를 미리 깔 수 있는 방법론이 없는 건 아니고, 챗지피티는 이 방법론을 제시해냈죠. 이것도 상당한 성과이긴 합니다.

제가 그저 다음 단어 예측이라고 썼긴 했지만, 좀더 엄밀히 말하자면 시간의 흐름 t 에 따라, 굉장히 복잡한 방정식의 그래프를 그려낸다고 생각할 수도 있습니다. 그리고 인간의 언어, 특히 문장은 그런 그래프로 나타낼 수 있다는 게 증명된 셈이죠. 개인적으로는 LLM을 그렇게 이해하고 있습니다. 어찌보면 LLM은 수열식을 풀어내는 장치라고 생각할 수도 있겠군요.

사실, 그동안의 알고리즘은 "귀납법"을 풀어내는 게 불가능하거나, 극히 어려웠습니다. 그걸 딥러닝이 해낸거고, 그 점에 있어서 저는 딥러닝을 위시한 근래의 AI의 발전이 의미가 없다고는 절대 생각하지 않습니다.
번개맞은씨앗
25/08/14 16:29
수정 아이콘
예시가 멋지네요. 
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
104753 [일반] "'1인 1음료' 왜 안지켜" 영수증 찢더니…손님 내쫓고 소금 뿌린 카페 [10] 페이커75618 25/08/14 618 0
104752 [정치] 특검, 한학자 통일교 총재 금고서 관봉 등 수백억 현금 뭉치 발견 [39] 크레토스5608 25/08/14 5608 0
104751 [정치]  신동욱 "특검, 눈에 뵈는 게 없다…통일교가 반국가단체인가" [62] 기찻길6287 25/08/14 6287 0
104750 [정치] 이 대통령 "위안부 피해자 분들 명예·존엄 회복 위해 총력 다할 것" [114] petrus6216 25/08/14 6216 0
104749 [일반] GPT 5는 아마도 GPT 5o — 부제 : 안전함과 직관력의 대립 [29] 번개맞은씨앗2788 25/08/14 2788 0
104748 [일반] [잡담] 버스 정류장... [5] 언뜻 유재석2660 25/08/14 2660 6
104747 [일반] 알찼던 펀쿨섹좌 방한 [53] 어강됴리9908 25/08/13 9908 7
104746 [일반] 왜 중국은 세계 최초의 ‘전기국가(Electrostate)’가 되고 있는가 [44] 크레토스7482 25/08/13 7482 9
104745 [정치] 미래사회에 중국이 좀 더 유리한 이유 [58] 깐부6891 25/08/13 6891 0
104744 [정치] 이 대통령, 교육부 장관에 최교진·여가부 장관에 원민경 지명 [81] 윤석열8497 25/08/13 8497 0
104743 [일반] "살 빼려면 운동해." [113] 동쪽의소나무9267 25/08/13 9267 30
104742 [정치] 흥미로운 서희건설 가(家)(feat. 김건희) [27] lightstone5998 25/08/13 5998 0
104741 [일반] 다이어트, GLP-1, 도파민에 대한 나의 생각 [121] 건방진고양이5647 25/08/13 5647 15
104739 [정치] 김건희 구속 [260] 빼사스16398 25/08/13 16398 0
104738 [일반] 로스쿨 제도에 대한 단상 [98] greek yogurt5346 25/08/13 5346 11
104737 [정치] 양안 전쟁 시 대만 파병, 국민 60%가 반대하고 20대는 파병찬성여론이 더 높아(여론조사 꽃) [259] 베라히12023 25/08/12 12023 0
104736 [일반] 오징어게임 vs 꼴뚜기게임 [3] 번개맞은씨앗5043 25/08/12 5043 0
104735 [정치] 난항으로 빠져드는 가덕도 신공항 [68] 깃털달린뱀10950 25/08/12 10950 0
104734 [정치] 최근 산재로 말 많았던 포스코이앤씨가 결국 압수수색을 받고 있네요. [78] 사조참치9028 25/08/12 9028 0
104733 [일반] 고대 그리스 남성은 왜 늦게 결혼했나? -1 [8] 市民 OUTIS3973 25/08/12 3973 2
104732 [정치] 전당대회 때부터 구도를 보면 이재명 VS 문재인&김어준&정청래 구도 같네요. [189] petrus9151 25/08/12 9151 0
104731 [일반] 트럼프 "워싱턴DC 경찰 직접 통제…주방위군도 투입" [44] 유머7781 25/08/12 7781 2
104730 [정치] 서희건설에서 김건희로, 서서히 맞춰지는 조각들 [66] 빼사스8761 25/08/11 8761 0
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로