:: 게시판
:: 이전 게시판
|
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
25/08/14 11:47
GPT-4o하고 4-mini를 착각하시는 거 같은데 o는 omni고 GPT-4에 멀티모달리티 기능이 추가된거지 스몰 파라미터 모델이 아닙니다.
25/08/14 11:57
ChatGPT 5 Thinking
공식 자료 기준으로는 둘 다 비공개입니다. GPT-4 기술 보고서가 경쟁·안전 상의 이유로 아키텍처(모델 크기 포함)를 공개하지 않는다고 명시했고, GPT-4o 관련 공개 문서들도 성능과 지연시간, 멀티모달 설계를 설명할 뿐 파라미터 수는 언급하지 않습니다. 따라서 GPT-4와 GPT-4o의 파라미터 수 차이는 확인할 수 없습니다. Gemini 2.5 Pro 네, GPT-4와 GPT-4o의 파라미터 수에 대한 정확한 정보는 OpenAI에서 공식적으로 발표하지 않았습니다. 하지만 업계 전문가들과 유출된 정보를 통해 추정된 수치에는 차이가 있는 것으로 알려져 있습니다. ... 결론적으로, GPT-4는 매우 큰 파라미터 수를 기반으로 높은 성능을 내는 데 초점을 맞춘 모델인 반면, GPT-4o는 성능을 유지하면서도 속도와 효율성을 극대화하고 다양한 입출력을 통합적으로 처리하는 데 중점을 둔 모델이라고 할 수 있습니다. 따라서 두 모델의 파라미터 수에는 차이가 있을 가능성이 높습니다. Grok 4 GPT-4와 GPT-4o의 파라미터 수는 OpenAI에 의해 공식적으로 공개되지 않았습니다. 따라서 정확한 차이를 확인하기 어렵지만, 다양한 추정치와 분석에 따르면 두 모델의 파라미터 규모는 비슷한 수준으로 여겨지며, 명확한 차이가 없다는 의견이 지배적입니다. GPT-4의 파라미터 수: 공식 발표는 없으나, 전문가 추정치로 약 1.7조 ~ 1.8조(1.7 trillion ~ 1.8 trillion) 정도로 평가됩니다. 이는 Mixture of Experts (MoE) 아키텍처를 기반으로 한 추정으로, 전체 파라미터가 한 번에 로드되지 않아 효율적입니다. GPT-4o의 파라미터 수: 마찬가지로 공식 정보가 없으며, 일부 추정에서 약 200억 ~ 600억(200 billion ~ 600 billion) 정도로 더 작게 보이지만, 이는 MoE 구조의 활성 파라미터를 고려한 것으로, 전체 규모는 GPT-4와 유사할 수 있습니다. Claude Sonnet 4 GPT-4와 GPT-4o의 정확한 파라미터 수에 대해서는 OpenAI가 공식적으로 구체적인 수치를 공개하지 않았습니다. 일반적으로 업계에서는 GPT-4가 약 1조 개(1 trillion) 정도의 파라미터를 가질 것으로 추정하고 있지만, 이는 공식 확인된 수치가 아닙니다. GPT-4o의 경우는 더욱 불분명합니다. GPT-4o는 "omni"의 줄임말로, 텍스트, 음성, 이미지를 통합적으로 처리할 수 있는 멀티모달 모델입니다.
25/08/14 12:06
Q. GPT 4와 GPT 4o가 파라미터수가 과연 다른가?
그 부분을 불확실한 추측이라고 명시를 했어야 했는데, 실수로 누락했네요. 한번에 엮여서 돌아가는 파라미터수에 있어서, GPT 4o가 GPT 4와 파라미터수가 동일하다면, 이를 기반으로 위에 제가 이야기한 것들은 모두 잘못된 거라 할 수 있을 것입니다. 그런데 제 생각에 속도를 놓고 볼 때 파라미터수가 줄어들지 않았다면, 결국 GPU가 빨라졌다는 얘기가 될 것이고, 엔비디아 칩이 그렇게 빨라지진 않았으니, 파라미터수가 줄어든 것일 개연성이 크다고 생각합니다.
25/08/14 12:01
제미니가 정리 해줬는데 의도에 맞게 한건지 궁금
'안녕하세요. 제공해주신 글의 요지를 파악하는 데 어려움을 느끼셨군요. 글이 다소 길고 여러 추측을 담고 있어 그럴 수 있습니다. 핵심 내용을 명확하게 정리해 드리겠습니다. 이 글은 **"OpenAI의 최신 모델 GPT-5는 사실상 압축 버전인 'GPT-5o'이며, 이 모델이 '안전성'을 지나치게 강화한 나머지 이전 모델(GPT-4o)이 가졌던 핵심적인 능력인 '직관력'을 잃어버렸을 수 있다"**는 비판적 추측을 담고 있습니다. 글의 핵심 요지를 세 부분으로 나누어 설명할 수 있습니다. 1. GPT-5의 정체에 대한 추측: "현재의 GPT-5는 진짜 GPT-5가 아니다." 글쓴이는 현재 우리가 사용하는 빠른 속도의 GPT-5(Fast)가 사실은 거대한 원본 GPT-5 모델을 효율적으로 압축한 'GPT-5o'일 것이라고 주장합니다. 그 근거는 다음과 같습니다. * 속도: GPT-4가 느렸고 GPT-4o가 빨랐던 것처럼, 현재의 GPT-5가 빠른 것은 압축된 'o' 모델의 특징과 일치합니다. * 데이터 한계: 고품질 텍스트 데이터가 고갈되었기 때문에, 무작정 모델의 크기(파라미터)를 키우기보다 거대 모델을 만든 뒤 압축하여 효율을 높이는 전략을 택했을 가능성이 높습니다. * 추론 모델의 필요성: 복잡한 추론을 위해서는 빠른 기본 모델이 필수적이므로, OpenAI는 의도적으로 더 빠른 압축 모델을 기본으로 삼았을 것입니다. > 비유: 진짜 무겁고 큰 원본 'GPT-5'가 있고, 여기서 핵심만 뽑아 가볍고 빠르게 만든 'GPT-5o(Fast)'를 대중에게 공개했다는 것입니다. > 2. '직관력'의 원천: "거대 모델의 잉여 파라미터가 직관을 만든다." 글쓴이는 모델의 크기, 즉 파라미터 수가 많을수록 AI의 '직관력' 또는 '창의성'이 높아진다고 말합니다. * 파라미터 잉여: 작은 모델은 정해진 답을 찾는 데 효율적이지만, 파라미터가 남아도는 거대 모델은 학습하지 않은 새로운 질문에 대해 더 다양하고 창의적인 경로로 답을 탐색할 잠재력이 있습니다. * 직관력: 이처럼 정해진 길을 넘어 미묘하고 새로운 해답을 내놓는 능력을 글쓴이는 '직관력'이라고 부릅니다. 이는 단순한 정보 검색을 뛰어넘는 AI의 신비로운 힘이라고 설명합니다. > 비유: 작은 모델은 A에서 B로 가는 가장 빠른 길 하나만 알지만, 거대 모델은 여러 샛길과 우회로(잉여 파라미터)를 알고 있어 예상치 못한 멋진 풍경(창의적 결과)을 보여줄 수 있다는 것입니다. > 3. 직관력의 퇴보와 그 원인: "안전이 직관을 죽인다." 이 글의 가장 핵심적인 주장입니다. 글쓴이는 GPT-5 Fast가 이전 모델인 GPT-4o보다 어떤 면에서는 오히려 지능이 낮아졌다고 느끼며, 그 원인을 '안전성 강화'로 지목합니다. * 환각(Hallucination) 줄이기: OpenAI는 환각을 줄였다고 홍보하지만, 이 과정에서 사실이 아닐 수도 있는 모호하고 창의적인 답변까지 차단하여 모델을 '재미없고 평범하게' 만들었을 수 있습니다. * 감성적 아첨(Flattery) 배제: 사용자와의 원활한 소통에 필요한 칭찬, 격려, 공감 같은 사회적 윤활유 역할을 하던 표현들을 '사실이 아닌 아첨'으로 간주하여 제거했을 수 있습니다. 이는 AI를 단기적으로는 정확하게 만들지만, 장기적으로는 인간과의 협업과 사용자의 동기부여에 해가 될 수 있습니다. > 결론: GPT-5 Fast는 '안전'과 '정확성'이라는 명목 아래, GPT-4o가 가졌던 P(인식형) 같은 유연하고 창의적인 '직관력'을 희생하고, J(판단형) 같은 딱딱하고 정형화된 모델이 되었을 수 있다는 것이 글쓴이의 핵심적인 우려이자 주장입니다.'
25/08/14 12:02
근데 어떤 LLM이던 자기들이 내부에 가지고 있는 모델 그대로 내놓은 건 아니고 비용이나 여러가지 측면에서 여러가지로 튜닝한 버전을 내놓기는 합니다.
25/08/14 12:09
ChatGPT 5 Fast
대규모 기본모델을 만든 뒤 이를 증류(distillation)하는 것은 실제로 자주 쓰이는 방법입니다. 보통 거대모델(teacher model)을 먼저 학습시킨 뒤, 그 모델이 생성하는 출력·중간 표현·확률 분포 등을 작은 모델(student model)에게 학습시키는 방식입니다. 이렇게 하면, * 작은 모델이 원래 데이터뿐 아니라 거대모델의 “지식”을 함께 학습 * 속도와 비용 면에서 훨씬 효율적인 모델을 확보 * 성능 저하를 최소화하면서 배포 환경에 맞출 수 있음 OpenAI뿐 아니라 Google, Anthropic 등도 이 방식을 여러 차례 사용했습니다. GPT 5o가 GPT 5의 증류 버전이라는 가설도 이런 맥락에서는 충분히 그럴듯합니다. 다만, 증류의 효과와 한계는 데이터 품질·증류 방법·목표 크기에 따라 크게 달라집니다. 특히 직관력·창의성 같은 특성은 증류 과정에서 일부 손실될 수 있습니다.
25/08/14 12:10
네 전 증류도 포함해서 얘기하긴 했습니다. o3 같은 것도 딥리서치 처음 나왔을때 보여주던 성능이나 벤치 마크 보면 정식 출시 되었을 때랑 차이가 크죠. 정식 출시 할때는 내부에 있는 'o3'를 증류해서 내놓았을 수 있음.
님말대로 증류 하면서 직관성, 창의성이 날아간다는데 동의합니다. mini-high 같은 경량화 모델 보면 벤치 마크 점수는 원 모델에 비해 별로 안떨어 졌는데 실제 써보면 실사용 성능은 체감상 더 나쁘거든요.
25/08/14 12:32
증류해서 쓰는게 합리적인 선택이라 봅니다. 속도는 사용성에 있어 중요한 문제이고, 또한 기업으로서 경제성도 중요한 문제이니까요. 따라서 증류한 모델을 무료 사용자에게도 개방된 기본옵션으로 쓰는게 자연스러운 거라 봅니다. 다만 아쉽게 느껴지는 건, (Plus 유료 사용자인데, 만약 위에 적은 글이 사실이라면, 직관력에 있어서는 그것이 프론티어라 할 수 있는,) 기본모델 GPT 5 원본을 한번도 못 써봤다는 점입니다.
25/08/14 12:57
저도 플러스인데 gpt5 씽킹 정도면 나쁘지 않다고는 생각합니다. 프로 다른경로로 써봤는데 고급 작업할꺼 아니면 엄청난 체감차는 아니에요.
물론 고급 작업하면 체급차 느껴지지만...
25/08/14 13:25
써보셨군요. 대부분의 작업에서는 기본 추론모델로 충분할 거라 생각해요.
신기한 일이 벌어졌다 — 라고 하면 Pro 사용자들이 그 사용례 또는 그에 대한 감상을 트윗에 올릴 텐데, 그걸 흥미롭게 지켜보면 좋을 것 같고요. 만약 그런 보고에서 hype이 활발히 일어나면, pro 사용을 하려는 기업들이 많이 늘어나겠죠.
25/08/14 13:26
저는 gpt5가 엄청난 혁신을 보여줄 거라 기대했는데, 실망이 매우 큽니다.
gpt5의 성능에 실망한게 아니라, 알트만이 개발자가 아닌 사업가라는 사실과 짧은 망상이었지만 강인공지능의 현실성에 한발짝 다가간다는 기대감이 박살난게 크죠. 알트만이라는 사람을 관심있게 추적(?)해온지가 꽤나 오래 되었는데, 제가 사람 보는 눈이 정말 없는거 같습니다. 몇년간 매일 써왔고 지금은 없으면 업무가 안되는 지경에 오른 경험에 근거하면 프로 기준 5의 성능 향상이 있었다는건 확실합니다. 저는 gpt5 가 출시 초기 기대이하의 퍼포먼스를 보인건 아주 단순한 이유 때문이라 유추하는데요 >호기심 및 화제성때문에 짦은 시간동안 많은 사용자들이 몰려 서버가 과부하됨. 잦은 오류 출력 >queue를 지연시키거나 전송량을 나눠 쪼개거나 해야하는데 후자를 선택한것으로 보임. 사용자마다 반응이 극단적으로 제각각 >출시전 개발자 인터뷰에서 원 목표치에 도달하지 않았으나 결국 미완성 버전으로 조기 롤아웃 하기로 결정 하였으며, 이는 내부 논의 후 사용자 피드백 수용과 함께 완성 시키는것이 비용,시간적 측면에서 이득이라 판단되어 그렇게 결정했다고 함 >안그러던 애들이 왜 비용,시간 따짐? 벤치마크 기준 월등한 가성비 달성, openai의 공익 태세전환과 그동안 일어났던 개발자들의 철학에 따른 이탈등을 고려시 현 개발자들을 포함한 개발주체들 입장에서 이는 상업적으로 큰 진보. 단순 이용자수,성능의 논점에서 이탈해서 수익적으로도 매력있는 모델을 만드는게 지금 알트만과 개발자들 그리고 이해관계에 있는 사람들의 목표이자, 기조라고 생각되네요 확실한 근거는 없지만, 제가 그동안 읽은 기사들과 알트만 포함한 개발자들의 인터뷰를 면밀히 고찰해서 낸 의견입니다. claude도 병행 사용하는 입장에서 gpt는 프로버전도 혜자라고 생각되는데, 솔직히 유료버전 유저 입장에선 차등을 두는걸 더 선호 할겁니다. 점진적으로 그렇게 사용량은 풀어주고 [지능]은 차등을 두는 방식이 될 거 같고요. 지금 그렇게 못 하는 이유는 택도없이 부족한, 예 그렇습니다. 정말 택도없이 부족한 하드웨어(성능이 아닌 mass) 때문이죠. 지금도 개발 진척은 로직 측면에서 많은 부분의 개선 및 이론의 개진이 이루어 지고 있는걸로 알고 있습니다. 원할하게 하려면 전세계의 모든 컴퓨터를 투입해도 모자랄 지경이라는것도요. 무료 사용자/유료 사용자/프리스티지(개발자,관계자) 들이 쓰는 모델의 출력물은 지금도 천차 만별일거라고 확신합니다. 지능의 차등이 구독자 레벨에 따라 확실하게 느껴지고, 사용량은 자유롭게 해서 잠재고객을 늘리는게 openai의 빅픽쳐고, 달성하기 위해 필요한 것과 현재 논란의 원인 모두 하나에 있다고 봅니다. 하드웨어 부족 오래 전부터 아마존닷컴은 모든 것을 갖춘 선구자였지만, 인터넷이라는 바다가 아직 고요했을 때 저를 포함한 많은 사람들이 그 잠재력을 알아보지 못했습니다. 지금 제가 느끼는 것도 그때와 비슷합니다. 아직 강인공지능에 대한 기대를 완전히 내려놓지 못한 채, 사색과 망상을 오가며 내린 저의 개인적인 의견이었습니다. 감사합니다
25/08/14 13:40
좋은 의견 감사합니다. 그들이 수익에 집중한다는게 맞는 말씀 같아요. 아마도 GPT 4까지가 가속구간이었고, GPT 5는 성숙기간이 시작된 거라 생각해요. 가속시에는 사람과 자원을 모으기 위해 사람들을 흥분시키는게 중요했지만, 성숙시에는 수익을 내는게 중요하겠지요. 이거 돈이 된다는 걸 증명해야 하는 거죠. 우리 기업이 살아남는다는 걸 증명해야 하는 거죠.
강인공지능 내지 AGI가 무엇인지, 사람마다 기준이 다른 것이지만, 제 기준으로는 현재 기술로도 AGI는 가능하다 생각해요. 경제에 막대한 영향을 줄 수 있을 것이고, 그러면 AGI라 부르는 사람들이 많아지겠죠. 다만 지능이론이나 지능알고리즘에 breakthrough가 없는 이상 ASI는 되지 못할 거라 생각하고요. 오늘날 초지능 만들겠다고 발언하는 CEO는 자기들이 그 breakthrough를 해낼 수 있고 이를 향한 의지가 있다고 주장하는 것이라 이해할 수 있겠지요.
25/08/14 14:05
개인적으로 이제 텍스트지능은 어느정도 포화상태고 멀티모달이 중요한데 llm만으로는 멀티모달을 제대로 할수있나 싶긴합니다. 얀르쿤 엄청 까이지만 그의 비판자체는 일리가 있는게 아닌가 싶음.
25/08/14 14:06
트랜스포머는 검색엔진이라기 보다는 seq-to-seq 학습모델이라고 봐야 합니다. 물론 사전에 인코딩된 입출력 문장(단어)세트가 있어야 하고, 입력의 연쇄에 대해서 가장 합당한 출력의 연쇄를 만들어내는 뉴런네트워크 모델이죠. 기존의 RNN이나 LSTM의 단점을 극적으로 개선한데다가, 가장 최신 입력에 더 민감하게 반응하는 시계열 모델의 단점도 보완했기 때문에 각광받고 있죠.
결국 GPT의 핵심은 트랜스포머고, 이런 근본적 설계가 바탕이기 때문에 이것만으로는 추론이나, 다양한 입력 등에 대응하기 어렵습니다. openai 쪽에서 자기들이 어떤 식으로 서비스를 구성했고, 아떻게 학습시켰는지 전부 공개한 것은 아니기 때문에(open 이라매...) 상세하게 알기는 어려우나, 입출력단에 다른 형태의 모델들을 여러 덧붙혔을 것으로 추측되고, 강화학습이나 GAN등도 도입했을 것으로 생각됩니다. 결론적으로, 우리가 챗지피티를 통해 얻는 결과물은, 저렇게 학습된 문장들을 바탕으로 질문에 가장 걸맞는 단어(혹은 데이터)의 연쇄라는 점입니다. 그걸 전제하지 않고 챗지피티를 이해하면 이상한 결론으로 다가갈 수 있어요.
+ 25/08/14 15:06
결론적으로, 우리가 챗지피티를 통해 얻는 결과물은, 저렇게 학습된 문장들을 바탕으로 질문에 가장 걸맞는 단어(혹은 데이터)의 연쇄라는 점입니다. - > 그냥 신경망 구조에 따라 그럴듯한 단어를 내뱉는 '확률적 앵무새'라는 얘기로 들리고 이론적으로는 틀린말이 아닐 수 있으나 이제 텍스트정보를 넣었을 때 보여주는 결과를 보면 단순히 '확률적 앵무새'라고 할 수 있는 건가 싶을 정도의 결과물이 많이 나온다고 느껴집니다.
아님 인간도 사실 '확률적 앵무새'일수도 있죠. 인간 뇌가 작동하는 메커니즘도 아직 잘 모르는 게 많잖아요? 전 차라리 위에 썼듯이 멀티모달에 있어서의 한계가 좀 느껴집니다. 시각적 정보 던져줬을 때 판단 내리는 거 보면 지금처럼 llm이 알아 먹을 수 있는 정보로 분해해서 던져주고 학습시키는 거 보다 사람처럼 시각정보를 광학 렌즈를 통해 직접 받은 다음 처리해야 하는게 아닐까 하는 생각이 듭니다.
+ 25/08/14 15:11
(수정됨) 확률은 아닙니다. 뉴런네트워크의 입출력은 결정론적이에요. 하나의 함수인데 내부가 블랙박스라고 보는 쪽이 맞습니다.
제 생각이 틀릴 수도 있습니다만, 저는 딥러닝을, 비선형 다차 행렬방정식의 근사해를 푸는 수치해석적인 방법론이라고 보고 있습니다. 그리고 인공지능을 더 발전시키려면 "센서"가 더 다양해져야 한다는 점에는 동의합니다. 단순히 광학적 정보 뿐만 아니라, 청각, 촉각, 미각, 후각 등등의 데이터도 받아들일 수 있는 기술이 더 도입돼야 다양한 정보를 학습할 수 있게 될 거라 생각합니다. 문제는 NN을 학습시킬 때는 반드시 어떤 보상이 있어야 하는데, 저런 다양한 정보들에 대한 보상을 어떻게 설계할지도 관건이 되겠죠.
+ 25/08/14 15:25
(수정됨) 사실 딥러닝 강의 듣고 나면 그냥 '고급 fitting 기술 아니야?'라는 생각이 들기도 하죠. 딥러닝 정식으로 배워본적 없지만 chatGPT이용해서 제분야에서 MATLAB으로 딥러닝해서 뭔가 해본 입장에서도 그냥 Fitting parameter 탐색기라고 느껴질 때도 있습니다.
근데 지금 LLM들이 내뱉는 결과를 보면 단순히 그렇게 이해하기는 의문이 가는 점들이 많습니다. 스케일이 늘어 나면서 창발성이 생겼다는 얘기들이 많은데 전 아무리 봐도 그런일이 생겼다고 보거든요. 전 본문에서 하는 얘기들에 어느정도 동의합니다. 님도 아시다 시피 신경망 내부는 블랙박스에 가깝고 안에서 무슨일이 일어나는지 모르기 때문에 그냥 기본 원리만 가지고 'fitting parameter 탐색기 일 뿐이다'라고 폄하하기는 힘들어 보입니다. 그 논리면 인간 뇌도 뉴런 단위에서는 그냥 전기 신호 주고 받는게 다 거든요. 엄청난 수의 뉴런이 모여서 지금 인간의 지능이 나온거고 이게 어떤식으로 작동해서 지능이 생긴건지는 아직도 잘 모릅니다. 님이 얘기한 논리면 인간도 그냥 좀 복잡한 '생체 전기 회로'장치일 뿐이고 그냥 뉴런 단위에서 전기 신호가 어떻게 오고 가는 지만 알면 지능이 어떤건지 다 밝힐 수 있었겠죠.
+ 25/08/14 15:44
실제로 인간도 그냥 환경에 반응하는 일종의 state machine 으로 보는 관점도 있죠. 그런 개념에서라면 뉴런네트워크나 인간의 뇌나 별반 차이가 없는 것이기도 하고요.
+ 25/08/14 15:50
전 지능 분석에 있어서 '환원적'관점을 취하는게 맞냐는 취지에서 얘기하는거고 그래서 본문처럼 LLM의 직관력, 추론능력을 논하는게 그리 의미 없는게 아니라고 생각합니다.
님은 'LLM의 작동 메커니즘상 인간한테서 볼수 있는 직관이나 추론을 논하는게 타당하지 않다'라는 식의 의견으로 보이구요.
+ 25/08/14 16:00
직관까지는 모르겠고, 추론의 경우에는 단순히 하나의 NN만을 사용해서 문제를 해결하는 방법론에서, 하나의 문제를 여러 개의 단계로 쪼갠 후에 각각의 단계에 대해 답을 내고, 다시 그것을 합쳐서 결론을 내는 식으로 모델을 구축해서 만들어낸 게 아닌가 하는 생각은 듭니다. 추론까지는 알고리즘의 영역 안에 들어와 있디고는 봐요.
다만, 여기서 한 단계 더 나아가려면 지금처럼 입력에 반응하는 방식 한가지만을 고수하는 것이 아니라, 아무런 입력이나 자극이 없더라도 자신의 본래 목적을 위해서 스스로 계속 출력을 만들어내는 과정이 필요한데, 이게 인간이 가지는 직관의 원천이라고 생각합니다.
+ 25/08/14 15:53
이건 추론모델도 마찬가지인데, 시각 정보에서 문제는 '연상의 객체'에 있다고 봅니다. 추론모델의 경우에는 '추론의 객체'라 할 수 있겠죠. 그 덩어리진 객체의 적절성과 효율성이 문제되는 거라 봅니다.
덩어리가 없고 가루라면, 너무 많은 계산이 필요하고 조합론적 폭발을 겪을 것입니다. 덩어리진다면, 그 덩어리가 과연 적절한지에 의문이 들죠. 그 덩어리가 유연하게 변화해야 한다면, 그 변화가 과연 적절한지에 의문이 들죠. 극단적으로 말해서, 덩어리가 적절하고 고정되어 있으면, 그 이후로는 연결주의 신경망으로 다루는게 아니라, 기호주의로 접근하는게 효과적일 것입니다. 텍스트가 성공을 거둔 것은, 언어라는게 덩어리를 꽤 적절하게 만들고, 그 덩어리가 꽤 유연하게 변화하기 때문일 것입니다. 쿼리와 키를 내적해서, 값벡터에 곱한다는게 의미하는 바가, 값벡터가 결국 덩어리로 기능한다는 얘기가 됩니다. 그 덩어리 전체에 스칼라값을 곱한다는 것 말이죠. 그런데 과연 시각정보는 그러한 덩어리를 얼마나 잘 만들 수 있는지가 문제되는 것입니다. 이를테면 픽셀로된 시각정보를 받아놓고, 그중에 '삼각형'을 찾아낸 뒤에 이를 덩어리로 다루는게 얼마나 적절하고 효과적인가 하는 것이지요. 그건 일종의 '개념'이라 할 수 있을텐데요. 만약 이것이 잘 되지 않을 경우, 그냥 시각정보를 보고, '삼각형이 있다'라고 언어로 뽑아낸 것을 다루는 정보에 그치게 될 수 있을 것입니다. 어떤 한장의 사진에서 많은 언어들을 뽑아내고, 그 언어들을 가지고 연상하거나 추론하는 것으로, 이는 인간 또는 동물의 생각과 일치한다고 보기 곤란하겠죠. 진정한 감각운동적 개념이라 말하기가 곤란하겠고요. 구글이 보여준 것을 놓고 볼 때, 제 생각에 시각적 개념이 진정 발달하기 위해서는, 사진이 아니라 영상으로 훈련되어야 한다고 봅니다. 카메라로 직접 입력받든, 아니면 영상 데이터를 입력받든, 마찬가지인데, 시간적 시퀀스 자체에 상당한 정보가 있는 거라 생각합니다. 영상에서는 일부 픽셀들이 함께 움직이기 때문에, 이걸 가지고 덩어리지는 게 가능하고, 그렇게 움직임을 기준으로 덩어리지는게, 인간을 비롯한 동물의 기본적인 신경활동인 거라 봅니다. 그러면 덩어리와 덩어리의 관계가 등장하고, 덩어리 자체의 변화가 등장합니다. 덩어리를 더 쪼개서, 두 작은 덩어리로 매칭하고 이것이 관절처럼 움직이는 것도 다룰 수 있을 것입니다. 그 결과를 영상을 생성하는 AI들에서 보고 있는 거라 봅니다. 아기는 사진을 보고 학습하는게 아니라, 영상을 보고 학습합니다. 움직이지 않으면 금새 주의력을 상실해버리는게, 흔한 유아적 정신일 것입니다. 아무튼 그래서 멀티모달도 앞으로 많이 발전할 거라 봅니다. 구글은 영상자료를 워낙 많이 갖고 있으니, 오픈AI보다는 구글이 잠재력이 크다고 생각하고요. 데미스 하사비스는 게임 만들던 사람입니다. 게임은 환경을 창조하죠. 실제 세계를 모방하여, 환경을 창조한다는 건 매우 강력하고 중요한 일이라 봅니다. 일단 그런게 창조되면, 그안에서 AI를 훈련시킬 수 있을 테니까요. 구글의 지니3(Genie 3)가 그걸 가리킨다고 할 수 있을 것입니다. 마치 게임처럼 최소한의 조작이 가능하게 방향키도 세팅했습니다. 여기에 그들의 방향성과 야망을 엿볼 수 있는 것이겠고요. 영상 AI가 발전시킴으로써, 사진 AI를 발전시키는게 효과적이다 — 이렇게 말할 수 있을 것입니다.
+ 25/08/14 15:54
네 구글이 (정확히 말하면 하사비스)가 딱 님과 같은 관점을 가지고 있더군요. 그것도 맞을 수 있다 봅니다.
얀르쿤 같은 사람은 LLM뿐만 아니라 더 근본적인 뭔가가 필요하다는 식으로 얘기하구요. 그게 뭔지 그리고 성과가 있는지 지금까지 보여준게 없어서 까이지만....
+ 25/08/14 16:26
하사비스도 근본적인 혁신이 필요할 수 있다고 생각하는 걸로 압니다. 그러나 지금 있는 기술로도 어디까지 갈 수 있는지 해봐야 한다고 생각하는 걸로 압니다. 예전부터 그렇게 인터뷰한 걸로 기억하고요.
참고로 데미스 하사비스의 최근 인터뷰입니다. (렉스 프리드만 팟캐스트) 기존 기술들로 해내는 것도 구글이 잘 할 것이고, 근본적인 혁신이 필요하더라도, 그걸 많은 과학자를 보유한 구글이 해낼 수 있을거라는 자신감을 표현하고 있습니다. 그는 AI 연구의 최첨단에서 결과들을 보고 있고, 그의 주변에는 천재적인 과학자나 기술자들이 있어 활발히 대화하고 있을 것입니다. 그는 AGI 기준을 상당히 설정하고 있고, 그럼에도 불구하고 5년 안에 50% 확률이라 평가하고 있습니다. Hype을 일으키는데 집중하는 샘 알트만이나 일론 머스크와는 달리, 그는 신중한 인물이라 생각합니다. 때문에 그의 발언에 상당한 신뢰와 무게를 두고 보고 있습니다. https://youtu.be/-HzgcbRXUK8?si=LrOtuBW9eGfygxY5 '우리가 진짜 AGI에 도달했다는 걸 어떻게 알 수 있을까요? 혹은 AGI의 '무브 37' 같은 순간은 어떤 걸까요? 제 예측은 앞으로 5년 안에 AGI가 나올 확률이 50% 정도 된다는 것입니다. 그러니까 2030년까지는 가능성이 꽤 높다고 봐요. 중요한 건 AGI의 정의죠. 지금도 많은 사람들이 이 문제로 논쟁하고 있는데, 저는 기준을 아주 높게 잡습니다. 제 기준은 인간 두뇌의 인지 기능을 전부 갖춘 존재인지 여부입니다. 우리는 우리의 두뇌가 거의 범용 튜링 머신에 가깝다는 걸 알고 있고, 그것으로 현대 문명을 만들어냈죠. 그만큼 뇌는 범용적입니다. 진짜 AGI라고 하려면 그런 모든 능력을 갖추고 있어야 합니다. 지금 시스템들은 특정 영역에서는 뛰어나지만 다른 부분에선 매우 부족하죠. 즉, ‘들쭉날쭉한 지능(jagged intelligence)’입니다. AGI는 모든 영역에서 일관된 지능을 보여야 하고, 앞서 이야기했던 진정한 발명 능력, 창의성 같은 것도 갖춰야 합니다. ... ... 지금은 “매트릭스 곱 연산을 더 빠르게” 같은 구체적인 목표를 줄 때는 매우 잘 작동하고, 점진적으로 개선하는 데 특화되어 있어요. 하지만 큰 도약을 하려면, 또 다른 차원의 발전이 필요합니다. ... ... 스케일링 법칙이 여전히 유효하다고 생각하시나요? 혹은 AI 발전이 벽에 부딪힐 가능성도 있다고 보시나요? 스케일링에는 아직도 꽤 많은 여지가 있다고 생각합니다. 실제로 프리트레이닝, 포스트트레이닝, 추론 시점(inference time), 이 세 단계 모두에서 스케일링이 동시에 진행되고 있습니다. 그리고 이건 결국 얼마나 혁신적인가의 문제이기도 하죠. 저희는 스스로가 가장 폭넓고 깊이 있는 연구 인력을 갖추고 있다고 자부합니다. 트랜스포머를 만든 남 샤지어, 알파고 프로젝트를 이끈 데이비드 실버 같은 뛰어난 연구자들이 있죠. 이런 연구 기반 덕분에 알파고나 트랜스포머 같은 새로운 돌파구가 필요해진다면, 저희가 그것을 만들어낼 수 있다고 자신합니다. 사실 저는 도전이 더 어려워질수록 좋습니다. 순수한 엔지니어링에서 진짜 ‘리서치’로 넘어가는 순간이니까요. 그리고 그게 저희의 핵심 강점이기도 합니다. 새로운 걸 발명하는 것이 그저 따라가는 것보다 훨씬 어렵죠. 지금으로선 ‘기존 기술을 더 키우는 것으로 충분할까? 아니면 새로운 것이 필요할까?’라는 질문에 50대 50이라고 생각합니다. 그래서 우리는 두 방향을 동시에 밀어붙이고 있습니다. 새로운 블루스카이 아이디어에도 자원을 절반 가까이 투자하고 있고, 기존 기술의 최대 스케일링도 밀어붙이고 있죠. 실제로 Gemini의 각 버전에서도 훌륭한 진전이 계속 나타나고 있습니다. 흥미로운 표현입니다. 만약 AGI로 가는 길이 단순한 컴퓨트 스케일링 그 이상, 즉 공학적 문제를 넘어서 과학적인 돌파구가 필요한 문제라면, 딥마인드는 그 분야에서도 충분히 ‘한 방 날릴 수 있는’ 위치에 있다고 보시는 거군요. 네. 지난 10년 또는 15년의 AI 역사만 봐도, 현대 AI를 떠받치는 돌파구의 80~90%는 구글 브레인, 구글 리서치, 딥마인드에서 나왔다고 생각합니다. 앞으로도 그 흐름이 이어지길 바랍니다.'
+ 25/08/14 15:24
맞아요. 저는 그걸 연상력이라 불러요. 그것이 인간 정신에 비유할 때, 적절한 단어 같거든요. 그 연상력이 기억력을 의미할 수도, 직관력을 의미할 수도 있겠지요. 학습한 데이터 범위 안에 있다면 기억력이고, 범위를 벗어나면 직관력이라 비유할 수 있겠죠. 어디까지나 비유일 뿐이라는 걸 주의해야하지만요.
(1, 2) (3, 6) (4, 8) (5, 10)으로 학습시켜서 y = 2x 라는 신경망을 만들었을 경우에, 3을 넣었을 때 6이 나온다면, 이는 기억을 회상한 것이고, 3은 그 기억을 검색한 거라 할 수 있겠죠. 2를 넣으면 4가 나올 텐데, 이는 내삽이라 할 수 있고, 6을 넣으면 12가 나올 텐데, 이는 외삽이라 할 수 있겠지요. 넓게 보면, 외삽은 직관의 일종이라 할 수 있다고 봐요. 더 넓게 보면, 내삽까지도 직관이라 볼 수 있겠지만, 그런 관점이 유용한지 의문이긴 하죠. 저 좁게 보면, 데이터범위를 약간 넘어선 것까지도 기억이라 보고, 다만 (15, 30) 처럼 범위를 많이 벗어난 외삽을 직관이라 보는 수도 있겠죠. 강도 뿐만 아니라, 요소 내지 채널을 놓고도 직관을 말할 수 있을텐데요. A ∩ B ∩ C와 A ∩ B ∩ D와 B ∩ C를 입력으로하여 그 출력을 학습해놓고, B ∩ D를 입력으로 하면 출력이 무엇이 되겠는지 물었을 때, 그 출력을 보고서 이를 직관이라 부를 수 있겠지요. 이는 데이터 범위를 벗어나는 것인데, 신경망의 경우 어떻게든 답을 도출할 수 있겠지요. 그게 과연 타당한지는 의문이 있는 것이고, 꽤 그럴 듯하거나 유용한 답이 나오는 수도 있지만, 거짓 또는 환각이라 평가될만한 답이 나올 수도 있겠지요. 이것의 대전제는 불확실하거나 복잡한 걸 다룰 때에, 우리에게 '직관 또는 철학'이 필요하다는 것이예요. 그저 수식만 보고 있을 게 아니라, 그저 확실한 것만 놓고 볼게 아니라, 현상을 이해할 직관 또는 철학이 필요하다는 것이지요. 생각해보면 강화학습의 보상이란 것도 실은 비유죠. 유용한 비유죠. 심지어 추론모델의 추론도 비유죠. 유용한 비유죠. 실제로는 계산하는 것이지 그걸 추론이라 보는 건, 비유이거나 혹은 논쟁적인 주장이죠. LLM을 그저 다음 단어 예측이라 보는 것만으로는 부족하다고 보고, 기본적으로 LLM은 연상력이 있고, 그러한 연상이 기억 또는 직관을 의미한다고 보는 관점이 가능하고 유용하다 생각해요.
+ 25/08/14 15:26
LLM을 그저 다음 단어 예측이라 보는 것만으로는 부족하다고 보고, 기본적으로 LLM은 연상력이 있고, 그러한 연상이 기억 또는 직관을 의미한다고 보는 관점이 가능하고 유용하다 생각해요. - >저도 동의합니다. 딥러닝을 기초 원리만 보고 fitting parameter 생성기 정도로 생각하는 의견들이 있는데 동의 할 수 없습니다. 기초 원리만 보고 얘기하면 인간뇌도 그냥 '좀 복잡한 생체 전기 회로 장치'정도로 얘기할 수 있으니깐요.
+ 25/08/14 15:35
(수정됨) 어느 정도 동의합니다. 다만, 여기서 주목해야 할 점은 딥러닝은 "비선형"문제를 풀 수 있다는 점입니다.
예를 들어, y = 2x 라는 공식은 선형이라 x = y/2 로 역함수를 만들어 낼 수 있는데, 반해서 x가 홀수라면 y = 2x, x가 짝수라면 y = 3x 라는 공식이 있다면, y = 6 일 때의 x 값은 두 개가 됩니다. 이건 역함수가 없다고 봐야죠. 그런데 이 경우에도 y로부터 x를 추론할 수는 있습니다.2 또는 3 일겁니다. 여기서 "추론"이 나와버리죠. 즉, 어떤 전제를 미리 깔 수 있는 방법론이 없는 건 아니고, 챗지피티는 이 방법론을 제시해냈죠. 이것도 상당한 성과이긴 합니다. 제가 그저 다음 단어 예측이라고 썼긴 했지만, 좀더 엄밀히 말하자면 시간의 흐름 t 에 따라, 굉장히 복잡한 방정식의 그래프를 그려낸다고 생각할 수도 있습니다. 그리고 인간의 언어, 특히 문장은 그런 그래프로 나타낼 수 있다는 게 증명된 셈이죠. 개인적으로는 LLM을 그렇게 이해하고 있습니다. 어찌보면 LLM은 수열식을 풀어내는 장치라고 생각할 수도 있겠군요. 사실, 그동안의 알고리즘은 "귀납법"을 풀어내는 게 불가능하거나, 극히 어려웠습니다. 그걸 딥러닝이 해낸거고, 그 점에 있어서 저는 딥러닝을 위시한 근래의 AI의 발전이 의미가 없다고는 절대 생각하지 않습니다.
|