PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2025/01/28 15:25:42
Name Q-tip
File #1 IMG_4207.png (32.3 KB), Download : 1299
Link #1 https://m.dcinside.com/board/thesingularity/620826?recommend=1
Subject [일반] 벤톰슨의 딥시크 이펙트 분석


사건의 발단은 워싱턴이 2023년 중국이 7나노를 만들어내는 것을 보고 과하게 경기를 일으킨 것부터 시작된다.

2023년 9월 화웨이가 SMIC를 통해 만든 7나노가 탑재된 Mate 60 Pro를 발표했을 때, 그 칩을 자세히 들여다보면 놀라운 일은 아니었는데 말이다.

이미 그로부터 1년 전, SMIC는 7나노를 만들었었고 타사들도 다 만들 수 있음에도 수율이 안나와서 안만들었을 뿐인 사건인데 말이다.

오히려 놀라웠던건 워싱턴 DC의 반응이었고 그때부터 미국은 칩 판매를 허가기반으로 바꿔버린 것이다.

DeepSeek 사건도 이때와 비슷하게 흘러가고 있다.

사실 이번 훈련비용 절감 관련한 사실은 R1 모델이 아니라 지난 크리스마스에 공개된 V3 논문에서 드러났었다.


https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf


그들은 V3모델 이전의 V2에서 DeepSeekMoE, DeepSeekMLA를 소개했었는데, 이 성과가 V3에서부터 나기 시작했다.

우선 DeepSeekMoE는 MoE, Mixture of Experts 전문가 혼합이라는 뜻인데 GPT-3.5 같은 모델은 훈련시든 추론시든 어떤 토큰이 모델로 들어오면 전체를 활성화시키는데 반해, MoE는 특정 주제에 맞는 전문가만 활성화시킨다.

(**물론 이것이 잘 발동하려면 게이트가 토큰의 종류를 적절히 판별해 알맞는 전문가에 보내도록 해야한다. 사전학습시 Dense 모델처럼 토큰마다 모든 GPU를 사용하지 않으니 Sparse할 것이고 연산량과 GPU타임이 줄 수 밖에 없다. 하지만 최근 트렌드는 거의 모든 훈련모델들이 MoE를 사용하고 있기 때문에 이것 때문에 효율성이 특출나졌다는 것은 불가능한 이야기다.)

이어서 DeepSeekMLA는 추론에서의 제한사항을 혁신해주었다. 어마어마한 양의 메모리 사용량을 줄여준 것이다. 기존에는 모델 전체를 메모리에 로드하고 긴 컨텍스트 윈도우의 토큰 모두를 Key, Value 값으로 저장해야했는데 이런식은 Key-Value 값이 기하급수적으로 늘어서 비용이 늘 수 밖에 없는 것이다. 메모리 부담도 매우 커지고. 하지만 MLA, Multi-head latent attention을 통해 key-value 저장을 압축시켜서 추론시 필요한 메모리를 크게 줄였다.

여기에 V3에서 통신오버헤드를 줄이는 로드 밸런싱 방식과 훈련단계에서 여러 토큰을 동시에 예측하도록(multi-token prediction)하는 기법이 추가된 것이다.

그 결과 훈련 효율이 크게 향상되어 H800 GPU 타임이 2,788K로 전체 비용이 557.6만 달러가 나온 것이다. (**라마 훈련비용에 비해 3%)

Q: 그건 아무리 봐도 너무 낮은 것 아닌가?  

A: 최종 훈련단계에서의 비용만 계산한 것이다. 그외 모든 비용은 제외시킨 것이다. V3 논문 자체에도 이런 표현이 명시되어 있다.

- 모델구조, 알고리즘, 데이터, 사전 연구, 비교실험 등에 사용된 비용은 포함하지 않았다.

즉, 이번 DeepSeek 사건을 재현하려면 3%보다 훨씬 더 큰 돈이 든다는 말이다. 하지만 "최종 훈련" 자체만 보면 그 비용은 말이 된다.

Q: 알렉산드르 왕이 한 H100 5만개 이야기는 뭔가?

A: 아마 그는 Dylan Patel이 2024년 11월에 한 트윗을 본 것이 아닐까 추측한다. 당시 파텔은 DeepSeek이 호퍼 5만개분을 가지고 있을 것이라는 분석을 내놓았다. 사실 H800은 H100에서 메모리 대역폭을 크게 줄인 버전이다.

중요한 점은 DeepSeek은 그 GPU간의 통신에서 제한이 걸렸기 때문에 이런 연구를 시작했고 거기서 성과를 냈다는 것이다. H800 각 칩에서 132개 프로세싱 유닛 중 20개를 통신 전담으로 할당했다는 것은 쿠다로는 불가능하다. PTX라는 저수준 GPU 명령어집합까지 내려가야만 가능한 일이다. 이정도로 미친수준의 최적화까지 집착했다는 것은 오히려 H100이 아니라 H800에서 훈련을 해내겠다는 집념을 보인 셈이다.

또 지금처럼 추론 서비스를 실제 제공하고 있으려면 상당량의 GPU가 확보되어야만 가능한 일이다. 어마어마한 양의 GPU가 필요하다.

(**아마 호퍼 5만개 이상은 확보했을 것이라는 추측이며 최근 일론 머스크도 여기에 동의했다.)

Q: 그럼 칩 규제 위반 아닌가?

A: 아니다. H100은 막았어도 H800은 막지 않았기 때문이다. 다들 프론티어 모델을 개발하려면 칩간 대역폭이 중요할 것이라 추측했는데 DeepSeek은 그 한계를 극복하도록 모델 구조와 인프라를 최적화시킨 셈이다. 만약 H100 수출규제가 없었다면 더 쉽게 클러스터를 구축하고 모델을 만들어냈을 것이다.

Q: 그럼 V3가 (base에서의) 프론티어 모델이란 말인가?

A: 적어도 4o, Sonnet-3.5 와 비빌 수준임은 확실해보이고 라마보다는 훨씬 더 위다.

다만 DeepSeek은 4o, 소넷을 디스틸(distill)해서 훈련용 토큰을 만들어냈을 확률이 아주 높아보인다.

Q: 디스틸레이션(distillation)이 뭔가?

A: 디스틸레이션은 다른 모델의 이해를 추출하는 방법이다. 선생 모델에서 다양한 입력을 넣고 만들어진 출력으로 학생 모델의 학습에 사용시키는 것이다. 각 연구소들은 이런 디스틸레이션을 명백히 금지하고 있다. 하지만 매우 흔하게, DeepSeek 외에도 수많은 곳에서 다들 하고 있다. 때문에 4o, 소넷급 모델들이 계속해서 나오고 있는 것이다. 솔직히 안했을리가 없다고 생각될 정도로 흔한 방법이다.

Q: 그럼 1등 모델들은 불리한 것 아닌가?

A: 맞다. 앞서가는 연구소들은 가장자리를 넓히는데에 이런 방식은 사용할 수 없다. 대신에 자사 모델 최적화에는 사용할 수 있는 정도다. 부정적인 면은, 이런식으로 디스틸하게 되면 타 연구소들이 계속해서 무임승차하는 것이 가능해진다는 이야기다. 최첨단 모델을 개발하는데 드는 비용은 오직 프론티어 랩들만이 떠안게 된다.

그 결과, 리딩 엣지(leading edge) 모델들에 어마어마한 돈이 들어서 개발되어도, 금방 디스틸레이션으로 카피해서 들어간 돈이 회수가 어렵게 되는 것이다. 곧바로 상품화되고 흔해지니까 말이다.

바로 이 점이 마이크로소프트와 OpenAI가 점점 더 결별하는 방향으로 나아가는 이유인 것 같다. 1천억 달러를 들여서 최신 모델을 개발해봐야, 금방 감가상각되어 흔해지면 돈을 회수할 수가 없다.

Q: 이런 이유로 빅테크 주가가 떨어지고 있는 것인가?

A: 장기적으로보면 추론비용이 싸지는 것은 마이크로소프트 같은 기업에 유리하다. 그들은 서비스 제공업자이기 때문이다. 아마존 역시 AWS 때문에 수혜자다.

이번 사건으로 가장 큰 수혜를 보는 곳 중 하나는 애플이다. 메모리 요구량이 급격하게 줄면 애플 실리콘 같은 엣지 디바이스에서 추론이 실현 가능해지기 때문이다. 애플은 CPU, GPU, NPU가 모두 통합된 메모리를 공유한다. 즉, 애플의 고사양 칩이 곧바로 소비자용 추론 칩이 될 수 있다.

엔1비디아의 게이밍 GPU VRAM은 32GB가 최대치지만 애플의 경우 128GB의 램을 사용할 수 있다.

메타도 수혜자다. 그들의 비전에서 가장 큰 걸림돌이 추론 비용이었는데 이게 사전훈련 비용과 마찬가지로 매우 싸진다면 그들의 비전 역시 더욱 실현가능해질 것이다.

다만 구글의 경우는 악재다. 하드웨어 요구량이 줄어들기 때문에 그들의 TPU로 누려왔던 이점이 줄어들고 추론비용이 제로에 가까워질수록 새로운 검색서비스 등이 나타나기 때문이다. 물론 구글도 자체비용을 줄일 순 있겠지만 잃는 것이 더 크다.

Q: 그럼 왜 주가가 떨어지나

A: 내가 말한 건 장기적 비전이고 현재는 R1으로 인한 충격이 수습되기 전이다.

Q: R1은 어떤가

A: R1은 추론형 모델이다. 이는 openai의 o1 신화를 두 가지 면에서 무너뜨린다. 첫째 존재 자체다. 추론에 오픈ai만의 특별한 비법이 없다는 것이다. 둘째, 가중치를 공개해버렸다는 것이다. 물론 데이터는 숨겼기 때문에 오픈소스라 일컫는 것은 무리가 있지만 말이다. 이제 굳이 OpenAI에 돈을 내지 않고도 원하는 서버나 로컬환경에서 추론모델을 돌릴 수 있게 되었다.

사실 deepseek은 이번에 R1과 R1zero를 함께 공개했는데 후자가 더 중요하다고 본다.

R1-zero는 인간의 피드백을 완전히 빼버렸다. 순수 RL(강화학습)이다. 이 모델에 문제를 잔뜩 주고 올바른 답을 내면 보상을 주고, 체계적인 사고과정을 보여주면 또 보상을 주는 방식으로 만들었다. 마치 알파고가 이기면 보상을 주는 보상함수를 만들었더니 모델 스스로 인간이 가르치지 않은 방식대로 서로 학습시킨 것 처럼 말이다.

이를 보면 The bitter Lesson이 다시 한번 입증된 것 같다. 추론하는 방법을 일일히 가르치는 것이 아니라 충분한 연산자원과 데이터만 주면 알아서 학습한다는 것이다.

Q: 그럼 결국 우린 AGI에 더 가까워진 것인가?

A: 그렇게 보인다. 소프트뱅크의 마사요시가 왜 마이크로소프트가 아닌 OpenAI에 돈을 댄 것인지도 설명이 된다. 1등에 서면 엄청난 수익이 돌아올 것이라는 믿음이 있는 것이다. (** 곧 모델이 알아서 똑똑해지기 시작할 것이기 때문)

Q: 그럼 R1이 선두에 선 것인가?

A: 그렇다고 보긴 어렵다. 여러 정황 상 R1은 o1-pro를 디스틸레이션한 것으로 보인다. OpenAI는 이미 o3를 선보였다. DeepSeek은 확실히 효율성에서 선두를 차지했지만 그게 최고의 모델이라는 의미는 아니다.

(** 뿐만 아니라 o1-mini도 R1 671B 디스틸에 사용된 정황으로 보이는 케이스도 속속 드러났다. https://twitter.com/JJitsev/status/1883158764863537336)

Q: 그럼 왜 이렇게 다들 호들갑인건가?

A: 세 가지 요인 때문이다.

1. 중국은 미국보다 많이 뒤쳐져있다 는 인식이 틀렸기 때문에 사람들이 충격받는 것이다. 중국의 소프트웨어 역량은 매우 높은 수준임이 드러났다.

2. V3의 낮은 훈련비용, R1의 낮은 추론 비용 때문이다. 계산상으로는 가능한 수치였기 때문에 NVDA에 대한 우려가 커진 것이다.

3. DeepSeek이 칩 규제라는 벽을 뚫고 이 성과를 이뤄냈기 때문이다. 현재까지는 어쨌든 합법적으로 구한 H800으로 훈련한 것으로 보이긴 하지만 허점이 많다.

Q: 난 NVDA 갖고 있는데 망한건가?

A: NVDA 해자가 2개 있었다.

1. 쿠다
2. 여러 GPU를 하나로 묶어 가상의 거대한 GPU로 만들어내는 기술 - 이 능력은 그 회사만의 독보적인 영역이었다.

이 둘은 서로를 더욱 강화시켜주는 것이었는데 약한 하드웨어와 낮은 대역폭으로도 극단적인 최적화가 가능하다는 것이 증명되었기 때문에 NVDA는 새로운 스토리들이 더 필요하게 되었다.

다만 아직 유리한 점이 3가지 있다.

1. DeepSeek의 접근방식을 오히려 H100이나 GB100 같은 최신식 칩에 사용하게 된다면 얼마나 더 강력해질까? 더 효율적인 컴퓨팅이 가능해진다 하더라도 더 많은 컴퓨팅은 여전히 유효하다.

2. 추론 비용이 낮아지면 -> 오히려 모델 사용량이 더 늘어나는 측면이 있다.


(** 사티아 나델라는 간밤에 제본스의 역설을 언급하며 AI가 점점 더 싸지고 접근가능성이 높아진다면 사용량이 더 크게 오를 것이라고 언질을 주었다.)

(** 제본스의 역설이란 단일 비용이 A에서 B로 싸진다면 사용량이 C에서 D로 늘어나기 때문에 전체 사용량은 오히려 늘어남을 지적하는 것이다.)

3. R1이나 o1같은 추론모델들은 더 많은 컴퓨팅을 사용할수록 더 똑똑해진다. 인공지능의 성능을 높이는 방법이 여전히 컴퓨팅에 달려있다면 여전히 NVDA가 수혜를 볼 가능성이 있다.

하지만 장밋빛 전망만 있는 것은 아니다.

DeepSeek의 효율성과 오픈웨이트로 인한 광범위한 공개는 NVDA의 단기적인 낙관적 성공스토리에 물음표를 달아버렸다.

특히. 추론단계에서는 NVDA 칩 외에도 다른 대안 시나리오가 작동하기 시작했다.

예를 들어 AMD 칩 하나로도 추론이 가능해진다면 칩간 대역폭이 낮다는 AMD 측의 단점을 상쇄할 수 있게 된다.

추론 전용칩이 각광을 받을 수도 있다.

요약하자면 NVDA가 사라지진 않을 것이다. 다만 지금까지 고려되지 않았던 불확실성에 노출되었고 이는 하방압력을 키울 수 밖에 없다.

Q: 칩 규제는 어떻게 되는건가?

A: 칩규제가 더 중요해졌다고 주장할 수도 있겠지만. 2023년의 백악관의 규제가 DeepSeek을 부추긴 것이라고도 볼 수 있기 때문에 단기적으로는 효과가 있더라도 장기적으로는 의문이다.

Q: 그럼 왜 중국은 오픈소스를 하는건가?

A: 중국이 아니라 DeepSeek이 그렇게 하는거다. CEO 량원펑은 오픈소스야말로 인재를 끌어들이는 핵심이라고 언급했다.

Q: 그럼 OpenAI는 망한건가?

A: 그렇다고 볼 순 없다. 결국은 AI Take-off에 가장 먼저 도달한 자가 승리한다. 반면 이번 주말의 가장 큰 패배자는 앤트로픽이다. DeepSeek이 앱스토어 1위를 차지하기까지 샌프란시스코 지역 외에서 클로드는 주목조차 끌지 못했다. API가 그나마 잘돌아간다고 어필하지만, DeepSeek 같은 방식대로 디스틸로 프론티어모델이 흔하게 퍼져버리면 가장 먼저 무너지는 쪽이 이 API 비즈니스다. 돈주고 API 쓰느니 성능이 비슷하다면 DeepSeek 같은 오픈웨이트 모델을 쓰기 때문이다.

결국 가장 큰 수혜자는 소비자와 기업들이다. 이런 미래는 사실상 무료에 가까운 AI 제품과 서비스를 누릴 수 있게 될 것이기 때문이다.

중국은 이제 자신감이 점점 더 커질 것이다.

미국은 선택의 기로에 놓여있다. 더 강경하게 나아갈 것인가, 아니면 더 큰 혁신으로 나아갈 것인가.

연구소들이 이제 로비에 신경쓰지 않고 혁신에만 집중하게된다면, 우린 DeepSeek에게 감사하게 될지도 모른다.

—-
특갤에 이런 글이 있네요 빠르다 빨라



통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
25/01/28 15:36
수정 아이콘
좋은 통찰의 글입니다. 많은 사람들이 AI가 잘 작동하기 시작하면 사람들이 그것을 AI라고 부르지 않을 것이라는 얘기를 하죠. 수많은 사람들이 자동차를 타면서도 더 이상 자동차 엔진 기술에 대해 이야기 하지 않는 것처럼 점차 AI로 인한 최종 가치가 중요해 지는 시대가 올거라고 봅니다.
larrabee
25/01/28 15:37
수정 아이콘
최근 사태 이후 본 글 중 가장 좋은 글이네요. 추천드립니다.
25/01/28 15:38
수정 아이콘
딥시크 관련해서 그간 읽은 글 중 가장 알맹이가 있네요.
소개 감사합니다.
미드웨이
25/01/28 15:43
수정 아이콘
아직 초창기라서 누가 이길지 말할 단계는 아니긴 하죠.

발전에 있어 경쟁은 좋은것이고 이걸로 더 치열한 경쟁이 펼쳐질것이기에 만족합니다. 나스닥 딥시크 이전에 다 팔아서 그런것도 있고요.
전기쥐
25/01/28 15:44
수정 아이콘
두고두고 볼 가치가 있는 좋은 글입니다.
안군시대
25/01/28 15:49
수정 아이콘
그간의 편견과는 달리 정공법으로 돌파한거로군요. 그 과정에서 최적화도 이뤄냈고요. 중국의 소프트웨어 역량을 무시해 왔던게 충격으로 돌아오고 있는 듯 합니다.
게다가 이번 성과는 무작정 큰 용량, 빼른 속도에만 집착해온 그간의 소프트웨어 공학계의 관행에 경종을 울린 사건이 될 듯도 합니다.
raindraw
25/01/28 16:35
수정 아이콘
모두 정공법은 아니죠. 다른 앞선 모델들이 생성한 데이터를 기반으로 훈련(디스틸레이션 부분)을 했을 것 같다는 부분에 있어서요.
하지만 V3가 이미 그런 모델들에서 생성할만한 데이터를 스스로 생성할 수 있기 때문에 앞으로는 별로 필요 없을 수도 있긴 합니다.
안군시대
25/01/28 16:58
수정 아이콘
(수정됨) 그 부분은 게임엔진 등을 만들때도 이미 만들어진 미들웨어나 라이브러리 등을 적극 활용하면서 발전해 나가는 것과 유사하다고 생각합니다. 어느 공학분야든 간에 기존에 이미 구축된 레퍼런스들 위에 쌓아가는 건 당연한거라 보고요. AI 분야가 무슨 기초과학처럼 우주의 기본원리를 탐구하는 분야는 아니니까요.
이를테면 현존 최고의 엔진이라 불리는 언리얼 엔진도 아예 모니터에 도트를 찍는것부터 전부 만들어낸 것은 아니지만 그 성과를 깎아내릴 수는 없는 것과 같다고 봅니다. 개인적으로는 이제 AI, 그중에서도 딥러닝쪽은 게임엔진이나 웹 엔진과 같은 위상이 되지 않을까 합니다.
25/01/28 15:52
수정 아이콘
장기적으로 볼때는 이른바 AGI take-off 라는 것도 추격불가능한 넘사벽의 문턱이 아니라 알파고처럼 비교적 쉽게 패스트팔로우 가능한 완만한 진보에 가까울 가능성이 훨씬 높아진 것이라는 점에서 우리한테는 다행인 것 같고

중단기적으로는 이제 실용적인 AI칩 요구수준이 엔비디아가 독점하는 수준 한참 아래로 낮아짐으로써 AI칩 생산에 누가 도전해서 독점을 깨고 성과를 낼지가 초미의 관심사가 되겠네요.
일론 머스크
25/01/28 15:56
수정 아이콘
아주 좋은 정리 같습니다 감사합니다.
손꾸랔
25/01/28 16:04
수정 아이콘
일단 트럼프가 너도 관세! 하지는 않는걸로
FlutterUser
25/01/28 16:29
수정 아이콘
예전에 중국 개발자들과 협업했을때 그 수준에 놀랬던 기억이 나네요. 
(요즘엔 베트남 개발자들에게 놀래는데.. )

제가 협업했던 10년여전보다 훨씬 더 공부를 많이 한 개발자들이 지금 쏟아져 나오고 있겠죠.

나라가 하는짓은 맘에 안들어도 중국 산업 현장에서 뛰는 사람들의 실력은 인정해야 할것 같습니다. 
라방백
25/01/28 16:30
수정 아이콘
현재 분위기로는 제본스의 역설로 GPU 소비량이 더 빨리 증가할 가능성이 있을것 같습니다. 30명 인원이 60억 들여서 이정도 만들었다니 우리도 해볼까 하는 기업이 수백 수천개는 될거 같아요.
엔비디아는 현시점 최고의 AI 연산 유닛으로 쿠다를 유지하려면 더 다기능과 빵빵한 메모리를 지원해야할 부담이 생겼을것 같네요.
25/01/28 16:47
수정 아이콘
특갤이 어디인가요?
이런 양질의 글을 접할 수 있어 감사할 따름입니다. 
미드웨이
25/01/28 16:50
수정 아이콘
특이점 갤러리일겁니다
VictoryFood
25/01/28 16:54
수정 아이콘
그래서 엔비디아 물타요?
신천지는누구꺼
25/01/28 17:27
수정 아이콘
어제 단순히 중국꺼니까 거짓말이겠지 해서

부랴부랴 수십껄 가환전해서 브로드컴 엔비디아 등등 매수들어갔는데..
톰슨가젤연탄구이
25/01/28 17:28
수정 아이콘
잘 읽었습니다.
이런 묵직한 글은 커뮤니티에 잘 올라오지도 않는데 덕분에 좋은 글 읽고가네요
일반상대성이론
25/01/28 17:34
수정 아이콘
제약을 이상하게 걸면 괜히 몸만 더 잘 비틀어서 대단한게 나오는 듯 크크
ArcanumToss
25/01/28 17:34
수정 아이콘
NVDA가 뭔가요?
NVIDIA에서 I만 빠져 있는데.
25/01/28 17:38
수정 아이콘
나스닥에서 사용되는 NVIDIA의 기업 약어 입니다.
ArcanumToss
25/01/28 17:48
수정 아이콘
역시 클쿤요.
pgr에서는 영어는 자음 연타는 가능한데 한국어는 자음 연타를 하면 벌점이니 천조국 사대 아닌강??? kkkkkkk
미드웨이
25/01/28 17:46
수정 아이콘
티커인데, 미국주식에서 기업의 코드라고 보시면 됩니다. 4글자가 일반적이라 보통 자음위주로 넣습니다. MSFT AMZN TSLA
ArcanumToss
25/01/28 17:50
수정 아이콘
영어만 자음 연타를 허용하고 한국어는 불허하는 더러븐 피잘.
마술사
25/01/28 18:24
수정 아이콘
1등이 어렵고 후발주자는 1등만 따라가면 훨씬 리소스절약이 된다는건
마치 레이싱에서 슬립스트림 같은거네요
앞으로의 경쟁이 기대됩니다
사부작
25/01/28 18:41
수정 아이콘
좋은 글 잘 읽었습니다.
낮아진 API 비용 기반의 생활 서비스가 등장하면 좋겠습니다.
25/01/28 19:00
수정 아이콘
우려되는 것은 이런 식으로 손쉽게 앞서가는 기업의 성과를 디스틸해서 가져올수 있다면 대체 누가 인공지능에 돈을 투자할까 하는 것이네요. 기업들은 지금 인공지능에 대한 투자를 계속해야 마냐로 고민하고 있을텐데.
안군시대
25/01/28 20:50
수정 아이콘
그런데 사실 소프트웨어 분야는 오픈소스가 활성화된 이후로 서로서로 시너지를 내면서 비약적으로 발전해가고 있기는 합니다. 다른 사람들이 만들어놓은것을 기반으로 그 위에 자신들만의 특장점을 덧붙혀 가면서요.
예를들어 웹 보안기술이 오픈되지 않았다면 우린 여전히 activex를 쓰고 있었을지도 모릅니다.
25/01/28 22:17
수정 아이콘
챗지피티도 실은 많은 자료를 무단사용해서 학습한거라.
디스틸을 뭐라 하긴 애매하죠
25/01/29 00:05
수정 아이콘
이미 4o, 3.5 sonnet 들이 자체 디스틸된 모델이긴 하죠.
큰 모델은 타사 디스틸 문제가 있고 추론비용이 많이 드니까 앤쓰로픽도 예상했던 3.5 opus는 내놓지 않았고요.
如是我聞
25/01/29 07:48
수정 아이콘
컴맹에다가 기술분야는 전혀 모르는데...PGR에서도 어차피 미국 아님 중국이 다 먹을 AI에 우리가 뭐하러 투자하냐, 그 돈 다른데 쓰자는 주장이 있었죠. 아무래도 우리도 투자를 해야할 거 같습니다. 아직 뭐가 튀어나올지 모르는 분야라, 얻어걸리는게 있을 수도 있쟎습니까.
안군시대
25/01/29 15:25
수정 아이콘
자동차로 치면 그동안 고성능의 엔진을 만들려면 배기량과 기통 수를 늘리는 것에만 집중하고 있었는데, 갑자기 터보엔진이 튀어나온 셈이죠. 물론 8기통 엔진의 성능을 4기통 터보엔진이 능가하긴 힘들겠지만, 가능성을 보여준것 만으로도 대형 엔진을 만들 수 없었던 회사들이 연구해볼만한 상황이 된 것 같습니다.
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
공지 [정치] [공지] 정치카테고리 운영 규칙을 변경합니다. [허들 적용 완료] [126] 오호 20/12/30 287386 0
공지 [일반] 자유게시판 글 작성시의 표현 사용에 대해 다시 공지드립니다. [16] empty 19/02/25 348866 10
공지 [일반] [필독] 성인 정보를 포함하는 글에 대한 공지입니다 [51] OrBef 16/05/03 470248 31
공지 [일반] 통합 규정(2019.11.8. 개정) [2] jjohny=쿠마 19/11/08 348833 3
103638 [일반] 자작 소설입니다. '대학원생 그녀' (최종화) [5] 우르르쾅쾅963 25/01/30 963 8
103637 [일반] DeepSeek 이해하기(기술적인 측면들) [39] 스폰지뚱6006 25/01/29 6006 9
103636 [일반] 음향기기 그룹 마샬, 중국 HongShan Capital Group에 인수 [11] SAS Tony Parker 4322 25/01/29 4322 3
103635 [정치] 보건복지부, 중증환자 대상 의료개혁 가속 [46] Quilian9044 25/01/29 9044 0
103634 [일반] <이제 그만 끝낼까 해> - 되돌이표 끝 마침표를 향해.(스포) [2] aDayInTheLife4110 25/01/29 4110 5
103633 [일반] 어머님이 돌아가셨습니다 [81] 라비017564 25/01/28 7564 68
103632 [일반] 김해공항서 에어부산 항공기 꼬리에 불…승객 169명 비상탈출 [31] 매번같은8101 25/01/28 8101 1
103631 [정치] 안철수 페북 딥시크 입장 나왔네요. [93] 호옹이 나오12774 25/01/28 12774 0
103630 [일반] 벤톰슨의 딥시크 이펙트 분석 [32] Q-tip8643 25/01/28 8643 46
103629 [일반] 태어나서 처음 본 서울 - 이문동, 휘경동, 회기동 답사기 [27] 판을흔들어라3145 25/01/28 3145 5
103628 [일반] 소리로 찾아가는 한자 71. 맡을 사(司)에서 파생된 한자들 [3] 계층방정1113 25/01/28 1113 2
103627 [일반] 딥시크(DeepSeek) 사태 관련 [81] 스폰지뚱10899 25/01/28 10899 26
103626 [정치] 설 연휴 직전 여론조사 모음 [88] 어강됴리9424 25/01/28 9424 0
103625 [일반] 장사의 상식을 파괴 중인 장사천재, 백종원 [91] 라울리스타11356 25/01/28 11356 42
103624 [일반] PGR21 2024 결산 게시글 이벤트 결과를 공개합니다 [1] 及時雨1487 25/01/28 1487 2
103623 [일반] 용대운작가가 근황(?)을 올렸네요. [87] 진산월(陳山月)8382 25/01/27 8382 2
103621 [일반] 해외여행 안 가면 이상하게 생각하는 사람들 [158] I.A.L13529 25/01/27 13529 20
103620 [일반] C.I.A가 코로나 바이러스의 중국 연구소 유출 가능성에 대해서 말했습니다 [77] EnergyFlow11642 25/01/27 11642 2
103619 [일반] <왓치멘> 다시 읽기. [15] aDayInTheLife3671 25/01/27 3671 3
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로