-
[IT | 기술] (FT) 엔비디아와 AI 붐, 스케일링 문제에 직면하다2024.11.28 PM 02:40
더 많은 데이터를 더 큰 모델에 투입하면 더 똑똑한 시스템이 나온다는 아이디어가 한계에 부딪히기 시작했다
팀 브래드쇼 (Tim Bradshaw) - 34분 전
엔비디아를 세계에서 가장 가치 있는 회사로 만든 계산상의 "법칙"이 한계에 직면하고 있습니다. 이는 반도체 업계의 격언인 '무어의 법칙'과는 다릅니다. 무어의 법칙은 칩 성능이 2년마다 트랜지스터 밀도를 두 배로 늘려가며 개선된다는 내용을 담고 있습니다.
실리콘밸리에서는 무어의 법칙이 기술 발전의 주요 예측 기준으로 자리 잡았지만, 이제는 새로운 개념인 인공지능(AI)의 “스케일링 법칙(scaling law)”으로 대체되었습니다. 이 법칙은 더 많은 데이터를 더 큰 AI 모델에 투입하면 더 스마트한 시스템을 만들 수 있다고 가정하며, 이는 더 많은 컴퓨팅 파워를 필요로 합니다. 이러한 통찰은 AI 발전에 가속도를 더했고, 어려운 과학적 문제를 해결하는 데 집중하던 개발 초점이 더 많은 칩 클러스터를 구축하는 단순한 엔지니어링 과제로 변모하게 만들었습니다. 이 과정에서 주요 칩 공급자는 주로 엔비디아였습니다.
스케일링 법칙은 ChatGPT의 출시와 함께 본격적으로 주목받기 시작했습니다. 이후 2년간 AI 시스템이 빠른 속도로 발전하면서 이 법칙이 이번 10년 내에 일종의 "초지능(super intelligence)"에 도달할 때까지 유효할 것처럼 보였습니다. 그러나 지난 한 달 동안, OpenAI, 구글, Anthropic 등 주요 업체의 최신 모델이 스케일링 법칙의 예상만큼의 발전을 보이지 못했다는 업계의 논란이 점점 커지고 있습니다.
OpenAI 공동 창업자인 일리야 수츠케버(Ilya Sutskever)는 최근 로이터와의 인터뷰에서 “2010년대는 확장의 시대였지만, 이제 우리는 다시금 경이로움과 발견의 시대로 돌아왔다”고 말했습니다. 이는 불과 1년 전 그가 “지구 표면 전체가 태양광 패널과 데이터 센터로 덮일 가능성이 매우 높다”고 언급했던 인물이라는 점에서 주목할 만합니다.
사전 학습에서 활용까지: 스케일링의 한계와 전환
그동안 스케일링 법칙은 대형 AI 모델을 구축하는 첫 번째 단계인 “사전 학습(pre-training)”에 적용되었습니다. 하지만 이제 AI 업계의 경영진, 연구자, 그리고 투자자들은 AI 모델의 성능이, 마크 안드리슨(Marc Andreessen)이 자신의 팟캐스트에서 표현했듯이, “사전 학습(pre-training)만으로는 한계에 도달했다”고 인정하고 있습니다. 이는 모델을 구축한 이후에도 추가적인 작업이 필요하며, 이를 통해 성능 향상을 지속해야 한다는 것을 의미합니다.
스케일링 법칙의 초기 신봉자였던 마이크로소프트 CEO 사티아 나델라(Satya Nadella)는 이 법칙의 정의를 재해석하려는 시도를 하고 있습니다. 사전 학습의 성과가 줄어들고 있어도, 복잡한 질문에 대해 모델이 “추론(reason)”할 수 있게 되었다는 점에서 새로운 스케일링 법칙이 등장했다고 주장합니다. 그는 최근 OpenAI의 새로운 모델 “o1”을 언급하며 “우리는 새로운 스케일링 법칙의 출현을 목격하고 있다”고 말했습니다. 그러나 이러한 해석은 엔비디아 투자자들에게 불안을 야기할 수 있습니다.
법칙이 아닌 산업의 원칙
물론 스케일링 법칙은 결코 철저한 규칙이 아니었습니다. 마찬가지로 무어의 법칙도 인텔 엔지니어들이 트랜지스터 밀도를 계속해서 증가시킬 수 있도록 하는 내재적 요인이 있었던 것은 아닙니다. 이러한 개념은 산업의 경쟁을 이끄는 조직 원칙으로 기능한 것입니다.
그럼에도 불구하고 스케일링 법칙 가설은 기술 업계에서 다음 큰 전환을 놓칠 수 있다는 “FOMO(놓칠 수 없는 두려움)”를 불러일으켰고, 이는 빅테크가 AI에 전례 없는 투자를 하게 만든 주요 요인이었습니다. 모건스탠리에 따르면, 마이크로소프트, 메타, 아마존, 구글의 올해 자본 지출은 2,000억 달러를 초과할 것으로 예상되며, 내년에는 3,000억 달러를 넘어설 것으로 보입니다. 아무도 초지능을 구축하는 경쟁에서 뒤처지길 원하지 않기 때문입니다.
하지만 AI에서 더 큰 것이 반드시 더 나은 결과를 가져오지 않는다면, 이러한 계획은 축소될 가능성이 있습니다. 이러한 상황에서 가장 큰 타격을 받을 가능성이 높은 회사는 엔비디아입니다. 지난주 엔비디아가 실적을 발표했을 때 애널리스트들이 첫 번째로 제기한 질문도 스케일링 법칙과 관련된 것이었습니다. 젠슨 황(Jensen Huang) 엔비디아 CEO는 사전 학습 스케일링 법칙이 “여전히 유효하다”고 주장했지만, 이것만으로는 “충분하지 않다”고 인정했습니다. 그러나 그는 솔루션을 찾기 위해 더 많은 엔비디아 칩이 필요하다고 주장했습니다. 그는 AI 시스템(O1 등)이 더 똑똑한 응답을 생성하기 위해 더 오랜 시간 “생각”해야 한다며 이를 “테스트 타임 스케일링(test time scaling)”이라고 불렀습니다.
미래를 좌우할 AI 사용 사례
황의 주장은 일리가 있습니다. 지금까지는 훈련(training)이 엔비디아 칩의 주요 활용처였지만, AI 응답을 생성하는 “추론(inference)” 과정에서의 컴퓨팅 수요는 AI 응용 프로그램이 늘어남에 따라 급격히 증가할 것으로 예상됩니다.
AI 인프라 구축에 참여하고 있는 사람들은 산업이 적어도 1년 동안은 추론 시장에서 수요를 따라잡기 위해 고군분투할 것으로 보고 있습니다. 마이크로소프트 사장 브래드 스미스(Brad Smith)는 이에 대해 “지금은 칩이 더 많이 필요할 시장”이라고 말했습니다.
하지만 장기적으로, 출시 전 점점 더 큰 모델을 위한 칩 확보 경쟁은 AI 사용과 더욱 밀접하게 연관된 무언가로 대체되었습니다. 대부분의 기업은 여전히 AI의 “킬러 앱”을 찾고 있으며, 특히 O1의 초기 “추론” 능력을 요구하는 영역에서 그렇습니다. 엔비디아는 AI 구축 초기의 투기적 단계에서 세계에서 가장 가치 있는 회사가 되었습니다. 스케일링 법칙에 대한 논쟁은 엔비디아의 미래가 빅테크 기업들이 거대한 투자로부터 실질적인 성과를 얻는 데 얼마나 많이 달려 있는지를 잘 보여줍니다.
- 하프라이프/
- 2024/11/28 PM 04:09
user error : Error. B.