구글 딥마인드, 메타, 엔비디아, 물리적 세계를 더 잘 이해하기 위한 시스템 개발 중
이들 기업은 단순히 언어가 아닌 비디오와 로봇 데이터를 통해 학습하여 물리적 세계를 탐색하는 시스템을 개발하고 있다. © FT 몽타주/게티 이미지
샌프란시스코의 크리스티나 크리들, 해나 머피, 런던의 팀 브래드쇼 기자
8시간 전 발행
세계 최고의 인공지능(AI) 기업들이 기계의 '초지능'을 달성하기 위한 새로운 방법을 모색하며, 인간 환경을 더 잘 이해할 수 있는 이른바 '월드 모델(world models)'에 대한 집중도를 높이고 있습니다.
구글 딥마인드, 메타, 엔비디아 등은 단순히 언어가 아닌 비디오와 로봇 데이터를 통해 학습하여 물리적 세계를 탐색하는 시스템을 개발함으로써 AI 경쟁에서 우위를 점하려 하고 있습니다.
이러한 움직임은 오픈AI의 챗GPT와 같은 인기 챗봇을 구동하는 기술인 거대 언어 모델(LLM)의 발전이 한계에 도달한 것이 아니냐는 의문이 제기되는 가운데 나왔습니다.
오픈AI, 구글, 일론 머스크의 xAI 등 업계 전반의 기업들이 출시한 LLM 간의 성능 향상 폭은 막대한 개발 투자에도 불구하고 둔화되고 있습니다.
엔비디아의 옴니버스 및 시뮬레이션 기술 부문 부사장인 레브 레바레디언에 따르면, 월드 모델은 제조업, 의료 등 물리적 영역으로 기술을 확장하기 때문에 잠재적 시장 규모가 세계 경제 규모에 육박하는 100조 달러에 달할 수 있습니다.
그는 "월드 파운데이션 모델의 기회는 무엇인가? 본질적으로... 만약 우리가 물리적 세계를 이해하고 그 안에서 작동할 수 있는 지능을 만들 수 있다면 100조 달러 규모의 시장이 열릴 것"이라고 말했습니다.
월드 모델은 실제 또는 시뮬레이션된 환경의 데이터 스트림을 사용하여 훈련됩니다. 이는 자율주행차, 로보틱스, 그리고 이른바 AI 에이전트의 발전을 촉진하는 중요한 단계로 여겨지지만, 훈련에 막대한 양의 데이터와 컴퓨팅 파워를 필요로 하며 아직 해결되지 않은 기술적 과제로 간주됩니다.
LLM에 대한 대안적 접근법에 대한 이러한 관심은 최근 몇 달간 여러 AI 기업들이 월드 모델 분야에서 일련의 기술 발전을 공개하면서 가시화되었습니다.
지난달 구글 딥마인드는 과거의 상호작용을 고려하여 비디오를 프레임 단위로 생성하는 '지니 3(Genie 3)'를 공개했습니다. 이전의 비디오 생성 모델들은 일반적으로 단계별이 아닌 전체 비디오를 한 번에 생성했습니다.
구글 딥마인드의 지니 3 공동 책임자인 슐로미 프루흐터는 "AI는 여전히 디지털 영역에 매우 제한되어 있다"며 "현실 세계처럼 보이거나 작동하는 환경을 구축함으로써, 실제 세계에서 실수를 저질렀을 때 발생하는 현실적인 영향(implications) 없이도 AI를 훨씬 더 확장 가능한 방식으로 훈련시킬 수 있다"고 말했습니다.
메타는 아이들이 주변 세계를 관찰하며 수동적으로 학습하는 방식을 모방하여, 원본 비디오 콘텐츠로 'V-JEPA' 모델을 훈련시키고 있습니다.
메타의 수석 AI 과학자 얀 르쿤이 이끌고 장기 AI 프로젝트에 집중하는 페이스북 인공지능 연구소(FAIR)는 지난 6월, 현재 로봇을 대상으로 테스트하고 있는 해당 모델의 두 번째 버전을 공개했습니다.
현대 AI의 '대부(godfathers)' 중 한 명으로 꼽히는 르쿤은 이 새로운 아키텍처(월드 모델)의 가장 강력한 지지자 중 한 명으로, 거대 언어 모델(LLM)은 결코 인간처럼 추론하고 계획하는 능력을 갖출 수 없을 것이라고 경고해 왔습니다.
그럼에도 불구하고, 마크 저커버그 메타 최고경영자(CEO)는 최근 최고 수준의 AI 인재에 대한 투자를 늘렸으며, 현재 엘리트 팀을 통해 차세대 라마(Llama) LLM 모델에서 돌파구를 마련하는 데 총력을 기울이고 있습니다. 이러한 움직임의 일환으로 데이터 라벨링 기업 '스케일 AI(Scale AI)'의 창업자인 알렉산드르 왕을 메타의 AI 사업 전체를 총괄하도록 영입했으며, 이에 따라 (기존 AI 연구를 이끌던) 얀 르쿤은 이제 왕에게 보고하게 되었습니다.
월드 모델의 단기적인 적용 분야 중 하나는 엔터테인먼트 산업으로, 상호작용이 가능하고 사실적인 장면을 만들 수 있습니다. AI 개척자 페이페이 리가 설립한 스타트업 '월드 랩스(World Labs)'는 단일 이미지로부터 비디오 게임과 같은 3D 환경을 생성하는 모델을 개발하고 있습니다.
라이온스게이트 등 할리우드 스튜디오와 계약을 맺은 비디오 생성 스타트업 '런웨이(Runway)'는 지난달 월드 모델을 사용하여 게임 환경을 만들고, 개인화된 스토리와 캐릭터를 실시간으로 생성하는 제품을 출시했습니다.
런웨이(Runway)의 크리스토발 발렌수엘라 최고경영자(CEO)는 이렇게 말했습니다. "기존의 영상 제작 방식은 픽셀을 생성하는 데 있어 일종의 '무차별 대입(brute-force)' 방식과 같습니다. 몇 개의 프레임 안에 움직임을 억지로 집어넣어 움직이는 듯한 착각을 만들어내는 것이죠. 하지만 정작 모델 자체는 그 장면에서 무슨 일이 일어나고 있는지 전혀 알거나 추론하지 못합니다."
그는 이전의 비디오 생성 모델들은 현실 세계와 다른 물리 법칙을 가지고 있었지만, 범용 월드 모델 시스템이 이 문제를 해결하는 데 도움이 된다고 덧붙였습니다.
이러한 모델을 구축하기 위해 기업들은 세계에 대한 막대한 양의 물리적 데이터를 수집해야 합니다.
샌프란시스코에 본사를 둔 나이언틱(Niantic)은 월간 3,000만 명의 플레이어가 글로벌 맵과 상호작용하는 '포켓몬 고'를 포함한 게임을 통해 정보를 수집하며 1,000만 개의 장소를 매핑했습니다.
나이언틱은 9년 동안 '포켓몬 고'를 운영했으며, 지난 6월 미국 기반의 스코플리(Scopely)에 게임을 매각한 이후에도 플레이어들은 여전히 공공 랜드마크 스캔을 통해 익명화된 데이터를 제공하며 자사의 월드 모델 구축에 기여하고 있습니다.
스코플리와의 거래 이후 '나이언틱 스페이셜(Niantic Spatial)'로 사명을 변경한 존 행크 최고경영자(CEO)는 "우리는 이 문제에 있어 유리한 출발을 한 셈입니다(We have a running start)"라고 말했습니다.
나이언틱과 엔비디아는 모두 자사의 월드 모델이 (데이터가 부족한) 환경을 직접 생성하거나 예측하게 함으로써 데이터의 공백을 메우는 작업을 하고 있습니다. 특히 엔비디아의 옴니버스(Omniverse) 플랫폼은 이러한 시뮬레이션을 생성하고 실행하는데, 이는 비디오 게임에서 현실 세계 환경을 시뮬레이션해 온 오랜 역사를 바탕으로 4조 3천억 달러 규모의 이 거대 기술 기업(엔비디아)이 로보틱스 분야로 나아가는 것을 돕고 있습니다.
젠슨 황 엔비디아 최고경영자(CEO)는 새로운 모델들이 로보틱스 분야에 혁명을 일으키면서, 회사의 다음 주요 성장 단계는 '물리적 AI(physical AI)'와 함께 올 것이라고 주장해 왔습니다.
메타의 르쿤과 같은 일부 전문가들은 인간 수준의 지능으로 기계를 구동하는 차세대 AI 시스템이라는 비전이 현실화되기까지는 10년이 걸릴 수 있다고 말해왔습니다.
그러나 AI 전문가들에 따르면 이 최첨단 기술의 잠재적 범위는 매우 광범위합니다. 엔비디아의 레바레디언 부사장은 "월드 모델은 컴퓨터가 지식 노동 분야에 기여했던 것과 마찬가지로, 다른 모든 산업에 서비스를 제공하고 그 영향력을 증폭시킬 기회를 열어줍니다"라고 말했습니다.
=====
AI 경쟁의 새 패러다임: LLM 한계 속 '월드 모델' 부상
1. 현황 및 배경: LLM의 한계와 새로운 방향 모색
최근 구글, 메타, 엔비디아 등 글로벌 AI 선도 기업들이 '초지능' 개발 경쟁의 새로운 승부처로 '월드 모델(World Models)'에 주목하고 있습니다. 이는 챗GPT와 같은 거대 언어 모델(LLM)의 발전 속도가 둔화되며 한계에 부딪혔다는 인식이 확산된 데 따른 전략적 전환으로 분석됩니다.
2. 핵심 개념: '월드 모델'이란 무엇인가?
월드 모델은 텍스트 데이터 중심의 LLM과 달리, 비디오, 로봇 데이터, 시뮬레이션 등을 통해 물리적 세계의 법칙과 공간, 상호작용을 학습하는 AI입니다. 이는 AI가 디지털 세계를 넘어 현실 세계를 이해하고 상호작용하는 능력을 갖추게 하는 것을 목표로 합니다.
3. 잠재력 및 시장 가치: 물리적 세계로의 확장
월드 모델 기술은 자율주행, 로보틱스, 제조업, 의료 등 물리적 세계와 직접적으로 관련된 산업에 혁신을 가져올 잠재력이 있습니다. 엔비디아는 이 기술이 상용화될 경우, 그 시장 가치가 최대 100조 달러에 이를 수 있다고 전망하며 엄청난 경제적 파급력을 예상했습니다.
4. 주요 기업들의 개발 동향 및 전략
• 구글 딥마인드: 비디오 생성 모델 '지니 3'를 통해, 실제 세계에서 발생할 수 있는 위험 없이 가상 환경에서 AI를 안전하고 확장 가능하게 훈련시키는 방법을 연구하고 있습니다.
• 메타: AI 석학 얀 르쿤의 주도 하에, 아이가 세상을 관찰하며 배우는 방식처럼 비디오 데이터를 통해 수동적으로 학습하는 'V-JEPA' 모델을 개발하고 로봇에 테스트 중입니다.
• 엔비디아: 자사의 시뮬레이션 플랫폼 '옴니버스'를 활용해 월드 모델을 훈련하고 테스트할 수 있는 가상 환경을 구축하며 '물리적 AI' 시대를 준비하고 있습니다.
• 데이터 수집: '포켓몬 고' 개발사 나이언틱처럼, 게임 플레이어들로부터 수집한 방대한 실제 공간 데이터를 월드 모델 구축의 기반으로 활용하는 사례도 있습니다.
5. 전망 및 과제
인간 수준의 지능을 갖춘 월드 모델이 완성되기까지는 10년 이상이 걸릴 수 있다는 전망이 나올 만큼, 막대한 데이터와 컴퓨팅 파워를 요구하는 기술적 난제가 남아있습니다. 하지만 일단 개발되면, AI가 디지털 영역을 넘어 전 산업에 걸쳐 혁신을 가져올 핵심 기술이 될 것으로 기대를 모으고 있습니다.



