ChatGPT를 구동하는 기술은 훨씬 더 많은 것을 가능하게 합니다. 앞으로 다가올 변화는 대화형 봇을 단순한 곁가지로 보이게 만들 것입니다.
작성자: 크리스토퍼 밈스 (Christopher Mims)
2024년 11월 15일 오후 9시(미 동부 시간)
일러스트레이션: 엘리엇 와이어트(Eliot Wyatt)
AI 혁명이 이제 챗봇을 넘어 훨씬 더 광범위하게 확산될 전망입니다.
플라스틱을 분해하는 박테리아, 새로운 암 치료법, 자율형 보조 로봇, 그리고 완전 자율주행 자동차에 이르기까지, ChatGPT의 엔진으로 주목받은 생성형 AI 기술이 우리의 삶을 바꿀 준비를 하고 있습니다. 이 변화는 대화형 봇을 단순한 곁가지로 보이게 할 정도로 깊은 영향을 미칠 것입니다.
현재 인공지능 열풍을 흔히 글을 쓰고, 말하고, 코드를 작성하며, 그림을 그리는 컴퓨터와 연관 짓지만, 이러한 표현 방식 대부분은 "트랜스포머(transformer)"라는 기본 기술에 기반하고 있습니다. 이 기술은 훨씬 더 광범위한 응용 가능성을 지니고 있습니다.
트랜스포머는 2017년 구글 연구진의 논문에서 처음 발표된 AI 알고리즘의 일종으로, 컴퓨터가 데이터의 본질적인 구조를 이해하도록 돕습니다. 데이터는 단어, 운전 데이터, 또는 단백질의 아미노산 배열 등 무엇이든 될 수 있습니다. 트랜스포머는 이러한 데이터를 바탕으로 유사한 출력을 생성할 수 있습니다.
이 기술은 2년 전 OpenAI가 ChatGPT를 출시할 수 있는 길을 열어주었으며, 현재 다양한 기업들이 이 혁신을 새로운 방식으로 활용하기 위해 노력하고 있습니다. 예를 들어 웨이모(Waymo)의 로봇 택시부터 새로운 단백질 분자를 설계하는 AI 시스템을 개발 중인 생물학 스타트업인 EvolutionaryScale에 이르기까지 그 응용 범위는 다양합니다.
이 돌파구의 응용 범위는 매우 넓어, 구글 연구가 발표된 이후 7년 동안 다른 과학 논문에서 14만 번 이상 인용되었습니다.
이 알고리즘 모음이 Nvidia를 현재 세계에서 가장 가치 있는 기업으로 만든 이유라고 해도 과언이 아닙니다. 또한 데이터센터가 미국과 전 세계에 우후죽순처럼 세워지고 있으며, 이는 전력 소비와 전기요금을 상승시키고 있습니다. 더 나아가 AI 기업의 최고경영자들은 인간 수준의 AI가 곧 등장할 것이라는 주장을 종종—그리고 아마도 잘못되었을 가능성도 있지만—펼치고 있습니다.
텍스트 번역에서 보편적 학습기로
인류는 항상 우주가 근본적인 질서로 가득 차 있다는 확신 속에서 행동해왔습니다. 이 질서의 출처가 신성한 것인지 여부를 논쟁했을 뿐입니다. 현대 인공지능(AI)은 일종의 검증입니다. 코페르니쿠스 이후의 모든 과학자들이 정말로 중요한 무언가를 발견하고 있었다는 점을 보여주는 증거입니다.
현대 AI는 오랜 시간 동안 정보 속 패턴을 인식하는 데 탁월했습니다. 그러나 기존 접근법은 AI가 할 수 있는 일의 범위에 심각한 제한을 두었습니다. 예를 들어 언어의 경우, 대부분의 AI 시스템은 단어를 한 번에 하나씩 처리하고 읽은 순서대로만 평가할 수 있었습니다. 이는 단어의 의미를 제대로 이해하는 능력을 제한하는 요소였습니다.
2017년 그 획기적인 논문을 작성한 구글 연구진은 언어 번역 과정에 주목했습니다. 이들은 글의 모든 단어를 분석하고, 특정 단어에 더 큰 중요성을 부여할 수 있는 AI 시스템, 즉 맥락을 이해하며 읽는 AI가 훨씬 더 나은 번역을 만들어낼 수 있음을 깨달았습니다.
예를 들어, “I arrived at the bank after crossing the river”(나는 강을 건넌 후 둑에 도착했다)라는 문장에서, 트랜스포머 기반 AI는 문장이 “road”(도로)가 아닌 “river”(강)로 끝난다는 것을 이해합니다. 이를 통해 “bank”를 돈을 맡기는 은행이 아닌 땅의 일부로 번역할 수 있습니다.
“트랜스포머는 시스템에 입력된 정보 하나하나가 서로 어떤 관계를 갖는지를 파악함으로써 작동합니다.”라고 비영리 단체인 앨런 인공지능 연구소(Allen Institute for Artificial Intelligence)의 AI 연구 과학자인 팀 데트머스(Tim Dettmers)는 설명합니다.
EvolutionaryScale이 만든 시제품 단백질은 해파리를 빛나게 만드는 단백질처럼 기능하지만, AI가 설계한 이 단백질의 서열은 자연계 어디에서도 발견되지 않은 완전히 새로운 것입니다. Photo: EvolutionaryScale
이러한 맥락적 이해 수준은 트랜스포머 기반 AI 시스템이 패턴을 인식할 뿐만 아니라 무엇이 합리적으로 뒤따를 수 있을지를 예측하게 합니다. 이는 AI가 새로운 정보를 스스로 생성할 수 있음을 의미하며, 이 능력은 단어 이외의 데이터에도 확장될 수 있습니다.
“어떤 의미에서는 모델이 데이터의 잠재적 구조를 발견하고 있는 셈입니다.”라고 페이스북 모회사인 메타 플랫폼스에서 AI 작업을 하다 지난해 EvolutionaryScale을 공동 창립한 알렉산더 라이브스(Alexander Rives) 최고 과학자는 말합니다.
EvolutionaryScale은 연구원들이 확보할 수 있는 모든 단백질 서열과 그 단백질에 대해 우리가 알고 있는 모든 데이터를 기반으로 AI를 훈련시키고 있습니다. 이러한 데이터를 활용해 인간 엔지니어의 도움 없이도, 이 회사의 AI는 분자 블록 서열과 그것이 생성하는 단백질이 세상에서 어떤 기능을 하는지 사이의 관계를 스스로 결정할 수 있습니다.
이 주제와 관련된 초기 연구는 단백질의 기능이 아닌 구조에 더 초점을 맞췄으며, 구글 AI 책임자인 데미스 하사비스(Demis Hassabis)가 2024년 노벨 화학상을 수상한 이유이기도 합니다. 그와 그의 팀이 개발한 시스템인 알파폴드(AlphaFold) 역시 트랜스포머에 기반하고 있습니다.
이미 EvolutionaryScale은 하나의 시제품 분자를 만들어냈습니다. 이는 해파리를 빛나게 만드는 단백질처럼 기능하지만, AI가 설계한 이 단백질 서열은 자연에서 아직 발견되지 않은 완전히 새로운 것입니다.
회사의 궁극적인 목표는 제약 회사가 새로운 약물을 생산하거나 합성 화학 회사가 새로운 효소를 개발하는 등 다양한 기업들이 이 기술 없이는 불가능한 물질을 만들어낼 수 있도록 돕는 것입니다. 이는 플라스틱을 분해하는 새로운 효소를 가진 박테리아나 특정 암에 맞춰 설계된 새로운 약물 등을 포함할 수 있습니다.
챗봇에서 실제 트랜스포머로
카롤 하우스만(Karol Hausman)의 목표는 모든 로봇을 작동시킬 수 있는 범용 AI를 만드는 것입니다. 그는 이렇게 말합니다. “우리는 모든 로봇이 모든 작업을 수행할 수 있도록 하는 모델을 구축하고 싶습니다. 현재 존재하는 로봇뿐만 아니라 아직 개발되지 않은 로봇까지도 말이죠.”
하우스만의 샌프란시스코에 기반을 둔 스타트업 Physical Intelligence는 설립된 지 1년도 되지 않았습니다. 하우스만은 구글의 AI 부문인 딥마인드(DeepMind)에서 일했던 경력을 가지고 있습니다. 그의 회사는 ChatGPT와 같은 대형 언어 모델의 변형된 버전을 활용하는데, 최신 언어 모델들은 이미지를 처리하고 통합할 수 있는 기능을 갖추고 있습니다. 이러한 기능은 하우스만의 로봇 운영의 핵심입니다.
최근의 데모에서, Physical Intelligence 기술로 구동되는 로봇 팔 한 쌍이 모든 로봇공학 과제 중 가장 어려운 작업 중 하나로 여겨지는 세탁물을 접는 데 성공했습니다. 옷은 형태가 다양하게 변할 수 있고 놀랄 만큼의 유연성과 섬세한 동작이 필요하기 때문에, 로봇공학자들이 로봇이 팔을 정확히 어떻게 움직여야 할지를 스크립트로 작성하는 것은 불가능에 가깝습니다.
Physical Intelligence의 시스템은 인간의 직접적인 개입 없이, 방대한 데이터를 학습해 세탁물을 꺼내 정돈되게 접는 방법을 스스로 배웠습니다. 이와 같은 데모는 충분히 인상적이어서, 이달 초 제프 베이조스(Jeff Bezos)와 OpenAI를 포함한 투자자들로부터 4억 달러를 투자받게 되었습니다.
MIT(매사추세츠공과대학교) 연구진은 강아지 '모모(Momo)'에게 사료를 먹이는 로봇 팔의 동영상을 촬영한 뒤, 이를 활용해 다른 AI 기반 로봇이 동일한 작업을 수행하도록 훈련시켰습니다. Photo: Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He
2024년 10월, MIT 연구진은 트랜스포머 기반 전략을 통해 다양한 소스에서 방대한 데이터를 처리하고, 여러 환경에서 유연하게 작동할 수 있는 로봇 두뇌 개발을 목표로 하고 있다고 발표했습니다. 이 전략 중 하나로, 일반적인 로봇 팔이 개 사료를 그릇에 담는 장면을 여러 번 촬영하고, 이러한 동영상을 활용해 별도의 AI 기반 로봇을 동일한 작업을 수행하도록 훈련했습니다.
자율주행차 분야로 확장되는 트랜스포머 모델
로봇공학에서와 마찬가지로, 자율주행차 연구자들과 기업들 또한 언어뿐만 아니라 이미지를 처리하고 연결할 수 있는 트랜스포머 기반 "비주얼 언어 모델"을 활용하는 방법을 모색하고 있습니다.
이 모델을 사용하는 기업들에는 캘리포니아에 본사를 둔 누로(Nuro), 런던에 기반을 둔 웨이브(Wayve), 그리고 구글의 모회사 알파벳이 소유한 웨이모(Waymo)가 포함됩니다.
이는 이전의 자율주행 접근법과의 큰 차이를 보여줍니다. 기존 접근법은 사람이 작성한 지침과 구식 AI를 혼합해 센서 데이터를 처리하고 도로 위 물체를 식별하는 방식이었습니다. 반면, 새로운 트랜스포머 기반 모델은 자율주행 시스템에 일반적인 세계 지식을 제공하는 데 있어 일종의 지름길 역할을 합니다. 이는 이전에는 구현하기 어려웠던 부분입니다.
예를 들어, 웨이모 연구진은 최근 논문에서 구글의 상업용 AI인 제미니(Gemini)를 활용해, 자율주행 시스템이 훈련받지 않은 물체—예를 들어 도로를 건너는 개와 같은—를 식별하고 양보할 수 있는 능력을 부여하는 방법을 시연했습니다.
웨이브(Wayve)의 자율주행차. 런던에 본사를 둔 웨이브는 새로운 AI 기술을 활용해 자율주행차가 예상치 못한 상황을 탐색할 수 있도록 돕는 기업 중 하나입니다. 사진: 웨이브
대체자가 아닌 도우미
이 시스템들이 강력하기는 하지만 여전히 한계와 예측 불가능성이 있어 인간의 일을 완전히 자동화할 수는 없다고 팀 데트머스(Tim Dettmers)는 말합니다.
예를 들어, EvolutionaryScale의 핵심 AI는 실험실에서 인간이 시도해볼 새로운 분자를 제안할 수 있지만, 인간이 이를 합성하고 테스트해야 합니다. 또한, 트랜스포머 기반 모델은 운전을 완전히 대신할 만큼 신뢰할 수 있을 정도로 발전하지는 못했습니다.
또 다른 한계는 데이터 의존성입니다. 이 모델들은 학습한 데이터만큼만 똑똑합니다. OpenAI와 같은 대형 언어 모델조차 인터넷에 방대한 텍스트가 있음에도 불구하고, 유용한 문서 데이터의 부족에 직면하고 있습니다. 로봇이나 자율주행차가 이 방식으로 학습하려면, 실제 환경에서 작동하면서 발생하는 사건들에 대한 방대한 양의 데이터가 필요합니다. 이 때문에 현재 많은 기업이 이런 데이터를 확보하기 위해 경쟁하고 있습니다.
이러한 한계는 Physical Intelligence의 로봇에서도 분명하게 나타납니다. 그들의 시스템은 세탁물을 접는 방법을 스스로 학습했지만, 여러분의 집에 와서 이 작업을 대신하기 위해서는 여러분의 집에 맞게 프로세스를 다시 학습해야 합니다. 이는 모델을 훈련하는 데 막대한 엔지니어링 시간과 비용이 필요하다는 것을 의미합니다.
“기대를 잘 조정하고 싶습니다.” 하우스만 CEO는 말합니다. “우리가 이룬 성과에 자부심을 느끼지만, 아직 초기 단계에 불과합니다.”