• [IT | 기술] 텍스트, 음성, 이미지 그다음은 ‘비디오 생성 AI’ 차례2023.03.31 PM 03:46

게시물 주소 FONT글자 작게하기 글자 키우기
LINK : https://magazine.hankyung.com/business/article/202303225533b

영상 미디어 제작 효율성 크게 높일 수 있어...합성 미디어 부작용 경계해야 

 


초미의 관심을 받았던 GPT4가 드디어 출시됐다. 이번에 출시된 GPT4는 2018년 GPT1, 2019년 GPT2, 2020년 GPT3, 2022년 11월 GPT3.5 버전인 챗GPT 출시 이후 약 3개월 반 만에 나온 버전이다. 현재는 챗GPT 플러스 유료 구독을 통해서만 사용할 수 있다. 이미지 인식과 맥락 이해 기능 추가된 GPT4는 기존 GPT3에 비해 난해한 질문에 대해 보다 심층적이고 정확한 답변(원하는 정보 생성률 40% 증가)과 긴 텍스트 처리(2만5000개)가 가능하다. 대용량 처리를 위한 기억 용량도 향상(8000개)돼 과학 논문이나 단편 소설을 한 번에 처리할 수 있다. 법률 시험이나 대입 시험 등 시험 문제 풀이도 준수한 수준으로 통과했다. 마이크로소프트의 검색 엔진에 GPT4가 통합됨에 따라 대화형 검색 기능 분야도 한층 고도화될 것으로 보인다.


GPT4의 차별성은 이미지를 인식하고 처리하는 기능이다. 기존 GPT3.5는 텍스트만 처리하는 반면 GPT4는 텍스트와 이미지를 모두 구문 분석할 수 있는 다중 모드 방식이다.


특히 기존의 이미지 생성 인공지능(AI)에 비해 가진 장점은 이미지를 해석하고 이미지의 맥락을 이해해 새로운 제안을 할 수 있다는 점이다. 예를 들어 GPT4는 냉장고의 다양한 식재료 사진을 입력하고 이것으로 어떤 요리를 할 수 있는지 질문하면 다양한 요리 방법과 메뉴를 제시해 준다.


다만 이미지 생성 AI인 ‘미드저니’, ‘달리’, ‘스테이블 디퓨전’과 같이 새로운 이미지를 생성할 수는 없다는 점은 한계로 지적된다.


또 다른 아쉬운 점은 비디오 생성 기능이 추가되지 않았다는 것이다. GPT4가 출시되기 전에는 텍스트와 이미지를 넘어 비디오까지 생성할 수 있는 진정한 다중 모드 기능을 탑재할 것이라는 전망이 지배적이었다.


현재 비디오를 생성하는 AI로는 빅테크 기업인 구글의 ‘이매젠 비디오’, ‘페나키’, ‘드림믹스’와 메타의 ‘메이크어비디오’가 대표적이다. 이 밖에 ‘런웨이’, ‘딥브레인’, ‘신세시아’, ‘신스 비디오’, ‘렌사’, ‘리프레이즈에이아이’ 등 스타트업들이 출시한 제품은 많다.


비디오 생성 AI 기술을 가장 많이 가지고 있는 회사 중의 하나는 구글이다. ‘이매젠 비디오’와 ‘페나키’ 그리고 이스라엘 예루살렘 히브리대 개발팀과 함께 개발한 ‘드림믹스’ 등을 가지고 있다. 텍스트 명령어를 음악으로 만들어 주는 ‘뮤직LM’도 있다.


2022년 개발된 ‘이매젠 비디오’는 이용자가 텍스트를 입력하면 저해상도로 영상을 만든 후 초당 24프레임(24fps)으로 1280×768개의 HD급 고화질 동영상을 제작할 수 있는 텍스트를 비디오로 만들어 주는 생성형 AI다. ‘페나키’는 좀 더 연속적이고 구체적인 문장으로 긴 비디오를 생성하는 것으로 알려져 있고 지난 2월 챗GPT 출시 이후 바로 공개된 ‘드림믹스’는 사진이나 동영상에 텍스트 명령어(prompt)를 입력하면 새로운 비디오를 만들어 준다. 다만 현재 텍스트만으로 비디오를 생성할 수 없고 기존 자료를 가져와 텍스트 명령어를 사용해 비디오를 생성할 수 있다.


‘메타 AI’도 텍스트 명령어를 이용해 짧은 고품질 비디오 클립을 만들 수 있는 ‘메이크어비디오’를 작년 9월 발표한 바 있다. ‘메이크어비디오’는 몇 단어 또는 몇 줄의 텍스트로 생생한 색상과 캐릭터 및 배경 화면을 가진 독특한 단편 영화 정도는 만들 수 있다. 이미지에서 비디오를 생성하거나 기존 비디오를 가져와 유사한 새 비디오를 생성할 수도 있다.


빅테크 이외의 스타트업으로는 ‘런웨이’가 대표적이다. 런웨이는 이미지 생성 AI인 ‘스테이블 디퓨전’의 초기 버전 개발사로, 작년 9월 텍스트로 비디오를 편집하거나 변환할 수 있는 비디오 생성기를 출시했다. 올 2월에는 기존 비디오를 새로운 비디오로 만들어 주는 AI 모델 ‘젠원’도 공개했다. 런웨이는 원래 온라인 영상 편집 기능을 수행했지만 이제는 특정 영상과 명령어를 입력하면 새로운 고화질의 영상 콘텐츠를 만들어 낸다.비디오 생성형 AI가 미디어 생태계에 미치는 영향한편 ‘딥브레인’의 AI 스튜디오는 챗GPT를 이용해 스크립트만 입력하면 간단한 동영상을 제작할 수 있는 AI 비디오 생성기다. 세계 최초의 비디오 AI 생성 플랫폼인 ‘신세시아’는 시각적 콘텐츠 제작을 위한 새로운 합성 미디어 기술을 구현한다. ‘스테이블 디퓨전 비디오’는 명령어에서 비디오를 만드는 무료 온라인 텍스트 비디오 AI 생성기이고 애니메이션이나 영화를 제작하고 싶다면 ‘디포럼’도 좋은 대안이다. 

 

그러면 GPT가 향후 텍스트·음성·이미지를 넘어 비디오를 생성하게 된다면 과연 어떤 산업에 가장 파급 효과가 클까. 물론 AI 기술은 우리 산업 전반에 영향을 미치고 있지만 아무래도 영상 산업을 다루는 미디어 산업이 그중 하나가 아닐까 싶다.


이미 미디어 산업은 2014년 ‘생성형 적대신경망(GAN)’ 등장 이후 이미 텍스트에서 이미지를 만드는 ‘달리2’나 ‘스테이블 디퓨전’과 같은 이미지 생성 AI로 인해 많은 변화를 겪고 있다.


하지만 비디오 생성 AI의 등장은 단순히 이미지를 만드는 차원과는 다르다. 특히 영상 콘텐츠 제작과 관련 촬영·편집·스크립트 작성 등 일련의 작업 분야에서 생성형 AI는 매우 혁신적인 생산성 향상과 효율성을 가져다줄 것으로 기대된다.


또한 비디오 생성형 AI는 ‘하버드대 비즈니스 리뷰(HBR)’의 주장대로 모든 종류의 콘텐츠 제작에서 민주화를 가져다줄 것으로 예측된다. 일반 사용자들이 비디오 편집에 대한 사전 경험과 지식 없이도 일정 수준의 비디오를 만들 수 있게 해주기 때문이다. 예를 들어 비디오 한 편을 제작한다고 가정할 때 챗GPT로 스토리를 구성하고 ‘스테이블 디퓨전’으로 영상 관련 이미지를 만들며 ‘뮤직LM’으로 음악을 생성하고 ‘이매젠 비디오’로 비디오’를 만들 수 있다.


이러한 맥락에서 비디오 생성형 AI는 기존 전통적인 미디어 사업자보다 ‘틱톡’, ‘유튜브’ 등 사용자가 직접 제공하는 비디오 플랫폼 사업자들에게 직접적인 영향을 줄 수 있다. 아무래도 포맷이나 제작 형태로 봐서 ‘틱톡’이나 ‘유튜브 쇼츠(YouTube Shorts)’는 전문 영상 제작물보다 아마추어 위주의 일반 사용자들이 쇼트 폼 형태의 짧은 비디오를 생성하는 플랫폼이기 때문이다.


올해 세계 가전 전시회(CES)에서 ‘생성형 AI’의 저자 니나 쉬크는 2025년에는 온라인 제작 콘텐츠의 90%가 AI로 생성될 것이라고 예측하기도 했다.


이처럼 비디오 생성 AI는 미디어 산업에 혁신적인 바람을 가져올 새로운 게임 체인저로 기대되지만 실제 상용화와 보편적인 적용을 위해서는 다소 신중해야 할 것으로 보인다. 무엇보다 비디오라는 분야는 딥페이크 같은 합성 미디어가 가져올 윤리적·법적 문제부터 사기와 저작권 문제 등 AI가 본질적으로 내재한 문제들이 훨씬 더 부각되고 남용될 수 있는 분야이기 때문이다.

 

 

심용운 SK경영경제연구소 수석연구원


댓글 : 0 개
친구글 비밀글 댓글 쓰기

user error : Error. B.