사람 아닌 합성 데이터로 학습한 AI
성능 급격하게 저하, 결국 붕괴
전체 아닌 일부만 받아들인 결과
인공지능(AI)의 ‘선생님’은 아직까지는 인간이어야 하는 모양새다.
사람이 아닌 AI가 생성한 데이터로 학습한 AI는 성능이 급격하게 떨어지고 결국에는 붕괴한다는 연구 결과가 나왔다.
24일(현지시간) 영국 일간 파이낸셜타임스(FT)는 야린 갈 영국 옥스포드대 컴퓨터과학과 연구팀이 이날 국제학술지 네이처에 게재한 논문을 인용해 이같이 보도했다.
논문에 따르면 AI 모델에 14세기 영국 교회 탑 건축물을 텍스트로 입력한 후 ‘자기 학습’과 ‘생성’을 반복한 결과 5세대 AI는 뜬금없이 프랑스어와 스페인어 번역을 제공했고, 9세대 AI는 토끼 이야기를 했다.
이미지 부문에서도 마찬가지였다. AI 모델에 개 사진을 입력한 뒤 학습과 생성을 지시하자 서서히 달마시안과 같은 품종 이미지는 사라지고 골든 리트리버와 같이 일반적인 이미지만 남았으며 마지막에는 신체 부위가 뒤섞인 사진이 출력됐다.
연구팀은 AI가 소수 데이터를 점차 학습하지 않는 경향이 있으며 그 결과 상대적으로 다수인 데이터만 과도하게 대표된다고 설명했다. 전체가 아닌 일부만 학습한다는 의미다.
문제는 AI의 학습 양이 워낙 방대하고 학습 속도 역시 빨라 급격하게 성능이 악화한다는 점이다. AI가 생성한 틀린 데이터가 여과없이 학습 자료로 활용되는 과정이 반복되면서 오류가 증폭되는 구조다.
연구팀 소속 슈마일로프는 “AI ‘합성 데이터’로 학습한 AI 모델은 이전 세대가 제공한 모든 오류와 오해, 그리고 스스로에게 압도 당하면서 효용을 잃는다”고 말했다.
문제 해결 방법은 아직 명확하지 않다. FT는 AI 업계 리딩 기업들이 AI가 생성한 데이터는 학습 자료에서 제외하기 위해 따로 표시를 남기고 있다고 전했다. 다만 이는 업체들끼리의 협력이 전제돼야 한다.
현재 시점에서, 인간 데이터가 고갈되면 AI 성능 개선도 멈추는 셈이다. 오픈AI 등 기업들은 이에 합성 데이터를 학습 자료로 활용하기 위한 다양한 실험들을 진행하고 있다.
FT는 “AI 기업들이 인간이 생성한 각종 데이터들을 구입하기 위해 고군분투하고 있는지 이유가 설명됐다”고 전했다.
‘개 이미지 합성 데이터 학습 실험’을 진행했던 미국 듀크대의 에밀리 벵거 교수는 “합성 데이터 학습으로 인한 AI 모델 붕괴는 업계에 먼저 진입한 선도 기업들이 시장에서 우위를 차지할 수 있다는 점을 보여준다”고 FT에 말했다.
그는 “AI 등장 이전 온라인 세계의 데이터 확보한 기업들의 AI 모델이 우리가 사는 실제 세계를 더욱 잘 표현할 수 있다”고 말했다.