차지맨 켄!
접속 : 3466   Lv. 68

Category

Profile

Counter

  • 오늘 : 604 명
  • 전체 : 1353483 명
  • Mypi Ver. 0.3.1 β
[IT | 기술] 생성 AI 열풍, 미국판 디시인사이드 ‘레딧’ 뒤흔들다 [한세희 테크&라이프] (0) 2023/07/23 AM 10:40

방문자 수 세계 30위권 ‘초거대 사이트’…기업가치 13조원

130억개 방대한 게시물, AI 시대 최고의 ‘학습 데이터’ 부상

IPO 앞두고 ‘API 유료화’에 사용자 반발…“접근법 고민할 때”

 

 

img/23/07/23/18980709d8f2255ed.jpg
세계 최대 인터넷 커뮤니티 사이트 중 하나인 ‘레딧’은 지난 4월 API 유료화 계획을 발표했다.

[Bloomberg Businessweek]


 

[한세희 IT 칼럼니스트] ‘인터넷의 1면’(the frontpage of the internet)


세계 최대 인터넷 커뮤니티 사이트 중 하나인 ‘레딧’(reddit)의 캐치프레이즈다. 광활한 인터넷에서 가장 유익하고 재미있는 내용들을 모아 보여준다는 의미라고 한다. 뉴스와 속보, 각종 이슈, 유머, 밈, 생활 정보, 고민 상담까지 온갖 정보가 쉴 새 없이 흘러간다.


레딧은 한국에 그다지 알려지지 않지만, 방문자 수 기준 세계 30위 안에 드는 초거대 사이트이다. 월간 방문자는 4억3000만명에 이르고, 활발한 활동이 이뤄지는 주제별 게시판이 10만개가 넘는다. 2022년 4억3000만개의 게시물이 올라왔고, 누적 게시물은 130억개에 이른다. 2005년 버지니아대학교에 다니던 두 명의 대학생이 창업했으며, 현재 기업가치 평가액은 100억 달러(약 13조원)에 이른다.


 

세계 최대 인터넷 커뮤니티


레딧은 서브레딧(sub-reddit)이라는 주제별 게시판이 수없이 많이 모인 구조이다. 카메라 정보에서 시작했지만, 정치·유머·시사·스포츠·게임·연예 등 온갖 주제별 ‘갤러리’가 생기며 거대 ‘커뮤니티’로 변모한 한국의 디시인사이드와 비슷하다.


서브레딧의 주제는 정치나 드라마 같은 일반적인 것뿐 아니라 ‘(다양한 지식을) 5살 아이에게 하듯 설명해 보자’, ‘보고 있으면 왠지 마음이 편안해지는 영상’ 등과 같이 더 다양한 내용과 형식을 갖는다. 누구나 마음대로 서브레딧을 만들 수 있다. 각 서브레딧은 사용자 중 자원한 사람들이 나서서 관리한다. 관리자들은 각 서브레딧의 규칙을 직접 만들고, 문제 게시물을 삭제하거나 사용자를 제재하는 권한을 갖는다.


각 게시물과 댓글은 사용자들의 ‘올려’(upvote) 및 ‘내려’(downvote) 투표에 의해 상위 노출이 결정된다. 탈중앙화된 수많은 자치 커뮤니티로 구성된 초거대 정보성 소셜 사이트인 셈이다.


다양한 인터넷 문화를 만들고 전파하며, 때로는 여론 형성에 영향을 미친다는 점은 국내 대형 인터넷 커뮤니티와 비슷하다. 신종 코로나바이러스 감염증(코로나19) 시국 당시 잊혀 가던 게임 판매점 체인 기업 ‘게임스톱’ 주가를 끌어올리는 것과 같은 이른바 ‘밈 주식’ 열풍이 레딧 사용자를 중심으로 일어났다.


img/23/07/23/18980a7f0152255ed.jpg


생성 AI 열풍의 나비 효과


레딧은 나름 중견 인터넷 기업이다. 하지만 인공지능(AI) 시대를 맞아 새로운 의미를 갖게 됐다. 레딧에 쌓여 있는 수많은 텍스트 덕분이다. 레딧에는 누적 130억건의 게시물이 축적되어 있다. 수십만, 수백만 개의 서브레딧이 다루는 수많은 주제에 대해 네티즌들이 쓰고 토론하고 논쟁한 내용들이 고스란히 남아 있다.


이 방대한 텍스트는 초거대 AI 자연어처리 모델을 위한 최고의 학습 데이터이다. 대부분 초거대 AI 모델은 웹에서 긁은 텍스트 데이터로 학습했으며, 레딧은 이 모델들이 학습한 영어 텍스트 데이터 중 적지 않은 지분을 차지한다. 더구나 레딧은 매우 관대한 데이터 정책을 갖고 있었다. 외부 개발자들은 레딧이 제공하는 응용프로그램인터페이스(API)를 통해 자유롭게, 거의 비용 없이 레딧 데이터에 자유롭게 접근할 수 있었다. 이를 통해 레딧 사이트 외부에서도 레딧 생태계가 만들어졌다.


하지만 마이크로소프트(MS)나 구글·오픈AI 같은 빅테크, 혹은 든든한 투자를 받은 스타트업들이 레딧 사용자들이 생산한 데이터에 마음대로 접근해 상업용 AI를 만드는 것이 적절한지는 의문의 여지가 있다. 마치 셔터스톡 등에 스톡 이미지를 올리는 사진작가들이 이미지 생성 AI 모델이 자신들의 작품으로 학습하는 것에 항의하는 것과 비슷하다.


그래서 레딧은 지난 4월 API 유료화 계획을 발표했다. AI 모델 훈련과 같은 상업적 목적으로 데이터를 사용하려면 대가를 지불하라는 이야기이다.


생성 AI 열풍에 대한 인터넷 콘텐츠 기업들의 여러 대응 중 하나 정도로 여겨졌던 이 조치는 그러나 사용자들의 극렬한 반대에 부딪혔다. 이 정책에 따라 레딧 API를 이용하는 다른 외부 애플리케이션(앱)도 영향을 받게 되었기 때문이다. 레딧 생태계에는 외부에서 만든 앱이 적잖은 역할을 한다. 레딧의 API를 활용해 레딧 콘텐츠를 보다 개선된 인터페이스에서 볼 수 있게 하는 앱이나, 관리자들이 쏟아지는 게시물을 보다 쉽게 관리할 수 있게 하는 도구, 장애인들이 편하게 레딧을 이용할 수 있도록 접근성을 높인 앱 등 다양한 앱이 나와 있다. 레딧은 모바일 시대 이전 웹사이트에서 출발한 데다 워낙 규모가 커 모바일 대응이 쉽지 않았고, 공식 앱은 기능이 미비하다는 불만을 사고 있다.


이에 따라 최근 주요 서브레딧들이 회사 방침에 반발해 비공개로 전환하거나 기존 구독자만 접근할 수 있게 하는 사이버 시위를 벌였다. 한때 전체 서브레딧의 절반 정도가 동참한 것으로 파악된다. 가장 인기 있는 외부 레딧 앱인 ‘아폴로’ 개발자는 “레딧 방침대로라면 1년에 2000만 달러(약 259억원)를 지불해야 한다”라며 앱을 종료하겠다고 밝혔다. 레딧은 API 요청 1000건 당 0.24 달러(약 310원)를 물릴 계획이다.


img/23/07/23/18980a638ca2255ed.png


생태계 덕에 성공, 과실은 어떻게?


물론 스티브 허프만 레딧 최고경영자(CEO)는 “레딧은 외부 앱을 지원하기 위해 있는 것이 아니다”라며 물러날 뜻이 없음을 분명히 하고 있다. 개발자 한 명이 운영하는 아폴로는 수백만 달러의 수익을 올리는 것으로 알려졌다. 현재 레딧은 트래픽만 많고 수익성은 좋지 않다. 기업공개(IPO)를 앞두고 수익을 올려야 한다는 압박을 받는 것도 강경 입장의 한 이유로 꼽힌다.


디지털 시대에 등장한 성공 제품이나 서비스는 기업뿐 아니라 사용자와 외부 개발자 등의 기여가 있기에 성공한 경우가 대부분이다. 페이스북이나 트위터·네이버 등도 비슷하다. 하지만 이 같은 생태계에 대한 기여를 보상하는 방법은 마땅치 않다. 여기에 이제 AI까지 웹에 널린 사용자들의 생산물을 이용하려 나서는 상황이다


img/23/07/23/18980ac03dc2255ed.webp


API 기반 외부 생태계가 잘 구축된 트위터 역시 올해 초 일론 머스크가 API 유료화 계획을 밝혀 외부 앱 개발사와 사용자들이 반발하기도 했다. 


성공을 위해서는 연결성을 확대해 사용자 참여를 유도하며 크고 효율적인 생태계를 구축해야 하는 것이 디지털 경제이지만, 이는 성공의 과실에 지분을 주장하는 당사자가 늘어난다는 의미이기도 하다. 사회경제적 갈등에 대한 새로운 접근을 고민해야 할 때이다.

 

 

[이코노미스트] 입력 2023-06-25 15:00




img/23/07/23/18980b3bd6b2255ed.png


img/23/07/23/18980b470f92255ed.png



출처 : [8월 월간공유] 주식시장은 미인대회, 버블보다 양극화 (NH투자증권)




#비정형데이터 #LLM #SNS #API #scraping #네이버 

신고

 
X