• [IT | 기술] (블룸버그) 마윈의 앤트 그룹, 중국산 칩 기반 AI 혁신 기술 공개2025.03.24 PM 05:07

게시물 주소 FONT글자 작게하기 글자 키우기
LINK : https://www.bloomberg.com/news/articles/2025-03-24/jack-ma-backed-ant-touts-ai-breakthrough-built-on-chinese-chips



룰루 이룬 첸


2025년 3월 24일 오전 11시 00분 GMT+9


내부 사정에 정통한 소식통에 따르면 마윈이 지원하는 앤트 그룹(Ant Group Co.)이 중국산 반도체를 사용하여 AI 모델 학습 기술을 개발했으며, 이를 통해 비용을 20% 절감할 수 있을 것이라고 합니다.


소식통들은 앤트 그룹이 관계사인 알리바바 그룹 홀딩(Alibaba Group Holding Ltd.)과 화웨이 테크놀로지(Huawei Technologies Co.)의 칩을 포함한 중국산 칩을 사용하여 전문가 혼합(Mixture of Experts) 머신러닝 방식을 통해 모델을 학습시켰다고 밝혔습니다. 그들은 정보가 공개되지 않았다는 이유로 익명을 요구하며, 엔비디아(Nvidia Corp.)의 H800과 같은 칩과 유사한 결과를 얻었다고 말했습니다. 한 소식통은 앤트 그룹이 여전히 AI 개발에 엔비디아 칩을 사용하고 있지만, 최신 모델에서는 AMD(Advanced Micro Devices Inc.)와 중국산 칩을 포함한 대안에 주로 의존하고 있다고 덧붙였습니다.


이 모델들은 앤트 그룹이 중국과 미국 기업 간 경쟁에 뛰어들었음을 의미하며, 이 경쟁은 딥시크(DeepSeek)가 오픈AI와 알파벳(Alphabet Inc.)의 구글이 투자한 수십억 달러보다 훨씬 적은 비용으로도 강력한 모델을 학습시킬 수 있음을 입증한 이후 가속화되었습니다. 이는 중국 기업들이 가장 발전된 엔비디아 반도체에 대한 현지 대안을 어떻게 활용하려고 노력하는지 보여줍니다. H800은 가장 최첨단 칩은 아니지만 비교적 강력한 프로세서이며 현재 미국에 의해 중국으로의 수출이 금지되어 있습니다.


앤트 그룹은 이번 달에 자사의 모델이 특정 벤치마크에서 메타 플랫폼(Meta Platforms Inc.)을 능가하는 경우가 있다고 주장하는 연구 논문을 발표했으며, 블룸버그 뉴스는 이를 독자적으로 검증하지는 않았습니다. 그러나 광고된 대로 작동한다면 앤트 그룹의 플랫폼은 AI 서비스의 추론 또는 지원 비용을 획기적으로 줄임으로써 중국 인공 지능 개발에 또 다른 진전을 가져올 수 있습니다.


많은 기업들이 AI에 막대한 투자를 쏟아붓는 가운데, MoE 모델은 구글과 항저우 스타트업 딥씨크 등을 중심으로 인기를 얻고 있는 옵션으로 부상했습니다. 이 기술은 작업을 더 작은 데이터 세트로 나누는데, 마치 각자 특정 업무 분야에 집중하는 전문가 팀을 구성하는 것과 매우 유사하여 프로세스를 더욱 효율적으로 만듭니다. 앤트 그룹은 이메일을 통한 논평 요청을 거부했습니다.


그러나 MoE 모델의 학습은 일반적으로 엔비디아가 판매하는 그래픽 처리 장치(GPU)와 같은 고성능 칩에 의존합니다지금까지 그 비용은 많은 중소기업에게는 너무 부담스러워서 널리 사용되지 못했습니다. 앤트 그룹은 이러한 제약을 없애고 LLM(대규모 언어 모델)을 더 효율적으로 학습시키는 방법을 연구해 왔습니다. 앤트 그룹이 "프리미엄 GPU 없이 모델 확장"이라는 목표를 설정한 논문 제목에서도 이 점을 분명히 알 수 있습니다.


이는 엔비디아의 흐름과는 반대되는 것입니다. 젠슨 황 CEO는 딥시크의 R1과 같은 더 효율적인 모델이 등장하더라도 컴퓨팅 수요는 계속 증가할 것이라고 주장하며, 기업들은 비용을 절감하기 위해 더 저렴한 칩이 아니라 더 많은 수익을 창출하기 위해 더 나은 칩이 필요할 것이라고 주장했습니다. 그는 더 많은 처리 코어, 트랜지스터 및 증가된 메모리 용량을 갖춘 대형 GPU를 구축하는 전략을 고수해 왔습니다.


블룸버그 인텔리전스 분석


앤트 그룹의 논문은 중국 AI 분야의 혁신 증가와 기술 발전의 가속화 추세를 강조합니다. 이 회사의 주장이 확인된다면, 중국이 엔비디아 칩 수출 통제를 우회하기 위해 저비용의 컴퓨팅 효율적인 모델로 전환하면서 AI 분야에서 자립할 수 있는 길을 잘 가고 있음을 보여줍니다.


— 로버트 리, 블룸버그 인텔리전스 선임 분석가


앤트 그룹은 고성능 하드웨어를 사용하여 1조 개의 토큰을 학습시키는 데 약 635만 위안(88만 달러)의 비용이 들었지만, 최적화된 접근 방식을 사용하면 저사양 하드웨어를 사용하여 510만 위안으로 비용을 줄일 수 있다고 밝혔습니다. 토큰은 모델이 세상에 대해 배우고 사용자 쿼리에 유용한 응답을 제공하기 위해 흡수하는 정보의 단위입니다.


소식통에 따르면 이 회사는 최근 개발한 대규모 언어 모델인 Ling-Plus와 Ling-Lite의 혁신 기술을 의료 및 금융을 포함한 산업 AI 솔루션에 활용할 계획입니다.


앤트 그룹은 올해 의료 분야의 인공 지능 서비스를 강화하기 위해 중국 온라인 플랫폼인 하오다이푸(Haodf.com)를 인수했습니다. 또한 Zhixiaobao라는 AI "생활 도우미" 앱과 Maxiaocai라는 금융 자문 AI 서비스도 보유하고 있습니다.


앤트 그룹은 논문에서 Ling-Lite 모델이 영어 이해력 측면에서 메타의 Llama 모델 중 하나와 비교했을 때 주요 벤치마크에서 더 나은 성능을 보였다고 밝혔습니다. Ling-Lite와 Ling-Plus 모델 모두 중국어 벤치마크에서 딥시크의 해당 모델보다 뛰어난 성능을 보였습니다.


베이징 기반 AI 솔루션 제공업체인 셩샹 테크(Shengshang Tech Co.)의 최고 기술 책임자인 로빈 유는 "세계 최고의 쿵푸 고수를 이길 수 있는 단 하나의 공격 포인트를 찾는다면, 당신은 여전히 그들을 이겼다고 말할 수 있습니다. 이것이 바로 실제 적용이 중요한 이유입니다."라고 말했습니다.


앤트 그룹은 Ling 모델을 오픈 소스로 공개했습니다. Ling-Lite는 모델의 성능을 조절하는 노브 및 다이얼과 같은 역할을 하는 조정 가능한 설정인 168억 개의 파라미터를 포함합니다. Ling-Plus는 2,900억 개의 파라미터를 가지고 있으며, 이는 언어 모델 영역에서 비교적 큰 것으로 간주됩니다. MIT 테크놀로지 리뷰에 따르면 전문가들은 ChatGPT의 GPT-4.5가 1조 8천억 개의 파라미터를 가지고 있다고 추정합니다. DeepSeek-R1은 6,710억 개의 파라미터를 가지고 있습니다.


앤트 그룹은 학습의 안정성을 포함한 일부 영역에서 어려움을 겪었습니다. 논문에 따르면 하드웨어나 모델 구조에 작은 변화만 주어도 모델의 오류율 급증을 포함한 문제가 발생했습니다.



#BABA #AMD #NVDA 

댓글 : 0 개
친구글 비밀글 댓글 쓰기