요약 :
- 지오프리 힌튼 교수 밑에 있을 떄 GPU가 나왔고 CNN를 GPU에 어떤 방식으로 돌리면 엄청난 일을 할 수 있겠다는 감이 왔었고 그게 모든것의 시작이었음
- OpenAI를 시작했을 때(2015) 두가지 아이디어가 있었음. 첫번째는 압축과 비지도학습이었고 두번째는 강화학습이었다.
- 그리고 나서 2017년에 Transformer 아키텍쳐가 나왔고 우리는 곧장 달려들어서 GPT-1을 만들었다.( 첫번째 아이디어 증명 )
- 우리는 강화학습을 이용해서 Dota2를 잘 할 수 있는 AI agent를 만들기도 했다. ( 두번째 아이디어 증명 )
- 그리고 첫번째 아이디어 ( 압축&비지도학습 )과 두번째 아이디어 ( 강화학습 )을 모두 적용한 제품이 바로 ChatGPT이다.
- GPT가 텍스트들의 상관관계만 배우는 것으로 보일 수 있지만 사실은 세상을 이해하고 나타내는 월드 모델을 형성하고 있음
- GPT-4는 8개월쯤 전에 훈련시켰는데 GPT-3.5와의 차이점은 다음 토큰을 훨씬 더 예측 잘 한다는 것임. 그리고 그건 모델이 더 나은 이해를 한다는것을 의미함.
- 예를 들어서 탐정 소설을 너가 읽고 있는데 다음 페이지 내용을 예측 잘 한다는건 그 전의 내용들을 그 만큼 잘 이해하는 것임.
- 아직 GPT-4가 완벽한 추론 능력이 없다고 말하는 데 우리가 지금 갖고 있는 여러 아이디어를 구현하면 추론능력을 포함해 답변의 신뢰성도 훨씬 높일 수 있을것임
- 현재 GPT-4는 retrieval property ( 정보 검색해서 가져오는 능력 )은 없다. 단지 다음 단어 예측을 엄청 잘 할뿐임.
- 미래 버전에서는 GPT가 이미지를 받는 것 뿐만 아니라 답변이 이해 되기 더 쉽도록 그림을 그리거나 이미지를 생성해 줄 수도 있을것
- AI가 스스로 데이터를 만들고 학습해서 개선하는 것도 하나의 가능한 개선 가능한 방법임
- 자세한 건 말할 수 없지만 예측 모델의 성능이 점점 향상해서 사람들을 놀라게 할 수 있을것
- 예를 들어서 무언가를 잘 모르면 잘 모른다고 말하고 다시 질문할 수 있는 모델을 보게 될 것
- 다음 2년동안 GPT의 많은 성능 향상들 ( 정확도 향상 , 이해력 향상, 신뢰도 향상 ) 등을 보게 될 것.
( 각주 : 빌게이츠가 어제 블로그에 2년 안에 AI가 수학적 실수하거나 추상적인 추론 못하던게 아주 크게 개선될 것이라고 했는데
하필 2년이라고 말한거 보면 뭔가 알고있다는 느낌이 강하게 듦. OpenAI가 의도적으로 기술을 2년 정도씩 늦게 푸는것 같기도 함.. )
- 멀티모달 학습이 중요한 이유 중 하나는 모델이 볼 수 있게 되기 때문이다. 인간이나 동물의 뇌를 보면 시각을 담당하는 부분이 굉장히 크다.
- 멀티모달 학습이 중요한 이유 중 나머지 하나는 텍스트 뿐만 아니라 텍스트만 담을 수 없는 내용들이 이미지에는 자연스럽게 담겨 있다.
- 텍스트만으로도 이미지에서 얻을 수 있는 정보를 얻을 수는 있겠지만 가끔은 그냥 이미지만 보고 학습하는게 훨씬 빠르기도 하다.
- 그런 의미에서 오디오와 비디오도 멀티모달 학습에 유용할 것임.
ㅡㅡㅡㅡ
지금이라도 마소랑 엔비디아 주식을 사야하는데 ㅠㅠ