님, 안녕하세요? 서두석 프로예요🙋♂️. 먼저 슫스레터 리뉴얼 편에 보내주신 많은 관심에 진심으로 감사드립니다. 지난 레터에서 다크모드 선호도에 대한 의견을 들어봤는데요👂. 선호 응답이 84.5%로 더 높았지만, 배경 톤의 채도와 대비는 낮춰달라는 의견도 여럿 있어서 톤을 조금 조정해 보았답니다.
앞으로 슫스레터에서는 AI, Cloud, Language, SW Engineering, Security 이렇게 5가지 영역에서 IT 기술의 큰 흐름을 짚어볼 예정인데요. 오늘은 그 첫 번째 시간으로, 텍스트를 메인 소통 수단으로 이용했던 시기를 지나 이제는 인간처럼 보고 들은 것을 이해하는 멀티 모달 AI🤖에 대해 소개해 드릴게요! |
|
|
• LLM의 열기가 식기도 전에 찾아온 LMM • 멀티 모달 AI, 어떻게 구현하나 • 기대와 두려움의 대상, LMM
|
|
|
평소 필요한 정보나 아이디어를 얻기 위해 구글링이 일상이던 저에게 2023년은 잊지 못할 한 해였어요. ChatGPT에 프롬프트만 넣으면 원하는 정보를 알아서 척척 정리해 줬으니까요. 하지만 앉으면 눕고 싶은 게 사람 마음이라고 했던가요?
프롬프트를 작성하고 조정해 나가는 과정을 모두 텍스트로 해야 하는 게 점점 피곤하게 느껴지더라고요. 글로는 원하는 느낌이 잘 전달되지 않을 때도 있고요🙄. ‘그냥 이미지 하나 공유하는 걸로 대화가 되면 좋을 텐데’하는 생각이 많아질 무렵, OpenAI는 발 빠르게 눈 달린 ChatGPT를 선보였어요! |
|
|
- 눈 달린 ChatGPT, 멀티 모달(Multi-modal)이란?
|
|
|
‘Modal(=Modality)’은 ‘형태, 양식’으로 번역되지만, 맥락에 따라 의사소통 채널 또는 채널의 형태를 의미해요. 예를 들어 Text-modal은 주고받는 데이터가 텍스트라는 의미인데요. 그 외 다른 모달을 지원하지 않는다면 유니 모달(Uni-modal)에 해당해요. 마치 초기 ChatGPT처럼요!
하지만 최근 출시된 ChatGPT-4와 ChatGPT-4V는 시각 기능👀이 추가되어 자연어(텍스트)와 이미지를 함께 처리할 수 있어요. 이처럼 텍스트, 이미지, 음성 등 복수의 모달을 지원하는 게 바로 '멀티 모달'이랍니다. 그리고 멀티 모달이 가능한 거대 언어 모델(LLM, Large Language Model)을 LMM(Large Multi-modal Model) 또는 MLM(Multi-modal Large Model)이라고 해요. |
|
|
다솜 프로님 말처럼 멀티 모달 AI가 모두 Language Model인 건 아니지만, OpenAI의 ChatGPT와 구글의 Bard, 마이크로소프트의 Copilot과 같은 생성 AI는 거대 언어 모델(LLM)을 기반으로 구현되어 있어요. 그리고 점차 멀티 모달 AI로 진화하고 있죠. 이런 맥락을 고려하면 Language Model 관점에서 멀티 모달 기술을 살펴보고 이해하는 것은 자연스러운 접근이에요. 멀티 모달 AI는 거대 언어 모델의 성능 개선과 문제 해결에도 기여하는데요. 이를 알기 위해 거대 언어 모델의 작동 원리와 한계에 대해 먼저 살펴볼게요🧐. |
|
|
ChatGPT가 주목받으면서 ‘거대 언어 모델 = ChatGPT’로 생각하기 쉬운데요. ChatGPT는 거대 언어 모델을 응용한 대화형 AI(챗봇) 서비스🗣이고, 거대 언어 모델은 기본적으로 규모가 큰 Language Model을 의미해요.
여기서 Language Model이란 문장(단어 시퀀스)에 확률을 할당할 수 있는 모델, 쉽게 말해 ‘확률론적 단어 예측기’라고 할 수 있어요. Language Model은 다양한 머신러닝 기술을 활용해 문장들의 패턴과 단어의 쓰임새를 학습하는데요👩💻. 이러한 학습을 통해 문장에서 이어지는 단어의 확률을 예측하는 거죠. 이 예측 성능이 높을수록 Language Model은 맥락에 맞는 자연스러운 언어 표현력을 가지게 된답니다. |
|
|
- 거대 언어 모델 어떻게 학습하나(feat. 거거익선)
|
|
|
세상에 수많은 단어가 있고 다양한 상황과 맥락이 존재하는데 그걸 어떻게 다 학습할 수 있냐고요? 이 질문의 해결책이 바로 Language Model에 붙는 수식어 ‘Large’의 역할이에요. 인간이나 AI나 학습에 왕도는 없거든요📚. 우리가 무언가 배우거나 기억할 때는 두뇌 신경세포의 시냅스(신경망 네트워크)라는 곳에 정보가 저장되고, 이 네트워크들이 계속 연결되어 가는 과정을 거치는데요.
흔히 AI라 불리는 인공 신경망도 이 원리를 수학적으로 모델링 했고 Language Model도 마찬가지예요. 모델이 학습한 정보는 ‘학습 파라미터(Trainable Parameter)’에 수치 값으로 반영되는데요. 여러 연구를 통해 모델의 학습 파라미터 수가 커질수록 학습 능력이 향상된다는 점이 증명되었죠📈. 이 때문에 많은 업체들이 경쟁적으로 모델 사이즈를 키워왔고, 이 결과물이 거대 언어 모델이랍니다. |
|
|
ChatGPT 경쟁 대열에 있는 거대 언어 모델들은 이미 ‘조’ 단위의 파라미터를 보유하고 있어요. 이러한 규모의 거대 언어 모델을 한 번 훈련시키려면 수십억 원에서 수백억 원 이상의 비용💰이 든다는 점에서 최근 거대 언어 모델을 둘러싼 시장 열기와 무게를 가늠해 볼 수 있어요. 그런데 멀티 모달 AI 관점에서 보면 이처럼 강력한 거대 언어 모델에도 한 가지 약점이 발견됩니다. 거대 언어 모델의 학습이 ‘텍스트’ 데이터에만 의존한다는 점이죠. |
|
|
문자로만 세상을 이해한 유니 모달 거대 언어 모델은 아무리 모델을 키우고 방대한 문서들을 학습해도 틀린 정보를 지어내는 ‘환각(Hallucination)’이나, 데이터에 녹아 있는 ‘편향(Bias)’을 걸러내지 못하는 취약점이 있어요. 다솜 프로님이 쉽게 예를 들어 설명해 줄 수 있을까요? |
|
|
좋은 예시예요🙂! 그렇기 때문에 시각, 청각 같은 멀티 모달로의 확장이 더욱 필요하답니다. |
|
|
앞서 멀티 모달은 텍스트, 이미지, 음성 등 서로 다른 데이터 타입을 처리할 수 있다고 설명했어요. 이때 중요한 건 각각의 유니 모달로 동작할 때보다 멀티 모달로 연결했을 때 더 높은 성능을 가져야 한다는 점이에요. 시력이 나빠서 라식 수술을 받았는데 감각 사이의 불균형으로 인해 언어 기능의 저하가 생긴다면 연결의 의미가 반감되기 때문이죠🤔. 이러한 문제를 해결하고자 다양한 시도가 이뤄졌는데요. Google, OpenAI 같은 선도 업체들은 창의적인 아이디어💡로 멀티 모달 학습과 모델 확장의 돌파구를 마련했어요. 두 가지 사례를 살펴볼게요. |
|
|
‘21년 OpenAI는 CLIP(Contrastive Language-Image Pre-Training)이라는 멀티 모달 학습 방법을 공개했어요. CLIP은 텍스트와 이미지 쌍을 학습 데이터로 활용해요. 여기서 텍스트는 쌍을 이루는 이미지를 설명하는 문구인데요. 예를 들어 강아지 이미지🐶와 함께 ‘잔디밭에 앉아 있는 점박이 강아지’라는 텍스트를 쌍으로 학습하는 거죠.
이 기법으로 무려 4억 건의 이미지-텍스트 쌍을 학습한 모델은 이전 세대 모델들과 다르게 의미론적으로 텍스트와 이미지의 연관성을 이해하게 되었답니다. CLIP은 OpenAI의 이미지 생성 AI ‘DALL-E’를 비롯해 다른 AI 모델에도 활용되어 가치를 인정 받았어요👍. |
|
|
- 이미지만 주세요, 설명해 드립니다! ‘Flamingo’
|
|
|
‘22년 구글이 공개한 Flamingo는 Visual Language Model이에요. CLIP과는 달리, Flamingo는 거대 언어 모델 위에 만들어진 멀티 모달(LMM)이죠. Flamingo에 적용한 거대 언어 모델은 구글의 ChinChilla인데요. 파라미터 수는 70억 개에 불과하지만, 성능 면에서 파라미터 1,750억 개의 GPT-3.5를 능가하는 것으로 알려져 화제가 되었어요!
Flamingo는 기본적으로 이미지와 텍스트를 입력받아 거대 언어 모델에서 자연어를 생성하는 구조예요. 주어진 이미지를 해석해 객체를 파악하고, 이미지에 나타나지 않은 객체의 특징까지 설명할 수 있는데요. 예를 들어 강아지 이미지를 입력하면 ‘잔디밭에 앉아 있는 점박이 강아지’라는 해당 이미지에 대한 정보뿐만 아니라, ‘닥스훈트, 짜리몽땅한 다리와 긴 허리가 특징’처럼 해당 강아지에 대한 일반적인 정보도 제공하는 거죠. 이처럼 Flamingo는 기존 거대 언어 모델에서 볼 수 없던 뛰어난 멀티 모달 성능을 보여주었어요. |
|
|
이후 얼마 지나지 않아 ChatGPT에 비전 기능이 더해진 ChatGPT-4V가 나오고, ‘23년 말에는 구글의 멀티 모달 AI인 Gemini가 공개되며, 수년간 이어진 빅 테크들의 거대 언어 모델(LLM) 전장이 LMM으로 빠르게 이동하는 모습이에요. MS의 KOSMOS, Meta의 anyMAL, Apple의 Ferret 등 국내외 여러 기업들 또한 앞다퉈 성과물을 내놓고 있죠🤓.
OpenAI의 CEO인 샘 알트먼은 ChatGPT의 미래에 대해 “AGI(Artificial General Intelligence, 범용 인공지능)를 지향한다”라고 말했어요. 멀티 모달 기술은 인공지능의 궁극적 목표로 여겨지는 범용 인공지능 실현에 필수적인 기술로 주목받고 있죠. 멀티 모달을 통해 인간의 오감 기능을 터득한 AI🤖는 로봇공학, 자율주행, 헬스케어 등과 연계되며 멀지 않은 미래에 우리 삶을 송두리째 바꿀 기대와 두려움의 대상으로 떠오르고 있답니다. |
|
|
앞서 언급한 구글의 Gemini는 카메라로 사용자👩 행동을 인식하며 프롬프트로 대화하는 시나리오를 통해 다채로운 멀티 모달 처리 능력을 선보였는데요. 과연 어떤 모습일지 만나볼까요? |
|
|
위에서 나온 멀티 모달 AI 기능을 순서대로 ① - Multimodal Dialogue(멀티 모달 대화), ② - Multilinguality(다국어), ③ -Game Creation(게임 제작), ④ - Logic & Spatial Reasoning(논리 & 공간 추론)으로 정의할 때, 현재 수준에서 불가능한 사례가 하나 숨어 있다면 어떤 걸까요? 아래 버튼을 눌러 정답을 맞혀보세요! 문제 풀이 참여와 함께 피드백을 남겨주신 분들께는 추첨을 통해 선물을 드립니다.
🎁선물 · 이번 주도 고생한 나 자신 칭찬해! 치팅데이>_< 고추 바사삭+콜라 1.25L(3명) · 당 충전할 시간이에요! 스타벅스 The 촉촉 초콜릿 생크림 케이크(10명)
📌 이벤트 기간: 2/21(수) ~ 2/27(화) 📌 당첨자 발표: 2/29(목) |
|
|
오늘의 슫스레터는 여기까지입니다.
슫스레터를 함께 읽고 싶은 친구가 떠올랐나요?
그렇다면 아래 구독 신청 링크를 공유해 주세요!
지난 뉴스레터가 궁금하다면?
|
|
|
삼성SDS 소셜미디어itnews@samsungsdsletter.com서울 송파구 올림픽로35길 125 삼성SDS Campus 02-6155-3114수신거부 Unsubscribe |
|
|
|