[시리즈 4편] 스스로 창작하는 AI, '생성 AI'의 모든 것 (feat. DALL-E, ChatGPT)
📚 초보자를 위한 AI 가이드 시리즈
- [1편] AI, 머신러닝, 딥러닝 기본 개념
- [2편] 딥러닝의 핵심, 인공신경망 파헤치기
- [3편] 컴퓨터의 눈, 컴퓨터 비전 원리와 활용
- [4편] 창작하는 AI, 생성 AI의 모든 것
- [5편] 나만의 AI 모델 만들기 실전 가이드
지금까지 우리는 AI가 데이터를 '이해'하고 '분류'하는 방법에 대해 알아보았다. 3편에서 다룬 컴퓨터 비전 기술은 이미지 속 객체가 무엇인지 인식하는, 즉 정답을 맞히는 AI였다. 하지만 최근 AI 기술은 여기에서 한 단계 더 나아가, 세상에 없던 새로운 것을 '창작'하는 수준에 이르렀다. 바로 '생성 AI(Generative AI)'의 등장이다. 이번 편에서는 ChatGPT, DALL-E 등 우리를 놀라게 한 생성 AI란 무엇이며, 어떤 원리로 작동하는지 알아보자.
1. 생성 AI란? 소비를 넘어 '창작'의 영역으로
생성 AI는 글, 이미지, 음악, 코드 등 기존에 없던 독창적인 콘텐츠를 스스로 만들어내는 인공지능을 말한다. 기존의 AI 모델들이 주로 주어진 데이터를 바탕으로 '이것은 고양이인가, 강아지인가?'처럼 분류(Classification)하거나 '내일 주가는 오를까, 내릴까?'처럼 예측(Prediction)하는 '판별 모델'이었다면, 생성 AI는 데이터의 기본 패턴과 구조를 너무나 잘 학습한 나머지, 그와 유사한 새로운 데이터를 직접 만들어내는 '생성 모델'이다.
마치 수많은 모네의 그림을 학습한 화가가 모네의 화풍으로 새로운 그림을 그려내고, 수많은 베토벤의 교향곡을 들은 작곡가가 베토벤 스타일의 새로운 곡을 쓰는 것과 같다. 생성 AI는 단순히 데이터를 외우는 것을 넘어, 데이터의 핵심적인 '문법'과 '스타일'을 체득하여 무에서 유를 창조하는 것이다.
2. 이미지 생성 AI의 마법: "달에서 말 타는 우주비행사"
DALL-E(달리), Midjourney(미드저니)와 같은 이미지 생성 AI는 "달에서 말을 타고 있는 우주비행사를 유화 스타일로 그려줘" 와 같은 텍스트(프롬프트)를 입력하면 몇 초 만에 놀라운 품질의 이미지를 만들어낸다. 이 마법의 핵심에는 '디퓨전 모델(Diffusion Model)'이라는 기술이 있다.
디퓨전 모델의 원리는 생각보다 단순하다. ①먼저, 깨끗한 이미지에 노이즈(noise)를 점진적으로 추가하여 완전히 무작위 한 점들의 집합으로 만든다. ②AI는 이 과정을 반대로, 즉 노이즈로 가득한 상태에서 원본 이미지를 복원하는 방법을 학습한다. 이 '노이즈 제거' 훈련을 수억 개의 이미지와 텍스트 쌍으로 반복하면, AI는 특정 텍스트가 어떤 이미지와 연결되는지를 이해하게 된다. 이제 새로운 이미지를 생성할 차례가 되면, AI는 ①완전히 무작위 한 노이즈에서 시작하여, ②사용자가 입력한 텍스트 프롬프트를 길잡이 삼아 점차 노이즈를 제거해나간다. 그 결과, 텍스트의 의미와 스타일에 부합하는 세상에 단 하나뿐인 새로운 이미지가 탄생하는 것이다.
3. 언어 생성 AI의 혁명: ChatGPT와의 대화
ChatGPT와 같은 거대 언어 모델(Large Language Model, LLM)은 어떻게 그토록 자연스럽게 대화하고, 글을 쓰고, 코드를 짜는 것일까? 이 능력의 바탕에는 '트랜스포머(Transformer)'라는 획기적인 아키텍처가 있다.
트랜스포머 모델의 핵심은 '어텐션(Attention)' 메커니즘이다. 과거의 언어 모델들은 문장이 길어지면 앞부분의 내용을 쉽게 잊어버리는 한계가 있었다. 하지만 어텐션 메커니즘은 문장 속 단어들의 관계를 분석하여, 어떤 단어가 다른 단어와 더 중요한 연관성을 갖는지에 '주목(attention)'한다. 이를 통해 문맥 전체를 종합적으로 이해하는 능력이 비약적으로 향상되었다.
이러한 트랜스포머 구조를 기반으로, LLM은 인터넷의 방대한 텍스트 데이터를 학습한다. 그 본질은 매우 정교한 '다음 단어 예측기'다. 예를 들어, "오늘 날씨가 매우"라는 문장이 주어지면, 학습한 모든 데이터를 바탕으로 그 다음에 올 가장 확률 높은 단어가 '좋다', '맑다', '춥다' 등이라는 것을 계산한다. 그리고 그중 하나를 선택하고, 다시 그 단어 다음에 올 가장 확률 높은 단어를 예측하는 과정을 반복하여 자연스러운 문장과 글을 완성해나가는 것이다.
생성 AI의 등장은 인류가 정보를 소비하는 방식을 넘어, 창조하는 방식 자체를 바꾸는 패러다임의 전환을 의미한다. 이제 AI는 인간의 창의성을 보조하고 증폭시키는 강력한 도구가 되었다. 그렇다면 이 놀라운 AI 기술을 우리가 직접 만져보고, 간단한 모델이라도 직접 만들어볼 수는 없을까? 시리즈의 마지막 편에서는 이 모든 개념을 아우르는 실습으로, 'Teachable Machine'이라는 도구를 사용해 코딩 없이 나만의 이미지 분류 AI 모델을 만드는 실전 가이드를 진행해 보겠다.