“GPT는 정말 말을 이해하는 걸까?”
“어떻게 AI가 문장을 읽고, 대답까지 하는 거지?”
하루가 멀다 하고 등장하는 AI 서비스들.
그 중심엔 ‘GPT’, ‘Claude’, ‘Gemini’ 같은 **LLM (Large Language Model)**이 있습니다.
그런데 이 LLM들은 사람처럼 어떻게 자연어를 이해하고 대답할 수 있을까요?
오늘은 이 AI가 말을 이해하는 구조를,
사람에 빗대어 아주 쉽게 풀어보는 이야기로 시작해봅니다.
먼저 정리하고 시작할게요.
GPT는 인간처럼 진짜로 언어를 이해하진 않습니다.
하지만 언어의 패턴과 확률, 문맥과 의미 흐름을 기가 막히게 예측합니다.
예를 들어:
너 오늘 기분 어때?
→ “좋아” / “별로야” / “괜찮아” 등 다양한 답이 올 수 있죠.
GPT는 방대한 텍스트 학습을 통해
**“이런 질문엔 보통 이런 단어들이 오더라”**는 걸
확률적으로 계산해내는 능력이 엄청납니다.
GPT도 비슷한 과정을 거칩니다.
다만 이 모든 걸 수학과 벡터, 확률로 처리합니다.
AI는 사람처럼 문장을 통째로 이해하지 못합니다.
대신 단어들을 **“토큰(token)“**이라는 작은 단위로 쪼갭니다.
예: “Hello, world!”
→ [‘Hello’, ’,’, ‘world’, ’!‘]
이게 AI의 ‘읽기’ 방식입니다.
(심지어 ‘안녕하세요’는 [‘안’, ‘녕’, ‘하’, ‘세’, ‘요’]처럼 쪼개지기도 해요!)
쪼개진 단어들은 이제 숫자(벡터)로 바뀝니다.
예를 들어 “사과”는 [0.1, 0.8, -0.2, …] 같은 벡터가 됩니다.
이 벡터는 단어의 의미를 숫자 공간에서 표현한 거예요.
그래서 AI는
벡터 거리로 판단합니다.
이제 GPT의 진짜 두뇌, Transformer의 출동입니다.
Transformer는 다음을 고려합니다:
이걸 가능하게 하는 게 바로 Attention(주의집중) 메커니즘입니다.
“나는 오늘 회사에 갔는데, 거기서 고양이를 만났어.”
여기서 ‘거기서’는 ‘회사’를 가리키는 거죠.
GPT는 이런 연결을 확률과 가중치로 파악합니다.
AI는 위 과정을 거쳐
**“지금까지 이 말을 봤을 때, 다음 단어로 올 확률이 가장 높은 건?”**을 계산합니다.
예:
“비가 오는 날에는” →
예측: [‘우산을’, ‘집에’, ‘밖에’, ‘커피를’…]
그 중에서 가장 그럴싸한 걸 하나씩 택해 문장을 이어갑니다.
이 과정을 수천 번 반복하면,
GPT는 하나의 매끄러운 글, 대화, 요약, 번역을 완성해냅니다.
아니요. 기본적으로는 기억하지 못합니다.
대화도 한 번에 넣는 입력 범위(토큰 수) 안에서만 기억해요.
다만, ChatGPT처럼 대화를 이어가는 시스템에서는
이전 대화 내용을 계속 다시 보내주기 때문에
‘기억하는 것처럼’ 느껴지는 거랍니다.
GPT는 인간처럼 이해하거나 느끼지는 않지만,
수십억 개 문장의 패턴과 확률을 학습해
놀랍도록 자연스러운 언어 생성이 가능해진 겁니다.
GPT는 인간의 뇌처럼 이해하진 않지만,
말을 조합하는 확률적 사고는 어쩌면 인간보다 뛰어납니다.
우리가 이 원리를 알면,
GPT를 더 잘 활용하고,
어디까지 가능하고 어디서부터 조심해야 하는지도 판단할 수 있습니다.
“AI는 마법이 아닙니다. 수학과 데이터, 그리고 확률의 예술이죠.”