ChatGPT 이런게 왜 그렇게 똑똑한지 알고싶으면
GPT 모델을 어떻게 만드는지 알아보는 것도 좋습니다.
그래야 요즘 AI들의 실체를 잘 이해할 수 있지 않겠습니까.
LLM은 대부분 트랜스포머로 다음 단어를 예측하는 AI 모델인데
트랜스포머는 기본적으로 문장을 한 번에 입력해서 단어간에 서로 얼마나 연관이 있는지 분석하고 판단하는 딥러닝 모델입니다.
우리도 이 정도는 직접 만들 수 있는데
GPT급으로 수많은 파라미터와 엄청난 데이터 양으로 학습 하려면 GPU가 많이 필요하겠지만
미니 버전 GPT는 쉽게 만들어볼 수 있습니다.
그 전에 트랜스포머 모델의 동작 원리부터 알아보도록 합시다.
배경지식이 없는 분들이라면 Q K V 이런거 나오자마자 이해가 어려울 수 있는데
W값, 임베딩 개념을 앞에서 배웠으면 딱히 어려운게 없습니다.
그냥 W값과 단어 임베딩을 순서에 맞게 곱하고 더하고 짜부시킨게 트랜스포머 모델일 뿐입니다.

-
Add a note