Transformer로 직접 구현하는 GPT 모델 1 (동작원리)

ChatGPT 이런게 왜 그렇게 똑똑한지 알고싶으면

GPT 모델을 어떻게 만드는지 알아보는 것도 좋습니다.

그래야 요즘 AI들의 실체를 잘 이해할 수 있지 않겠습니까.

LLM은 대부분 트랜스포머로 다음 단어를 예측하는 AI 모델인데

트랜스포머는 기본적으로 문장을 한 번에 입력해서 단어간에 서로 얼마나 연관이 있는지 분석하고 판단하는 딥러닝 모델입니다.

우리도 이 정도는 직접 만들 수 있는데

GPT급으로 수많은 파라미터와 엄청난 데이터 양으로 학습 하려면 GPU가 많이 필요하겠지만

미니 버전 GPT는 쉽게 만들어볼 수 있습니다.

그 전에 트랜스포머 모델의 동작 원리부터 알아보도록 합시다.

배경지식이 없는 분들이라면 Q K V 이런거 나오자마자 이해가 어려울 수 있는데

W값, 임베딩 개념을 앞에서 배웠으면 딱히 어려운게 없습니다.

그냥 W값과 단어 임베딩을 순서에 맞게 곱하고 더하고 짜부시킨게 트랜스포머 모델일 뿐입니다.

SEE ALL

Add a note

YOU

Add your Comment

https://codingapple.com/wp-content/uploads/2019/06/logo2-3.png