• 로그인
  • 장바구니에 상품이 없습니다.

Transformer로 직접 구현하는 GPT 모델 1 (동작원리)

 

 

ChatGPT 이런게 왜 그렇게 똑똑한지 알고싶으면

GPT 모델을 어떻게 만드는지 알아보는 것도 좋습니다.

그래야 요즘 AI들의 실체를 잘 이해할 수 있지 않겠습니까.

 

LLM은 대부분 트랜스포머로 다음 단어를 예측하는 AI 모델인데

트랜스포머는 기본적으로 문장을 한 번에 입력해서 단어간에 서로 얼마나 연관이 있는지 분석하고 판단하는 딥러닝 모델입니다.

 

우리도 이 정도는 직접 만들 수 있는데

GPT급으로 수많은 파라미터와 엄청난 데이터 양으로 학습 하려면 GPU가 많이 필요하겠지만

미니 버전 GPT는 쉽게 만들어볼 수 있습니다. 

 

그 전에 트랜스포머 모델의 동작 원리부터 알아보도록 합시다.

배경지식이 없는 분들이라면 Q K V 이런거 나오자마자 이해가 어려울 수 있는데

W값, 임베딩 개념을 앞에서 배웠으면 딱히 어려운게 없습니다.

그냥 W값과 단어 임베딩을 순서에 맞게 곱하고 더하고 짜부시킨게 트랜스포머 모델일 뿐입니다.

 

 

 

 

 

 

SEE ALL Add a note
YOU
Add your Comment

About

현재 월 700명 신규수강중입니다.

  (09:00~20:00) 빠른 상담은 카톡 플러스친구 코딩애플 (링크)
  admin@codingapple.com
  이용약관, 개인정보처리방침
ⓒ Codingapple, 강의 예제, 영상 복제 금지
top

© Codingapple, All rights reserved. 슈퍼로켓 에듀케이션 / 서울특별시 강동구 고덕로 19길 30 / 사업자등록번호 : 212-26-14752 온라인 교육학원업 / 통신판매업신고번호 : 제 2017-서울강동-0002 호 / 개인정보관리자 : 박종흠