• 로그인
  • 장바구니에 상품이 없습니다.

home2 게시판 Python, SQL 게시판 Tokenizer 관련 질문입니다

Tokenizer 관련 질문입니다

2 글 보임 - 1 에서 2 까지 (총 2 중에서)
  • 글쓴이
  • #113118

    허진혁
    참가자
    악플검사AI를 만들면서 tokenizer를 사용하는데
    
    
    from tensorflow.keras.preprocessing.text import Tokenizer
    tokenizer = Tokenizer(char_level = False, oov_token='<OOV>')
    #char_level = false면 단어 단위를 숫자로 바꿔줌, oov는 out of vocabulatory여서 없으면 어떤 문자로 바꿀지 치환한 것임
    문자리스트 = raw['review'].tolist()
    tokenizer.fit_on_texts(문자리스트)
    train_seq = tokenizer.texts_to_sequences(문자리스트)
    
    요 형식으로 하는것을 보았는데
    제가 궁금한 것은 나중에 새로운 글들이 올라왔을 때 새로운 글도 다시 tokenizer 형식으로 바꿔야 하잖아요?
    그러면 위 코드에서
    문자리스트 = 대충 내가 예측하고싶은 글들이 있는 칼럼
    이렇게만 바꿔서 다시 쓰는걸까요?
    이렇게 하면 뭐랄까 왠지 tokenizer 안에 넣었던 순서가 다시 처음으로 되돌아 갈 것 같은 기분이랄까... 그래서 
    이 방법이 맞는지 다른 방법이 있는지 궁금합니다!
    
    (제가 놓친 부분이 만약 있었다면 다시 공부를 해야겠죠.. 사과님 도와주세요)
    #113148

    codingapple
    키 마스터
    단어끼리 순서바뀌면 안되어서 tokenizer는 학습때 만든거 그대로 씁시다
2 글 보임 - 1 에서 2 까지 (총 2 중에서)
  • 답변은 로그인 후 가능합니다.

About

현재 월 700명 신규수강중입니다.

  (09:00~20:00) 빠른 상담은 카톡 플러스친구 코딩애플 (링크)
  admin@codingapple.com
  이용약관
ⓒ Codingapple, 강의 예제, 영상 복제 금지
top

© Codingapple, All rights reserved. 슈퍼로켓 에듀케이션 / 서울특별시 강동구 고덕로 19길 30 / 사업자등록번호 : 212-26-14752 온라인 교육학원업 / 통신판매업신고번호 : 제 2017-서울강동-0002 호 / 개인정보관리자 : 박종흠