Tokenizer 관련 질문입니다

2 글 보임 - 1 에서 2 까지 (총 2 중에서)

글쓴이

글

2024년 2월 13일 14:33 #113118

참가자

악플검사AI를 만들면서 tokenizer를 사용하는데

from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(char_level = False, oov_token='<OOV>')
#char_level = false면 단어 단위를 숫자로 바꿔줌, oov는 out of vocabulatory여서 없으면 어떤 문자로 바꿀지 치환한 것임

문자리스트 = raw['review'].tolist()

tokenizer.fit_on_texts(문자리스트)

train_seq = tokenizer.texts_to_sequences(문자리스트)

요 형식으로 하는것을 보았는데
제가 궁금한 것은 나중에 새로운 글들이 올라왔을 때 새로운 글도 다시 tokenizer 형식으로 바꿔야 하잖아요?
그러면 위 코드에서
문자리스트 = 대충 내가 예측하고싶은 글들이 있는 칼럼
이렇게만 바꿔서 다시 쓰는걸까요?
이렇게 하면 뭐랄까 왠지 tokenizer 안에 넣었던 순서가 다시 처음으로 되돌아 갈 것 같은 기분이랄까... 그래서 
이 방법이 맞는지 다른 방법이 있는지 궁금합니다!

(제가 놓친 부분이 만약 있었다면 다시 공부를 해야겠죠.. 사과님 도와주세요)

2024년 2월 13일 19:28 #113148

codingapple

키 마스터

단어끼리 순서바뀌면 안되어서 tokenizer는 학습때 만든거 그대로 씁시다

글쓴이

글

2 글 보임 - 1 에서 2 까지 (총 2 중에서)

답변은 로그인 후 가능합니다.

로그인

Tokenizer 관련 질문입니다

https://codingapple.com/wp-content/uploads/2019/06/logo2-3.png