악플검사AI를 만들면서 tokenizer를 사용하는데
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(char_level = False, oov_token='<OOV>')
#char_level = false면 단어 단위를 숫자로 바꿔줌, oov는 out of vocabulatory여서 없으면 어떤 문자로 바꿀지 치환한 것임
문자리스트 = raw['review'].tolist()
tokenizer.fit_on_texts(문자리스트)
train_seq = tokenizer.texts_to_sequences(문자리스트)
요 형식으로 하는것을 보았는데
제가 궁금한 것은 나중에 새로운 글들이 올라왔을 때 새로운 글도 다시 tokenizer 형식으로 바꿔야 하잖아요?
그러면 위 코드에서
문자리스트 = 대충 내가 예측하고싶은 글들이 있는 칼럼
이렇게만 바꿔서 다시 쓰는걸까요?
이렇게 하면 뭐랄까 왠지 tokenizer 안에 넣었던 순서가 다시 처음으로 되돌아 갈 것 같은 기분이랄까... 그래서
이 방법이 맞는지 다른 방법이 있는지 궁금합니다!
(제가 놓친 부분이 만약 있었다면 다시 공부를 해야겠죠.. 사과님 도와주세요)