import pandas as pd
import numpy as np
raw = pd.read_table('shopping.txt', names=['rating', 'review'])
print(raw)
raw['label'] = np.where(raw['rating'] > 3, 1, 0)
print(raw)
#데이터 예쁘게
raw['reveiw'] = raw['review'].str.replace('[^ㄱ-ㅎㅏ-ㅣ가-힣0-9 ]', '')
# print(raw.isnull().sum())
raw.drop_duplicates(subset=['review'], inplace=True)
print(raw)
#bag of words
유니크문자 = raw['review'].tolist()
유니크문자 = ''.join(유니크문자)
유니크문자 = list(set(유니크문자))
유니크문자.sort()
print(유니크문자[0:100])
그대로 작성을 하고 수십번바꿔서 테스트 해봤는데 계속 이렇게만 출력이 됩니다 ㅠㅠ 한글이 아니라 포함하지 말아야될 것들만 출력이됩니다..
['\x02', ' ', '!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '<', '=', '>', '?', '@', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '[', '\\', ']', '^', '_', '`', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '{', '|', '}', '~', '¡', '£', '¥', '¨']