4 글 보임 - 1 에서 4 까지 (총 4 중에서)
-
글쓴이글
-
2024년 2월 6일 19:58 #112565
benlee참가자안녕하세요 kaggle 타이타닉 강의 관련 질문 드립니다 이 분야 지식 수준이 0이라 강의 계속 돌려보고 있고 구글링도 열심히 하기는 하는데요 검색을 하면 정보들은 많이 나오는데.. 그 정보들 자체를 이해하기도 어렵습니다... test 데이터로 predict를 하려는데요 전처리를 같게 해야 한다고 이해하고 있는데 아래와 같이 하는게 맞을까요? 최대한 스스로 해결을 해보려 했습니다만 쉽지 않네요.. ㅠ 가이드라도 알려주시면 참고해서 다시 해보겠습니다 우선 train 데이터의 경우 아래 스크린샷과 같이 강의 그대로 따라했습니다 - 별다른 오류는 없었습니다.
그리고 아래 코드가 predict를 위한 코드입니다 (모델링도 넣어야 하나요,,?)
- 아래 - ========================= import pandas as pd
test = pd.read_csv('drive/My Drive/test.csv')
평균 = test['Age'].mean()
최빈값 = test['Embarked'].mode()
test ['Age'].fillna(value=30, inplace=True)
test ['Embarked'].fillna(value='S', inplace=True)
import numpy as np import tensorflow as tf
ds = tf.data.Dataset.from_tensor_slices((dict(test)))
pred_feature_columns= [] #숫자 = numeric #뭉뚱그려 카테고리 (그룹화) ex=나이 = buketized #종류가 몇 개 없는 카테고리 = indicator #종류가 많은 카테고리 = embedding
pred_feature_columns.append(tf.feature_column.numeric_column('Fare')) pred_feature_columns.append(tf.feature_column.numeric_column('Parch')) pred_feature_columns.append(tf.feature_column.numeric_column('SibSp')) pred_feature_columns.append(tf.feature_column.numeric_column('Age'))
Age=tf.feature_column.numeric_column('Age') Age_bucket = tf.feature_column.bucketized_column(Age, boundaries=[10,20,30,40,50, 60]) pred_feature_columns.append (Age_bucket)
#카테고리 vocab = data['Sex'].unique() cat = tf.feature_column.categorical_column_with_vocabulary_list('Sex',vocab) one_hot=tf.feature_column.indicator_column(cat) pred_feature_columns.append(one_hot)
vocab = data['Embarked'].unique() cat = tf.feature_column.categorical_column_with_vocabulary_list('Embarked',vocab) one_hot=tf.feature_column.indicator_column(cat) pred_feature_columns.append(one_hot)
vocab = data['Pclass'].unique() cat = tf.feature_column.categorical_column_with_vocabulary_list('Pclass',vocab) one_hot=tf.feature_column.indicator_column(cat) pred_feature_columns.append(one_hot)
vocab = data['Ticket'].unique() cat = tf.feature_column.categorical_column_with_vocabulary_list('Ticket',vocab) one_hot=tf.feature_column.embedding_column(cat,dimension=9) pred_feature_columns.append(one_hot)
model.compile(optimizer='adam',loss='binary_crossentropy',metrics=['acc']) ds_batch = ds.batch(32)
예측값 = model.predict(ds.batch(32), test)
print(예측값) ========================= 이렇게 하면 아래와 같이 0 or 1이 아닌 결과가 나옵니다
그리고 아래는 submission 파일이 최종입니다
질문도 어느 정도 이해가 되어야 제대로 할 텐데 그렇지 못해서 미리 죄송합니다 ^^;;..
-
글쓴이글
4 글 보임 - 1 에서 4 까지 (총 4 중에서)
- 답변은 로그인 후 가능합니다.