kaggle - 타이타닉 강의 관련 predict 문의 도와주세요!!ㅜ

4 글 보임 - 1 에서 4 까지 (총 4 중에서)

글쓴이

글

2024년 2월 6일 19:58 #112565

참가자

안녕하세요 
kaggle 타이타닉 강의 관련 질문 드립니다

이 분야 지식 수준이 0이라
강의 계속 돌려보고 있고 구글링도 열심히 하기는 하는데요
검색을 하면 정보들은 많이 나오는데.. 그 정보들 자체를 이해하기도 어렵습니다...

test 데이터로 predict를 하려는데요
전처리를 같게 해야 한다고 이해하고 있는데 아래와 같이 하는게 맞을까요?

최대한 스스로 해결을 해보려 했습니다만 쉽지 않네요.. ㅠ 가이드라도 알려주시면 참고해서 다시 해보겠습니다

우선 train 데이터의 경우 아래 스크린샷과 같이 강의 그대로 따라했습니다 - 별다른 오류는 없었습니다.


그리고 아래 코드가 predict를 위한 코드입니다 (모델링도 넣어야 하나요,,?)

- 아래 - 

=========================
import pandas as pd

test = pd.read_csv('drive/My Drive/test.csv')

평균 = test['Age'].mean()

최빈값 = test['Embarked'].mode()

test ['Age'].fillna(value=30, inplace=True)

test ['Embarked'].fillna(value='S', inplace=True)

import numpy as np
import tensorflow as tf

ds = tf.data.Dataset.from_tensor_slices((dict(test)))

pred_feature_columns= []
#숫자 = numeric
#뭉뚱그려 카테고리 (그룹화) ex=나이 = buketized
#종류가 몇 개 없는 카테고리 = indicator
#종류가 많은 카테고리 = embedding

pred_feature_columns.append(tf.feature_column.numeric_column('Fare'))
pred_feature_columns.append(tf.feature_column.numeric_column('Parch'))
pred_feature_columns.append(tf.feature_column.numeric_column('SibSp'))
pred_feature_columns.append(tf.feature_column.numeric_column('Age'))

Age=tf.feature_column.numeric_column('Age')
Age_bucket = tf.feature_column.bucketized_column(Age, boundaries=[10,20,30,40,50, 60])
pred_feature_columns.append (Age_bucket)

#카테고리
vocab = data['Sex'].unique()
cat = tf.feature_column.categorical_column_with_vocabulary_list('Sex',vocab)
one_hot=tf.feature_column.indicator_column(cat)
pred_feature_columns.append(one_hot)

vocab = data['Embarked'].unique()
cat = tf.feature_column.categorical_column_with_vocabulary_list('Embarked',vocab)
one_hot=tf.feature_column.indicator_column(cat)
pred_feature_columns.append(one_hot)

vocab = data['Pclass'].unique()
cat = tf.feature_column.categorical_column_with_vocabulary_list('Pclass',vocab)
one_hot=tf.feature_column.indicator_column(cat)
pred_feature_columns.append(one_hot)

vocab = data['Ticket'].unique()
cat = tf.feature_column.categorical_column_with_vocabulary_list('Ticket',vocab)
one_hot=tf.feature_column.embedding_column(cat,dimension=9)
pred_feature_columns.append(one_hot)

model.compile(optimizer='adam',loss='binary_crossentropy',metrics=['acc'])
ds_batch = ds.batch(32)

예측값 = model.predict(ds.batch(32), test)

print(예측값)
=========================
이렇게 하면 아래와 같이  0 or 1이 아닌 결과가 나옵니다
 
  

그리고 아래는 submission 파일이 최종입니다


질문도 어느 정도 이해가 되어야 제대로 할 텐데 그렇지 못해서 미리 죄송합니다 ^^;;..

2024년 2월 7일 09:41 #112602

codingapple

키 마스터

8.8e-1은 8.8/10 이라는소리라서 확률 잘나오는거같습니다

2024년 2월 7일 09:49 #112604

benlee

참가자

그럼 결과적인 부분을 떠나서 위 내용 내에 오류를 범하고 있는 부분은 없을까요? 
그리고 제일 하단 SUBMISSION (결과) 에서 Survived의 수치를 %로 환산하면 되는거죠? 0.092409 = 9%

2024년 2월 7일 13:39 #112626

codingapple

키 마스터

model변수에 학습완료한 모델이 잘 들어있으면 별문제없어보입니다 
넴

글쓴이

글

4 글 보임 - 1 에서 4 까지 (총 4 중에서)

답변은 로그인 후 가능합니다.

로그인

kaggle - 타이타닉 강의 관련 predict 문의 도와주세요!!ㅜ

https://codingapple.com/wp-content/uploads/2019/06/logo2-3.png