• 로그인
  • 장바구니에 상품이 없습니다.

home2 게시판 Python, SQL 게시판 kaggle - 타이타닉 강의 관련 predict 문의 도와주세요!!ㅜ

kaggle - 타이타닉 강의 관련 predict 문의 도와주세요!!ㅜ

4 글 보임 - 1 에서 4 까지 (총 4 중에서)
  • 글쓴이
  • #112565

    benlee
    참가자
    안녕하세요 
    kaggle 타이타닉 강의 관련 질문 드립니다
    
    이 분야 지식 수준이 0이라
    강의 계속 돌려보고 있고 구글링도 열심히 하기는 하는데요
    검색을 하면 정보들은 많이 나오는데.. 그 정보들 자체를 이해하기도 어렵습니다...
    
    test 데이터로 predict를 하려는데요
    전처리를 같게 해야 한다고 이해하고 있는데 아래와 같이 하는게 맞을까요?
    
    최대한 스스로 해결을 해보려 했습니다만 쉽지 않네요.. ㅠ 가이드라도 알려주시면 참고해서 다시 해보겠습니다
    
    우선 train 데이터의 경우 아래 스크린샷과 같이 강의 그대로 따라했습니다 - 별다른 오류는 없었습니다.
    강의
    
    그리고 아래 코드가 predict를 위한 코드입니다 (모델링도 넣어야 하나요,,?)
    - 아래 - 
    
    =========================
    import pandas as pd
    test = pd.read_csv('drive/My Drive/test.csv')
    평균 = test['Age'].mean()
    최빈값 = test['Embarked'].mode()
    test ['Age'].fillna(value=30, inplace=True)
    test ['Embarked'].fillna(value='S', inplace=True)
    import numpy as np
    import tensorflow as tf
    ds = tf.data.Dataset.from_tensor_slices((dict(test)))
    pred_feature_columns= []
    #숫자 = numeric
    #뭉뚱그려 카테고리 (그룹화) ex=나이 = buketized
    #종류가 몇 개 없는 카테고리 = indicator
    #종류가 많은 카테고리 = embedding
    pred_feature_columns.append(tf.feature_column.numeric_column('Fare'))
    pred_feature_columns.append(tf.feature_column.numeric_column('Parch'))
    pred_feature_columns.append(tf.feature_column.numeric_column('SibSp'))
    pred_feature_columns.append(tf.feature_column.numeric_column('Age'))
    Age=tf.feature_column.numeric_column('Age')
    Age_bucket = tf.feature_column.bucketized_column(Age, boundaries=[10,20,30,40,50, 60])
    pred_feature_columns.append (Age_bucket)
    #카테고리
    vocab = data['Sex'].unique()
    cat = tf.feature_column.categorical_column_with_vocabulary_list('Sex',vocab)
    one_hot=tf.feature_column.indicator_column(cat)
    pred_feature_columns.append(one_hot)
    vocab = data['Embarked'].unique()
    cat = tf.feature_column.categorical_column_with_vocabulary_list('Embarked',vocab)
    one_hot=tf.feature_column.indicator_column(cat)
    pred_feature_columns.append(one_hot)
    vocab = data['Pclass'].unique()
    cat = tf.feature_column.categorical_column_with_vocabulary_list('Pclass',vocab)
    one_hot=tf.feature_column.indicator_column(cat)
    pred_feature_columns.append(one_hot)
    vocab = data['Ticket'].unique()
    cat = tf.feature_column.categorical_column_with_vocabulary_list('Ticket',vocab)
    one_hot=tf.feature_column.embedding_column(cat,dimension=9)
    pred_feature_columns.append(one_hot)
    model.compile(optimizer='adam',loss='binary_crossentropy',metrics=['acc'])
    ds_batch = ds.batch(32)
    예측값 = model.predict(ds.batch(32), test)
    print(예측값)
    =========================
    이렇게 하면 아래와 같이  0 or 1이 아닌 결과가 나옵니다
     스크린샷 2024-02-06 200837_v4
      
    
    그리고 아래는 submission 파일이 최종입니다
    스크린샷 2024-02-06 195538v3
    
    질문도 어느 정도 이해가 되어야 제대로 할 텐데 그렇지 못해서 미리 죄송합니다 ^^;;..
    #112602

    codingapple
    키 마스터
    8.8e-1은 8.8/10 이라는소리라서 확률 잘나오는거같습니다
    #112604

    benlee
    참가자
    그럼 결과적인 부분을 떠나서 위 내용 내에 오류를 범하고 있는 부분은 없을까요? 
    그리고 제일 하단 SUBMISSION (결과) 에서 Survived의 수치를 %로 환산하면 되는거죠? 0.092409 = 9%
     
    #112626

    codingapple
    키 마스터
    model변수에 학습완료한 모델이 잘 들어있으면 별문제없어보입니다 
    넴
4 글 보임 - 1 에서 4 까지 (총 4 중에서)
  • 답변은 로그인 후 가능합니다.

About

현재 월 700명 신규수강중입니다.

  (09:00~20:00) 빠른 상담은 카톡 플러스친구 코딩애플 (링크)
  admin@codingapple.com
  이용약관
ⓒ Codingapple, 강의 예제, 영상 복제 금지
top

© Codingapple, All rights reserved. 슈퍼로켓 에듀케이션 / 서울특별시 강동구 고덕로 19길 30 / 사업자등록번호 : 212-26-14752 온라인 교육학원업 / 통신판매업신고번호 : 제 2017-서울강동-0002 호 / 개인정보관리자 : 박종흠