• 로그인
  • 장바구니에 상품이 없습니다.

home2 게시판 자유 게시판 (Python, SQL 등) 네이버 블로그 무한 스크롤 데이터 수집 관련 문의드립니다.

네이버 블로그 무한 스크롤 데이터 수집 관련 문의드립니다.

2 글 보임 - 1 에서 2 까지 (총 2 중에서)
  • 글쓴이
  • #142281

    안성현
    참가자
    두가지 문의드립니다.
    먼저, 제가 작성한 코드는 다음과 같습니다.
    
    import requests
    from bs4 import BeautifulSoup
    data = requests.get('https://s.search.naver.com/p/review/50/search.naver?abt=%5B%7B%22eid%22%3A%22QRA-ABT%22%2C%22value%22%3A%7B%22bt%22%3A%224%22%2C%22is_control%22%3Afalse%7D%7D%2C%7B%22eid%22%3A%22NX-NNS-UXUI-2%22%2C%22value%22%3A%7B%22bt%22%3A%22T3%22%2C%22bucket%22%3A%224%22%2C%22is_control%22%3Afalse%7D%7D%5D&ac=0&api_type=8&aq=0&enlu_query=IggCAFmCULgsAAAAnB7Y5iaE6mWhQg%2BOtIdpMddyzh%2BJ4aHTMztQeCstwt7rX2rIILwcalI3xxZkY393rYpfihgAmfk65bR56U9Tw%2BBxt9hRrGUvWUUg%2FQgjDh7ZZpXYWl48h9moZQQfDrBcgwXacHSbwRadbRmAD5CgiopJAyzL%2B3i8YmfuZB%2BGk08%3D&enqx_theme=IggCAFaCULjiAAAAh%2FDtntZaiMLGh3DOFtIyqw%2Ft3q4clEos1p2O1NTRYn4NUJzpY2XWim4radqdYrSZDNiELd6nYNJwytlWzreKNul2xLfylQ7CjZHVqCLhCfDfLmMEOVaPYbdbw2RxiX5k6tEn%2FafuHrrZte47kEtzz1FzCMTvSRXkqLRfoya9Xws%3D&equery=IggCACuCULjrAAAAjNzhDV%2FTwET%2F%2BfdwekkH6g%3D%3D&fender=1&fgn_city=&fgn_region=&lgl_lat=37.477962&lgl_long=126.953460&lgl_rcode=09620101&ngn_country=KR&nso=&nx_and_query=&nx_search_query=&nx_sub_query=&prank=60&query=%EC%82%AC%EA%B3%BC&sm=tab_jum&spq=0&ssc=tab.blog.all&start=61')
    soup = BeautifulSoup(data.text.replace('\\', ''), 'html.parser')
    print(soup.select(''))
     
    1) 개발자도구>Network>Headers에서 얻은 Request URL을 강사님처럼 브라우저에 복사&붙여넣기를 했지만 강의 내용처럼 정리된 화면이 아닌
    정리되지 않은 텍스트가 쭉 나열된 형태의 화면이 나옵니다. (사진 유첨)
    GPT에 물어보니 네이버는 JSON데이터(API형태)를 사용하는 경우여서 그렇다고 하는데, 강사님 화면처럼 보이기 위해서는
    어떤 조치를 해야하는지 알 수 있을까요?
    다른 분들이 올린 문의글에 강사님께서 답변주신 글을 보면 매번 달라져서 url을 보고 이것저것 해봐야한다고 하셨는데 이 Case도 그런 경우인가요?
    브라우저캡쳐
    
    2) 제 생각으로는 Request URL을 브라우저에 넣어 실행했을 때, 강사님 화면처럼 안나온다 하여도
    개발자도구>Elements>블로그 게시글 제목 선택하여 태그와 class를 확인해서 soup.select('태그.class')를 사용하면 될 것이라 생각했습니다.
    이에, '~엽면시비'라는 제목을 선택하여 태그와 class를 확인하려했으나
    보시는 것과 같이 개발자도구에서는 title처럼 보이는 내용이 없습니다. (노란색 괄호 표시부)
    태그를 span 그리고 class를 그 뒤의 긴 글을 사용해서 코드를 작성해도 당연히 오류만 발생합니다.
    이 경우, 어떻게 해야 정상적으로 게시글 제목을 수집할 수 있을까요?
    
    쉬운 문제에 대해 문의드리는 것은 아닐까 싶어 망설였는데 고민해도 해결이 되지 않아 결국 문의하게 되었습니다..
    알려주시면 열심히 해보겠습니다.. ㅠㅜ
    엘리멘트 캡쳐
    
     
    #142288

    codingapple
    키 마스터
    data = data.json()
    html = data['collection'][0]['html']
    print(html) 
    이걸로 출력하면 html 나올걸요 그 다음에 Beautifulsoup안에 넣고 원하는거 찾아봅시다
2 글 보임 - 1 에서 2 까지 (총 2 중에서)
  • 답변은 로그인 후 가능합니다.

About

현재 월 700명 신규수강중입니다.

  (09:00~20:00) 빠른 상담은 카톡 플러스친구 코딩애플 (링크)
  admin@codingapple.com
  이용약관, 개인정보처리방침
ⓒ Codingapple, 강의 예제, 영상 복제 금지
top

© Codingapple, All rights reserved. 슈퍼로켓 에듀케이션 / 서울특별시 강동구 고덕로 19길 30 / 사업자등록번호 : 212-26-14752 온라인 교육학원업 / 통신판매업신고번호 : 제 2017-서울강동-0002 호 / 개인정보관리자 : 박종흠