ㅡrequests 모듈을 이용해서 HTML 긁어오기,
ㅡbeautifulsoup 모듈을 이용해서 파싱하기,
ㅡselenium 모듈을 이용해서 페이지 로딩을 대기하고 긁어오기 등
일반적인 크롤링 작업을 해본 적이 있는데,
주먹구구 식으로 유튜브랑 검색 만으로 깨우친 기술이라서,
코딩 애플 같은 정규 과정을 한번 완강해보고 싶었고.
특히나 다음과 같은 부분이 포함된다면 수강 신청하고 싶습니다.
헤더 조정해서 트래픽 줄이는 법.
ㅡheader를 세부적으로 설정해서,
사이트에 트래픽 부하를 최대한 적게 주면서 많은 자료를 크롤링하는 방법,
(일반적인 브라우저로 접근하면 페이지 당 용량이 가령 2MB인데,
header를 조절해서 HTML만 뽑아왔더니 반의 반으로 줄었다 등등..)
ㅡ아마존 aws같은 서비스와 연계해서, 클라우드로 크롤링해서 DB에 저장하는 방법.