※크롤링을 할 때 지켜야 하는 룰이 있으니 robots.txt에 대해 모른다면 아래 포스팅을 읽고 오는 것을 강력히 권한다.
이번 포스팅에서는 크롤링을 위한 준비 과정에 대해 다루고, 다음 포스팅부터 본격적으로 크롤링을 해볼 것이다.
Python 환경에서 웹 크롤링을 하기 위한 3가지 준비절차가 있다.
Python설치 -> selenium, beautifulsoup 모듈 설치 -> driver 설치
1. Python 설치
Python 환경에서 크롤링을 할것이기 때문에 Python을 설치해야 한다. 웬만하면 최신 버전을 설치하면 된다.
"Add Python 3.9 to PATH"를 체크하면, 여러분이 직접 환경변수를 추가하지 않아도 자동으로 설정된다.
2. selenium, beautifulsoup 모듈 설치
selenium 모듈을 설치하는 이유는 동적인 크롤링을 하기 위함이다. 그리고 스크롤, 입력, 클릭, 페이지 로드 등 여러 다양한 작업들을 자동화 할 수 있다.
beautifulsoup 모듈을 설치하는 이유는 웹사이트 내의 html코드를 긁어오고 본격적인 데이터 추출을 하기 위함이다.
동적인 크롤링이 필요 없다면 beautifulsoup과 urllib만 있어도 상관없긴 하다.
파이썬을 설치했다면 cmd의 프로젝트 폴더 내에 pip 명령어로 두 모듈을 설치할 수 있다.
cmd에서 프로젝트 폴더로 경로를 세팅하고 두 명령어를 입력하면 간단히 설치할 수 있다.
pip install selenium
pip install beautifulsoup4
각 줄을 입력할 때마다, cmd 화면에서 뭔가가 설치되고 있다는 것을 알리는 게이지가 마구 채워지는 걸 볼 수 있을 것이다.
3. driver 설치
IE 브라우저로 웹에 접근하는 것은 상당히 비추한다.
다른 브라우저에서 제공되는 서비스가 IE에서만 제공되지 않는 경우가 있고, 그에 따라 html 코드도 달라지게 되어 크롤링에 있어서 불편함이 있을 것이라 예상된다.
본인도 그냥 하려다가 이런 불편함을 겪고 드라이버를 써서 크롬 브라우저로 웹에 접근하기로 결정했다.
벌써 마지막 단계이다. 준비 과정이 생각보다 얼마 걸리지 않지 않는가?
이제 이 사이트에서 크롬 버전에 맞는 드라이버를 설치하자.
크롬 버전은 크롬 브라우저 내에서 더보기 -> Chrome 정보에서 확인하면 된다.
sites.google.com/a/chromium.org/chromedriver/downloads
이걸로 크롤링을 위한 준비는 끝이다.
그러면 재미있게 데이터를 긁어와보자.
다음 포스팅에 이어서...
'Crawling' 카테고리의 다른 글
[크롤링, 예제 2] 레벨 분포 구하기 (0) | 2020.10.26 |
---|---|
[크롤링, 예제 1-3] Selenium - 새 창 안띄우고 크롤링 하기 (0) | 2020.10.23 |
[크롤링, 예제 1-2] 예제 1 - 셀레니움(Selenium) 이용 (0) | 2020.10.23 |
[크롤링, 예제 1] BOJ 정답율 추출하기 (11) | 2020.10.23 |
크롤링의 정의와 이점 그리고 주의할 점 (0) | 2020.10.22 |
댓글