본문 바로가기
인공지능

2장. 고급스크레이핑

by 카리3 2019. 11. 24.

1. 고급스크레이핑 (requests/session  get/post)

2. Selenium + PhantomJS 실행 환경 준비

2.1. Docker에 Ubuntu 이미지 가져오기

2.1.1. 우분투 설치 : docker pull ubuntu:16.04

2.1.2. 우분투를 실행하고 셀에 들어가기 : docker run -it ubuntu:16.04

2.1.3. 파이썬3와 pip3 설치

  apt-get update 

 apt-get install -y python3 python3-pip

2.1.4 Selenium  설치

pip3 install selenium

pip3 install beautifulsoup4  (BeautifulSoup4 설치)

2.1.5. PhantomJS 설치

apt-get install -y wget libfontconfig

( 바이너리 내려받고 설치하기 )

mkdir -p /home/root/src && cd $_

wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 

tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 

cd phantomjs-2.1.1-linux-x86_64/bin/

cp phantomjs /usr/local/bin/

 

Bitbucket | The Git solution for professional teams

Collaborate on code with inline comments and pull requests. Manage and share your Git repositories to build and ship software, as a team.

bitbucket.org

2.1.6. 한글 폰트 설치

apt-get install -y fonts-nanum*

2.1.7. docker 컨테이너

docker ps -a

docker commit 0ded4cae2d47 ubuntu-chrome

docker run -i -t -v /d/Dev/AI/sample:/sample/ -e ko_KR.UTF-8 -e PYTHONIOENCODING=utf_8 ubuntu-chrome /bin/bash

# 오류가 발생하여 아래와 같은 작업을 진행하여 성공하였음 (크롬 브라우저로 변경)

apt-get update

apt-get install chromium-chromedriver

apt-get install xvfb

pip3 install xvfbwrapper

 

'인공지능' 카테고리의 다른 글

5. 딥러닝  (0) 2019.12.01
4장 머신러닝  (0) 2019.11.25
1장. 크롤링과 스크레이핑  (0) 2019.11.24
파이썬 문법 간단정리  (1) 2019.11.24
머신러닝/딥러닝 개발을 위한 환경설정  (1) 2019.11.24