분류 전체보기90 3장 데이터 소스 서식과 가공 1. XML 가공 2. JSON 가공 3. CSV 가공 4. Excel 가공 pip install openpyxl 2019. 11. 25. 2장. 고급스크레이핑 1. 고급스크레이핑 (requests/session get/post) 2. Selenium + PhantomJS 실행 환경 준비 2.1. Docker에 Ubuntu 이미지 가져오기 2.1.1. 우분투 설치 : docker pull ubuntu:16.04 2.1.2. 우분투를 실행하고 셀에 들어가기 : docker run -it ubuntu:16.04 2.1.3. 파이썬3와 pip3 설치 apt-get update apt-get install -y python3 python3-pip 2.1.4 Selenium 설치 pip3 install selenium pip3 install beautifulsoup4 (BeautifulSoup4 설치) 2.1.5. PhantomJS 설치 apt-get install -y.. 2019. 11. 24. 1장. 크롤링과 스크레이핑 0. 머신러닝을 위한 데이터 처리 크롤링, 스크레이핑, 머신러닝 1) 스크레이핑 이란? 웹 사이트에 있는 특정 정보를 추출하는 기술을 의미한다. 웹에서 데이터를 추출하는 것뿐만 아니라 구조를 분석하는 것도 포함된다. 2) 크롤링이란? 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술. 크롤링 하는 프로그램을 "크롤러", "스파이더" 라고 합니다 1. 데이터 다운로드 하기 1.1. 웹에서 데이터 추출하기 (urlretrieve, urlopen) 1.2. IP 확인 및 파라메터 인코딩해서 넘기기 1.3. BeauifulSoup 사용 (tag, find(), find_all()) 1.4. BeautifulSoup 사용 (select(), select_one() ) 2019. 11. 24. 파이썬 문법 간단정리 #파이썬 특징 컴파일이 필요없다 파이썬 코드는 읽기 쉽고 성능도 뛰어나다 데이터가 많거나 빠른 응답이 필요할때 사용해도 좋다 유명한 딥러닝 프레임워크들이 파이썬용 api를 제공한다 1. 파이썬 설치 https://www.anaconda.com/distribution/ 2. 버전확인 python -version 3. 파이썬 시작 python 4. 산술연산 >>> 1+2 3 5. 자료형 파이썬은 동적언어로 분류되는 프로그래밍 언어이다 동적이라 함은 변수의 자료형을 상황에 맞게 자동으로 결정한다는 뜻이다. >>>type('hello') 6. 변수 >>> x=10 >>> print(x) 10 7. 리스트 >>> a=[1,2,3,4,5] >>>a[3] 4 8. 딕셔너리 >>> me = {'height':180,'.. 2019. 11. 24. 이전 1 ··· 19 20 21 22 23 다음