본문 바로가기

분류 전체보기90

3장 데이터 소스 서식과 가공 1. XML 가공 2. JSON 가공 3. CSV 가공 4. Excel 가공 pip install openpyxl 2019. 11. 25.
2장. 고급스크레이핑 1. 고급스크레이핑 (requests/session get/post) 2. Selenium + PhantomJS 실행 환경 준비 2.1. Docker에 Ubuntu 이미지 가져오기 2.1.1. 우분투 설치 : docker pull ubuntu:16.04 2.1.2. 우분투를 실행하고 셀에 들어가기 : docker run -it ubuntu:16.04 2.1.3. 파이썬3와 pip3 설치 apt-get update apt-get install -y python3 python3-pip 2.1.4 Selenium 설치 pip3 install selenium pip3 install beautifulsoup4 (BeautifulSoup4 설치) 2.1.5. PhantomJS 설치 apt-get install -y.. 2019. 11. 24.
1장. 크롤링과 스크레이핑 0. 머신러닝을 위한 데이터 처리 크롤링, 스크레이핑, 머신러닝 1) 스크레이핑 이란? 웹 사이트에 있는 특정 정보를 추출하는 기술을 의미한다. 웹에서 데이터를 추출하는 것뿐만 아니라 구조를 분석하는 것도 포함된다. 2) 크롤링이란? 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술. 크롤링 하는 프로그램을 "크롤러", "스파이더" 라고 합니다 1. 데이터 다운로드 하기 1.1. 웹에서 데이터 추출하기 (urlretrieve, urlopen) 1.2. IP 확인 및 파라메터 인코딩해서 넘기기 1.3. BeauifulSoup 사용 (tag, find(), find_all()) 1.4. BeautifulSoup 사용 (select(), select_one() ) 2019. 11. 24.
파이썬 문법 간단정리 #파이썬 특징 컴파일이 필요없다 파이썬 코드는 읽기 쉽고 성능도 뛰어나다 데이터가 많거나 빠른 응답이 필요할때 사용해도 좋다 유명한 딥러닝 프레임워크들이 파이썬용 api를 제공한다 1. 파이썬 설치 https://www.anaconda.com/distribution/ 2. 버전확인 python -version 3. 파이썬 시작 python 4. 산술연산 >>> 1+2 3 5. 자료형 파이썬은 동적언어로 분류되는 프로그래밍 언어이다 동적이라 함은 변수의 자료형을 상황에 맞게 자동으로 결정한다는 뜻이다. >>>type('hello') 6. 변수 >>> x=10 >>> print(x) 10 7. 리스트 >>> a=[1,2,3,4,5] >>>a[3] 4 8. 딕셔너리 >>> me = {'height':180,'.. 2019. 11. 24.