본문 바로가기
728x90
반응형

분류 전체보기190

크롤링 4 이 장에서는 pandas 를 이용하여 크롤링을 합니다. 다음과 같은 어렵지 않은 코드로 웹페이지의 주식 정보를 가져오게 됩니다. import pandas as pd id_list = ['035420','066570'] for id_ in id_list: base_url = "http://finance.naver.com/item/main.nhn?code=" target_url = base_url + id_ data = pd.read_html(target_url, encoding='cp949') print(target_url) print(data[2]) -> id_list속에 숫자는 웹 주소 가장 뒤의 숫자입니다. 이부분을 고쳐서 원하는 웹페이지들을 설정할 수 있겠습니다. 2019. 11. 21.
크롤링 3 이 장에서는 selenium과 phantomJS를 이용하여 네이버에 로그인을 하는 방법을 배웁니다. 이 전의 노트와 같이 라이브러리를 불러옵니다. import requests from bs4 import BeautifulSoup from selenium import webdriver import time js_path = r'C:\\Users\\user\phantomjs-2.1.1-windows\\bin\\phantomjs' driver = webdriver.PhantomJS(executable_path=js_path) 다음 url은 네이버 로그인 웹페이지 입니다. 그리고 driver.get()을 실행합니다. naver_url = "https://nid.naver.com/nidlogin.login" dr.. 2019. 11. 21.
크롤링 2 이번 페이지에서는 selenium 과 phantom js 에 대해서 추가로 알아보도록 한다. 이 전 페이지에서 3번에 해당하는 방법을 배울 수 있다. selenium 은 javascript 등으로 웹이 동적으로 정보를 받아오는 것을 크롤링 할 수 없을때 코드를 통해 브라우저를 작동하게 해준다. phantom js를 통해 가상으로 웹을 작동할 수 있다. import requests from bs4 import BeautifulSoup from selenium import webdriver phantomjs 를 다운로드하고, 압출을 풀고 phantomjs.exe 파일이 있는 곳의 경로를 지정해준다. js_path = r'C:\Users\rok80\class_data\phantomjs-2.1.1-windows.. 2019. 11. 21.
크롤링 1 크롤링이란 : web에 존재하는 contents를 수집하는 작업을 말합니다. - 크롤링을 할 때 사용하는 방법들은 아래와 같습니다. 1. HTML 페이지를 가져와서, HTML/CSS 등을 파싱하고, 필요한 데이터를 추출하는 방법. 2. Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 필요한 데이터를 추출하는 방법. 3. Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터를 추출하는 방법. 각 방법을 수행하기 위하여 네이버 뉴스 기사를 사용하였습니다. 이 페이지에서는 아래의 모듈을 다루게 됩니다. - from bs4 import BeautifulSoup # 추출 - import requests # html불러오기 - from urllib.request im.. 2019. 11. 21.
728x90
반응형