크롤링 5

[크롤링]5. 이미지 데이터 수집

크롤링 05_이미지 데이터 수집 [포켓몬 이미지 수집하기] 라이브러리 불러오기 웹브라우저를 통제하기 위한 라이브러리 from selenium import webdriver as wb html 문서에서 태그와 선택자의 위치를 찾기 위한 라이브러리 from selenium.webdriver.common.by import By 웹에 값을 입력하기 위한 라이브러리(컴퓨터용 키보드) from selenium.webdriver.common.keys import Keys 컴퓨터가 이해하기 쉬운 객체로 변환해주는 라이브러리 from bs4 import BeautifulSoup as bs 코드 실행 중간에 쉬는 시간을 부여해주는 라이브러리 import time os 라이브러리: 운영체제의 기능을 파이썬에서 빌려쓰는 라이..

크롤링 2023.07.04

[크롤링]4. selenium 실습

크롤링_04_selenium 실습 [한솥도시락 데이터 크롤링] 1. 라이브러리 불러오기 ● 웹브라우저 제어하기 위한 라이브러리(webdriver) from selenium import webdriver as wb ● html 문서에서 태그와 선택자를 찾기 위한 라이브러리(By) from selenium.webdriver.common.by import By ● 웹에 값을 입력하기 위한 라이브러리->컴퓨터용 키보드(Keys) from selenium.webdriver.common.keys import Keys ● 컴퓨터가 이해하기 쉬운 객체 형태로 변환하는 라이브러리(BeautifulSoup) from bs4 import BeautifulSoup as bs 2. 크롬창 열기(한솥도시락 메뉴 페이지 열기) u..

크롤링 2023.06.29

[크롤링]3. selenium 라이브러리

크롤링 03_selenium 1. selenium: 크롤링 자동화(제어) 를 도와주는 라이브러리 -인터넷 검색과정을 대신 해주는 역할 -크롤링 자동화가 필요한 이유: 동적페이지는 사용자에 따라 맞춤화면이 출력되어야 하기 때문에 2. selenium 라이브러리 사용하기: ● selenium 라이브러리 설치하기: !pip install selenium ● webdriver 라이브러리 -from selenium import webdriver as wb -웹브라우저 제어하는 역할(웹브라우저≠웹 페이지) -웹브라우저에 대한 모든 정보를 담고 있음 ● html 문서에서 태그와 선택자를 찾기 위한 라이브러리(By) from selenium.webdriver.common.by import By ● Keys 라이브러리:..

크롤링 2023.06.28

[크롤링]2. 크롤링 실습

[멜론 TOP 100] [실습]멜론 차트 TOP100 가져오기 1. 페이지 불러오기 ● 보안상 접근 불가한 경우 우회접속하는 방법 -개발자모드(F12)Network-F5-맨 위에 있는 document 문서 열기 -Headers-User-Agent 값 복사 -변수={’User-Agent’: User-Agent 값} -req.get(url, headers=변수) 2. bs 객체화하기: soup=bs(res.text, 'lxml') 3. 원하는 태그 선택하기 -클래스명에 공백이 있는 경우 온점(.)으로 대체하기 예)ellipsis rank01→ellipsis.rank01 -공백은 자손선택자를 의미하므로 'ellipsis'의 자손선택자 'rank01'로 이해함 -클래스명에 공백이 있는 이유: 클래스가 여러 개이..

크롤링 2023.06.27

[크롤링]1. 크롤링 기초

1. 크롤링: Web상에 존재하는 Contents를 수집하는 일련의 과정 2. 크롤링 라이브러리 1)requests 라이브러리 -접근할 웹페이지의 데이터를 요청 및 응답받기 위한 라이브러리 라이브러리 불러오기 요청하기: req.get('요청할 주소') 응답의 종류 -Response [200]번대: 성공적으로 요청 및 응답을 받음 -Response [400]번대: 클라이언트(요청) 측에서 오류 발생 -Response [500]번대: 서버(응답) 측에서 오류 발생 페이지 html 문서만 추출: res.text(String 타입) 2)beautifulsoup 라이브러리: 복잡한 html문서(tag soup)를 컴퓨터가 이해할 수 있는 객체로 변경해주는 라이브러리 라이브러리 불러오기 request 라이브러리로 ..

크롤링 2023.06.26