pip : 파이썬 패키지 모듈
requests : 파이썬에서 http 요청을 보내는 모듈/라이브러리/패키지
bs4 : 웹 크롤링 모듈/라이브러리/패키지
mac os 환경에서 bs4, request 설치
$ pip install bs4 requests
crawler.py 실행 파일 작성
# 1)모듈 불러오기
import requests
from bs4 import BeautifulSoup
# 2)페이지 정보 가져와서 출력
url = 'http://www.test.com/test'
html = request.get(url)
print(html.text)
# 3)원하는 정보만 추출
soup = BeautifulSoup(html.text, 'html.parser')
# 크롬 개발자도구 -> copy -> copy selector : 원하는 요소 추출
print(soup.select_one('#mCSB_16_container > ul > li:nth-child(1) > button > span.title > strong'))
# 4)영화제목을 리스트로 받아와서 리스트 변수에 저장 후 출력
# div.info_movie 요소의 하위 요소 출력
movie_list = soup.select('div.info_movie')
for i in movie_list:
print(i.select_one('a > strong').text.strip()) #제목 앞 뒤 공백 제거
# 5)필요한 요소 찾기
find_el = soup.select_one('ico-sun')
if(find_el):
print('찾았땅')
else:
print('없네')
# 6)찾은 요소에서 부모 요소 찾아 출력
if(find_el):
upper_el =find_el.find_parent('div', class_='col_times')
print(upper_el.select_one('div.info_movie > a > strong').text.strip())
2)
- request 모듈로 페이지 정보 받아오기
- 크롬 개발자도구 ( alt + cmd + i ) 이용해서 특징 찾기!
- get 요청 -> text 출력
3)
-html 요소에서 원하는 태그의 정보를 가져오는 역할을 하는 bs4 메소드 2가지
1. find()
2. select()
'1 > Python' 카테고리의 다른 글
파이썬 가상환경 (0) | 2021.10.25 |
---|---|
[Python] 파이참 BeautifulSoup4/bs4 모듈 설치 (1) | 2020.05.29 |