pip : 파이썬 패키지 모듈

requests : 파이썬에서 http 요청을 보내는 모듈/라이브러리/패키지

bs4 : 웹 크롤링 모듈/라이브러리/패키지

 

mac os 환경에서 bs4, request 설치

$ pip install bs4 requests

 

crawler.py 실행 파일 작성

# 1)모듈 불러오기
import requests
from bs4 import BeautifulSoup

# 2)페이지 정보 가져와서 출력
url = 'http://www.test.com/test'
html = request.get(url)
print(html.text)

# 3)원하는 정보만 추출
soup = BeautifulSoup(html.text, 'html.parser')

# 크롬 개발자도구 -> copy -> copy selector : 원하는 요소 추출
print(soup.select_one('#mCSB_16_container > ul > li:nth-child(1) > button > span.title > strong'))

# 4)영화제목을 리스트로 받아와서 리스트 변수에 저장 후 출력
#   div.info_movie 요소의 하위 요소 출력
movie_list = soup.select('div.info_movie')
for i in movie_list:
	print(i.select_one('a > strong').text.strip()) #제목 앞 뒤 공백 제거
       
# 5)필요한 요소 찾기
find_el = soup.select_one('ico-sun')
if(find_el):
	print('찾았땅')
else:
	print('없네')
    
# 6)찾은 요소에서 부모 요소 찾아 출력
if(find_el):
	upper_el =find_el.find_parent('div', class_='col_times')
	print(upper_el.select_one('div.info_movie > a > strong').text.strip())

 2) 

- request 모듈로 페이지 정보 받아오기

- 크롬 개발자도구 ( alt + cmd + i ) 이용해서 특징 찾기!

- get 요청 -> text 출력

 

3)

-html 요소에서 원하는 태그의 정보를 가져오는 역할을 하는 bs4 메소드 2가지

1. find()

2. select()

 

 

 

 

'1 > Python' 카테고리의 다른 글

파이썬 가상환경  (0) 2021.10.25
[Python] 파이참 BeautifulSoup4/bs4 모듈 설치  (1) 2020.05.29

+ Recent posts