본문 바로가기
Web/Html

html, beautifulsoup, selenium 웹스크래핑(크롤링)시에 유용한 태그 가져오기 원리

by 다니엘의 개발 이야기 2022. 6. 24.
320x100

beautifulsoup를 스크래핑 하다보면 태그를 가져오게된다.

select 혹은 find_elements_css_selector 로

이때, 태그를 가져오게 되는데, 내가 원하는 값이

<div> 이렇게만 되어있는 경우는 많지는 않았던 것같다.

보통은 class와 함께 소개되어있는데

 

<div class='abc'> 라고 되어있으면

 

select('div.abc')

라고하면 끌고와진다.

하지만 약간 다른 태그가 있다. 띄어쓰기가 들어간 태그다.

 

띄어쓰기 태그를 추출하는 방법은

<span class='_aacl _aaco _aacu _aacx _aad7 _aade'>

라고 되어있을때, 띄어쓰기를 .으로 전환해주는거다.

이를테면

select('span._aacl._aaco._aacu._aacx._aad7._aade')

300x250