본문 바로가기

HTML34

html, beautifulsoup, selenium 웹스크래핑(크롤링)시에 유용한 태그 가져오기 원리 beautifulsoup를 스크래핑 하다보면 태그를 가져오게된다. select 혹은 find_elements_css_selector 로 이때, 태그를 가져오게 되는데, 내가 원하는 값이 이렇게만 되어있는 경우는 많지는 않았던 것같다. 보통은 class와 함께 소개되어있는데 라고 되어있으면 select('div.abc') 라고하면 끌고와진다. 하지만 약간 다른 태그가 있다. 띄어쓰기가 들어간 태그다. 띄어쓰기 태그를 추출하는 방법은 라고 되어있을때, 띄어쓰기를 .으로 전환해주는거다. 이를테면 select('span._aacl._aaco._aacu._aacx._aad7._aade') 2022. 6. 24.
beautifulsoup 태그원리 이해 제로베이스 수업을 하며 따라하는거랑 흐름에 대한 설명도 해주시는데, 태그에 대한 설명은 두루뭉술하게 하셔서 보충이 안되는 부분이라 별도로 책이든 강의든 찾아봤다. 그 중에서 유데미에서 "따라하며 익히는 파이썬 데이터수집 마스터"를 찾았는데 완전 강추다. 진짜 유데미 세일기간 한달동안에도 몇번씩 오니깐 beautifulsoup, selenium, request 원리 이해안되시는 분들은 꼭 사서 들었으면 좋겠다. 그 중에 html 스크래핑 해올때 태그 원리에 대한 이해다. 이건 정말 미쳤다. 내기준에서. ============================================================================== # 기본 개요 soup.select('태그 조건') # soup .. 2022. 6. 23.