본문 바로가기

beautifulsoup13

BeaurifulSoup - 쿼리스트링으로 환율정보 가져오기 아..... 다시금 하면서 두가지 생각이 들었다. 진짜 나한텐 중요한 내용인데, 그리고 나에게만이 아니라 저 원리적인건 정말 중요한건데 왜이렇게 설명을 깨작해주시지 딥하게좀 해주시지.. 약간은 지겨울때가 될 정도로 한편으로는 이 부분을 재탕하는 것에 대해서 스킵할까도 생각했으나, 하려면 할수있겠다. 하지만 완벽히는 못하겠다. 더욱이 시스템화를 하려면 완벽히 소화를 해야할텐데, 그런부분들이 아쉬워서 다시 하려고 한다. 어떤 데이터 사이언티스트 분에게 질문했을때 beautifulsoup를 써본적도 없고 파싱도 해본적이 없다는 답변을 받았다. 때문에 나는 이게 필요없는 스킬인가? 라는 생각이 들기도 했지만 본능적으로 이게 정말 중요한 스킬임을 알았기에 그 부분은 무시했다. 시간이 몇달 지나고, 데이터 엔지니어.. 2022. 9. 23.
BeautifulSoup youtube 채널 데이터 스크래핑, 시각화 기본 루틴 실행 준비 및 테스트 from selenium import webdriver from bs4 import BeautifulSoup import chromedriver_autoinstaller import time import pandas as pd chromedriver_autoinstaller.install() browser = webdriver.Chrome('/Users/daniel_choi/opt/anaconda3/envs/ds_study/lib/python3.8/site-packages/chromedriver_autoinstaller/103/chromedriver') url = 'https://youtube-rank.com/board/bbs/board.php?bo_table=youtube' bro.. 2022. 7. 6.
html, beautifulsoup, selenium 웹스크래핑(크롤링)시에 유용한 태그 가져오기 원리 beautifulsoup를 스크래핑 하다보면 태그를 가져오게된다. select 혹은 find_elements_css_selector 로 이때, 태그를 가져오게 되는데, 내가 원하는 값이 이렇게만 되어있는 경우는 많지는 않았던 것같다. 보통은 class와 함께 소개되어있는데 라고 되어있으면 select('div.abc') 라고하면 끌고와진다. 하지만 약간 다른 태그가 있다. 띄어쓰기가 들어간 태그다. 띄어쓰기 태그를 추출하는 방법은 라고 되어있을때, 띄어쓰기를 .으로 전환해주는거다. 이를테면 select('span._aacl._aaco._aacu._aacx._aad7._aade') 2022. 6. 24.
beautifulsoup netflex, pandas 웹스크래핑 후 엑셀 저장 # 첫번째 셀 count = 0 result = [] for section in section_list: roop_list = section.select('li.nm-content-horizontal-row-item') for i in roop_list: section_title = section.select('h2')[0].text title = i.select('span')[1].text img = i.select('img')[0]['src'] try: link =i.select('a')[0]['href'] except: link = 'empty' # 모든 자료를 리스트화 시키려고 했더니 link가 걸리는 부분이였고, 딕셔너리 안에서의 예외처리는 # 하는 방법을 못찾겠어서 강의듣고 습득했다. data.. 2022. 6. 24.