본문 바로가기

개발일지/임시카테고리689

html, beautifulsoup, selenium 웹스크래핑(크롤링)시에 유용한 태그 가져오기 원리 beautifulsoup를 스크래핑 하다보면 태그를 가져오게된다. select 혹은 find_elements_css_selector 로 이때, 태그를 가져오게 되는데, 내가 원하는 값이 이렇게만 되어있는 경우는 많지는 않았던 것같다. 보통은 class와 함께 소개되어있는데 라고 되어있으면 select('div.abc') 라고하면 끌고와진다. 하지만 약간 다른 태그가 있다. 띄어쓰기가 들어간 태그다. 띄어쓰기 태그를 추출하는 방법은 라고 되어있을때, 띄어쓰기를 .으로 전환해주는거다. 이를테면 select('span._aacl._aaco._aacu._aacx._aad7._aade') 2022. 6. 24.
제로베이스 3개월차 1주차 SQL을 진행하면서 먼저 말하고 싶은것은 2개월차인 판다스를 시작할때가 떠오른다. 그때의 기분은 파이썬에 대해서 80%정도 숙지는 충분하게 되었었지만, 확실히 class 활용이나 내장함수 활용에 있어서 미흡하다고 느꼈다. 그리고 그것을 보충하려면 시간이 일주일 정도는 필요할것 같다고 생각이 들었다. 그러나 시간은 나를 기다려 주지 않지. 내가 시간이 모자랐던 이유는 사실 그만큼 나태했다고 생각하고, 충분히 주어진 시간안에 숙지할 수 있었다. 객관적으로 생각해봤을때. 자, 이제 3개월차인 sql 즉, 이제부터는 데이터베이스 관리에대한 부분이 들어간다는 말인데. 그러자면 앞서 배웠던 웹스크래핑이 정말 중요한 정보라고 판단을 했고, 2개월차때 배웠던 모든 부분에 있어서 미흡하다는 생각이 들었다. 판다스는 세부적으로 어떻게 활용해.. 2022. 6. 24.
beautifulsoup netflex, pandas 웹스크래핑 후 엑셀 저장 # 첫번째 셀 count = 0 result = [] for section in section_list: roop_list = section.select('li.nm-content-horizontal-row-item') for i in roop_list: section_title = section.select('h2')[0].text title = i.select('span')[1].text img = i.select('img')[0]['src'] try: link =i.select('a')[0]['href'] except: link = 'empty' # 모든 자료를 리스트화 시키려고 했더니 link가 걸리는 부분이였고, 딕셔너리 안에서의 예외처리는 # 하는 방법을 못찾겠어서 강의듣고 습득했다. data.. 2022. 6. 24.
beautifulsoup netflex 웹 스크래핑 (제목, 링크, 이미지링크) # 첫번째 셀 import chromedriver_autoinstaller from bs4 import BeautifulSoup from selenium import webdriver # 두번째 셀 chromedriver_autoinstaller.install() # 세번째 셀 url = 'https://www.netflix.com/kr/browse/genre/839338' browser = webdriver.Chrome('두번째 셀에서 나온 값') browser.get(url) # 네번째 셀 html = browser.page_source soup = BeautifulSoup(html, 'html.parser') # 다섯번째 셀 # 총 섹션 section_list = soup.select('sectio.. 2022. 6. 24.