본문 바로가기

beautifulsoup13

beautifulsoup netflex 웹 스크래핑 (제목, 링크, 이미지링크) # 첫번째 셀 import chromedriver_autoinstaller from bs4 import BeautifulSoup from selenium import webdriver # 두번째 셀 chromedriver_autoinstaller.install() # 세번째 셀 url = 'https://www.netflix.com/kr/browse/genre/839338' browser = webdriver.Chrome('두번째 셀에서 나온 값') browser.get(url) # 네번째 셀 html = browser.page_source soup = BeautifulSoup(html, 'html.parser') # 다섯번째 셀 # 총 섹션 section_list = soup.select('sectio.. 2022. 6. 24.
beautifulsoup 이용한 netflex 스크래핑 (드디어 해냈다..) 아... 이거 강의 듣다말고 시도해보고, 분해해보고 조립하고 하느라 결국 성공하고 이해하는데 8시간정도 걸린것같다; ㅋㅋㅋㅋㅋ 휴... 총 시도는 전체적으론 7번에 부분적으론 수백번씩 시도해보고 분해해보고 조립해보길 반복한것같다; 원인은 간단했다. # 0 기본베이스 (불변) # 기본환경 셋팅 html = browser.page_source soup = BeautifulSoup(html, 'html.parser') # 섹션 리스트 section_list = soup.select('section.nm-collections-row') len(section_list) ============================================================= # 1 첫번째 시도 케이스 # 섹션.. 2022. 6. 23.
beautifulsoup nexflex(넷플릭스) 중 불필요한 문자 제거 정말 중요한 것 이라고 생각한다. 내가 원하는것은 "아시아 영화 & 시리즈더 살펴보기"라고 섞여서 출력되는 것들에 대해서 "더 살펴보기"를 없애주는 것이다. # 처음시도 (작동안됨) # for i in section_list: # title = i.select('h2')[0].text # title.replace('더 살펴보기', '') # print(title) # 두번째 시도 (작동됨) for i in section_list: title = i.select('h2')[0].text.replace('더 살펴보기', '') print(title) 2022. 6. 23.
beautifulsoup netflex(넷플릭스) title 가져오기 복기 # 넷플릭스 스크래핑을 위해서 중간 과정을 복기해보도록 하겠다. # 단계0 # 가장 기초로 시작해야하는 webdriver 호출등은 환경 등이 다르기 때문에 생략을 하고, 가져왔다는 가정하에 진행해보겠다. html = browser.page_source soup = BeautifulSoup(html, 'html.parser') # 단계1 section_list = soup.select('section.nm-collections-row') # 이렇게 했던 이유는 단순히 'section'이라고 하면, 길이가 24개쯤 되었고 그 말인즉슨 엄한곳의 정보까지 # 가져올 수가 있었다. 그렇게되면 엄한것을 가져오는게 문제가 아니라, 정보가 꼬여서 반복문등의 활용을 할 수 없게 된다. # 따라서 약간 더 세부적으로 se.. 2022. 6. 23.