개발일지/임시카테고리689 beautifulsoup 이용한 netflex 스크래핑 (드디어 해냈다..) 아... 이거 강의 듣다말고 시도해보고, 분해해보고 조립하고 하느라 결국 성공하고 이해하는데 8시간정도 걸린것같다; ㅋㅋㅋㅋㅋ 휴... 총 시도는 전체적으론 7번에 부분적으론 수백번씩 시도해보고 분해해보고 조립해보길 반복한것같다; 원인은 간단했다. # 0 기본베이스 (불변) # 기본환경 셋팅 html = browser.page_source soup = BeautifulSoup(html, 'html.parser') # 섹션 리스트 section_list = soup.select('section.nm-collections-row') len(section_list) ============================================================= # 1 첫번째 시도 케이스 # 섹션.. 2022. 6. 23. beautifulsoup nexflex(넷플릭스) 중 불필요한 문자 제거 정말 중요한 것 이라고 생각한다. 내가 원하는것은 "아시아 영화 & 시리즈더 살펴보기"라고 섞여서 출력되는 것들에 대해서 "더 살펴보기"를 없애주는 것이다. # 처음시도 (작동안됨) # for i in section_list: # title = i.select('h2')[0].text # title.replace('더 살펴보기', '') # print(title) # 두번째 시도 (작동됨) for i in section_list: title = i.select('h2')[0].text.replace('더 살펴보기', '') print(title) 2022. 6. 23. beautifulsoup netflex(넷플릭스) title 가져오기 복기 # 넷플릭스 스크래핑을 위해서 중간 과정을 복기해보도록 하겠다. # 단계0 # 가장 기초로 시작해야하는 webdriver 호출등은 환경 등이 다르기 때문에 생략을 하고, 가져왔다는 가정하에 진행해보겠다. html = browser.page_source soup = BeautifulSoup(html, 'html.parser') # 단계1 section_list = soup.select('section.nm-collections-row') # 이렇게 했던 이유는 단순히 'section'이라고 하면, 길이가 24개쯤 되었고 그 말인즉슨 엄한곳의 정보까지 # 가져올 수가 있었다. 그렇게되면 엄한것을 가져오는게 문제가 아니라, 정보가 꼬여서 반복문등의 활용을 할 수 없게 된다. # 따라서 약간 더 세부적으로 se.. 2022. 6. 23. beautifulsoup alt, href 값등 가져오기 (드디어 알았다 ㅠㅠ) 와.... 진짜 이것땜에 미치는줄 알았고 여태 못찾았는데 이렇게 간단할 줄이야.. #1 개요 soup.select() => 언제나 리스트 형태이다. 태그.text => 화면에 보이는 글 부분 추출 태그['속성명'] -> 태그가 가지고 있는 속성의 값을 추출 #2 실행후 # 해당되는 alt값을 가져온다. soup.select('a.link_cp > img.thumb_g')[0]['alt'] 이것을 이용하면 href 값도 가져올 수 있다. 2022. 6. 23. 이전 1 ··· 112 113 114 115 116 117 118 ··· 173 다음