# 첫번째 셀
count = 0
result = []
for section in section_list:
roop_list = section.select('li.nm-content-horizontal-row-item')
for i in roop_list:
section_title = section.select('h2')[0].text
title = i.select('span')[1].text
img = i.select('img')[0]['src']
try:
link =i.select('a')[0]['href']
except:
link = 'empty'
# 모든 자료를 리스트화 시키려고 했더니 link가 걸리는 부분이였고, 딕셔너리 안에서의 예외처리는
# 하는 방법을 못찾겠어서 강의듣고 습득했다.
data = [section_title, title, img, link]
result.append(data)
count += 1
# 두번째 셀
# 모든 자료를 리스트화 시키려고 했더니 link가 걸리는 부분이였고, 딕셔너리 안에서의 예외처리는
# 하는 방법을 못찾겠어서 강의듣고 습득했다.
[
[section_title, title, img, link]
]
# 세번째 셀
len(result)
# 네번째 셀
count
# 위와 같이 해줌으로써 result의 결과 값과 count로 연산된 값이 같은지 비교한다. (틀리면 문제가 있는거다)
# 다섯번째 셀
test = pd.DataFrame(result)
# 여섯번째 셀
test
# 나는 행(가로축을 의미하는 아래로 떨어지는 숫자)의 숫자를 1부터 시작하는걸로 바꿔주고 싶었고
# 열(세로축을 의미하는 옆으로 나열되어있는 숫자)의 숫자를 각각의 카테고리 명으로 변경원했는데 어떻게 하는지 모르겠다.
# 일곱번째 셀
test.columns = {
0 : '카테고리',
1 : '제목',
2 : '이미지링크',
3 : '작품 링크'
}
# 이렇게 시도해봤으나 바뀐건 없었다.
# 여덟번째 셀
# 이러니깐 되더라.
test.columns = ['카테고리', '제목', '이미지링크', '작품링크']
# 근데 기존엔 테스트해보는것처럼 replace=True를 안해주면 변화가 없던 기능이 있었던것같은데
# 이건 하는대로 바뀐다.
# 아홉번째 셀
# 엑셀로 저장할건데, 맨 앞의 인덱스는 저장하지 말아줘
test.to_excel('엑셀파일저장하기.xlsx', index = False)
# test.to_excel('./엑셀파일저장하기.xlsx', index = False)
# 이 두가지는 같다.
'개발일지 > 임시카테고리' 카테고리의 다른 글
html, beautifulsoup, selenium 웹스크래핑(크롤링)시에 유용한 태그 가져오기 원리 (0) | 2022.06.24 |
---|---|
제로베이스 3개월차 1주차 SQL을 진행하면서 (0) | 2022.06.24 |
beautifulsoup netflex 웹 스크래핑 (제목, 링크, 이미지링크) (0) | 2022.06.24 |
beautifulsoup 이용한 netflex 스크래핑 (드디어 해냈다..) (0) | 2022.06.23 |
beautifulsoup nexflex(넷플릭스) 중 불필요한 문자 제거 (0) | 2022.06.23 |