비즈니스 분석가 양성과정
[14일차] BDA과정 - Python Crawler(파이썬 크롤링)
MJ.W
2021. 11. 5. 16:56
[KDT] 패스트캠퍼스 비즈니스 데이터 분석가 양성과정 14일 차
Python Crawler(파이썬 크롤링)
안녕하세요 BDA과정 14일 차가 되었습니다.
배우고 싶었던 주제인 파이썬 크롤링에 대하여 배우는 시간을 가졌습니다.
간단한 코드(?) 몇줄로 원하는 정보를 가져올 수 있다는 점이
정말 잘 쓰면 강력한 툴이 될 거 같다는 생각이 뇌리를 때렸습니다 ㅎㅎ
하지만 크롤링을 하는 과정이 엄밀히 따지면 정보제공자에게 동의를 구하고 이루어지는 행동이
아니기 때문에 항상 타인이 사용하기 원하지 않은 정보를 가져오지 않도록 조심해야 합니다.
잘못된 경우에는 법적 절차까지 갈 수 있다는.... 데이터 분석에 있어서 훌륭한 도구지만
언제나 주의하는 습관을 가져보면 좋을 거 같습니다 ㅎㅎ
오늘 배운 내용 리캡해보겠습니다 ~~~
주피터에서 배운 내용을 토대로 적용해본 파일 입니당
python_crawler
크롤링
crawler(크롤러)는 자동화된 방법으로 웹을 탐색하는 컴퓨터 프로그램
웹 크롤링을 위해 BeautifulSoup 사용
request.text를 이용해 가져온 데이터는 텍스트형태의 html 입니다.
텍스트형태의 데이터를 html로 변경시켜주는 것이 BeautifulSoup입니다.
라이브러리 불러오기
import numpy as np
import pandas as pd
import requests # 크롤링에 사용하는 패키지
from bs4 import BeautifulSoup # html 변환에 사용함
네이버 해외축구 기사 크롤링
# url 정의하기
url = 'https://sports.news.naver.com/wfootball/index' # 크롤링하고 싶은 사이트 주소를 가져옵니다.
# requests로 url에 정보요청
re = requests.get(url)
re # 200메세지가 나오면 승인되었다고 생각하시면 됩니다.
<Response [200]>
# 정보를 html로 변환
html = BeautifulSoup(re.text, "html.parser")
# html.select를 통해 보고 싶은 정보 추출
for data in html.select('div.home_news') :
print(''.join(data.text.split())) # split과 join을 통해 공백을 제거해 주었습니다.
추천뉴스전체뉴스보기'챔스승률40%'포체티노,PSG역대감독중최하위...1위는투헬'포르투갈동료'B.실바,"우리는호날두아니라맨유와상대한다"“호날두있을때어두웠던디발라,이제돌아왔다”레전드찬사'출전불허'에릭센,아약스이적구체화...오나나와스왑딜'새시대가왔다!'흥분한토트넘서포터,伊국기흔들며콘테환영식뉴캐슬드디어사령탑찾았나?'신화창조'의주인공으로낙점피테서원정팬,손흥민에'눈찢기'등인종차별행위새감독데뷔전마저외면당한천재MF...방출후보들중홀로결장맨체스터더비앞둔맨유,'특별회식'갖고팀결속다졌다"콘테비디오훈련에의지할듯"…톱4진입이쉽지않은이유징계영향없는김민재,이적후최고평점…터키매체"철벽"극찬"맨유,솔샤르경질되지않는한홀란드영입못한다"[英매체]'1180억산초제외'잉글랜드,11월A매치명단발표선수와팀의'동상동몽'쿠티뉴"내보내줘"vs바르사"나가줘"맨유의‘1165억’007공격수,무득점극도부진에국가대표팀제외농구장?테니스코트?...리모델링레알마드리드홈구장활용'눈길'조별리그전승,리버풀-유베-뮌헨그리고'이클럽'[UCL]핸더슨"반인종차별캠페인,아직효과있다"…반대의견도팽팽1200억레코드→6개월만의주장...호러쇼에맨유레전드,"박탈해!"클럽골의62.8%…벤제마·비니시우스,레알의혁명
비교적 간단하게 원하는 기사를 크롤링 해올 수 있습니다.
그럼 다들 주말 잘 푸우욱 쉬세요 인시오 사스 !!!!!!