본문 바로가기

requests2

05장 웹 데이터 수집 라이브러리, 뷰티풀수프 05.1 웹 데이터 수집 기본 개념 알아보기 robot.txt: 웹 사이트 소유자가 크롤러에게 제공하는 지침서, 접근할 수 있는 영역과 없는 영역을 명확히 정의웹 크롤링: 크롤러라는 프로그램을 인터넷으로 보내 인터넷 콘텐츠를 자동으로 수집하고 색인화하는 것웹 스크래핑: 특정 웹 사이트에서 특정 페이지의 데이터 수집을 목표로 하는 프로그램요청: 서버에 데이터 요청: 서버에 데이터를 요청하는 행위응답: 서버가 데이터 보내줌서버가 요청에 대해 데이터를 보내주는 행위파이썬 + 뷰티풀수프: 데이터 속에서 원하는 데이터 찾기응답으로 받은 데이터에서 원하는 값만 찾을 때 파이썬과 뷰티풀수프 사용, 원하는 데이터의 위치는 CSS Selector로 지정soup.select('p.scraping')soup.select('.. 2025. 2. 16.
[혼공분석] 2주차_데이터 수집하기 02-1 API 사용하기 API(Application Programming Interface): 두 프로그램이 서로 대화하기 위한 방법을 정의한 것애플리케이션 간의 통신을 위해서는 웹 기반의 API가 널리 사용 HTTP: 인터넷에서 웹 페이지를 전송하는 기본 통신 방법데이터 분석가는 웹 기반 API를 사용하는 방법을 아는 것이 중요! HTML: 웹 브라우저가 화면에 표시할 수 있는 문서의 한 종류이자 웹 페이지를 위한 표준 언어웹 기반 API는 주로 JSON이나 XML을 많이 사용 JSON: 파이썬의 딕셔너리와 리스트를 중첩해 놓은 것과 비슷, 키와 값을 콜론으로 연결d = {"name": "혼자 공부하는 데이터 분석"}print(d['name'])JSON 형식으로 만든 파이썬 딕셔너리import jso.. 2025. 1. 14.