본문 바로가기

데이터 분석27

04장 데이터 시각화 라이브러리, 시본 04.1 시본 기본 개념 알아보기import seaborn as snssns.get_dataset_names()시본(seaborn)맷플롯립 기반의 데이터 시각화 라이브러리맷플롯립보다 간편하게 사용, 효과적으로 모양을 다듬을 수 있다.통계 데이터를 시각적으로 표현하는데 적절, 더 높은 수준의 그래프 생성 가능자체 데이터셋이 포함04.2 여섯 가지 그래프 이해하기  범주형 변수 산점도 그래프 sns.stripplot(x='day', y='tip', hue='sex', data=tips, alpha=0.7, ax=ax1)sns.swarmplot(x='day', y='tip', hue='sex', data=tips, palette='Set2', alpha=0.7, ax=ax2) 범주형 변수와 연속형 변수 간의 .. 2025. 2. 8.
[혼공분석] 4주차_데이터 요약하기 04-1 통계로 요약하기 기술통계(요약 통계): 자료의 내용을 압축하여 설명하는 방법탐색적 데이터 분석: 데이터 시각화를 아우르는 이러한 데이터 분석 방법ns_book6.describe()ns_book7.describe(percentiles=[0.3, 0.6, 0.9])ns_book7.describe(include='object')describe() 메서드: 데이터프레임에서 기본적인 몇 가지 기술통계를 자동으로 추출percentiles 매개변수: 원하는 위치의 값을 지정하면 보여줌include 매개변수: 수치가 아닌 다른 데이터 타입의 열의 기술통계를 보여줌추가 숙제(선택): Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정.. 2025. 2. 8.
3장 연습문제 1번 2번 3번코드를 실행해가면서 나오는 그래프의 모습을 봐가면서 추가로 작성하였다. 직접 처음부터 그래프를 만들어보니 어떤 코드가 어떤 것을 나타나게 하는지 좀 더 명확하게 알 수 있었다. 4번산점도 그래프에서 점의 크기는 s= 으로 설정한다. 5번barh도 x축값, y축값 순서대로 작성한다. 2025. 1. 25.
03장 데이터 시각화 라이브러리, 맷플롯립 import matplotlib.pyplot as pltmatplotlib 모듈의 하위 모듈인 pyplot을 import하면 그래프 작성에 필요한 기능을 일일이 호출하지 않아도 된다.plt.xlabel('xlabel')plt.ylabel('ylabel')plt.legend()plt.xlim([0,5])plt.ylim([0, 15])plt.xscale('linear')plt.yscale('log')맷플롯립으로 축 레이블, 범례, 축 범위, 축 스케일을 커스터마이징 할 수 있다.plt.plot([1, 2, 3], [4, 4, 4], '-', label='solid')plt.plot([1, 2, 3], [2, 2, 2], linestyle='dotted', label='dotted')plt.plot([4, 5.. 2025. 1. 25.
2장 연습문제 1번딕셔너리 형태 키: 값 =이 아니다... index=False도 작성할 필요 없다. 2번 결측치 처리한 것을 원본 데이터에 적용되도록 적자. 3번 4번오른쪽처럼 적는 것이 가독성이 더 좋은 것 같다. 5번 6번 7번 2025. 1. 20.
02장 데이터 처리 라이브러리, 판다스 02.1 판다스 시작하기 판다스: 데이터 분석을 위한 파이썬 라이브러리, 주로 행과 열로 이루어진 2차원 데이터를 다루는 데 사용넘파이는 다차원 배열을 다루기에 적합판다스는 표 형태의 데이터를 다루기에 적합import pandas as pdseries_data = pd.Series([True, 3.14, 'ABC']) 데이터프레임: 열과 인덱스로 이루어져 있는 2차원 배열 형태의 데이터 타입netflix = pd.read_csv('./netflix_selena.csv')netflix.to_csv('netflix_new.csv', index=False)index=False: 행 이름을 파일에 저장하지 않도록 설정 판다스에서 object 데이터 타입문자열 데이터: 다른 언어에서는 문자열 데이터를 string.. 2025. 1. 20.