yEverything

박스 플롯 본문

Data_analysis/Jupyter_notebook

박스 플롯

yEvery 2024. 4. 22. 21:16
%matplotlib inline
import pandas as pd
df = pd.read_csv('exam.csv', index_col=0)
df.head()

df.head()를 하면 기본적으로 앞의 5개의 데이터들을 보여준다.

df

df['math score'].describe()

math score column의 describe를 하면 통계적인 데이터들을 결과로 얻을 수 있다.

평균값이나, 최솟값, 25%, 50%, 75%지점과 같은 값들을 알 수 있다.

df.plot(kind='box', y='math score')

kind에 box를 전달하면 박스 플롯이 그려지고, y에 나타내고 싶은 column을 전달하면 된다.

describe메서드를 통해 얻은 값들에 대한 대부분의 정보들을 이렇게 박스 플롯을 통해 시각적으로 확인할 수 있다.

df.plot(kind='box', y=['math score','reading score', 'writing score'])

y에 리스트로 전달하여 여러 개의 박스 플롯을 그릴 수도 있다.

수학, 읽기, 쓰기, 점수들을 시각적으로 보기 편하게 비교할 수 있다.

df.plot(kind='scatter', x='math score', y='reading score')

scatter plot을 그리고, x에는 수학, y에는 읽기를 전달한다.

scatter는 산점도인데, 이를 통해 x와 y의 상관관계를 알 수 있다.

위로 올라가는 모양의 선으로 생겨있으면, 둘 사이의 상관관계가 크다는 것을 의미한다. 일직선 모양에 가까울 수록 상관관계가 높다는 것을 의미한다. 반대로 아래로 내려가는 일직선 모양이면, 반대로 상관이 있다는 것을 의미한다.

df.plot(kind='scatter', x='math score', y='writing score')

수학과 읽기의 상관관계를 scatter plot을 통해 알아보면,

수학-읽기와 수학-쓰기랑 비슷한 정도의 상관관계가 있다는 것을 알 수 있다.

df.plot(kind='scatter', x='reading score', y='writing score')

읽기와 쓰기의 관계를 알아보면,

확실히 이전의 그래프보다 더 선 모양에 가까운 것을 알 수 있다. 읽기와 쓰기는 더 밀접하게 관련되어 있음을 알 수 있다. 읽기 점수가 높을수록 쓰기 점수도 높다는 것을 알 수 있다.

'Data_analysis > Jupyter_notebook' 카테고리의 다른 글

KDE Plot  (0) 2024.04.22
히스토그램  (0) 2024.04.22
파이 그래프  (0) 2024.04.22
막대 그래프  (0) 2024.04.21
선 그래프  (0) 2024.04.21