Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- stripplot
- 혼공학습단
- LOC
- Axis
- 동적할당
- STR
- 혼공파
- const
- value_counts
- 열혈c++
- df.t
- 클래스
- lmplot
- boxplot
- violinplot
- plot
- bins
- 포인터
- expand=true
- 참조자
- class
- 혼공단
- histplot
- 구조체
- seaborn
- catplot
- 한빛미디어
- c++
- swarmplot
- matplotlib
Archives
- Today
- Total
yEverything
박스 플롯 본문
%matplotlib inline
import pandas as pd
df = pd.read_csv('exam.csv', index_col=0)
df.head()
df.head()를 하면 기본적으로 앞의 5개의 데이터들을 보여준다.
df['math score'].describe()
math score column의 describe를 하면 통계적인 데이터들을 결과로 얻을 수 있다.
평균값이나, 최솟값, 25%, 50%, 75%지점과 같은 값들을 알 수 있다.
df.plot(kind='box', y='math score')
kind에 box를 전달하면 박스 플롯이 그려지고, y에 나타내고 싶은 column을 전달하면 된다.
describe메서드를 통해 얻은 값들에 대한 대부분의 정보들을 이렇게 박스 플롯을 통해 시각적으로 확인할 수 있다.
df.plot(kind='box', y=['math score','reading score', 'writing score'])
y에 리스트로 전달하여 여러 개의 박스 플롯을 그릴 수도 있다.
수학, 읽기, 쓰기, 점수들을 시각적으로 보기 편하게 비교할 수 있다.
df.plot(kind='scatter', x='math score', y='reading score')
scatter plot을 그리고, x에는 수학, y에는 읽기를 전달한다.
scatter는 산점도인데, 이를 통해 x와 y의 상관관계를 알 수 있다.
위로 올라가는 모양의 선으로 생겨있으면, 둘 사이의 상관관계가 크다는 것을 의미한다. 일직선 모양에 가까울 수록 상관관계가 높다는 것을 의미한다. 반대로 아래로 내려가는 일직선 모양이면, 반대로 상관이 있다는 것을 의미한다.
df.plot(kind='scatter', x='math score', y='writing score')
수학과 읽기의 상관관계를 scatter plot을 통해 알아보면,
수학-읽기와 수학-쓰기랑 비슷한 정도의 상관관계가 있다는 것을 알 수 있다.
df.plot(kind='scatter', x='reading score', y='writing score')
읽기와 쓰기의 관계를 알아보면,
확실히 이전의 그래프보다 더 선 모양에 가까운 것을 알 수 있다. 읽기와 쓰기는 더 밀접하게 관련되어 있음을 알 수 있다. 읽기 점수가 높을수록 쓰기 점수도 높다는 것을 알 수 있다.
'Data_analysis > Jupyter_notebook' 카테고리의 다른 글
KDE Plot (0) | 2024.04.22 |
---|---|
히스토그램 (0) | 2024.04.22 |
파이 그래프 (0) | 2024.04.22 |
막대 그래프 (0) | 2024.04.21 |
선 그래프 (0) | 2024.04.21 |