yEverything

LM plot 본문

Data_analysis/Google_colaboratory

LM plot

yEvery 2024. 5. 3. 16:29
!pip install seaborn==0.9.0

seaborn을 0.9.0 버전으로 설치하기

import pandas as pd
import seaborn as sns

body_df = pd.read_csv('/body.csv', index_col=0)
body_df.head()

body.csv 파일을 읽고 head를 통해 맨 위 5개의 데이터들만 확인해보자.

키와 몸무게에 대한 데이터들이 들어있는 것을 알 수 있다.

sns.lmplot(data=body_df, x='Height', y='Weight')

lmplot으로 x축에는 키, y축에는 몸무게에 대해 그래프를 그려보자.

요런 그래프가 그려지는 것을 확인할 수 있다.

키가 크다고 몸무게가 많이 나가는 것도 아니고, 키가 작다고 몸무게가 적게 나가는 것도 아니라는 것을 알 수 있다.

numpy버전이랑 python버전이과의 충돌도 안나고 colab 너무 좋다...

pip install --upgrade numpy==1.23.1​

numpy를 1.23.1 버전으로 설치해주기.


laptops_df = pd.read_csv('/laptops.csv', index_col=0)
laptops_df.head()

이번에는 laptops.csv 파일을 읽어본다.

laptops.csv파일에는 이런 데이터프레임이 들어있다.

sns.catplot(data=laptops_df, x='os', y='price', kind='box')

seaborn의 catplot을 사용해서 laptops_df를 data로, box플롯으로 그리고 x축에는 os, y축에는 price를 전달.

os별 가격들을 box 플롯으로 확인할 수 있다. linux가 가격이 제일 저렴하고 mac이 제일 비싼 것을 알 수 있다.

linux에는 이상점들이 없는데, mac과 windows에는 있는 듯?

sns.catplot(data=laptops_df, x='os', y='price', kind='violin')

이번에는 violin 플롯으로,

sns.catplot(data=laptops_df, x='os', y='price', kind='strip')

strip플롯은,

이렇게 그려진다.

laptops_df['processor_brand'].unique()

processor_brand column에 어떤 값들이 있는지 unique를 통해 알아본다.

intel과 amd라는 값들만 있다.

sns.catplot(data=laptops_df, x='os', y='price', kind='strip', hue='processor_brand')

strip 플롯으로 x축에는 os, y축에는 price, processor_brand에 따라 색으로 구분. 

linux와 windows에는 amd가 있고 mac에는 없다. amd가 intel보다 가격이 저렴한 것을 알 수 있다.

sns.catplot(data=laptops_df, x='os', y='price', kind='swarm', hue='processor_brand')

swarm 플롯은,

이렇게 점들을 겹치지 않은 상태로 볼 수 있다. 각각의 값들을 조금 더 분명하게 볼 수 있는 것 같다.

 

'Data_analysis > Google_colaboratory' 카테고리의 다른 글

문자열 필터링  (0) 2024.05.03
문자열 분리  (0) 2024.05.03
새로운 값 계산하기  (0) 2024.05.03
EDA  (0) 2024.05.03
Titanic EDA  (0) 2024.05.03