yEverything

데이터 클리닝-유일성 본문

Data_analysis/Google_colaboratory

데이터 클리닝-유일성

yEvery 2024. 5. 3. 21:03
import pandas as pd

df = pd.read_csv('dust.csv', index_col=0)
df.head()

dust.csv읽기.

미세먼지에 대한 데이터들이 들어있는 듯.

df.index

인덱스들 보기.

보기 쉽지 않다.

df.index.value_counts()

세어서 편하게 보자.

7월 31일이 두 개가 있다.

df.loc['07월 31일']

진짜 두 갠가?

진짜네. 없애주자.

df.drop_duplicates(inplace=True)

drop_duplicates를 사용하면 중복된 값을 알아서 drop해준다.

위에 보면 컬럼이 강원이랑 강원.1이 두 개가 있는 것을 알 수 있다.

이 데이터들이 완전히 같다면 duplicates를 통해 없앨 수 있다.

df= df.T.drop_duplicates().T
df

 df.T를 하면 row와 column을 바꿔준다. 지역들이 row가 된 상태에서 drop_duplicates를 하면 강원과 강원.1이 데이터들이 다 같으므로 drop된다. 거기다가 .T를 해주면 다시 날짜가 row가 된다.

강원 컬럼 한 개만 있는 것을 확인할 수 있다.

 

'Data_analysis > Google_colaboratory' 카테고리의 다른 글

데이터 클리닝-정확성  (1) 2024.05.03
데이터 클리닝-완결성  (0) 2024.05.03
데이터 합치기  (0) 2024.05.03
카테고리로 분류  (0) 2024.05.03
문자열 필터링  (0) 2024.05.03