Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 혼공학습단
- 열혈c++
- 동적할당
- c++
- violinplot
- swarmplot
- value_counts
- df.t
- 포인터
- seaborn
- histplot
- STR
- LOC
- 클래스
- boxplot
- 혼공단
- bins
- 구조체
- 혼공파
- expand=true
- Axis
- catplot
- 참조자
- stripplot
- class
- 한빛미디어
- plot
- const
- matplotlib
- lmplot
Archives
- Today
- Total
yEverything
데이터 클리닝-유일성 본문
import pandas as pd
df = pd.read_csv('dust.csv', index_col=0)
df.head()
dust.csv읽기.
미세먼지에 대한 데이터들이 들어있는 듯.
df.index
인덱스들 보기.
보기 쉽지 않다.
df.index.value_counts()
세어서 편하게 보자.
7월 31일이 두 개가 있다.
df.loc['07월 31일']
진짜 두 갠가?
진짜네. 없애주자.
df.drop_duplicates(inplace=True)
drop_duplicates를 사용하면 중복된 값을 알아서 drop해준다.
위에 보면 컬럼이 강원이랑 강원.1이 두 개가 있는 것을 알 수 있다.
이 데이터들이 완전히 같다면 duplicates를 통해 없앨 수 있다.
df= df.T.drop_duplicates().T
df
df.T를 하면 row와 column을 바꿔준다. 지역들이 row가 된 상태에서 drop_duplicates를 하면 강원과 강원.1이 데이터들이 다 같으므로 drop된다. 거기다가 .T를 해주면 다시 날짜가 row가 된다.
강원 컬럼 한 개만 있는 것을 확인할 수 있다.
'Data_analysis > Google_colaboratory' 카테고리의 다른 글
데이터 클리닝-정확성 (1) | 2024.05.03 |
---|---|
데이터 클리닝-완결성 (0) | 2024.05.03 |
데이터 합치기 (0) | 2024.05.03 |
카테고리로 분류 (0) | 2024.05.03 |
문자열 필터링 (0) | 2024.05.03 |