일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- const
- Axis
- df.t
- class
- expand=true
- 참조자
- catplot
- violinplot
- 동적할당
- 혼공학습단
- 구조체
- stripplot
- 열혈c++
- 혼공단
- 포인터
- 클래스
- histplot
- value_counts
- plot
- LOC
- swarmplot
- lmplot
- STR
- matplotlib
- 혼공파
- seaborn
- c++
- 한빛미디어
- boxplot
- bins
- Today
- Total
목록전체 글 (33)
yEverything
%matplotlib inlineimport pandas as pddf = pd.read_csv('beer.csv', index_col=0)df.head()beer.csv를 읽자.맥주에 대한 데이터들이다.df.plot(kind='box', y='abv')abv에 대해 박스 플롯을 그려본다.뭔가 이상하다.df['abv'].describe()통계값들 보기.df['abv'].quantile(0.25)quantile(0.25)를 하면 박스 플롯에서 25%인 지점에 대한 값을 바로 알 수 있다.75% 지점도 같은 방식으로.q1 = df['abv'].quantile(0.25)q3 = df['abv'].quantile(0.75)iqr = q3 - q1위와 같이 저장하기.condition = (df['abv'] q3..
import pandas as pddf = pd.read_csv('dust.csv', index_col=0)df.head()dust.csv읽기.미세먼지에 대한 데이터들이 들어있는 듯.df.index인덱스들 보기.보기 쉽지 않다.df.index.value_counts()세어서 편하게 보자.7월 31일이 두 개가 있다.df.loc['07월 31일']진짜 두 갠가?진짜네. 없애주자.df.drop_duplicates(inplace=True)drop_duplicates를 사용하면 중복된 값을 알아서 drop해준다.위에 보면 컬럼이 강원이랑 강원.1이 두 개가 있는 것을 알 수 있다.이 데이터들이 완전히 같다면 duplicates를 통해 없앨 수 있다.df= df.T.drop_duplicates().Tdf df.T..
import pandas as pddf = pd.read_csv('attendance.csv', index_col=0)dfattendance.csv파일 읽기이런 데이터들이 들어있다.df.isnull()null인지 불린값으로 알려준다.데이터들이 적을 땐 괜찮지만, 많으면 찾아내기 쉽지 않다.df.isnull().sum()sum을 사용해서 총 몇 개인지를 좀 더 쉽게 보자.배구에 3개의 null값이 있는 것을 확인했다.df.dropna() dropna를 하면 NaN인 값들을 알아서 drop해준다.없어진 것을 확인할 수 있지만, 다시 df를 출력해보면 안 없어지고 있는 것을 확인할 수 있다. 원본 데이터에 영향을 줄려면df.dropna(inplace=True)dfinplace=True를 잊지 말자.원본에도 잘..
import pandas as pdprice_df = pd.read_csv('vegetable_price.csv')quantity_df = pd.read_csv('vegetable_quantity.csv')price_dfquantity_df두 개의 csv파일 읽어서 각각 price_df와 quantity_df에 저장하기.각각 이런 데이터가 들어있다.pd.merge(price_df, quantity_df, on='Product')pandas의 merge를 사용해서 price와 quantity를 product 기준으로 합친다.price를 먼저 적었으므로 price에서 quantity의 값들이 합쳐졌다.pd.merge(price_df, quantity_df, on='Product', how='left')how..
%matplotlib inlineimport pandas as pddf = pd.read_csv('laptops.csv')df.head()laptops.csv 파일 읽기.요런 데이터들이 들어있음.brand_nation = { 'Dell': 'U.S', 'Apple': 'U.S', 'Acer': 'Taiwan', 'HP': 'U.S', 'Lenovo': 'China', 'Alienware': 'U.S', "Microsoft": 'U.S', 'Asus': 'Taiwan'}brand_nation 딕셔너리 만들어주기.df['brand'].map(brand_nation)brand 컬럼에 brand_nation 대응되는 걸로 바꾸도록 map 메서드를 이용.잘 바뀐 것을 확..
import pandas as pddf = pd.read_csv('albums.csv', encoding='latin1')df.head(20)albums.csv파일을 읽는다.여러 앨범들이 있는 것을 알 수 있다.df['Genre'].unique()어떤 장르들이 있는지 살펴본다.엄청 많다..................df[df['Genre'] == 'Blues']장르가 Blues인 것만 필터링해본다.근데 이러면 Blues가 장르에 첫 번째로 들어있는 경우들만 나온다.df[df['Genre'].str.contains('Blues')]이렇게 하면 Blues가 포함된 모든 경우들을 알 수 있다. 굳이 첫 번째로 들어가 있지 않은 경우들도!!위와 같이 Blues가 첫 번째로 들어가 있지 않은 경우들도 나오는 것..
import pandas as pddf = pd.read_csv('parks.csv')df.head()parks.csv파일을 읽어본다.공원에 관련된 데이터들이 있는 것을 알 수 있다.address = df['소재지도로명주소'].str.split(n=1, expand=True)addressstr.split을 사용해서 문자열을 끊어서 쓸 수 있다. 디폴트는 스페이스를 기준으로 끊는다. n=1은 한 번 끊는다. 소재지도로명주소를 스페이스 기준으로 한 번 끊어서 앞 부분은 0 컬럼에 나머지 부분들은 1컬럼에 있는 것을 알 수 있다.df['관할구역'] = address[0]df관할구역 컬럼을 새로 만들어서 여기에 address의 0번째 들어있는 값들을 저장해준다. 소재지도로명주소의 끊어진 앞부분들이 관할구역 컬럼..
df['KBS'] + df['MBC'] + df['SBS'] + df['TV CHOSUN'] + df['JTBC'] + df['Channel A'] + df['MBN']df.sum(axis='columns')방송사들의 연도별 시청률의 총합을 sum메소드를 통해 간단하게 작성할 수 있다.df['Total'] = df.sum(axis='columns')dfTotal column을 추가해서 sum을 한 것을 저장한다.Total column이 추가된 것을 볼 수 있다.df.plot(y='Total')연도별 방송사들의 시청률 총합을 그래프로 본다.방송사들의 시청률들이 점점 떨어지고 있는 것을 알 수 있다. 다른 ott들이 많이 생겨났기 때문에..df['Group 1'] = df.loc[:, 'KBS':'SBS']..