본문 바로가기

데이터 분석27

[SQL 데이터베이스 입문] 4주차(완독!) 8.1 그룹화란select 그룹화_칼럼, 집계_함수(일반_칼럼)from 테이블명where 조건 # 필터링 조건이 없으면 생략group by 그룹화_칼럼;그룹화: 데이터 분석 기법의 하나,            데이터를 특정 기준에 따라 여러 그룹으로 나누고 그룹별 데이터를 요약하거나 분석하는 것 group by 절의 특징집계 함수와 함께 사용: 유의미한 데이터 분석 결과를 얻으려면, 그룹화 한 후 반드시 후속 집계 작업을 해야 함.여러 칼럼으로 그룹화: 2개 이상의 칼럼을 기준으로 그룹화할 수 있음select 그룹화_칼럼1, 그룹화_칼럼2, 집계_함수(일반 칼럼)from 테이블명where 조건group by 그룹화_칼럼1, 그룹화_칼럼2;   3. select 절에 올 수 있는 칼럼이 제한적: 그룹화한 쿼.. 2025. 3. 14.
[SQL 데이터베이스 입문] 3주차 PART 3. SQL 활용6.1 관계란 관계: 여러 테이블에 분산 저장된 데이터가 서로 어떻게 연결돼 있는지를 정의하는 개념일대일 관계: 하나의 데이터가 하나의 데이터와만 연결된 관계일대다 관계: 하나의 데이터가 여러 데이터와 연결된 관계다대다 관계: 여러 데이터가 여러 데이터와 연결된 관계, 중간 테이블 필요기본키(PK): 테이블 내에서 모든 튜플을 구분할 수 있는 칼럼 또는 칼럼의 조합외래키(FK): 다른 테이블의 기본키를 가리키는 칼럼, 두 테이블을 연결하는 역할 제약 조건AUTO_INCREMENT: 칼럼의 값을 자동으로 1씩 증가, 정수형 칼럼, 기본키와 함께UNIQUE: 칼럼의 값으로 고유한 값만 허용NOT NULL: 칼럼에 NULL을 허용하지 XDEFAULT: 칼럼에 기본값을 지정CHECK: .. 2025. 3. 5.
07장 의료 데이터 분석 프로젝트 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsheart = pd.read_csv('heart.csv')사용할 라이브러리들을 import하고 heart에 파일을 읽는다.list(heart.columns)열 이름들을 확인한다.heart.head(3)데이터 분석을 하기 전에 데이터셋의 앞 부분이나 뒷 부분을 확인하는 것은 중요하다. 심부전 데이터셋의 목적은 심장병의 유무를 예측하거나 관련된 패턴을 분석하는 것가장 중요한 변수는 심장병 여부를 나타내는 HeartDisease 변수이다. 결측값들도 잘 확인한다.heart.info()열 요약 정보를 확인한다.918개의 행과 10개의 열이 있고, Rest.. 2025. 3. 1.
[SQL 데이터베이스 입문] 2주차 4.1 집계 함수란 집계 함수: 특정 칼럼 값을 입력받아 통계적 계산을 해 주는 함수 ex) 최댓값, 최솟값, 합계, 평균 등SELECT MAX(price), MIN(price)FROM burgers;MAX(), MIN(): 최솟값, 최댓값SELECT COUNT(*)FROM burgersWHERE gram > 240;COUNT(*): NULL 값을 포함한 전체 튜플의 수를 센다.COUNT(칼럼명): 지정된 칼럼에서 NULL 값을 제외한 튜플의 수를 센다.SELECT SUM(price)FROM burgers;SUM(): 합계를 계산, 숫자형 칼럼에만 사용SELECT AVG(price)FROM burgers;AVG(): 평균을 계산, 숫자형 칼럼에만 사용 4.2 집계 함수 실습: 은행 DB 칼럼명 DECIM.. 2025. 2. 27.
06장 넷플릭스 데이터 분석 프로젝트 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns사용할 라이브러리들을 불러와서 별칭으로 지정한다.netflix = pd.read_csv('netflix_titles.csv')netflix.head()list(netflix.columns) #열 이름 확인netflix.head(3) netflix.info() #요약 정보 확인데이터셋을 불러와서 간단하게 확인한다.for i in netflix.columns: missingValueRate = netflix[i].isna().sum() / len(netflix) * 100 if missingValueRate > 0: print("{} .. 2025. 2. 23.
혼공학습단 13기 활동 회고 6주간의 혼공학습단이 끝났다.예전에는 혼자 공부하는 파이썬을 했었는데 이번에는 데이터 분석에 대한 관심이 생겨혼자 공부하는 데이터 분석 with 파이썬 책을 선택해서 진행했다.매주차마다 진행한 내용을 업로드해야 하기 때문에 책을 완독할 수 밖에 없는 것 같다.중간 중간 도서 이벤트나 간식도 보내주셔서 더 열심히 할 수 있었던 것 같다.같은 책을 사서 함께 공부하는 사람들이 있다는 것 또한 공부를 할 때 덜 외롭게 느껴지는 것 같다.다음에는 R이나 SQL을 도전해봐야겠다. 2025. 2. 23.