본문 바로가기

데이터 분석/파이썬 데이터 분석가 되기+챗GPT6

3장 연습문제 1번 2번 3번코드를 실행해가면서 나오는 그래프의 모습을 봐가면서 추가로 작성하였다. 직접 처음부터 그래프를 만들어보니 어떤 코드가 어떤 것을 나타나게 하는지 좀 더 명확하게 알 수 있었다. 4번산점도 그래프에서 점의 크기는 s= 으로 설정한다. 5번barh도 x축값, y축값 순서대로 작성한다. 2025. 1. 25.
03장 데이터 시각화 라이브러리, 맷플롯립 import matplotlib.pyplot as pltmatplotlib 모듈의 하위 모듈인 pyplot을 import하면 그래프 작성에 필요한 기능을 일일이 호출하지 않아도 된다.plt.xlabel('xlabel')plt.ylabel('ylabel')plt.legend()plt.xlim([0,5])plt.ylim([0, 15])plt.xscale('linear')plt.yscale('log')맷플롯립으로 축 레이블, 범례, 축 범위, 축 스케일을 커스터마이징 할 수 있다.plt.plot([1, 2, 3], [4, 4, 4], '-', label='solid')plt.plot([1, 2, 3], [2, 2, 2], linestyle='dotted', label='dotted')plt.plot([4, 5.. 2025. 1. 25.
2장 연습문제 1번딕셔너리 형태 키: 값 =이 아니다... index=False도 작성할 필요 없다. 2번 결측치 처리한 것을 원본 데이터에 적용되도록 적자. 3번 4번오른쪽처럼 적는 것이 가독성이 더 좋은 것 같다. 5번 6번 7번 2025. 1. 20.
02장 데이터 처리 라이브러리, 판다스 02.1 판다스 시작하기 판다스: 데이터 분석을 위한 파이썬 라이브러리, 주로 행과 열로 이루어진 2차원 데이터를 다루는 데 사용넘파이는 다차원 배열을 다루기에 적합판다스는 표 형태의 데이터를 다루기에 적합import pandas as pdseries_data = pd.Series([True, 3.14, 'ABC']) 데이터프레임: 열과 인덱스로 이루어져 있는 2차원 배열 형태의 데이터 타입netflix = pd.read_csv('./netflix_selena.csv')netflix.to_csv('netflix_new.csv', index=False)index=False: 행 이름을 파일에 저장하지 않도록 설정 판다스에서 object 데이터 타입문자열 데이터: 다른 언어에서는 문자열 데이터를 string.. 2025. 1. 20.
1장 연습문제 1번 2번 vstack에서 ()를 빠트렸다... vstack((배열1, 배열2, ....)) 형태로 써야한다. 3번 4번 5번 정답이 조금 더 간략한 방식으로 표현할 수 있는 것 같다. 6번 7번np.zeros(shape, [dtype]) 형식으로 사용한다. 8번 9번조건은 맞게 입력 했는데 &로 조건을 잇지 않았다... &로 조건 결합 시 각 조건을 괄호로 묶는 것도 잊지 말자. 10번행의 개수를 반환 받도록 하면 되는데 size의 경우에는 매개변수 전달이 되지 않는다... shape이 튜플을 반환한다는 것을 이용해야 하는 것 같다. 2025. 1. 13.
01장 수치 계산 라이브러리, 넘파이 넘파이(Numpy = Numerical Python): 파이썬 기반의 수치 계산 라이브러리import numpy as npnp.array([0, 1, 2])넘파이 배열의 축  1차원 배열 - axis 02차원 배열 - axis 0, axis 13차원 배열 - axis 0, axis1, axis 2 축 번호가 매겨지는 과정은 코드에서 보는 것이 이해가 더 편하다.array([0, 1, 2])array([[0, 1, 2], [3, 4, 5]]) array([[[0, 1, 2], [3, 4, 5]], [[0, 1, 2], [3, 4, 5]]])가장 바깥쪽 [ 부터 0, 1, 2 순으로 매겨진다. ndarray.dtype: 배열의 데이터 타입.. 2025. 1. 13.