본문 바로가기

전체 글46

5주차_트리 알고리즘 기본 숙제(필수): 교차 검증을 그림으로 설명하기이전에 모델 학습은 훈련 데이터와 테스트 데이터로 나눠서 진행하였다. 이렇게 테스트로 모델을 평가하면 결국에는 테스트 데이터들에 맞춰진 모델을 얻게 된다. 그래서 테스트 데이터는 마지막에 성능을 평가할 때만 사용하는 것이 좋다. 이번 챕터에서는 훈련 데이터로 모델을 학습시키고 검증 데이터로 모델을 검증하고, 테스트 데이터로 평가하였다. 검증 데이터는 기존 훈련 데이터의 일부분을 떼어내서 사용한다. 교차 검증은 이런 검증 데이터 세트를 떼어내서 평가하는 것을 여러 번 반복하는 것이다. 그런 다음 검증 세트로 평가한 점수를 평균내서 최종 검증 점수를 얻는다. 위 그림과 같이 세 부분으로 나눠서 교차 검증을 하는 것을 3-폴드 교차 검증이라고 한다. 보통 5-.. 2025. 7. 27.
3주차_다양한 분류 알고리즘 기본 숙제(필수): Ch04(04-1) 확인 문제(p.208) 2번 풀고, 설명하기답: 1번로지스틱 회귀에서는 시그모이드 함수를 사용해서 이진 분류에서 확률을 출력한다.소프트맥스는 다중분류에서 확률을 출력하기 위해 사용한다.추가 숙제(선택): Ch04(04-2) 과대 적합 / 과소 적합 손코딩(p.220) 하고 코랩 화면 캡처하기 에포크 횟수가 적으면 모델이 훈련 세트를 적게 학습하기 때문에 과소적합이 발생하고, 에포크 횟수가 크면 모델이 훈련 세트에만 최적화되어 테스트 세트를 잘 맞추지 못하는 과대적합이 발생하게 된다. 위 코드는 에포크를 0에서 300까지로 학습시켰을 때의 훈련 세트와 테스트 세트에 대한 정확도를 그래프로 나타낸것이다.그래프를 보면 에포크가 작았을 때는 둘 다 정확도가 낮아 과소적합.. 2025. 7. 20.
2주차_회귀 알고리즘과 모델 규제 기본 숙제(필수): Ch.03(03-1) 확인문제(p.134) 4번 출력 그래프 인증하기 확인문제 4번에 해당하는 코드는 아래와 같다. k-최근접 이웃 회귀 객체를 만들고 5에서 45까지 1씩 늘어나는 x를 만든다.모델이 참고하는 이웃의 개수가 1, 5, 10일 때의 그래프를 그리도록 각각의 경우를 학습시키고 예측결과와 그래프를 그리도록 for문으로 작성한다. 그래프는 아래와 같다.n이 1일 때는 주어진 학습 데이터 하나하나에 맞춰 그래프가 그려지는데, n이 커질수록 비교적 보편적이게 그래프가 그려지는 것을 알 수 있다.이번 chapter 3를 공부하면서 모델을 학습시킬 때는 항상 훈련 세트를 기준으로 한다는 것이 강조되고 있다고 느껴졌고, 그만큼 그 부분이 중요하다는 것을 알게 되었다. 이전 주차에서 .. 2025. 7. 12.
1주차_나의 첫 머신러닝 및 데이터 다루기 기본숙제(필수): 코랩 실습 화면 캡처하기 1-3도미데이터를 입력하고, 산점도로 그려보았다.빙어데이터도 입력한 뒤, 빙어데이터와 도미데이터를 산점도로 나타내었다. 도미가 파란색, 빙어가 주황색이다.도미의 길이와 빙어의 길이 리스트를 length에 합쳐서 저장, 무게도 마찬가지로.zip()을 사용하여 fish_data에 length와 weight가 열로 각각에 해당하는 데이터가 행으로 저장된다.fish_target 데이터로 맞춰야 하는 도미를 1로, 빙어를 0으로 저장한다. 사이킷런의 k최근접 이웃 알고리즘을 임포트한다. kn에 모델을 생성하고 fit()을 통해 학습시킨다.score()를 통해 정확도를 알 수 있다. 1은 모든 것을 맞췄다는 것을 의미한다.길이가 30이고 무게가 600인 데이터는 세모로 표.. 2025. 7. 5.
[코딩 자율학습단 13기] 후기 코딩 자율학습단에서의 4주간 활동이 마무리되었다. 학습 가이드와 커리큘럼이 잘 구성되어 있어, 그대로 따라가기만 하면 큰 어려움 없이 진행할 수 있었다. 매일 아침 카톡으로 당일 학습 진도와 동기부여가 될 만한 글이 전달되어, 끝까지 포기하지 않고 완주할 수 있었다. 학습이 끝난 후에도 이후에 공부하면 좋을 내용을 추천해 주어, 책에서 배운 개념을 지속적으로 학습해 나갈 수 있을 것 같다. 2025. 3. 18.
[SQL 데이터베이스 입문] 4주차(완독!) 8.1 그룹화란select 그룹화_칼럼, 집계_함수(일반_칼럼)from 테이블명where 조건 # 필터링 조건이 없으면 생략group by 그룹화_칼럼;그룹화: 데이터 분석 기법의 하나,            데이터를 특정 기준에 따라 여러 그룹으로 나누고 그룹별 데이터를 요약하거나 분석하는 것 group by 절의 특징집계 함수와 함께 사용: 유의미한 데이터 분석 결과를 얻으려면, 그룹화 한 후 반드시 후속 집계 작업을 해야 함.여러 칼럼으로 그룹화: 2개 이상의 칼럼을 기준으로 그룹화할 수 있음select 그룹화_칼럼1, 그룹화_칼럼2, 집계_함수(일반 칼럼)from 테이블명where 조건group by 그룹화_칼럼1, 그룹화_칼럼2;   3. select 절에 올 수 있는 칼럼이 제한적: 그룹화한 쿼.. 2025. 3. 14.