본문 바로가기
데이터 분석/혼자 공부하는 머신러닝 + 딥러닝

2주차_회귀 알고리즘과 모델 규제

by yEvery 2025. 7. 12.

기본 숙제(필수): Ch.03(03-1) 확인문제(p.134) 4번 출력 그래프 인증하기

 

확인문제 4번에 해당하는 코드는 아래와 같다.

 k-최근접 이웃 회귀 객체를 만들고 5에서 45까지 1씩 늘어나는 x를 만든다.

모델이 참고하는 이웃의 개수가 1, 5, 10일 때의 그래프를 그리도록 각각의 경우를 학습시키고 예측결과와 그래프를 그리도록 for문으로 작성한다. 그래프는 아래와 같다.

n이 1일 때는 주어진 학습 데이터 하나하나에 맞춰 그래프가 그려지는데, n이 커질수록 비교적 보편적이게 그래프가 그려지는 것을 알 수 있다.


이번 chapter 3를 공부하면서 모델을 학습시킬 때는 항상 훈련 세트를 기준으로 한다는 것이 강조되고 있다고 느껴졌고, 그만큼 그 부분이 중요하다는 것을 알게 되었다. 이전 주차에서 공부할 때도, 훈련 세트에 적용한 표준화 방식을 테스트 세트에 적용해서 해야 한다는 부분이 있었는데, 이번 주차에서도 변환기를 공부할 때, 훈련 세트를 기준으로 테스트 세트를 변환하는 것이 좋다는 부분이 있었다. 이러한 부분들을 통해 이번 주차까지 공부하고 나서는 대체적으로 기준은 훈련 세트가 되도록 해야 한다는 것이 뇌리에 남게 되었다. 


추가 숙제(선택): 모델 파라미터에 대해 설명하기

 

모델 파라미터는 기울기나 절편과 같이 머신러닝 알고리즘이 찾아내는 값을 의미한다. (ex. coef_, intercept_)

이전 주차 때 배웠던 k-최근접 이웃 알고리즘 분류 방식은 그저 학습 데이터들을 저장해두어 분류하는 것이었다면, 

이번 주차에서 배운 머신러닝 알고리즘들은 단순히 분류가 아닌 학습된 데이터들을 토대로 직접 값을 예측하는 내용들이었다. 

그래서 이러한 모델 파라미터라는 값들이 중요한 것 같다. 이를 통해 보다 정확하게 값을 예측할 수 있기 때문이다.

개인적인 생각으로 머신 러닝 알고리즘을 학습시킨다는 것의 최종 목표는 결국 최적의 파라미터를 찾아내어 가장 유사하게 값을 예측해내는 모델을 만들어 내는 것이 아닐까 싶다.