Chapter 03-1. K-최근접 이웃 회귀

Kim MyeongOk 2022. 12. 5. 17:13

지도학습 알고리즘은 분류와 회귀로 나뉜다.
회귀는 클래스 중 하나로 분류하는 것이 아니라 임의의 숫자를 예측하는 것이다.
K-최근접 이웃 알고리즘은 사례 기반 학습

import numpy as np
# 데이터 준비
perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0,
       21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7,
       23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5,
       27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0,
       39.0, 39.0, 39.0, 40.0, 40.0, 40.0, 40.0, 42.0, 43.0, 43.0, 43.5,
       44.0])
perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

# 산점도 그리기
import matplotlib.pyplot as plt
plt.scatter(perch_length, perch_weight)
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(
    perch_length, perch_weight, random_state=42
)
test_array = np.array([1,2,3,4])
print(test_array.shape)
'''
(4,)
'''

test_array = test_array.reshape(2, 2)
print(test_array.shape)
print(test_array)
'''
(2, 2)
[[1 2]
 [3 4]]
'''

train_input = train_input.reshape(-1, 1)
test_input = test_input.reshape(-1, 1)
print(train_input.shape, test_input.shape)
'''
(42, 1) (14, 1)
'''

결정계수(R^2) Rsqaure

사이킷런에서 k-최근접 이웃 회귀 알고리즘을 구형한 클래스는 KNeighborsRegressor이다.

이 클래스의 사용법은 KNeighborsClassifier와 매우 비슷합니다. 객체를 생성하고, fit() 메소드로 회귀 모델을 훈련한다.

from sklearn.neighbors import KNeighborsRegressor

knr = KNeighborsRegressor()

# k최근접 이웃 회귀 모델을 훈련함
knr.fit(train_input, train_target)
print(knr.score(train_input, train_target))
'''
0.9698823289099254
'''
#테스트 세트 점수 출력
print(knr.score(test_input, test_target))
'''
0.992809406101064
'''

평균 절대값 오차 (mean_absolute_error)

평균 절대값 오차는 테스트 타깃값과 테스트 인풋으로 예측한 값의 차이(높고 낮음의 차이(양수: 절대값이기 때문))의 절대값를 평균해서 값을 반환함
평균 절대값 오차는 절대값보다 높게 혹은 낮게 예측했는지는 중요하지 않으며, 얼마정도 오차가 있는지 나타내는 지표

# 타깃과 예측값 사이의 차이를 구해보면 어느정도 예측을 벗어났는지 가늠할 수 있음
# sklearn.mean_absolute_error

from sklearn.metrics import mean_absolute_error

# 테스트 세트에 대한 예측을 만듬
test_prediction = knr.predict(test_input)

# 테스트 세트에 대한 평균 절대값 오차 계산
mae = mean_absolute_error(test_target, test_prediction)
print(mae)
'''
19.157142857142862
'''

과대적합 vs 과소적합

과대적합: 보통 훈련데이터 모델의 점수가 테스트데이터보다 좀 높게 나오나 과대적합의 경우, 훈련데이터 모델의 점수가 너무 높게 나오는 것을 말한다.* overfitting
과소적합: 과대적합의 반대이거나 훈련데이터와 테스트데이터 점수가 모두 낮을 것을 의미 → 이 경우, 모델을 좀더 복잡하게 만들면 된다.* underfitting

print(knr.score(train_input, train_target))
'''
0.9698823289099254
'''

# 이웃의 개수를 3으로 설정
knr.n_neighbors = 3

# 모델 다시 훈련
knr.fit(train_input, train_target)
print(knr.score(train_input, train_target))
'''
0.9804899950518966
'''

print(knr.score(test_input, test_target))
'''
0.9746459963987609
'''

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

훈련데이터 점수 - 테스트데이터 점수 = 1점 초과 -> 과대적합
훈련데이터 점수 - 테스트데이터 점수 = -1점 미만 -> 과소적합

개발자가 정해야하는 변수를 하이퍼 매개변수라고함.
좋은 매개변수를 구하는 법을 다음 시간에서 배우도록하겠음.

k의 개수가 늘어나면 과소작합이 됨

알고리즘에 따라 전처리가 필요한 것이 있고 필요없는 것이 있음
특성이 여러개일 경우, train input의 배열이 2차원 이상이 될것임
그러나, 산점도 그리기가 어려울 것으로 보여짐

훈련데이터가 정말 많다면 랜덤으로 섞는 것만으로도 괜찮음
그러나 훈련데이터의 개수가 적은 경우 train_test_split()메소드를 사용해주어야 안정적임.

reshape()

1	2	3
4	5	6

데이터가 수천 수만개 일때, 그래프상에 어떻게 표현?

시각화 때문에 중첩화 데이터가 많으면 샘플링 처리한다.

데이터가 30개 이상이면 보통 정규분포를 따른다고 하는데 많다고하는 기준이 있는가?

문제마다 많다는 정의가 다르다.
적은 수의 데이터를 사용하는 것은 의료를 제외하면 거의 없다.
요즘에 사용하는 데이터는 풍부하게 많이 있어서 개수에 대한 정확한 규정은 없다.
문제나 경험에 따라 적절한 데이터 개수는 다르게 사용될 수 있다.