-
[3장]ISL with R : 선형 회귀분석 기초기초지식/ISL with R(통계학) 2022. 8. 14. 09:13반응형
선형 회귀분석 개요
선형 회귀분석 기본식
ISL with R 3장은 선형 회귀분석에 대한 내용이다. 선형 회귀분석은 직선으로 내가 구하고자 하는 값을(Y에 "^"을 씌운 값) 추정하는 과정이다. 아래 그림과 같이 2차원 평면에 X축 데이터, Y축 데이터 쌍의 점이 찍혀 있으면 그 관계를 나타내는 직선을 그려서 새로운 X 값이 들어왔을 때 Y값을 추정해 보는 것이다.
위 그림처럼 관계를 추정하는 "직선"을 구하는 것이기 때문에 선형 회귀분석의 기본 식은 아래와 같이 1차 방정식으로 나타낸다.
위 식은 X 가 하나인 단순회귀의(Simple Linear Regression) 경우를 나타낸 것이고 X가 여러 개인 다중회귀(Multiple Linear Regression) 식은 아래와 같이 나타낸다.
독립변수인 X 와 종속변수인 Y는 우리가 가진 데이터에서 확인할 수 있는 값이다. 핵심은 위 식에서 아래와 같은 모델의 계수들 알아내는 것이다.
우리가 구한 계수값에 따라서 "그림 1"에서 보이는 직선의 절편이나 기울기가 달라지게 된다.
잔차와 오차의 개념
잔차는(ei) 표본으로 추정한 값들(Y에 "^" 을 씌운 값)과
데이터 전체의 "잔차"(Residual)를 최소한으로 줄이는 것이 우리가 하는 회귀분석의 목표이다. 정확한 예측이란 추정 값과 관측값의 차이가 없는 상태이기 때문이다. 사실은 회귀분석의 최종 목표는 회귀식의 "오차"(Error)를 최소화 하는 것이다. 오차는 추정한 회귀식과 "모집단"에서 관측값의 차이를 의미하는데, 실제 오차를 정량화할 수 없으니 오차의 추정치로 잔차를 사용해서 그것을 최소화하려고 하는 것뿐이다.
선형 회귀분석의 한계
선형 회귀분석은 가장 만만하지만 아래와 같은 한계가 있다. 따라서 분석을 할 때 한계를 명확히 인식하고, 아래와 같은 문제점이 발견되면 모델을 변경하거나 보완하는 방법 써야 해야 한다.
데이터의 비선형성
단순히 직선으로만 설명되지 않는 데이터들이 있다. 이 경우에는 다항회귀(Polynomial regression: 최고차 항의 계수가 1보다 큰 회귀분석) 분석을 적용한다. 아래 왼쪽 그림처럼 단순 직선(1차식) 보다 오른쪽 그림처럼 곡선(4차식)으로 회귀식을 그리는 경우가 실제 데이터인 빨간 점에 더 가까운 것을 알 수 있다.
오차들 간의 상관관계
오차들의 상관관계가 있으면 우리가 추정에 사용하는 표준편차 등이 그 상관관계에 추가적으로 영향을 받게 된다. 시계열 자료에서 이런 현상이 주로 발견되는데, 이런 경우에는 주로 선형 회귀 분석이 아닌 시계열적 분석에 적합한 분석모델을 따로 사용한다.
오차들의 분산이 일정하지 않은 경우
선형회귀의 개요에서 오차와 잔차를 알아볼 때, 회귀분석의 최종 목표는 오차를 최소화하는 것이고, 그것을 정량적으로 수행하는 것이 불가능하기 때문에 잔차를 통해서 오차를 추정한다고 했다. 하지만 오차의 분산이 일정하지 않고 이상하게 편향되어 있다면 잔차를 통해서 오차를 추정한다는 말이 성립할 수 없게 된다. 이 경우 추가적인 변형을 가해야 한다.
Y값(종속변수)이 이상한 값이 있거나 X값(독립변수)에 튀는 값이 있는 경우
Y값(종속변수)이 이상한 값이 있거나 X값(독립변수) 중 튀는 값이 있는 경우 이를 이상치(Outlier)라고 한다. 이런 값들은 예측선의 형태를 크게 바꾸는 효과를 갖고 있다. 아래 그림과 같이 (1,2) , (2,3) , (3,4) , (4,5) , (5,6) , (7,8) , (9,10)이라는X와 Y 가 일정하게 증가하는 데이터에 ( -1, 50)을 추가하면 오른쪽 그림처럼 선형 회귀 선이 크게 변하는 것을 볼 수 있다. 그래서 우리는 분석을 할 때 이런 튀는 값이 정당한 값인지 잘 판단하고 삭제하든지 해야 한다.
X값(독립변수) 들끼리 상관관계가 강한 경우
위와 같은 다중회귀 식에서 X값(독립변수) 끼리 상관관계가 너무 크다면 문제가 있을 수 있다. Y의 변화가 X1에서 왔는지 X2에서 왔는지 알 수 없고, 그에 따라 회귀계수를 구해도 그것을 믿을 수가 없게 되기 때문이다. 그래서 X값(독립변수)끼리 상관관계가 높다는 것이 밝혀지면, 한 변수를 버리는 등의 조치를 취해야 한다.
반응형'기초지식 > ISL with R(통계학)' 카테고리의 다른 글
[3장]ISL with R : 단순선형회귀 실습 in R(환율을 통한 주가예측) (0) 2022.10.21 [3장]ISL with R : 선형 회귀계수 계산 (0) 2022.08.15 [2장] ISL with R : KNN 알고리즘 실습해보기 in R (0) 2021.01.02 [2장] ISL with R : KNN 알고리즘 실습해보기 (0) 2021.01.02 [1장] ISL with R 소개 (0) 2020.08.28