기초지식
-
[4장]ISL with R : 로지스틱 회귀(회귀계수의 계산1: 우도함수와 경사하강법)기초지식/ISL with R(통계학) 2023. 4. 5. 08:10
우도함수 정의 로지스틱 회귀 함수의 회귀계수는 우도함수(Likelihood function)를 이용한 경사하강법(Gradient descent)을 통해서 계산할 수 있다. 먼저 우도함수를 보자. 우도함수는 각 데이터 포인트가 생성될 확률을 나타낸다. 그리고 최대우도법은(확률변수의 모수를 구하는 방법) 각 데이터 포인트가 생성될 확률을 최대로 만드는 확률분포를 찾는 과정이다. "[4장]ISL with R : 로지스틱 회귀(로지스틱 함수)"에서 말한 것처럼 아래 식 1 로지스틱 함수는 "x값에 따른 값이 집단 1에 분류될 확률"을 나타낸다. 위 식을 바탕으로 각 데이터 포인트가 생성될 확률을 생각해 보자. 데이터 결과를 y_i = 0 또는 y_i = 1로 분류 한다고 가정하면, y_i 가 1일 때는 데이터 ..
-
[4장]ISL with R : 로지스틱 회귀(로지스틱 함수)기초지식/ISL with R(통계학) 2023. 4. 4. 06:52
분류 분석과 로지스틱 회귀 분석 ISL with R 4 장에서는 분류분석을 소개한다. 분류 분석은 다양한 독립변수들을 통해서 이 사람은 암이냐(1) 아니냐(0), 이 기업을 망할 것이냐(1) 아니냐를(0) 0 또는 1 값으로 분류해 내는 분석이다. ISL with R 3 장에서 배운 아래 선형회귀 식을 분류분석에서도 사용할 수 있을까? 위 선형회귀 분석 기본 식을 보면 Zi는 0 또는 1 값 외에 다양한 값을 가지기 때문에 분류분석에는 적합하지 않아 보인다. 하지만 분류분석의 가장 기초인 로지스틱 회귀 분석은 이 선형회귀 식을 로지스틱 함수에 넣어서 분류분석을 위한 도구로 만든다. 로지스틱 함수 로지스틱 함수는 시그모이드 함수의 한 종류인데, 대략적으로 아래 오른쪽 그림과 같이 S자 형태라는 것만 알면 ..
-
[3장]ISL with R : 다중선형회귀 실습 in R(주가예측 심화)기초지식/ISL with R(통계학) 2022. 10. 25. 07:56
환율과 원유 선물을 통한 주가 예측 [3장]ISL with R : 단순선형회귀 실습 in R(환율을 통한 주가예측) 에서 환율을 통한 주가예측 모델을 만들어 봤다. 단순선형회귀에서 조금 더 다양한 factor를 반영한다면(다중선형회귀) 예측의 정확도가 올라갈지 한 번 실습해보자. [3장]ISL with R : 단순선형회귀 실습 in R(환율을 통한 주가예측) 에서와 마찬가지로 yahoo finance 에서 수집한 코스피 종가, 환율 종가, 원유선물 종가 데이터 샘플에서 시작해보자. 단순선형회귀에서와 마찬가지로 각 데이터들의 단위가 다르기 때문에 코스피, 환율, 원유선물 종가의 일일 수익률을 이용해서 선형회귀 분석을 진행해보자. 데이터 만들기 엑셀 읽어오기 [3장]ISL with R : 단순선형회귀 실습 ..
-
[3장]ISL with R : 단순선형회귀 실습 in R(환율을 통한 주가예측)기초지식/ISL with R(통계학) 2022. 10. 21. 08:35
환율을 통한 주가 예측 [3장]ISL with R : 선형 회귀분석 기초 에서 선형 회귀 분석이 뭔지 개념을 파악했고, [3장]ISL with R : 선형 회귀계수 계산 에서 회귀계수의 계산 원리도 파악했으니 실제로 R을 이용해서 환율과 코스피 주가의 관계에 대한 선형 회귀 식을 만들고 코스피주가를 예측해보자. 아래는 yahoo finance 에서 수집한 코스피 종가와 환율 종가 데이터 샘플이다. 여기서 중요한 것은 코스피 종가와 환율 종가를 가지고 바로 선형회귀 분석을 하면 단위가 다르기 때문에 오류가 발생한다는 점이다. 따라서 샘플 데이터에서 확인할 수 있는 것처럼 코스피와 환율 종가의 일일 수익률을 가지고 회귀분석을 진행해야 한다. 데이터 만들기 엑셀 데이터 읽어오기 일단 데이터를 R에 불러와야 한..
-
[3장]ISL with R : 선형 회귀계수 계산기초지식/ISL with R(통계학) 2022. 8. 15. 10:21
선형 회귀분석 기초 선형 회귀분석은 기울기와 절편을 조정해서 아래 식과 같이 결괏값을 예측해 내는 것이다.(Y에 "^"을 씌운 값) ( 자세한 내용은 이전 글인 [3장]ISL with R : 선형 회귀분석 기초에서도 을 참조하자.) 이때 아래식과 같이 있는 예측한 예측값(Y에 "^"을 씌운 값) 과 실제값의 차이가 작을수록( 잔차가 작을수록) 정확한 예측이 된다. ([3장]ISL with R : 선형 회귀분석 기초에서와 다르게 소문자 b를 쓴 이유는 실제 선형 회귀분석에서는 표본을 통해 b0, b1을 구하기 때문이다.) 데이터 전체로 봤을 때 위 식 2와 같이 표현되는 잔차의 전체 값이 가장 작게 나오는 것이 가장 정확한 예측( 가장 정확한 회귀계수들)이 되는 것이다. 그런데 데이터 전체의 잔차를 구하기..
-
[3장]ISL with R : 선형 회귀분석 기초기초지식/ISL with R(통계학) 2022. 8. 14. 09:13
선형 회귀분석 개요 선형 회귀분석 기본식 ISL with R 3장은 선형 회귀분석에 대한 내용이다. 선형 회귀분석은 직선으로 내가 구하고자 하는 값을(Y에 "^"을 씌운 값) 추정하는 과정이다. 아래 그림과 같이 2차원 평면에 X축 데이터, Y축 데이터 쌍의 점이 찍혀 있으면 그 관계를 나타내는 직선을 그려서 새로운 X 값이 들어왔을 때 Y값을 추정해 보는 것이다. 위 그림처럼 관계를 추정하는 "직선"을 구하는 것이기 때문에 선형 회귀분석의 기본 식은 아래와 같이 1차 방정식으로 나타낸다. 위 식은 X 가 하나인 단순회귀의(Simple Linear Regression) 경우를 나타낸 것이고 X가 여러 개인 다중회귀(Multiple Linear Regression) 식은 아래와 같이 나타낸다. 독립변수인 ..
-
주요 함수와 함수의 변형기초지식/미적분학 2022. 5. 13. 06:37
주요 함수의 종류 대수함수 아래 다항함수, 무리함수, 유리함수와 같이 다항식에 대수적인 연산(덧셈, 뺄셈, 곱셈, 나눗셈, 제곱근)을 적용해서 만든 것을 말한다. 다항함수 아래와 같은 식으로 표현되는 식을 다항함수라고 한다. 모든 다항식의 정의역은 실수(-무한대, +무한대)이다. 무리함수 a 가 상수일 때 아래와 같은 형식의 함수를 무리함수라고 한다. 유리함수 아래 식과 같이 두 다항식의 비로 나타나는 함수를 의미한다. 위에서 P(x), Q(x)는 각각 위에서 소개한 다항함수가 된다. 초월함수 아래 삼각함수, 지수함수, 로그함수와 같이 대수적인 연산으로 표현할 수 없는 함수이다. 삼각함수 아래와 같이 sin, cos, tan 등으로 표시되는 함수이다. 미적분학에서는 관습적으로 라디안(호도) 단위로 x를 ..
-
[2장] ISL with R : KNN 알고리즘 실습해보기 in R기초지식/ISL with R(통계학) 2021. 1. 2. 02:00
1. 들어가며 앞 글에서 ( [2장] ISL with R : KNN 알고리즘 실습해보기 ) KNN 알고리즘을 손으로 계산해 봤다. 그런데 실무에서는 KNN 알고리즘을 일일이 엑셀로 계산해서 사용하는 경우는 없을 것이다. 앞선 글에서는 Training 데이터 6개 Test 데이터 1개로 아주 적은 데이터로 분석했지만, 실무에서 쓰이는 데이터는 몇만 ~ 몇 십만 개의 샘플이 기본이기 때문이다. 따라서 많은 전문가들은 R이나 python 같은 프로그램을 이용해서 데이터를 분석한다. "ISL with R"은 제목처럼 R이라는 통계 패키지를 이용해서 데이터 분석을 보여주고 있다. 이번 2장에서는 R의 설치 방법과 기본적인 함수를 소개하고 있다.. ( R의 설치 관련 사항은 통계프로그램 설치 : R with ana..