기초지식
-
[7강] 연속형 확률변수기초지식/Quantopian(강의노트) 2025. 4. 8. 13:13
연속형 확률변수확률변수란 결괏값이 확률적으로 정해지는 변수이다. 결괏값이란 주사위의 숫자처럼 실제로 나온 값일 수도 있고, 동전 던지기에서 앞면을 1, 뒷면을 0으로 가정하는 것처럼 임의로 부여한 값일 수도 있다. 확률변수들을 하나씩 셀 수 있는지에 따라서 이산형 확률변수, 연속형 확률변수로 구분한다.연속형 확률변수는 결괏값이 무한히 많고 연속적인 값을 가질 수 있는 확률변수이다. 결과가 무한히 많으므로 특정한 값 하나가 나올 확률은 0으로 의미가 없고, 항상 구간에 걸쳐서 확률을 계산한다. 따라서 특정 구간에 대해서 확률을 계산하는 확률밀도함수(PDF)를 사용한다. 확률밀도함수(PDF: Probability Density Function)는 아래 그림 1에서 확인할 수 있는 것처럼 모든 함숫값이 0보다..
-
[7강] 이산형 확률변수-이항분포와 베르누이 시행기초지식/Quantopian(강의노트) 2025. 4. 5. 21:37
이항분포(Binomial Distribution)와 확률함수성공/실패, 수익/손실처럼 양자택일로 표현되는 결과들을 모델링할 경우가 있다. 이 양자택일 실험을 한 번 수행한 것을 베르누이 시행이라고 하는데, 결과는 성공 또는 실패가 된다. 이항분포는 이 베르누이 시행을 n 번 수행한 결과이다. 이때 총 성공한 횟수를 X이고, 각각의 성공확률을 p라고 한다면 X는 아래와 같이 표현할 수 있다.( X가 될 수 있는 값은 0 ~ n 이다.) 이항분포에서는 조합(Combination)을 이용해서 확률질량함수(PMF)를 나타낼 수 있다. 총 n 번의 시행에서 k 번 성공할 수 있는 확률은 n 번의 시도에서 무작위로 k 번의 성공을 뽑아내는 것과 같으므로 아래 식 2와 같이 조합을 사용해서 나타낼 수 있는 것이다.각..
-
[7강] 이산형 확률변수-균등분포기초지식/Quantopian(강의노트) 2025. 4. 3. 23:14
이산형 및 연속형 확률변수확률변수란 결과값이 확률적으로 정해지는 변수이다. 결과값이란 주사위의 숫자처럼 실제로 나온 값일 수도 있고, 동전 던지기에서 앞면을 1, 뒷면을 0으로 가정하는 것처럼 임의로 부여한 값일 수도 있다. 확률변수들을 하나씩 셀 수 있는지에 따라서 이산형 확률변수, 연속형 확률변수로 구분한다.이산형 확률변수이산형 확률변수는 결과의 수를 셀 수 있는 확률변수를 의미힌다. 따라서 각 결과값마다 그 값이 나올 수 있는 고유한 확률을 부여할 수 있고, 이 결과값에 확률(=질량)을 부여하는 함수를 확률질량함수(PMF)라고 한다. 확률질량함수는 아래 두 가지 성질을 가진다.이산형 확률변수의 정의를 바탕으로 아래와 같이 이산형 확률변수들을 만들어주는 configVariables 라는 함수를 만들 ..
-
[6강] 데이터 상관관계 분석기초지식/Quantopian(강의노트) 2025. 2. 1. 10:47
상관계수(Correlation coefficient)공분산의 의미상관계수는 두 변수의 관계가 얼마나 선형적인지를 측정한다. 상관계수를 구하기 위해서는 먼저 공분산을 알아야 한다. 공분산(Cov(X, Y))은 두 변수 X와 Y가 어떻게 함께 변동하는지 측정하는 지표로 아래 식으로 측정한다.상관계수의 의미공분산을 활용하여 아래와 같이 상관계수를 구할 수 있다. 상관계수는 결국 공분산을 각각의 표준편차로 정규화 한 값이다. 정규화가 되지 않은 공분산의 크기만으로는 다른 데이터와의 비교가 불가능하기 때문에 표준편차로 정규화한 상관계수를 데이터 분석에 주로 사용한다. 정규화 과정을 거쳐서 구한 상관계수는 항상 -1에서 1 사이의 값을 가지고, 1에 가까울수록 완전히 우상향 선형 관계를, -1에 가까울수록 완전히 ..
-
[5장]ISL with R : 재표본추출법(Resampling Method)기초지식/ISL with R(통계학) 2025. 1. 19. 22:31
교차검증(Cross-Validation)" [5장]ISL with R : 결정계수(R-Squared)"에서 설명한 것처럼 결정계수(R -Squared) 측정은 주어진 테스트 데이터에 대한 설명력만을 제공한다는 점, 모델의 과적합 문제를 판단하지 못한다는 한계를 갖고 있다. 따라서 모델의 성능을 측정하기 위해서는 추가적인 도구가 필요한데, 그 방법이 재표본추출 방법(Resampling Method)이다. 대표적인 재표본추출 방법으로 교차검증(Cross-Validation)과 부스트랩(Bootstrap)이 있다.k-Fold Cross-Validation재표본 추출 방법이 결정계수(R -Squared) 측정과 구분되는 가장 큰 특징은 교차 검증(Cross-Validation) 이라는 점이다. 데이터 셋을 교차..
-
[5장]ISL with R : 결정계수(R-Squared)기초지식/ISL with R(통계학) 2025. 1. 5. 22:07
결정계수(R-Squared) 측정우리가 어떤 예측 모델을 만들었을 때 그 모델의 성능을 평가하는 것은 중요하다. 그리고 모델 성능 평가에서 일반적으로 사용하는 지표는 아래 식 1과 같이 나타낼 수 있는 결정계수(R -Squared)이다. 결정계수(R -Squared)는 모델의 설명력을 나타내며 0에서 1 사이의 값을 가진다. 그리고 1에 가까울수록 모델의 설명력이 높아지고, 0에 가까울수록 모델의 설명력이 낮아진다. 결정계수(R -Squared)는 위 식 1에서 확인할 수 있는 것처럼 SST(Totoal Sum of Squares), SSE(Explained Sum of Squares), SSR(Residual Sum of Squares)로 구성되어 있는데, 이 구성요소만 파악하면 결정계수의(R -Squ..
-
[5강] 왜도와 첨도를 활용한 자크베라 검정(정규성 검정)기초지식/Quantopian(강의노트) 2024. 12. 7. 17:46
정규성 검정(Jarque-Bera Test: 자크베라 검정)데이터가 정규분포라면 평균을 중심으로 대칭적이고, 꼬리가 점차 얇아지는 종모양을 가졌을 것이다. 따라서 왜도는 0이 되고, 첨도는 3이 된다. 이것이 성립한다면, 많은 데이터의 통계적인 추론들이 가능해진다. 하지만 실제 금융데이터가 정규성을 만족한다는 보장이 없으므로 정규성 검증을 실시한 후 그것을 감안하여 추가적인 분석을 실행한다. [5강] 통계적 지표(왜도와 첨도)에서 살펴본 왜도와 첨도를 통해서 데이터의 정규성을 판단하는 한 방법이 자크베라 검정이다. 먼저, 귀무가설과 대립가설을 세운다.H0(귀무가설): 데이터는 정규분포를 따른다.H1(대립가설): 데이터는 정규분포를 따르지 않는다.귀무가설은 옳다고 하는 주장이고, 대립가설은 귀무가설에 대립..
-
[5강] 통계적 지표(왜도와 첨도)기초지식/Quantopian(강의노트) 2024. 12. 3. 07:53
왜도(Skewness)[4강] 데이터의 산포도 측정(분산, 표준편차, 범위 등)에서 살펴본 분산과 같은 측정방법은 한계가 있다. 먼저, 데이터가 대칭적인지를 알 수 없다. 평균을 기준으로 큰 값이 많은지 작은 값이 많은지 아니면 값들이 균등하게 분포되었는지 알 수가 없다. 이것을 측정하는 것이 왜도이다.왜도의 계산은 데이터 각 값과 평균의 차이를 세제곱 한 값을 평균하면 된다. 여기에 표준편차 한 단위 당 값을 구하기 위해서 표준편차를 세제곱해서 나눠준다. 데이터 각 값과 평균의 차이를 세제곱함으로써 평균으로부터 멀리 있는 값에 가중치를 준다고 생각하면 된다. 그리고 세제곱을 해 주므로 +, - 기호를 통해서 평균을 기준으로 큰 값인지 작은 값인지 구분해 줄 수 있다.양의 왜도 값을 가지면, 오른쪽 꼬리..