본문 바로가기

분류 전체보기59

선형회귀분석을 위한 전제조건들 선형 회귀분석을 위한 몇 가지 가정 선형 회귀 분석은 독립변수 X를 통해 Y의 값을 예측하기 위한 분석방법이다. 독립변수가 1개인 경우 simple linear regression, 2개 이상인 경우 multiple linear regression으로 나눌 수 있다. 독립변수가 2개 이상이 되면 독립변수 간의 교호 작용(interaction)도 고려해야 하지만, 이번 포스팅에서는 이 부분에 대한 설명보다는 이 분석을 실시하기 위한 5가지 전제조건에 대해 이야기하고자 한다. 이 콘텐츠의 일부는 statology 사이트, 대학원 시절 biometry 수업에서 배웠던 내용 등을 참고했다. 선형 관계 종속변수와 독립변수의 관계가 선형이어야 한다. 즉, Y= ax + b 형태의 1차원 함수로 표현하기에 적절해야 .. 2022. 5. 4.
Confidence interval (신뢰구간) 쉽게 설명하기 Confidence interval (신뢰구간) 식의 구조 가설 검정은 신뢰구간(Confidence Interval)의 개념을 이용하기 때문에 이를 먼저 이해해야 한다. 신뢰구간은 다음과 같은 식으로 표현할 수 있다. 평균을 중심으로 양 옆으로 퍼져 있는 것 (노란 상자 안에 있는 식)을 Margin of Error라고 하며, 이는 confidence level(1-alpha)에 해당하는 Z value에 SE (Standard Error, standard deviation을 샘플 수의 square root로 나눈 값)를 곱한 값이다. 여기서, Z alpha/2 에 해당하는 숫자가 confidence level에 따라 달라진다. Confidence level이란, 여러 개의 샘플을 하나의 모집단에서 반복 .. 2022. 5. 2.
통계 분석에서 사용되는 개념인 Type1, Type2 error 쉽게 설명 Type 1, Type 2 error의 의미 통계적 가설 검정을 실시하여 귀무가설을 기각하거나, 기각하지 않거나 둘 중 하나의 결론이 나오게 되는데 이 결론이 항상 옳다는 보장은 없다. 아무리 심혈을 기울여 가설 검정을 했다고 해도 자신이 내린 결론이 실제 상황과는 달라 틀릴 수 도 있기 때문이며, 이를 error라고 한다. 이 error는 Type 1, Type 2 error로 나누어 볼 수 있는데 이 두 개의 error를 헷갈려하는 사람들이 많고 나 역시 통계를 처음 배울 때에는 계속 헷갈렸던 부분이기 때문에 다른 분들은 처음 배워도 알기 쉽게 설명해보도록 하겠다. Type 1 error는 false positive, Type 2 error는 false negative이다. 여기서 “positive”.. 2022. 5. 1.
[서울 영테크] 청년 무료 재무상담을 통한 개인 자산 관리 현황 체크 서울시 영테크 재무 상담을 신청 올해 2022년에는 서울시에서 무료로 자신의 재무상태를 체크하고 상담을 받아볼 수 있는 기회를 마련해 주고 있다. 나는 이전에 서울시가 아닌 다른 사설기관에서 상담받은 적이 있었는데, 알고 보니 투자상품을 권유하는 것 도 있었고, 어떨 때는 투자상품 권유 절반, 경제상식을 알려주는 것 절반이 섞여있는 강의도 있었다. 하지만 서울시에서 운영하는 재무상담 프로그램에서는 상담사가 만약 투자상품을 권유하면 신고하도록 되어있어 더욱 믿음이 갔다. 상담을 받기 전에 제출해야 하는 자료가 있다. 월평균 수입, 저축, 투자금액, 월평균 지출을 표로 보기 쉽게 만든 것이었다. 나는 평소에 월급여의 총 70~80% 를 저축하고 있었고 은퇴자금도 꾸준히 마련하고 있었기 때문에 나의 재무상태는.. 2022. 4. 28.
마음챙김: 감정 관찰을 통해 과도한 스트레스로부터 해방되기 스트레스를 받으며 살아가는 현대인들 살아가면서 적절한 수준의 스트레스를 받는 것은 우리의 건강을 유지하는데 도움을 준다. 하지만 대부분 스트레스를 적게 받아서 문제가 일어나는 것보다는 스트레스를 너무 많이 받아 문제가 일어나는 경우가 더 흔하다. 그만큼 현대인들은 스트레스에 취약하고 실제로 스트레스를 받을 일이 많이 일어난다. 학생의 경우 성적에 대한 고민, 결혼을 하지 못한 사람은 자신이 좋은 짝을 찾지 못해 좌절하고, 결혼을 한 사람은 자신의 배우자가 마음에 안 든다며 후회한다. 직장인의 경우 업무 성과를 내지 못했을 때 직장 상사로부터 압박을 받기도 한다. 직장이 없는 자영업자들은 경기가 좋지 않을 때 돈을 벌지 못하여 스트레스를 받고, 심지어 은퇴한 사람은 자신은 그런 직장마저도 없다며 우울해한다.. 2022. 4. 27.
주성분분석(PCA)과 정준상관분석(CCA) 주성분 분석 주성분 분석(principal component analysis, PCA)과 정준 상관분석(canonical correlation analysis, CCA)은 많은 변수로 구성된 고차원을 저 차원으로 축소한다는 점에서 공통점이 있다. 이번 글에서는 주성분 분석과 정준 상관분석의 차이점, 정준 상관분석이 사용된 사례에 대해 소개하고자 하며 이를 위해 도서 An Introduction to statistical learning, 펜실베이니아 주립대학교의 온라인 통계 학습자료를 참고하였다. 주성분 분석은 독립변수들이 많아 고차원이 되는 경우, 이를 주성분 (principal component)으로 줄이는 방법이다. 이를 이용하면 관측 대상을 유사한 특성별로 쉽게 나눌 수 있는 장점이 있다. (하지.. 2022. 4. 26.
통계 분석에서의 이상치(outlier) 판별 기준 이상치를 판별할 수 있는 객관적인 기준 마련의 필요성 데이터를 모으면 일반적인 관측값과 차이가 많이 나는 특이한 값들이 관찰되는 경우가 종종 있다. 우리가 객관적인 기준 없이 주관적으로 생각했을 때는 사람마다 어느 값을 벗어나면 이상치라고 판단하는 기준이 달라질 것이다. 따라서 수학적으로 이상치를 판별할 수 있는 기준을 마련하는 것이 필요한데, 여기에는 여러 가지 방법이 있지만 여기에서는 크게 interquartile range와 Standard Deviation을 이용한 방법에 대해서 이야기하고자 한다. Interquartile Range(IQR) 를 이용하는 경우 우선 Interquarilte Range 가 무엇인지 이해하기 위해서는 기본적인 분포의 구조부터 이해해야 한다. 어떤 분포가 있을 때, m.. 2022. 4. 25.
P-value란 무엇이며 Bayesian 통계와는 어떠한 차이가 있는가 P-value의 정의 - P-value의 맨 앞글자인 ‘p’는 probability, 즉 확률을 의미한다. 구체적으로는, 귀무가설이 맞는데도 마치 귀무가설을 기각하는 것 같이 극단적인 결과가 나올 확률이다. 이걸 좀 더 수학적으로 풀어서 설명하자면 랜덤으로 select 한 sample에서 계산된 test statistic이 귀무가설이 맞다는 가정하에서 관측된 값 (critical value 안에 있는 값들) 보다 극단적인 값이 나올 확률이다. - 모집단이 정규분포를 따르고 평균과 표준편차를 안다는 가정 하에서는 쉽게 Z statistic을 계산하고 이에 따라 P-value를 계산할 수 있다, 예를 들어 어떤 장비에 사용되는 특정 부품의 길이가 평균 1.5cm 여야 하는 제품이 있는데 만약 그 길이가 1... 2022. 4. 24.
반응형