일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 교차검증
- 백엔드
- gitclone
- randomForest
- springSTS
- semantic_segmentation
- 하이퍼파라미터튜닝
- 활성화함수
- 내일배움카드
- 프로젝트
- 2차프로젝트
- 스마트인재개발원
- 2차 실전프로젝트
- MSE
- 취업성공패키지
- 안드로이드
- JSP/Servlet
- 비스포크시네마
- 오픈소스깃허브사용
- 크롤링
- 손실함수
- MVCmodel
- 국비지원
- 선형모델 분류
- KNN모델
- ERD
- 머신러닝
- 1차프로젝트
- intent
- 취업연계
- Today
- Total
또자의 코딩교실
피어슨 상관계수(Pearson Correlation Coefficient) 본문
피어슨 상관계수란?
- 칼 피어슨(Karl Pearson)이 개발한 상관계수로 -1~+1 범위 내의 수이다.
- 적률상관계수(product-moment correlation coefficient)라고도 함
- 일반적으로 상관계수라고 하면 피어슨 상관계수를 말한다.
피어슨 상관계수를 해석하는 법
= 1에 가까울수록 상관도는 비례하고 -1에 가까울수록 반비례한다.
= 각 데이터가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일하면 -1의 값을 갖는다.
계수의 부호는 관계의 방향을 나타낸다.
두 변수가 함께 증가하거나 감소하는 경향(비례) 이 있으면 계수가 양수이며, 대체적으로 y=x의 그래프를 띄게 될 것이고,
한 변수가 증가할 때 다른 변수는 감소하는 경향(반비례)이 있으면 계수는 음수이며, 대체적으로 y=1/x의 그래프를 띄게 될 것이다.
따라서 부호가 없는 상관계수값인 0인 관계가 존재하지 않으니 상관 관계자체가 없는것이다.
극과 극이어도 연관도는 높으나 두 사이의 관계가 다를 뿐이다.
산점도를 통해 시각화 한 피어슨 상관계수를 확인해보자.
파이썬에서는 .corr() 함수를 이용하여 두 변수의 상관 관계를 수치화할 수 있다. 하지만 비 선형의 데이터일 경우 상관계수만으로는 상관계수만으로는 상관관계를 알 수 없다. 따라서 산점도를 사용하는것이다.
산점도 상으로는 변수간의 선형관계가 보이지 않으나 상관계수의 값이 높게 나온 경우 아웃라이어(Outlier)(=이상치) 때문에 상관계수의 값이 비정상적으로 높게 나온 경우일 수 있음. 따라서 아웃라이어(Outlier)(=이상치) 제거 혹은 log 변환 후 산점도/상관 계수를 구해보는 것이 좋다.
또한 헷갈리는 부분 중, 상관계수는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 수치는 아니다.
인과관계는 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인할 수 있다.
'코딩공부 > 기타 - 공부' 카테고리의 다른 글
[배치파일 입문] 내 컴퓨터를 케이크처럼 쉽게 다루는 방법 (0) | 2022.05.12 |
---|---|
[스마트인재개발원] Ensemble Models - Random Forest, AdaBoost, Linear Regressor...etc (0) | 2021.12.13 |
Parameter VS Hyper Parameter + how to find best hyper parameter (0) | 2021.12.08 |