일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 비스포크시네마
- 백엔드
- 안드로이드
- 취업성공패키지
- 머신러닝
- 내일배움카드
- springSTS
- 손실함수
- 프로젝트
- 하이퍼파라미터튜닝
- 스마트인재개발원
- 취업연계
- 국비지원
- JSP/Servlet
- 2차 실전프로젝트
- 1차프로젝트
- semantic_segmentation
- 활성화함수
- 2차프로젝트
- MVCmodel
- 교차검증
- 선형모델 분류
- gitclone
- intent
- randomForest
- MSE
- ERD
- 크롤링
- 오픈소스깃허브사용
- KNN모델
- Today
- Total
목록KNN모델 (2)
또자의 코딩교실
스마트 인재개발원의 후반과정을 듣다보면 머신러닝을 배우게 된다. 이때 많이 어려운 머신러닝 공부도 더 하고 2차프로젝트의 탄탄한 기술적 배경을 다지기위해 자체적으로 Kaggle 대회를 개최한다. Kaggle은 이전에 내 블로그 내에서도 타이타닉 분석을 통해 다룬적이 있지만, 캐글은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 이번 Kaggle 대회의 문제는 이진분류 문제로, 쿠팡의 전자 상거래 물품 배송 예측이다. 즉, 물건이 제 시간에 잘 도착했는지, 도착하지 못했는지를 최종 예측하는 문제이다. 현재 총 24명(선생님 한분-팀)의 같은 과정을 수료하는 분들이 참여하고 있다. 한팀 당 6명..
이번 포스팅에서는 분류와 회귀에 모두 사용가능한 머신러닝의 모델인 K-최근접 이웃 알고리즘에 대해 알아보자. K-Nearest Neighbors(KNN) 새로운 데이터 포인트와 가장 가까운 훈련 데이터셋의 데이터 포인트를 찾아 예측함. k값에 따라 가까운 이웃의 수가 결정됨. 분류와 회귀에 모두 사용 가능함. KNN 모델의 장단점 이해하기 쉬고 조정없이도 좋은 성능을 발휘함 많은 특성을 가진 데이터 세트와 특성 값 대부분이 0인 희소한 데이터 세트에는 잘 동작하지 않음 전처리 과정이 중요하고 잘 쓰이지 않음 거리를 측정하기 때문에 같은 scale을 같도록 정규화가 필요함 훈련 데이터 세트가 크면(특성, 샘플의 수) 예측이 느려짐 우선, 결정 경계에 대해 이해할 필요가 있다. 결정경계는 가져온 DATA S..