일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- MVCmodel
- 국비지원
- 취업연계
- 스마트인재개발원
- 크롤링
- JSP/Servlet
- 백엔드
- 2차 실전프로젝트
- 1차프로젝트
- 취업성공패키지
- 머신러닝
- 2차프로젝트
- 활성화함수
- 손실함수
- gitclone
- 교차검증
- MSE
- 프로젝트
- KNN모델
- ERD
- springSTS
- intent
- 비스포크시네마
- randomForest
- 하이퍼파라미터튜닝
- 선형모델 분류
- 오픈소스깃허브사용
- 내일배움카드
- 안드로이드
- semantic_segmentation
- Today
- Total
목록교차검증 (2)
또자의 코딩교실
이번시간에는 과대적합을 막기위해 고안된 방법인 교차검증에 대해 알아보자. Cross Validation(CV)이란? 학습-평가 데이터 나누기를 여러 번 반복하여 일반화 에러를 평가하는 방법이다. K-fold cross-validation이란 Train data를 k번만큼 쪼개고 쪼개 얘네를 suffle 시켜서 여러개의 train data에서 임의로 짜집기한 가짜 test data로 정확도를 계산하는 과정을 k번 반복한 뒤, 최후의 test data로 최종 예측점수를 가져오는 방법으로 train data를 굉장히 낯설게 만드는 방법이다. K-fold cross-validation의 동작방법에 대해 알아보자. 데이터 셋을 k개로 나눈다. 첫 번째 세트를 제외하고 나머지에 대해 모델을 학습한다. 그리고 첫 번..
캐글은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 썸네일으로는 2022년에 새로운 타이타닉의 항해소식과... 침몰시켜 새로운 Dataset을 얻기 위해 눈독들이는 Kaggle Meme으로 골라봤다. 이번 포스팅은 상당히 길며, 머신러닝의 method에 따라 진행된다. 문제 정의 이번 포스팅에서는 실제 Kaggle 데이터인 타이타닉 데이터를 이요하여 머신러닝을 진행할 것이다. 사망여부를 예측하는 것이 최종 Label값이 되므로 결과값은 Yes, No 두가지 중 하나의 값이 된다. 이진분류문제(범주형 데이터)가 최종 예측값이 되게 된다. 사용하는 라이브러리는 다음과 같다. import sea..