일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 국비지원
- 스마트인재개발원
- 오픈소스깃허브사용
- springSTS
- 1차프로젝트
- 크롤링
- gitclone
- 취업연계
- MVCmodel
- 하이퍼파라미터튜닝
- 2차 실전프로젝트
- KNN모델
- semantic_segmentation
- MSE
- randomForest
- ERD
- 안드로이드
- 내일배움카드
- 선형모델 분류
- 2차프로젝트
- JSP/Servlet
- 머신러닝
- 교차검증
- 백엔드
- 프로젝트
- 비스포크시네마
- 취업성공패키지
- 손실함수
- intent
- 활성화함수
- Today
- Total
목록머신러닝 (8)
또자의 코딩교실

이번 포스팅에서 다루는 모델들 Random forest Ada Boosting Gradient Boosting Machine XGBoost(lightGBM) Random Forest 과대적합을 이용해서 Bagging을 활용해 진행되는 머신러닝모델 작동방식 Random Sampling을 진행하여 서로 다른 방향으로 과대적합된 트리를 많이 만들고 평균을 내어 일반화 시킴. 각각의 변조된 데이터들을 다 만들고 모델에 돌려버린뒤 다수결로 밀어버리는 방식으로 최종 라벨값을 뽑아내는 모델 수정 가능한 Parameter들은 기존 Decision Tree 모델들과 동일하다 과대적합(Overfitting)문제를 회피하며 모델 정확도를 향상시키려고 개발되었음 장점 단점 - 실제값에 대한 추정값 오차 평균화 - 과대적합 감..

이번 포스팅에서는 머신러닝에 있어 정확도를 올리기 위한 앙상블모델들에 대해 알아보자. Ensemble Model = 여러 머신러닝 모델을 연결하여 더 강한 모델을 만드는 기법. =Voting, Stacking, Bagging, Boosting의 방법으로 동작한다. 우선 앙상블 모델이 동작하는 대표적인 방법 4개에 대하여 알아보자. Voting - 서로 다른 여러개의 학습 모델을 사용하여 평과 결과를 투표하는 방식. - Hard Voting과 Soft Voting의 두가지 방식이 있다. 1. Harding Voting = 여러개의 Sample data에서 나온 예측 결과 값 중 다수결으로 훨씬 표가 많은 값을 최종 예측값으로 결정한다. 2. Soft Voting = Sample data에서 나온 예측 결과..

이번 포스팅에서는 iris데이터를 이용한 knn 분류문제를 실습코드와 함께 알아보자. 아아! iris머신러닝의 향기로운 붓꽃향이란! 무려 1988년에 수집된 이 데이터는 많은 머신러닝 입문자들에게 필수로 거쳐가는 코스일만큼 머신러닝을 실습하기에 사용되는 가장 흔한 데이터이다. 따라서 sklearn library에서 import를 통해 불러올 수 있다. iris데이터를 이용한 KNN분류 실습에서는 꽃들의 Sepal, Petal등의 세부적인 개체의 속성들을 통해 3개~ 4개 여개 중의 붓꽃의 품종(species)를 맞추는 다중 분류의 문제이다. 0 : setosa 품종 1 : versicolor 품종 2 : virginica 품종 iris 데이터에는 약 150여개의 data가 존재한다. 지금부터 파이썬 코드..

하이퍼파라미터와 파라미터의 차이점을 알아봅시다. 야매지만 제가 사용하는 하이퍼파라미터 찾는 법도 기록합니다. Parameter : 파라미터는 데이터를 통해 구해지며 모델 내부적으로 결정되는 값. 사용자에 의해 조정되지 않음. Hyper-Parameter : 사용자가 직접 설정하면 하이퍼 파라미터, 모델 혹은 데이터에 의해 결정되면 파라미터 하이퍼 파라미터 튜닝(Hyper Parameter Tunning)은 KNN 모델의 경우, X1의 갯수만큼 k를 돌리는 반복문을 쓰는 방식으로 하이퍼 파라미터 튜닝을 진행한다. KNN 모델 설정시 세부적으로 설정해 줄 수 있는 변수인 이웃(n_neighbor)의 수를 X1 train data의 전체범위로 하여 이웃의 수가 얼마일때 가장 정확도가 높은지 검증하는 방식으로 ..

피어슨 상관계수란? 칼 피어슨(Karl Pearson)이 개발한 상관계수로 -1~+1 범위 내의 수이다. 적률상관계수(product-moment correlation coefficient)라고도 함 일반적으로 상관계수라고 하면 피어슨 상관계수를 말한다. 피어슨 상관계수를 해석하는 법 = 1에 가까울수록 상관도는 비례하고 -1에 가까울수록 반비례한다. = 각 데이터가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일하면 -1의 값을 갖는다. 계수의 부호는 관계의 방향을 나타낸다. 두 변수가 함께 증가하거나 감소하는 경향(비례) 이 있으면 계수가 양수이며, 대체적으로 y=x의 그래프를 띄게 될 것이고, 한 변수가 증가할 때 다른 변수는 감소하는 경향(반비례)이 있으면 계수는 음수이며, 대체적..

캐글은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 썸네일으로는 2022년에 새로운 타이타닉의 항해소식과... 침몰시켜 새로운 Dataset을 얻기 위해 눈독들이는 Kaggle Meme으로 골라봤다. 이번 포스팅은 상당히 길며, 머신러닝의 method에 따라 진행된다. 문제 정의 이번 포스팅에서는 실제 Kaggle 데이터인 타이타닉 데이터를 이요하여 머신러닝을 진행할 것이다. 사망여부를 예측하는 것이 최종 Label값이 되므로 결과값은 Yes, No 두가지 중 하나의 값이 된다. 이진분류문제(범주형 데이터)가 최종 예측값이 되게 된다. 사용하는 라이브러리는 다음과 같다. import sea..

이번 포스팅에서는 분류와 회귀에 모두 사용가능한 머신러닝의 모델인 K-최근접 이웃 알고리즘에 대해 알아보자. K-Nearest Neighbors(KNN) 새로운 데이터 포인트와 가장 가까운 훈련 데이터셋의 데이터 포인트를 찾아 예측함. k값에 따라 가까운 이웃의 수가 결정됨. 분류와 회귀에 모두 사용 가능함. KNN 모델의 장단점 이해하기 쉬고 조정없이도 좋은 성능을 발휘함 많은 특성을 가진 데이터 세트와 특성 값 대부분이 0인 희소한 데이터 세트에는 잘 동작하지 않음 전처리 과정이 중요하고 잘 쓰이지 않음 거리를 측정하기 때문에 같은 scale을 같도록 정규화가 필요함 훈련 데이터 세트가 크면(특성, 샘플의 수) 예측이 느려짐 우선, 결정 경계에 대해 이해할 필요가 있다. 결정경계는 가져온 DATA S..

Machine Learning이란? 머신러닝은 당신이 4차 산업혁명시대를 살면서 한번쯤은 뉴키워드로 들어보았을 법한 단어일 것이다. 머신러닝을 기반으로 컴퓨터는 판단능력과 추론능력을 가지게 되며, 학습을 통해 진화하여 새로운 것을 만드는 창의력을 함양할 수 있는 가능성이 열리게 된 것이다. 이런 식으로 머신러닝과 딥러닝을 기반으로 하여 만들어지는 인공지능들에는 총 3가지의 분류가 존재한다. Weak AI - 학습을 통해 문제를 해결한다. - 주어진 조건 아래서만 작동하여 사람을 흉내 내는 수준에 그친다. - ex) 구글 알파고, 시리, 자율자동차, 구글 번역 등 Strong AI - 사고를 통해 문제를 해결한다. - 사람과 비슷한 지능을 가지고 추론, 문제해결, 계획, 의사소통 등이 가능하다. Super..