일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 오픈소스깃허브사용
- 교차검증
- randomForest
- MVCmodel
- 백엔드
- 크롤링
- semantic_segmentation
- 2차 실전프로젝트
- 2차프로젝트
- 프로젝트
- intent
- 손실함수
- JSP/Servlet
- 안드로이드
- 국비지원
- 내일배움카드
- 취업성공패키지
- gitclone
- 머신러닝
- 취업연계
- 스마트인재개발원
- springSTS
- ERD
- 활성화함수
- 비스포크시네마
- MSE
- 선형모델 분류
- KNN모델
- 1차프로젝트
- 하이퍼파라미터튜닝
- Today
- Total
목록코딩공부 (67)
또자의 코딩교실
딥러닝이란? = 사람의 신경망을 모방하여 기계가 병렬적 다층 구조를 통해 학습하도록 만든 기술 기계도 사람처럼 생각하게 하기 위해 뉴런을 만들어 생각하게 해보자는 것이 제일 이해하기 쉽게 딥러닝을 설명할 수 있는 방법입니다. 딥러닝은 컴퓨터가 많은 뉴런(선형모델, 즉 퍼셉트론)의 결과를 종합하여 판단을 하는 모델입니다. 딥러닝은 많은 선형모델들이 모여서 구성하고 있습니다. 많은 선형모델은 많은 생각의 가짓수를 뜻합니다. 선형 모델 하나하나 각각은 y=wx+b의 식을 가지는 선형모델이며 각 각 선형모델마다 판단한 결과를 출력합니다. 딥러닝의 특징 - 모델을 사용자가 직접 설계하며 설계하기위해 많은 코드가 필요함 - 처음 사용하는 가중치를 랜덤하게 배정하기 때문에 재시작할때마다 최종 결과값또한 여러번 실행할..
선형모델 : 데이터를 선형 함수로 구분하는 모델. 학습에서 나온 선형함수로 새로운 데이터를 예측함 ✅ 작동방식 입력 특성에 대한 선형 함수를 만들어 예측을 수행함 선형모델은 분류와 회귀문제 모두 해결 가능함 - 분류 : 정답으로 사용할 수 있는 label이 정해져 있음. (=정해진 정답의 종류 중에서 하나를 예측) - 회귀 : 정답으로 사용할 수 있는 label이 정해져 있지 않음. (=정답으로 삼을 수 있는 종류가 엄청나게 많으며 주로 숫자를 예측함.) ✅ 장단점 결과 예측(추론)속도가 빠르다. 대용량 데이터에도 충분히 활용 가능하다. 특성이 많은 데이터 세트라면 훌륭한 성능을 낼 수 있다. 특성이 적은 저 차원 데이터에서는 다른 모델의 일반화 성능이 더 좋을 수 있다. >> 특성확장 필요 과대적합되기..
이번 포스팅에서 다루는 모델들 Random forest Ada Boosting Gradient Boosting Machine XGBoost(lightGBM) Random Forest 과대적합을 이용해서 Bagging을 활용해 진행되는 머신러닝모델 작동방식 Random Sampling을 진행하여 서로 다른 방향으로 과대적합된 트리를 많이 만들고 평균을 내어 일반화 시킴. 각각의 변조된 데이터들을 다 만들고 모델에 돌려버린뒤 다수결로 밀어버리는 방식으로 최종 라벨값을 뽑아내는 모델 수정 가능한 Parameter들은 기존 Decision Tree 모델들과 동일하다 과대적합(Overfitting)문제를 회피하며 모델 정확도를 향상시키려고 개발되었음 장점 단점 - 실제값에 대한 추정값 오차 평균화 - 과대적합 감..
이번 포스팅에서는 머신러닝에 있어 정확도를 올리기 위한 앙상블모델들에 대해 알아보자. Ensemble Model = 여러 머신러닝 모델을 연결하여 더 강한 모델을 만드는 기법. =Voting, Stacking, Bagging, Boosting의 방법으로 동작한다. 우선 앙상블 모델이 동작하는 대표적인 방법 4개에 대하여 알아보자. Voting - 서로 다른 여러개의 학습 모델을 사용하여 평과 결과를 투표하는 방식. - Hard Voting과 Soft Voting의 두가지 방식이 있다. 1. Harding Voting = 여러개의 Sample data에서 나온 예측 결과 값 중 다수결으로 훨씬 표가 많은 값을 최종 예측값으로 결정한다. 2. Soft Voting = Sample data에서 나온 예측 결과..
이번시간에는 컬럼데이터의 분포를 정규분포로 만드는 작업인 정규화(Normaliztion)에 대해 알아보자. 대충 저런 그래프를 저런 정규화된 정규분포표 곡선을 닮게 만들도록 갱생시키는 과정이라 생각하면 제일 이해가 빠르다. 정규화(Normalization) 하는 목적은? 데이터는 정규분포를 따라가는 경향이 있고 중앙 표준편차에 맞춰서 정규화를 시키려는 목적에 따라 정규분포값에 맞춰 데이터를 조정하는 것이다. 통계학에 기반하여 정규분포형태의 데이터라면 성능이 좋아지는 경향이 있다. 방법은? 머신러닝 회귀모델을 사용하여 값을 예측해 데이터를 조정하고 정규화 과정에 log함수를 사용한다. 왜 log함수를 사용하는가? : 정규분포로 만들어주는 작업등은 로그함수 말고도 루트를 씌워서 변환하기도 하나 대표적으로 로..
이번시간에는 과대적합을 막기위해 고안된 방법인 교차검증에 대해 알아보자. Cross Validation(CV)이란? 학습-평가 데이터 나누기를 여러 번 반복하여 일반화 에러를 평가하는 방법이다. K-fold cross-validation이란 Train data를 k번만큼 쪼개고 쪼개 얘네를 suffle 시켜서 여러개의 train data에서 임의로 짜집기한 가짜 test data로 정확도를 계산하는 과정을 k번 반복한 뒤, 최후의 test data로 최종 예측점수를 가져오는 방법으로 train data를 굉장히 낯설게 만드는 방법이다. K-fold cross-validation의 동작방법에 대해 알아보자. 데이터 셋을 k개로 나눈다. 첫 번째 세트를 제외하고 나머지에 대해 모델을 학습한다. 그리고 첫 번..
Decision Tree Model이란? = 컴퓨터가 혼자 질문과 답을 진행하는 스무고개. = 질문에 따라 예/아니오로 답하며 데이터를 나누며 나눠지지 않을 때 까지 나누는 과정을 반복하여 학습하는 모델. 분류와 회귀에 모두 사용가능하다. 새로운 데이터가 들어오면 해당하는 범주를 찾아 분류라면 더 많은 클래스를 선택하고, 회귀라면 평균을 구하는 방식으로 작동한다. 특성중요도를 계산하여 어떤 특성이 분류를 가장 효율적으로 수행하는지 계산하여 제공할 수 있다. Decision Tree Model은 어떤식으로 모델이 학습을 진행했는지 시각화 하여 display하기 좋지만, 질문에 따라 데이터를 흑/백으로 일일히 나누려하는 기본적인 작동방식때문에 질문들이 많아질수록 train data에 대해 세세한 공부를 해버..
이번 포스팅에서는 iris데이터를 이용한 knn 분류문제를 실습코드와 함께 알아보자. 아아! iris머신러닝의 향기로운 붓꽃향이란! 무려 1988년에 수집된 이 데이터는 많은 머신러닝 입문자들에게 필수로 거쳐가는 코스일만큼 머신러닝을 실습하기에 사용되는 가장 흔한 데이터이다. 따라서 sklearn library에서 import를 통해 불러올 수 있다. iris데이터를 이용한 KNN분류 실습에서는 꽃들의 Sepal, Petal등의 세부적인 개체의 속성들을 통해 3개~ 4개 여개 중의 붓꽃의 품종(species)를 맞추는 다중 분류의 문제이다. 0 : setosa 품종 1 : versicolor 품종 2 : virginica 품종 iris 데이터에는 약 150여개의 data가 존재한다. 지금부터 파이썬 코드..