🟩 Bias & Variance 정의 ◼ Bias : 모델의 복잡도에 따라 발생하는 모델의 error ◼ Variance : 학습 데이터의 변경에 따라 발생하는 모델의 error간 편차 ◼ Low Bias : 중심주변에 위치, Low Variance : 중심과 상관없이 비슷한 값을 냄 🟩 Bias & Variance Trade off ◼ Total Error = Bias + Variance ◼ Bias값이 커지면 Variance가 작아지고, Bias값이 작으면 Variance가 커진다. ◼ 이 관계를 인지하고 Test Error를 최소화하는 모델 복잡도를 찾아야 함 ◼ 성능이 우수한 모델은 Signal(Unseen data 예측에 필요)에 민감하고 Noise에 둔감한 모델 ◼ Overfitting Mod..
🟩 오토인코더(AutoEncoder)란 무엇인가? ◼ 오토인코더를 이용하면 데이터에 대한 Labeling을 하지 않아도 데이터의 주성분이 되는 입력 데이터의 특징들을 학습할 수 있다. ◼ 레이블 되어 있지 않은 훈련 데이터를 사용해서 효율적인 표현인 coding을 학습할 수 있는 인공 신경망 ✔ coding(코딩) : 일반적인 부호화, 입력데이터보다 훨씬 낮은 차원을 가진 은닉층 ✔ 입력이 곧 타겟이 되는 자기지도 학습(self-supervised learning)이라고도 부름 ◼ 오토인코더의 학습 목표는 Output을 가능한 Input에 근사 시키는 것이다. ◼ 이상 감지 시 정상 데이터를 학습하여 이상 데이터가 들어올 때 발생되는 오차에 따라 이상 패턴을 감지한다. 🟩 오토인코더(AutoEncoder..
보호되어 있는 글입니다.
보호되어 있는 글입니다.
이미지 데이터나 자연어 데이터 및 정형 데이터로 예측 또는 분류 문제를 해결하고자 할 때, 머신러닝과 딥러닝을 동시에 적용하여 성능이 좋은 모델을 선정하기 마련이다. 딥러닝이 좀 더 복잡한 모델이라, 무조건 성능이 잘 나올거 같지만, 그렇지 않은 경우가 많다. 과연 머신러닝 보다 딥러닝이 성능이 좋을 때는 언제일까? 당연한 답변일 수 있지만... (1) 분석하고자 하는 데이터나 학습 데이터가 고차원 데이터(high dimensional data)인 경우 (2) 고차원 데이터를 잘 표현하기 위해서 고차원 Feature가 필요한 경우 에 딥러닝이 훨씬 성능이 좋다. 딥러닝 모델은 hidden layer를 거칠 수록 고차원 데이터의 잠재적 Feature를 잘 포착할 수 있고, 이를 통해 고도로 추상화된 표현(..
딥러닝 학습 시 DNN 모델의 Training Loss 결과가 기대성능보다 높고, Validation Loss 역시 높을 경우, Underfitting이 발생한다고 할 수 있다. 이러한 경우 어떻게 아키텍처를 수정하는 게 좋을까? 중요 포인트는 네트워크의 Capacity를 올리는 것! 이다 FNN(Feedforward Neural Network)을 사용한 경우, (1) Epoch 수를 늘린다 (2) DropOut 적용 확률을 줄인다 (3) 레이어 당 노드 수를 늘린다 CNN(Convolutional Neural Network)을 사용한 경우 (1) Convolution 커널 수를 늘린다 (2) Convolution 레이어 수를 늘린다 (3) L2-Regularization term λ를 줄인다
** 데이터 분석 시 활용할 만한 데이터셋 모음 ** 데이터 분석 연습을 위한 공모전 데이터와 실전 분석에서 Feature로 활용할 수 있는 공개 데이터에 대한 사이트 목록입니다. [공모전 데이터] 이름 링크 설명 Kaggle https://www.kaggle.com/ 전세계 다양한 분야의 데이터셋 (2017 구글이 인수) DACON https://dacon.io/ 공공분야 및 한국 기업의 시각화 / 예측 / AI 경진대회 데이터셋 COMPAS https://compas.lh.or.kr/ 시도별 도시문제 해결을 위한 데이터셋 [각 분야 공개 데이터] 구분 이름 링크 설명 전체 공공데이터 포털 https://www.data.go.kr/ 공공행정, 과학기술, 교통물류, 국토관리, 농축수산, 문화관광, 사회복..
- Total
- Today
- Yesterday
- 최신시계열
- 영화 인턴
- amzaon quicksight
- Generative BI
- data drift
- Model Drift
- 생성형BI
- On-premise BI vs Cloud BI
- AutoEncoder
- 비즈니스 관점 AI
- 모델 드리프트
- 모델 배포
- pandas-gpt
- 모델 드리프트 대응법
- Model Drift Detection
- amazon Q
- Tableau vs QuickSight
- SQLD 정리
- pandas-ai
- 오토인코더
- 데이터 드리프트
- 영어공부
- SQLD자격증
- 시계열딥러닝
- Data Drift와 Concept Drift 차이
- Concept Drift
- SQLD
- NHITS설명
- Data Drift Detection
- 추천시스템
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |