언어를 기계가 인식할 수 있도록 형태로 바꾸려면 어떻게 해야 할까요? 인공신경망으로 분석할 데이터는 실수로 이루어진 벡터나 매트릭스 등 다차원의 실수 데이터, 즉 텐서(Tensor) 타입이어야 합니다. 언어의 경우도 텐서로 바꾸어 인식시킬 수 있습니다. 일반적으로 NLU는 Step1) 토크나이징 : 자연어 인풋을 분석의 단위 (어절/형태소/음절 등)으로 쪼개는 과정 Step2) 인코딩 : 토큰을 단어 사전을 이용해 One-hot-Encoding으로 바꾸는 과정 Step3) 토큰 임베딩 : One-hot-Encoding 벡터를 의미 있는 실수 벡터로 변환하는 과정 Step4) 모델 : 변환된 벡터를 이용해 수행하는 목적에 따라 딥러닝 모델을 통해 결과를 내는 과정 (감성분석 예시) "가게 건물은 별론데 맛..
추천시스템 한계 1. Scalability - 실제 서비스 상황은 다양한 종류의 데이터가 필요 - 학습 또는 분석에 사용한 데이터와는 전혀 다른 실전 데이터가 필요 2. Proactive Recommender System - 특별한 요청이 없어도 사전에 먼저 제공하는 추천서비스 - 모바일, 인터넷 등 어디서든 유저에게 끊임없이 좋은 정보를 추천할 수 있는 서비스 3. Cold-Start Problem - 추천서비스를 위한 데이터 부족 - 기본적인 성능을 보장하는 협업필터링 모델 구축이 쉽지 않은 것이 일반적 - 컨텐츠 기반 또는 지식 기반의 역시 서비스로 적용하기 어려움 4. Privacy preserving Recommender System - 개인정보 등 유저 정보가 가장 중요하지만, 직접적으로 사용..
성능이 좋다고 해서 꼭 좋은 추천을 하는 것은 아니지만, 추천 시스템의 정합성을 알 수 있는 대표적인 평가지표에 대해서 알아보고자 합니다. 평점 예측에 사용되는 평가지표 ⬛ RMSE(Root Mean Squre Error) 평점 등 예측 문제의 추천 성능을 평가할 때 사용하는 지표 관측값과 실제값 사이의 오차(잔차)의 제곱을 산술평균한 값의 제곱근 RMSE가 낮을수록 추천 알고리즘의 성능이 더 좋다고 정량적으로 평가 가능하다. 랭킹 추천에 사용되는 평가지표 ⬛ NDCG(Normalized Discounted Cumluative Gain) 랭킹 추천에 많이 사용되는 평가 지표로, 정보 검색에서 많이 사용했던 지표 검색엔진, 영상, 음악 등 컨텐츠 랭킹 추천에서 주요 평가지표로 활용 Top-N 랭킹 리스트를..
추천 시스템의 구조 추천 시스템의 전체적인 구조는 후보를 생성하는 단계와 랭킹을 매기는 단계로 구분된다. ⬛ 후보 생성하는 단계 수백만개의 아이템 중 사용자의 활동 기록을 기반으로 후보가 될 만한 수백 여개의 아이템으로 선정하는 단계이다. 이러한 후보는 일반적으로 높은 정밀도로 사용자와 관련이 있고 협업 필터링(사용자간의 유사성)을 통해서만 광범위한 개인화를 제공한다. 리스트에서 최상의 리스트를 제시하기 위해서는 recall이 높은 후보 간의 상대적 중요성을 구분하기 위해 세밀한 수준의 표현이 필요하다. ⬛ 랭킹을 매기는 단계 아이템과 사용자를 설명하는 Feature을 사용하여 원하는 목적 함수에 따라 각 아이템에 점수를 할당하여 가장 높은 점수를 받은 아이템이 점수에 따라 순위가 매겨져 사용자에게 표시..
추천 시스템 이란? ⬛ 등장배경 인터넷의 폭발적인 성장과 정보의 다양화로 인터넷에서 찾을 수 있는 정보가 많아졌고, 인터넷 관련 비즈니스(e-Business, e-Commerce)가 활성화되면서 사용자가 인터넷 공간에서 정보를 찾고 적절한 결정을 내리기 어려운 실정이 되었다. ▶ 사용자가 정보를 수집하고 찾는 시간을 줄여주는 것이 목적! ⬛ 추천시스템 정의 사용자(user)와 상품(Item)으로 구성된 시스템으로, Item 또는 User가 관심 갖을만한 정보를 추천한다. 특정 사용자(User)가 좋아할 상품(Item)을 추천하거나, 비슷한 상품(Item)을 좋아할 사용자(User)를 추천한다. Push Information으로 사용자가 요구하기 전 작동하며, 사용자 스스로 원하는 바를 정확히 알지 못한다..
보호되어 있는 글입니다.
1. What do you have in mind? (더 알고 싶을 때) 어떤 걸 생각하고 있는데? 2. How did she take it? (반응을 물어보며) 그 상황/말을 어떻게 받아들였어? 3. Things are looking up.잘 돼가고 있어 / 상황이 나아지고 있어. 1. What do you have in mind? ◼️This is not what I had in mind (특히 계획이나 생각했던 것과 다르게 상황이 전개될 때) 내가 생각했던 건 이런게 아닌데 ◼️What do you have in mind? (특히 brainstorm할 때, 상대의 계획이나 생각을 더 알고 싶을 때) 어떤 걸 생각하고 있는데? 💡have in mind : ~을 염두에 두다, ~을 생각하고 계획하다 🌿..
Google Cloud AI에서 2020년 발표한 논문이 TabNet에 대해서 소개 하겠습니다. TabNet은 다양한 Tabular 데이터셋에서 높은 성능을 보이고 해석 가능한 알고리즘입니다. 캐글 MOA(Mechanisms of Action Prediction) 대회의 baseline 모델이며, 우승 알고리즘에도 활용되었습니다. (900여개 특성, 5000여개 샘플로 200개 Action 예측하는 multi-label classification 문제) Google ML Platform인 Vertex AI에 탑재되어 GCP 내에서 즉시 사용 가능합니다. 그럼 논문에 실린 내용을 살펴보겠습니다. Abstract tabular 형식 데이터에 대해 고성능과 해석 가능한 딥러닝 아키텍쳐를 제안 각 decisio..
- Total
- Today
- Yesterday
- 비즈니스 관점 AI
- data drift
- Model Drift
- SQLD자격증
- 영화 인턴
- Concept Drift
- amazon Q
- 영어공부
- pandas-ai
- 오토인코더
- NHITS설명
- 모델 드리프트 대응법
- 최신시계열
- 모델 드리프트
- On-premise BI vs Cloud BI
- 데이터 드리프트
- pandas-gpt
- 추천시스템
- AutoEncoder
- Generative BI
- SQLD
- Data Drift와 Concept Drift 차이
- 생성형BI
- Data Drift Detection
- SQLD 정리
- Model Drift Detection
- 시계열딥러닝
- amzaon quicksight
- 모델 배포
- Tableau vs QuickSight
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |