[AI-언어] 언어를 인식(NLU)하는 방법은? - 토크나이징 / 인코딩 / 토큰 임베딩
언어를 기계가 인식할 수 있도록 형태로 바꾸려면 어떻게 해야 할까요? 인공신경망으로 분석할 데이터는 실수로 이루어진 벡터나 매트릭스 등 다차원의 실수 데이터, 즉 텐서(Tensor) 타입이어야 합니다. 언어의 경우도 텐서로 바꾸어 인식시킬 수 있습니다. 일반적으로 NLU는 Step1) 토크나이징 : 자연어 인풋을 분석의 단위 (어절/형태소/음절 등)으로 쪼개는 과정 Step2) 인코딩 : 토큰을 단어 사전을 이용해 One-hot-Encoding으로 바꾸는 과정 Step3) 토큰 임베딩 : One-hot-Encoding 벡터를 의미 있는 실수 벡터로 변환하는 과정 Step4) 모델 : 변환된 벡터를 이용해 수행하는 목적에 따라 딥러닝 모델을 통해 결과를 내는 과정 (감성분석 예시) "가게 건물은 별론데 맛..
Data Science&AI
2023. 2. 13. 14:10
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- amazon Q
- 영어공부
- amzaon quicksight
- SQLD
- SQLD자격증
- 생성형BI
- 모델 배포
- SQLD 정리
- 추천시스템
- On-premise BI vs Cloud BI
- Data Drift Detection
- Model Drift
- NHITS설명
- 모델 드리프트 대응법
- Tableau vs QuickSight
- pandas-ai
- 모델 드리프트
- AutoEncoder
- 데이터 드리프트
- Concept Drift
- 최신시계열
- 시계열딥러닝
- 영화 인턴
- Data Drift와 Concept Drift 차이
- 오토인코더
- 비즈니스 관점 AI
- Generative BI
- pandas-gpt
- data drift
- Model Drift Detection
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함