본문 바로가기 메뉴 바로가기

MiMi's Self-development Blog

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

MiMi's Self-development Blog

검색하기 폼
  • 분류 전체보기 (101)
    • Data Science&AI (39)
    • Data Engineering (8)
    • 독서 (6)
    • 영어 (28)
    • 경제 & 시사 (20)
  • 방명록

워드임베딩 (1)
[AI-언어] 언어를 인식(NLU)하는 방법은? - 토크나이징 / 인코딩 / 토큰 임베딩

언어를 기계가 인식할 수 있도록 형태로 바꾸려면 어떻게 해야 할까요? 인공신경망으로 분석할 데이터는 실수로 이루어진 벡터나 매트릭스 등 다차원의 실수 데이터, 즉 텐서(Tensor) 타입이어야 합니다. 언어의 경우도 텐서로 바꾸어 인식시킬 수 있습니다. 일반적으로 NLU는 Step1) 토크나이징 : 자연어 인풋을 분석의 단위 (어절/형태소/음절 등)으로 쪼개는 과정 Step2) 인코딩 : 토큰을 단어 사전을 이용해 One-hot-Encoding으로 바꾸는 과정 Step3) 토큰 임베딩 : One-hot-Encoding 벡터를 의미 있는 실수 벡터로 변환하는 과정 Step4) 모델 : 변환된 벡터를 이용해 수행하는 목적에 따라 딥러닝 모델을 통해 결과를 내는 과정 (감성분석 예시) "가게 건물은 별론데 맛..

Data Science&AI 2023. 2. 13. 14:10
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • Tableau vs QuickSight
  • Model Drift Detection
  • 생성형BI
  • data drift
  • 비즈니스 관점 AI
  • NHITS설명
  • Data Drift와 Concept Drift 차이
  • SQLD
  • 모델 드리프트
  • amazon Q
  • Data Drift Detection
  • amzaon quicksight
  • pandas-ai
  • Model Drift
  • 추천시스템
  • 데이터 드리프트
  • 시계열딥러닝
  • Generative BI
  • 영어공부
  • SQLD자격증
  • On-premise BI vs Cloud BI
  • Concept Drift
  • 오토인코더
  • 최신시계열
  • SQLD 정리
  • AutoEncoder
  • 영화 인턴
  • 모델 드리프트 대응법
  • 모델 배포
  • pandas-gpt
more
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바