단어 임베딩이란 단어를 벡터로 표현하는 방법입니다.
- 희소 표현(Sparse Representation): 표현하고자 하는 단어의 인덱스 값만 1, 나머지는 0 (Ex. 창문 = [1, 0, 0])
- 밀집 표현(Dense Representation): 사용자가 설정한 값으로 단어의 벡터 차원 설정 (Ex. 창문 = [0.2, -1.1, 0.9])
단어 임베딩은 단어를 밀집 표현 형태로 표현합니다.
Word2Vec
- 분산표현(Distributed Representation)
- 비슷한 문맥에서 등장하는 단어는 비슷한 표현을 갖는다는 가정
- 단어의 의미를 여러 차원에 분산하여 표현
- 단어 벡터 간 유의미한 유사도 계산 가능
- CBOW(Continuous Bag of Words): 주변에 있는 단어들을 입력으로 중간에 있는 단어 예측
- Skip-gram: 중간에 있는 단어들을 입력으로 주변에 있는 단어 예측
- 실제값과 예측값에 대한 오차를 손실 함수를 통해 줄여나가며 학습
- 임베딩 벡터가 윈도우 크기 내에서만 주변 단어를 고려하기 때문에 코퍼스의 전체적인 통계 정보를 반영하지 못함
Glove(Global Vectors for Word Representation)
- 윈도우 기반 동시 등장 행렬
- 행과 열을 전체 단어 집합의 단어들로 구성
- i 단어의 윈도우 크기(Window Size) 내에서 k 단어가 등장한 횟수를 i행 k열에 기재한 행렬
'LLM' 카테고리의 다른 글
프롬프트 엔지니어링 (0) | 2024.02.09 |
---|---|
Attention (0) | 2024.01.22 |
평가지표 (0) | 2024.01.19 |
개념 (0) | 2024.01.17 |
LLM 평가지표 (0) | 2024.01.13 |