LLM

Word Embedding

봄프로 2024. 1. 20. 22:30

단어 임베딩이란 단어를 벡터로 표현하는 방법입니다.

 

  1. 희소 표현(Sparse Representation): 표현하고자 하는 단어의 인덱스 값만 1, 나머지는 0 (Ex. 창문 = [1, 0, 0]) 
  2. 밀집 표현(Dense Representation): 사용자가 설정한 값으로 단어의 벡터 차원 설정 (Ex. 창문 = [0.2, -1.1, 0.9])

 

단어 임베딩은 단어를 밀집 표현 형태로 표현합니다.

 

Word2Vec

  1. 분산표현(Distributed Representation)
    • 비슷한 문맥에서 등장하는 단어는 비슷한 표현을 갖는다는 가정
    • 단어의 의미를 여러 차원에 분산하여 표현
    • 단어 벡터 간 유의미한 유사도 계산 가능
  2. CBOW(Continuous Bag of Words): 주변에 있는 단어들을 입력으로 중간에 있는 단어 예측
  3. Skip-gram: 중간에 있는 단어들을 입력으로 주변에 있는 단어 예측
  4. 실제값과 예측값에 대한 오차를 손실 함수를 통해 줄여나가며 학습
  5. 임베딩 벡터가 윈도우 크기 내에서만 주변 단어를 고려하기 때문에 코퍼스의 전체적인 통계 정보를 반영하지 못함

 

Glove(Global Vectors for Word Representation)

  1. 윈도우 기반 동시 등장 행렬
    • 행과 열을 전체 단어 집합의 단어들로 구성
    • i 단어의 윈도우 크기(Window Size) 내에서 k 단어가 등장한 횟수를 i행 k열에 기재한 행렬