- DPO(Directly Preference Optimization): 두 모델 간의 대답 분포도를 비교하여 사용자가 원하는 대답으로 분포를 맞추는 방법
- RLHF: 인간의 피드백을 사용하여 ML 모델을 최적화함으로써 자가 학습을 보다 효율적으로 수행하는 기계 학습
- Depth-Up scaling: LLM의 효율적인 확장을 위한 깊이 기반 스케일링과 지속적인 사전 훈련
- RAG(Retrieval Augmented Generation)
- PEFT(Parameter-Efficient Fine-Tuning): 효율적 파라미터 파인 튜닝
- Zero-shot learning: 모델이 학습 데이터셋에서 본 적 없는 완전히 새로운 카테고리나 작업에 대해 성능을 발휘하는 학습 방식
- Few-shot learning
- Training set, Support set, Query image 필요
- Training set로 구분하는 방법 학습
- Query image가 입력되면 Query image가 Support set 중 어떤 것과 같은 종류인지를 맞춤
- Query image가 어떤 클래스에 속하느냐의 문제를 푸는 것이 아니라 어떤 클래스와 같은 클래스인지 확인
- 유사성 학습
- k-way n-shot
- k-way: Support set의 클래스 개수
- n-shot: 각 클래스가 가진 sample의 개수
- k가 클수록 모델 정확도 감소, n이 클수록 모델의 정확도 상승
- Re-rank
- 벡터 데이터베이스에서 2k~3k 개의 문서를 가져옴
- 해당 문서를 NLI (natural language inference) 또는 rerank 를 위한 모델(주로 샴 네트워크로 학습된 모델)로 사용자 쿼리에 대해 re-rank
- rerank 된 상위 k 개의 문서를 LLM 에 컨텍스트로 전달해서 RAG 진행
평가 방법론
- 모델의 답변과 실제 사람(정답 데이터)의 평가가 유사한지 GPT에게 질문
주제
- 인사이동
- 위키 요약
출처
'LLM' 카테고리의 다른 글
Attention (0) | 2024.01.22 |
---|---|
Word Embedding (0) | 2024.01.20 |
평가지표 (0) | 2024.01.19 |
LLM 평가지표 (0) | 2024.01.13 |
LangChain (1) | 2024.01.13 |