개념

LLM

개념

봄프로 2024. 1. 17. 09:39

DPO(Directly Preference Optimization): 두 모델 간의 대답 분포도를 비교하여 사용자가 원하는 대답으로 분포를 맞추는 방법
RLHF: 인간의 피드백을 사용하여 ML 모델을 최적화함으로써 자가 학습을 보다 효율적으로 수행하는 기계 학습
Depth-Up scaling: LLM의 효율적인 확장을 위한 깊이 기반 스케일링과 지속적인 사전 훈련
RAG(Retrieval Augmented Generation)
PEFT(Parameter-Efficient Fine-Tuning): 효율적 파라미터 파인 튜닝
Zero-shot learning: 모델이 학습 데이터셋에서 본 적 없는 완전히 새로운 카테고리나 작업에 대해 성능을 발휘하는 학습 방식
Few-shot learning
- Training set, Support set, Query image 필요
- Training set로 구분하는 방법 학습
- Query image가 입력되면 Query image가 Support set 중 어떤 것과 같은 종류인지를 맞춤
- Query image가 어떤 클래스에 속하느냐의 문제를 푸는 것이 아니라 어떤 클래스와 같은 클래스인지 확인
- 유사성 학습
k-way n-shot
- k-way: Support set의 클래스 개수
- n-shot: 각 클래스가 가진 sample의 개수
- k가 클수록 모델 정확도 감소, n이 클수록 모델의 정확도 상승
Re-rank
- 벡터 데이터베이스에서 2k~3k 개의 문서를 가져옴
- 해당 문서를 NLI (natural language inference) 또는 rerank 를 위한 모델(주로 샴 네트워크로 학습된 모델)로 사용자 쿼리에 대해 re-rank
- rerank 된 상위 k 개의 문서를 LLM 에 컨텍스트로 전달해서 RAG 진행

평가 방법론

모델의 답변과 실제 사람(정답 데이터)의 평가가 유사한지 GPT에게 질문

주제

인사이동
위키 요약

출처