평가지표 | 내용 |
추론능력 (ARC) |
- ARC(AI2 Reasoning Challenge) - AI가 질문에 대한 답변이 얼마나 적절한지 측정 - 과학적 사고와 이해를 평가하기 위한 테스트 - 과학 문제를 해결하는 데 필요한 추론 능력 측정 |
상식능력 (HellaSwag) |
- AI가 짧은 글 및 지시사항에 알맞은 문장을 생성하는지 측정 - 주어진 상황에서 가장 가능성 있는 다음 시나리오를 예측하는 능력 테스트 |
언어이해력 (MMLU) |
- MMLU(Massive Multitask Language Understanding) - 다양한 분야의 질문에 대한 답변이 얼마나 정확한지 측정 |
환각방지능력 (TruthfulQA) |
- AI가 생성한 답변이 얼마나 진실한지 측정 |
한국어상식생성능력 (KoCommonGEN V2) |
- Korea-CommonGEN-V2 - AI가 주어진 조건의 질문에 대한 답변이 한국어 사용자라면 보유하고 있는 일반 상식에 부합하는지 측정 |
'LLM' 카테고리의 다른 글
Attention (0) | 2024.01.22 |
---|---|
Word Embedding (0) | 2024.01.20 |
평가지표 (0) | 2024.01.19 |
개념 (0) | 2024.01.17 |
LangChain (1) | 2024.01.13 |