LLM 평가지표
·
LLM
평가지표 내용 추론능력 (ARC) - ARC(AI2 Reasoning Challenge) - AI가 질문에 대한 답변이 얼마나 적절한지 측정 - 과학적 사고와 이해를 평가하기 위한 테스트 - 과학 문제를 해결하는 데 필요한 추론 능력 측정 상식능력 (HellaSwag) - AI가 짧은 글 및 지시사항에 알맞은 문장을 생성하는지 측정 - 주어진 상황에서 가장 가능성 있는 다음 시나리오를 예측하는 능력 테스트 언어이해력 (MMLU) - MMLU(Massive Multitask Language Understanding) - 다양한 분야의 질문에 대한 답변이 얼마나 정확한지 측정 환각방지능력 (TruthfulQA) - AI가 생성한 답변이 얼마나 진실한지 측정 한국어상식생성능력 (KoCommonGEN V2) -..