LLM 평가지표

평가지표	내용
추론능력 (ARC)	- ARC(AI2 Reasoning Challenge) - AI가 질문에 대한 답변이 얼마나 적절한지 측정 - 과학적 사고와 이해를 평가하기 위한 테스트 - 과학 문제를 해결하는 데 필요한 추론 능력 측정
상식능력 (HellaSwag)	- AI가 짧은 글 및 지시사항에 알맞은 문장을 생성하는지 측정 - 주어진 상황에서 가장 가능성 있는 다음 시나리오를 예측하는 능력 테스트
언어이해력 (MMLU)	- MMLU(Massive Multitask Language Understanding) - 다양한 분야의 질문에 대한 답변이 얼마나 정확한지 측정
환각방지능력 (TruthfulQA)	- AI가 생성한 답변이 얼마나 진실한지 측정
한국어상식생성능력 (KoCommonGEN V2)	- Korea-CommonGEN-V2 - AI가 주어진 조건의 질문에 대한 답변이 한국어 사용자라면 보유하고 있는 일반 상식에 부합하는지 측정

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바