LLM 평가지표

2024. 1. 13. 22:11·LLM

 

평가지표 내용
추론능력
(ARC)
- ARC(AI2 Reasoning Challenge)
- AI가 질문에 대한 답변이 얼마나 적절한지 측정
- 과학적 사고와 이해를 평가하기 위한 테스트
- 과학 문제를 해결하는 데 필요한 추론 능력 측정
상식능력
(HellaSwag)
- AI가 짧은 글 및 지시사항에 알맞은 문장을 생성하는지 측정
- 주어진 상황에서 가장 가능성 있는 다음 시나리오를 예측하는 능력 테스트
언어이해력
(MMLU)
- MMLU(Massive Multitask Language Understanding)
- 다양한 분야의 질문에 대한 답변이 얼마나 정확한지 측정
환각방지능력
(TruthfulQA)
- AI가 생성한 답변이 얼마나 진실한지 측정
한국어상식생성능력
(KoCommonGEN V2)
- Korea-CommonGEN-V2
- AI가 주어진 조건의 질문에 대한 답변이 한국어 사용자라면 보유하고 있는 일반 상식에 부합하는지 측정

 

'LLM' 카테고리의 다른 글

Attention  (0) 2024.01.22
Word Embedding  (0) 2024.01.20
평가지표  (0) 2024.01.19
개념  (0) 2024.01.17
LangChain  (1) 2024.01.13
'LLM' 카테고리의 다른 글
  • Word Embedding
  • 평가지표
  • 개념
  • LangChain
봄프로
봄프로
Data Scientist
  • 봄프로
    To be professional
    봄프로
    • 분류 전체보기 (59)
      • LLM (16)
      • Data Science (24)
      • ADP (8)
      • Domain (8)
      • Etc (3)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 인기 글

  • 태그

    티스토리챌린지
    YOLO
    오블완
    KBI
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
봄프로
LLM 평가지표
상단으로

티스토리툴바