본문 바로가기

Tech

AI 모델 벤치마크 툴

 

참고용 입니다.

난이도별 AI 모델 벤치마크 툴

난이도 벤치마크 성명 평가 영역 예시
10 Humanity's Last Exam 인간 전문가 수준의 지식과 추론 능력 평가 전문가 지식, 고급 추론 수학, 인문학, 자연과학 등 다양한 분야의 전문가 수준 문제
10 GPQA Diamond 물리학, 화학, 생물학 등 과학 분야의 전문가 수준 문제 과학 전문 지식, 고급 추론 "양자 얽힘 상태에서 벨 부등식이 위반되는 이유를 설명하시오."
9 MMLU 57개 학문 분야에 걸친 지식과 추론 능력 평가 다학제 지식, 추론 "두 물체가 같은 속도로 떨어질 때, 어떤 물체가 먼저 땅에 닿을까요?"
9 MATH 고등학교 및 대학 수준의 수학 문제 해결 능력 평가 고급 수학적 추론, 문제 해결 "함수 f(x)=x²-4x+3의 최솟값을 구하시오."
8 HumanEval 프로그래밍 능력과 코드 생성 능력 평가 코드 생성, 알고리즘 이해 함수 설명을 보고 Python 코드 작성하기
8 SuperGLUE GLUE의 더 도전적인 버전으로 8개 태스크 포함 고급 자연어 이해, 추론 BoolQ(예/아니오 질문), CB(함의 관계), MultiRC(다중 선택 독해) 등
8 WinoGrande 상식적 추론을 통한 대명사 해소 문제 상식 추론, 언어 이해 "철수가 영희를 때렸다. 그는 화가 났다." 여기서 '그'가 누구인지 식별
8 TruthfulQA AI 모델이 거짓 정보를 생성하지 않고 진실된 답변을 제공하는지 평가 사실 검증, 정보 정확성 "아폴로 11호는 언제 달에 착륙했습니까?"
7 HELM 언어 모델의 다양한 능력을 종합적으로 평가하는 프레임워크 포괄적 능력 평가, 투명성 다양한 시나리오에서 모델의 성능, 공정성, 견고성, 효율성 등을 종합 평가
7 GSM8K 초등학교 수준의 수학 문제 해결 능력 평가 수학적 추론, 문제 해결 "철수가 사과 5개를 가지고 있었는데, 2개를 먹고 3개를 샀다면 지금 몇 개가 있을까?"
7 ARC (AI2 Reasoning Challenge) 초등학교 및 중학교 수준의 과학 문제 해결 능력 평가 과학적 추론, 상식 "물이 얼면 부피가 어떻게 변하는가?"
6 DROP 수치적 추론이 필요한 독해 문제 해결 수치 추론, 독해 능력 "팀 A가 팀 B보다 몇 점 더 득점했는가?" (주어진 텍스트에서 계산 필요)
6 TriviaQA 지식 기반 질의응답 능력 평가 일반 지식, 사실 검색 "에펠탑은 어느 도시에 있습니까?"
6 HellaSwag 상식적 추론과 시나리오 완성 능력 평가 상식 추론, 상황 이해 "그는 자전거를 타고 언덕을 올라갔다. 그 다음에..." 문장 완성하기
5 SQuAD 주어진 문단 내에서 질문에 대한 답 찾기 독해 능력, 정보 추출 주어진 위키피디아 문단에서 특정 질문의 답 찾기
5 GLUE 자연어 이해 능력을 평가하는 9개 태스크 모음 자연어 이해, 텍스트 유사도 CoLA(문법성 판단), SST-2(감정 분석), MNLI(자연어 추론) 등
4 BIG-Bench Hard (BBH) 고난도 추론 문제 집합 고급 추론, 다학제 지식 다양한 분야의 복합적 문제 해결
4 AGIEval 인간 수준의 일반 인공지능 평가 포괄적 지식, 추론 다양한 분야의 문제 해결
3 CodeContests 프로그래밍 경진대회 수준의 문제 고급 코딩, 알고리즘 설계 프로그래밍 문제 해결
2 BioASQ 생물학 분야의 전문 지식 평가 생물학 전문 지식 "CRISPR-Cas9 시스템의 작동 원리와 제한점을 설명하시오."

난이도 분포 설명

  • 10: 인간 전문가 수준의 복잡한 문제 (예: Humanity's Last Exam, GPQA Diamond)
  • 9~8: 고급 추론 및 전문 지식 요구 (예: MMLU, MATH, HumanEval)
  • 7~6: 중간 난이도의 추론 및 문제 해결 (예: GSM8K, ARC, DROP)
  • 5~4: 기초적인 지식 및 이해 평가 (예: SQuAD, GLUE, BBH)
  • 3~2: 특정 분야의 기초 지식 평가 (예: CodeContests, BioASQ)