
참고용 입니다.
난이도별 AI 모델 벤치마크 툴
난이도 | 벤치마크 | 성명 | 평가 영역 | 예시 |
10 | Humanity's Last Exam | 인간 전문가 수준의 지식과 추론 능력 평가 | 전문가 지식, 고급 추론 | 수학, 인문학, 자연과학 등 다양한 분야의 전문가 수준 문제 |
10 | GPQA Diamond | 물리학, 화학, 생물학 등 과학 분야의 전문가 수준 문제 | 과학 전문 지식, 고급 추론 | "양자 얽힘 상태에서 벨 부등식이 위반되는 이유를 설명하시오." |
9 | MMLU | 57개 학문 분야에 걸친 지식과 추론 능력 평가 | 다학제 지식, 추론 | "두 물체가 같은 속도로 떨어질 때, 어떤 물체가 먼저 땅에 닿을까요?" |
9 | MATH | 고등학교 및 대학 수준의 수학 문제 해결 능력 평가 | 고급 수학적 추론, 문제 해결 | "함수 f(x)=x²-4x+3의 최솟값을 구하시오." |
8 | HumanEval | 프로그래밍 능력과 코드 생성 능력 평가 | 코드 생성, 알고리즘 이해 | 함수 설명을 보고 Python 코드 작성하기 |
8 | SuperGLUE | GLUE의 더 도전적인 버전으로 8개 태스크 포함 | 고급 자연어 이해, 추론 | BoolQ(예/아니오 질문), CB(함의 관계), MultiRC(다중 선택 독해) 등 |
8 | WinoGrande | 상식적 추론을 통한 대명사 해소 문제 | 상식 추론, 언어 이해 | "철수가 영희를 때렸다. 그는 화가 났다." 여기서 '그'가 누구인지 식별 |
8 | TruthfulQA | AI 모델이 거짓 정보를 생성하지 않고 진실된 답변을 제공하는지 평가 | 사실 검증, 정보 정확성 | "아폴로 11호는 언제 달에 착륙했습니까?" |
7 | HELM | 언어 모델의 다양한 능력을 종합적으로 평가하는 프레임워크 | 포괄적 능력 평가, 투명성 | 다양한 시나리오에서 모델의 성능, 공정성, 견고성, 효율성 등을 종합 평가 |
7 | GSM8K | 초등학교 수준의 수학 문제 해결 능력 평가 | 수학적 추론, 문제 해결 | "철수가 사과 5개를 가지고 있었는데, 2개를 먹고 3개를 샀다면 지금 몇 개가 있을까?" |
7 | ARC (AI2 Reasoning Challenge) | 초등학교 및 중학교 수준의 과학 문제 해결 능력 평가 | 과학적 추론, 상식 | "물이 얼면 부피가 어떻게 변하는가?" |
6 | DROP | 수치적 추론이 필요한 독해 문제 해결 | 수치 추론, 독해 능력 | "팀 A가 팀 B보다 몇 점 더 득점했는가?" (주어진 텍스트에서 계산 필요) |
6 | TriviaQA | 지식 기반 질의응답 능력 평가 | 일반 지식, 사실 검색 | "에펠탑은 어느 도시에 있습니까?" |
6 | HellaSwag | 상식적 추론과 시나리오 완성 능력 평가 | 상식 추론, 상황 이해 | "그는 자전거를 타고 언덕을 올라갔다. 그 다음에..." 문장 완성하기 |
5 | SQuAD | 주어진 문단 내에서 질문에 대한 답 찾기 | 독해 능력, 정보 추출 | 주어진 위키피디아 문단에서 특정 질문의 답 찾기 |
5 | GLUE | 자연어 이해 능력을 평가하는 9개 태스크 모음 | 자연어 이해, 텍스트 유사도 | CoLA(문법성 판단), SST-2(감정 분석), MNLI(자연어 추론) 등 |
4 | BIG-Bench Hard (BBH) | 고난도 추론 문제 집합 | 고급 추론, 다학제 지식 | 다양한 분야의 복합적 문제 해결 |
4 | AGIEval | 인간 수준의 일반 인공지능 평가 | 포괄적 지식, 추론 | 다양한 분야의 문제 해결 |
3 | CodeContests | 프로그래밍 경진대회 수준의 문제 | 고급 코딩, 알고리즘 설계 | 프로그래밍 문제 해결 |
2 | BioASQ | 생물학 분야의 전문 지식 평가 | 생물학 전문 지식 | "CRISPR-Cas9 시스템의 작동 원리와 제한점을 설명하시오." |
난이도 분포 설명
- 10: 인간 전문가 수준의 복잡한 문제 (예: Humanity's Last Exam, GPQA Diamond)
- 9~8: 고급 추론 및 전문 지식 요구 (예: MMLU, MATH, HumanEval)
- 7~6: 중간 난이도의 추론 및 문제 해결 (예: GSM8K, ARC, DROP)
- 5~4: 기초적인 지식 및 이해 평가 (예: SQuAD, GLUE, BBH)
- 3~2: 특정 분야의 기초 지식 평가 (예: CodeContests, BioASQ)
'Tech' 카테고리의 다른 글
오픈소스 TTS 모델 Zonos-v0.1 기본 세팅 및 테스트(M1 Mac Mini 16GB) (0) | 2025.03.12 |
---|