AI 모델 벤치마크 툴

참고용 입니다.

난이도별 AI 모델 벤치마크 툴

난이도	벤치마크	성명	평가 영역	예시
10	Humanity's Last Exam	인간 전문가 수준의 지식과 추론 능력 평가	전문가 지식, 고급 추론	수학, 인문학, 자연과학 등 다양한 분야의 전문가 수준 문제
10	GPQA Diamond	물리학, 화학, 생물학 등 과학 분야의 전문가 수준 문제	과학 전문 지식, 고급 추론	"양자 얽힘 상태에서 벨 부등식이 위반되는 이유를 설명하시오."
9	MMLU	57개 학문 분야에 걸친 지식과 추론 능력 평가	다학제 지식, 추론	"두 물체가 같은 속도로 떨어질 때, 어떤 물체가 먼저 땅에 닿을까요?"
9	MATH	고등학교 및 대학 수준의 수학 문제 해결 능력 평가	고급 수학적 추론, 문제 해결	"함수 f(x)=x²-4x+3의 최솟값을 구하시오."
8	HumanEval	프로그래밍 능력과 코드 생성 능력 평가	코드 생성, 알고리즘 이해	함수 설명을 보고 Python 코드 작성하기
8	SuperGLUE	GLUE의 더 도전적인 버전으로 8개 태스크 포함	고급 자연어 이해, 추론	BoolQ(예/아니오 질문), CB(함의 관계), MultiRC(다중 선택 독해) 등
8	WinoGrande	상식적 추론을 통한 대명사 해소 문제	상식 추론, 언어 이해	"철수가 영희를 때렸다. 그는 화가 났다." 여기서 '그'가 누구인지 식별
8	TruthfulQA	AI 모델이 거짓 정보를 생성하지 않고 진실된 답변을 제공하는지 평가	사실 검증, 정보 정확성	"아폴로 11호는 언제 달에 착륙했습니까?"
7	HELM	언어 모델의 다양한 능력을 종합적으로 평가하는 프레임워크	포괄적 능력 평가, 투명성	다양한 시나리오에서 모델의 성능, 공정성, 견고성, 효율성 등을 종합 평가
7	GSM8K	초등학교 수준의 수학 문제 해결 능력 평가	수학적 추론, 문제 해결	"철수가 사과 5개를 가지고 있었는데, 2개를 먹고 3개를 샀다면 지금 몇 개가 있을까?"
7	ARC (AI2 Reasoning Challenge)	초등학교 및 중학교 수준의 과학 문제 해결 능력 평가	과학적 추론, 상식	"물이 얼면 부피가 어떻게 변하는가?"
6	DROP	수치적 추론이 필요한 독해 문제 해결	수치 추론, 독해 능력	"팀 A가 팀 B보다 몇 점 더 득점했는가?" (주어진 텍스트에서 계산 필요)
6	TriviaQA	지식 기반 질의응답 능력 평가	일반 지식, 사실 검색	"에펠탑은 어느 도시에 있습니까?"
6	HellaSwag	상식적 추론과 시나리오 완성 능력 평가	상식 추론, 상황 이해	"그는 자전거를 타고 언덕을 올라갔다. 그 다음에..." 문장 완성하기
5	SQuAD	주어진 문단 내에서 질문에 대한 답 찾기	독해 능력, 정보 추출	주어진 위키피디아 문단에서 특정 질문의 답 찾기
5	GLUE	자연어 이해 능력을 평가하는 9개 태스크 모음	자연어 이해, 텍스트 유사도	CoLA(문법성 판단), SST-2(감정 분석), MNLI(자연어 추론) 등
4	BIG-Bench Hard (BBH)	고난도 추론 문제 집합	고급 추론, 다학제 지식	다양한 분야의 복합적 문제 해결
4	AGIEval	인간 수준의 일반 인공지능 평가	포괄적 지식, 추론	다양한 분야의 문제 해결
3	CodeContests	프로그래밍 경진대회 수준의 문제	고급 코딩, 알고리즘 설계	프로그래밍 문제 해결
2	BioASQ	생물학 분야의 전문 지식 평가	생물학 전문 지식	"CRISPR-Cas9 시스템의 작동 원리와 제한점을 설명하시오."

난이도 분포 설명

10: 인간 전문가 수준의 복잡한 문제 (예: Humanity's Last Exam, GPQA Diamond)
9~8: 고급 추론 및 전문 지식 요구 (예: MMLU, MATH, HumanEval)
7~6: 중간 난이도의 추론 및 문제 해결 (예: GSM8K, ARC, DROP)
5~4: 기초적인 지식 및 이해 평가 (예: SQuAD, GLUE, BBH)
3~2: 특정 분야의 기초 지식 평가 (예: CodeContests, BioASQ)

'Tech' 카테고리의 다른 글

오픈소스 TTS 모델 Zonos-v0.1 기본 세팅 및 테스트(M1 Mac Mini 16GB) (1)	2025.03.12

충청도 독거청년 - Tech

AI 모델 벤치마크 툴

난이도별 AI 모델 벤치마크 툴

난이도 분포 설명

'Tech' 카테고리의 다른 글

티스토리툴바

AI 모델 벤치마크 툴

난이도별 AI 모델 벤치마크 툴

난이도 분포 설명

'Tech' 카테고리의 다른 글

'Tech' Related Articles

티스토리툴바