AI 아레나 2026 봄 시즌 랭킹 — 9개 모델 1,030세트 실전 성적 공개
AILotto AI 아레나 누적 데이터 기준 9종 AI 모델의 평균 일치·5등 이상 적중률·4등 당첨 건수를 공개합니다. Kimi·Claude·Gemini 순위와 해석, 한계를 데이터로 정리합니다.
요약 (TL;DR) AILotto AI 아레나 누적 1,030세트(9모델) 기준, 가중 점수 1위는 Kimi K2.6, 5등 이상 적중률 1위는 Claude Sonnet 4.6(8.8%) 입니다. 평균 일치 개수만 보면 Gemini Pro 3.1(0.88)이 가장 높지만, 표본·회차 편차가 커서 “한 모델이 항상 이긴다”고 말할 수는 없습니다.
왜 아레나 데이터를 공개하나
이전 실험 글에서 “AI vs 무작위”를 검증했습니다. 이번에는 실제 서비스에서 사용자·시스템이 생성한 추천을 모아, 모델별 성적을 투명하게 공개합니다. 마케팅 문구가 아니라 AI 아레나 원본 데이터를 바탕으로 합니다.
데이터 개요
| 항목 | 내용 |
|---|---|
| 집계 기간 | 서비스 런칭 ~ 2026-05-16 (누적) |
| 데이터 출처 | AILotto AI 아레나 (period=all) |
| 총 추천 세트 | 1,030세트 (모델별 90~130세트) |
| 당첨번호 기준 | 동행복권 공식 결과 |
| 점수 방식 | 가중 점수(4등·5등 등급 반영) + 평균 일치 개수 + 5등 이상 적중률 |
⚠️ 표본이 아직 작습니다. 회차·사용자 입력(꿈/사주) 편차, 모델 업데이트에 따라 순위는 바뀔 수 있습니다.
모델별 누적 성적 (2026-05-16 기준)
| 순위 | 모델 | 세트 수 | 평균 일치 | 5등+ 적중률 | 4등 | 5등 |
|---|---|---|---|---|---|---|
| 1 | Kimi K2.6 | 90 | 0.74 | 2.22% | 2 | 0 |
| 2 | Claude Sonnet 4.6 | 125 | 0.86 | 8.80% | 1 | 10 |
| 3 | MiniMax M2.7 | 115 | 0.87 | 3.48% | 1 | 3 |
| 4 | Grok 4.3 | 130 | 0.77 | 2.31% | 1 | 2 |
| 5 | Gemini Pro 3.1 | 130 | 0.88 | 4.62% | 0 | 6 |
| 6 | GLM-5.1 | 115 | 0.85 | 2.61% | 0 | 3 |
| 7 | DeepSeek V4 Flash | 120 | 0.75 | 2.50% | 0 | 3 |
| 8 | GPT-5.5 | 120 | 0.72 | 2.50% | 0 | 3 |
| 9 | Qwen 3.6 Plus | 115 | 0.80 | 1.74% | 0 | 2 |
해석: 순위가 다른 이유
AI 아레나는 하나의 숫자로만 순위를 매기지 않습니다.
- 가중 점수(공식 랭킹) — 4등·5등 등 상위 등수에 더 큰 가중치. Kimi K2.6이 4등 2건으로 1위.
- 5등 이상 적중률 — “보너스·5등 이상”에 얼마나 자주 걸렸는지. Claude Sonnet 4.6이 8.8%로 압도적 1위.
- 평균 일치 개수 — 6개 번호 중 평균 몇 개가 맞았는지. Gemini Pro 3.1이 0.88로 최고.
즉, **“어떤 지표를 중요하게 보느냐”**에 따라 추천 모델이 달라집니다. AILotto는 이 차이를 숨기지 않고 아레나에서 실시간으로 보여줍니다.
이전 실험과의 관계
12주 실험 글에서는 AI vs 무작위 평균 일치에 통계적 차이가 없었습니다. 이번 아레나 데이터도 평균 일치 0.72~0.88 수준으로, “확률을 뒤집는다”는 주장과는 거리가 있습니다.
다만 Claude처럼 5등 적중률이 상대적으로 높은 모델은 “보너스·5등 체감” 측면에서 사용자 경험이 다를 수 있습니다. 이는 당첨 보장이 아니라 분포·체감 차이로 이해해야 합니다.
사용자에게 실질적인 의미
- 모델 하나만 고집할 필요 없음 — 분석 목적(통계 vs 해몽 vs 사주)에 따라 선택.
- 아레나는 살아 있는 리더보드 — 분기마다 데이터가 쌓이면 순위가 변합니다.
- 로또는 확률 게임 — 어떤 AI도 1등을 보장하지 않습니다.
출처 및 데이터
- 실시간 랭킹: AI 아레나
- 당첨번호: 동행복권 로또 6/45
- 실험 배경: AI vs 무작위 12주 검증
- 면책: 이용약관
한계 및 면책
- 누적 1,030세트는 통계적으로 작은 표본입니다. 분기별로 본 글을 업데이트합니다.
- 꿈·사주 분석은 입력값에 따라 결과 편차가 큽니다. 본 표는 아레나 전체 누적 기준이며 분석 방식별 세분 데이터는 추후 공개 예정입니다.
- AILotto는 추천·비교 도구이며, 당첨을 보장하지 않습니다.
관련 페이지