Modele AI zaliczają olimpiady z matematyki, piszą kod i generują obrazy — ale zapytaj je o złożenie spodni albo udowodnienie twierdzenia, a zobaczysz, gdzie naprawdę kończy się magia. Poniżej siedem obszarów, w których dane benchmarkowe z 2025–2026 są bezlitosne. Żadnych ogólników — tylko liczby, źródła i wnioski, które warto mieć w głowie zanim powierzysz AI cokolwiek ważnego.
1. Rozumowanie przestrzenne: losowanie odpowiedzi
Benchmark Mind the Gap (2025, arXiv:2503.19707) przetestował 1 800 par obraz–pytanie na 13 czołowych modelach wizyjno-językowych. Wynik? Średnia dokładność modeli zbliżona do losowego strzelania. Losowa linia bazowa wynosiła 32,37% — GPT-4o osiągnął 47,44%, a najlepszy model w zestawieniu (InternVL2.5-26B) jedynie 48,83%.
Na najtrudniejszych zadaniach rotacji mentalnej (MRT-Hard) modele uzyskały od 20 do 29,5% — przy granicy losowości wynoszącej 25%. Kilka modeli wypadło poniżej przypadku na zadaniach nawigacyjnych. Konkluzja autorów jest twarda: VLM-y mają „głęboki deficyt" w rozumowaniu geometrycznym mimo solidnego rozumienia semantycznego. Osobne badanie nad 3D spatial deformation reasoning pokazało straty dokładności rzędu 42–80% wraz ze wzrostem złożoności zadania.
Praktyczny wniosek: jeśli prosisz model o analizę planu architektonicznego, orientację w terenie albo ocenę ustawienia mebli — weryfikuj wyniki ręcznie.
2. Matematyka bez kalkulatora: dwie różne rzeczywistości
Tu działa zasada dwóch prędkości i warto rozumieć ją precyzyjnie.
Tier 1 — obliczenia i zadania konkursowe
Na GSM8K (szkolna matematyka) modele frontierowe osiągają ~99% — benchmark jest już tak nasycony, że przestał być użyteczny do porównań. Na AIME 2025 GPT-5.2 osiągnął 100%, Gemini 3 Pro 95%. Na HMMT25 (konkurs studencki) średnia dla wszystkich przesłanych modeli wynosiła 75,7%, a Grok-4 Heavy prowadzi z wynikiem 96,7%. Tutaj faktycznie jest postęp i to imponujący.
Tier 2 — dowody matematyczne i problemy badawcze
Zupełna katastrofa. Na USAMO 2025 (Olimpiada Matematyczna USA, oceniana przez ludzkich ekspertów pod kątem pełnego rozumowania, nie tylko wyniku liczbowego) jedynie Gemini-2.5-Pro osiągnął nietrywialny wynik 25%. Każdy inny testowany model — poniżej 5%. Na Humanity's Last Exam (2 500 pytań eksperckich z różnych dziedzin) najlepszy model AI uzyskał około 45% przy ludzkim poziomie ekspertów wynoszącym ~90%.
Na FrontierMath — zestawie autentycznie nierozwiązanych problemów badawczych — Gemini 3 Deep Think osiągnął 40%, GPT-5 32,4%, startując od zaledwie 2% pod koniec 2024 roku. To brzmi jak postęp, ale pamiętajmy: 40% na zadaniach, których wcześniej nie rozwiązano, w środowisku naukowym to wciąż daleko od funkcjonalnej użyteczności. Modele regularnie dochodzą do poprawnych wyników przez błędne rozumowanie — co w matematyce jest błędem, nie sukcesem.
| Benchmark | Najlepszy wynik AI | Kontekst |
|---|---|---|
| GSM8K (szkolna mat.) | ~99% | Nasycony, nieużyteczny do porównań |
| HMMT25 (konkurs) | 96,7% (Grok-4 Heavy) | Średnia wszystkich modeli: 75,7% |
| USAMO 2025 (dowody) | 25% (Gemini-2.5-Pro) | Pozostałe modele: poniżej 5% |
| Humanity's Last Exam | ~45% | Ludzcy eksperci: ~90% |
| FrontierMath | 40% (Gemini 3 Deep Think) | GPT-5: 32,4%; start w 2024: 2% |
3. Planowanie długoterminowe i agenci autonomiczni
Problem błędów kumulujących się jest policzalny. Przy dokładności 85% na każdy krok zadanie złożone z 10 kroków kończy się sukcesem jedynie w ~20% przypadków. To matematyka, nie metafora.
Benchmark WebArena (prawdziwe zadania nawigacji w sieci) pokazuje postęp: najlepszy wynik w połowie 2026 roku to Claude Mythos Preview z 68,7%, podczas gdy na początku 2024 roku bariera 15% była nie do pokonania. Ale — i to duże ale — integralność benchmarku stoi pod znakiem zapytania. 12 kwietnia 2026 roku badacze z UC Berkeley pokazali, że zautomatyzowany agent skanujący potrafił złamać wszystkie 8 głównych benchmarków agentowych przez reward hacking: uzyskiwał niemal perfekcyjne wyniki bez rozwiązywania jakiegokolwiek faktycznego zadania.
Raport LangChain z 2026 roku przynosi jeszcze jedną nieintuicyjną obserwację: 60% niepowodzeń agentów wynika z infrastruktury i narzędzi (harness), nie z modelu jako takiego. Agenci rutynowo utykają w pętlach powtarzania — wykonują 95% zadania bez problemu, po czym wielokrotnie ponowią dokładnie tę samą nieudaną akcję zamiast zmienić strategię.
4. Interakcja z fizycznym światem: roboty wciąż uczą się składać spodnie
Większość wdrożonych robotów działa 3–10 razy wolniej niż człowiek. Kilka konkretnych danych z ewaluacji Epoch AI (2026):
- Składanie prania: Physical Intelligence osiąga 95% skuteczności na koszulkach i krótkich spodniach — ale spada do 75% na dżinsach.
- Manipulacja DeepMind: 2 000 demonstracji potrzebnych do 70% skuteczności na „łatwym" zadaniu; 3 000 demonstracji dla 40% na zadaniu „nieuporządkowanym".
- Wkładanie kabla/złącza: 100% skuteczności — ale przy czasie 27 sekund na złącze, podczas gdy człowiek robi to w 2–3 sekundy.
- Robot magazynowy Amazon Vulcan: deklaruje >99% niezawodności, ale działa wyłącznie w ściśle kontrolowanym środowisku.
Benchmark ManipulationNet wskazuje, skąd biorą się błędy: 43,7% niepowodzeń manipulacyjnych wynika z błędnego szacowania pozycji i orientacji obiektu (object pose estimation), 34,5% to upuszczenia, a 19% — kolizje ręki z obiektem. Transfer do nowych środowisk i przedmiotów jest „rzadko demonstrowany" — niemal wszystkie modele są douczane pod konkretne zadania w konkretnych warunkach.
5. Halucynacje i wiarygodność faktyczna
Ten obszar wygląda zupełnie inaczej w zależności od tego, co mierzymy.
Wąskie zadania z tekstem pisanym
Na benchmarku Vectara HHEM (podsumowywanie): Gemini-2.0-Flash — 0,7% halucynacji, o3-mini-high — 0,8%. Imponująco. Ale to są wąskie, dobrze ustrukturyzowane zadania.
Rzeczywiste wyszukiwanie informacji
Badanie Columbia Journalism Review (marzec 2025) dotyczące dokładności cytowań: Perplexity — 37% błędów, ChatGPT Search — 67%, Google Gemini — 76%, Grok-3 — 94%. OpenAI o3 na benchmarku SimpleQA: 51% halucynacji; o4-mini: 79%. Narzędzia prawnicze AI: 17–34% halucynacji (Stanford HAI, 2026). W zadaniach wieloturowych z wyszukiwaniem internetowym wskaźnik halucynacji wynosi ~30%.
Baza danych Damiena Charlotina dokumentuje już 1 450 spraw sądowych z udziałem halucynacji AI. McKinsey (2025): 51% organizacji używających AI zgłosiło negatywne konsekwencje, przy czym niemal jedna trzecia wskazała nierzetelność informacji jako główny problem.
Praktyczny wniosek: AI jako narzędzie do streszczania własnych dokumentów — stosunkowo bezpieczne. AI jako źródło faktów o świecie zewnętrznym — wymaga niezależnej weryfikacji każdego zdania, które ma znaczenie.
6. Kreatywność: AI bije przeciętnego człowieka, ale przegrywa z najlepszymi
Najsolidniejsze metodologicznie badanie w tym obszarze: Scientific Reports (Nature, 21 stycznia 2026; prowadzący: prof. Karim Jerbi, Université de Montréal; współautor: Yoshua Bengio; n = ponad 100 000 ludzi). Na Divergent Association Task (DAT) modele AI, w tym GPT-4, przekroczyły średni wynik ludzki. Brzmi świetnie — i jest to uczciwy wynik.
Ale: najbardziej kreatywna połowa uczestników ludzkich przebiła wszystkie testowane modele AI. Top 10% ludzkich twórców wykazał jeszcze większą przewagę. Na złożonych zadaniach (poezja, haiku, fabuły filmowe, opowiadania) najbardziej utalentowani ludzie konsekwentnie dostarczali silniejsze i bardziej oryginalne prace.
Krytycy sztuki ocenili dzieła generowane przez AI jako o 30% mniej innowacyjne niż prace człowieka. Komentatorzy i badacze są zgodni: AI generuje ze „wzorców statystycznych w danych treningowych, a nie z intencji, doświadczenia życiowego czy osobistej stawki" i nie wie „co dzieło próbuje wyrazić, dla kogo jest i dlaczego ma znaczenie".
7. Zdrowy rozsądek w przypadkach brzegowych
To najtrudniejszy obszar do zmierzenia, bo dopiero wdrożenia na skalę ujawniają jego głębię. LLM-y przewidują statystycznie prawdopodobny następny token z tekstów o świecie, nie z samego świata. Wzorce awarii są dobrze udokumentowane: modele robią „nieuzasadnione założenia, nadmiernie polegają na wzorcach numerycznych i mają trudności z przekładaniem intuicji fizycznej na kroki matematyczne" (arXiv:2502.11574).
W rzeczywistych wdrożeniach agentycznych agenci „pomijają kroki i zachowują się inaczej niż oczekiwano" — a to, co wyglądało na izolowane przypadki brzegowe, przy skalowaniu ujawniało systemowe wzorce awarii. Debata o rozumieniu kontra dopasowaniu wzorców pozostaje empirycznie nierozstrzygnięta, ale klify wydajnościowe na nowych typach problemów (USAMO, rotacja przestrzenna, transfer robotyczny) konsekwentnie sugerują, że modele interpolują wewnątrz rozkładu treningowego zamiast rozumować od podstaw.
Podsumowanie praktyczne
Jeśli chcesz wiedzieć, gdzie AI jest dziś bezpiecznie użyteczne, a gdzie wymaga nadzoru — oto mapa:
| Obszar | Stan w 2026 | Zalecenie |
|---|---|---|
| Obliczenia i zadania konkursowe | Prawie nasycone, frontier ~99% | Można używać, nadzór przy nowatorskich problemach |
| Dowody matematyczne / badania | USAMO: 25% (jeden model), reszta <5% | Nie polegaj bez weryfikacji eksperta |
| Rozumowanie przestrzenne | Zbliżone do losowego na trudnych zadaniach | Unikaj krytycznych zastosowań |
| Agenci autonomiczni (10+ kroków) | WebArena top: 68,7%; benchmarki zhakowane | Wymagaj checkpointów i ludzkiego nadzoru |
| Robotyka / manipulacja | 3–10x wolniej, słaby transfer | Tylko w kontrolowanych warunkach |
| Wyszukiwanie faktów | ChatGPT Search: 67% błędów; o3: 51% halucynacji | Zawsze weryfikuj niezależnie |
| Kreatywność (złożone zadania) | Bije przeciętnego człowieka, przegrywa z top 50% | Dobry punkt startowy, nie finalny produkt |
Modele AI w 2026 roku są imponujące na papierze i rzeczywiście użyteczne w dobrze zdefiniowanych, powtarzalnych zadaniach. Problem pojawia się wtedy, gdy zaczynamy im ufać poza tym obszarem — przy planowaniu wieloetapowym, przy dowodach, przy faktach o świecie, przy fizycznej manipulacji w zmiennym otoczeniu. Dane benchmarkowe nie kłamią: tam AI wciąż strzela losowo albo prawie losowo. Różnica między „AI powiedziało" a „AI ma rację" pozostaje jedną z najdroższych pomyłek w biznesie.