Dlaczego AI kłamie z kamienną twarzą — mechanizm halucynacji

Model językowy cytuje wyroki, które nigdy nie istniały, robi to z absolutną pewnością siebie — i właśnie dlatego jest to groźniejsze niż zwykły błąd.

Dlaczego AI kłamie z kamienną twarzą — mechanizm halucynacji
Model mówi pewnie. Model mówi płynnie. Model właśnie wymyślił ten fakt.

Pewność siebie jako wada projektowa

Prawnik składa do sądu federalnego pismo procesowe. Cytuje sześć precedensowych wyroków. Żaden z nich nie istnieje. Sędzia to sprawdza. Sprawa Mata v. Avianca (2023) trafia na pierwsze strony gazet — nie dlatego, że prawnicy są głupi, ale dlatego, że ChatGPT podał fikcyjne orzeczenia z taką samą pewnością, z jaką podałby numer telefonu alarmowego.

To nie był jednorazowy wypadek przy pracy. Baza danych AI Hallucination Cases Database prowadzona przez Damiena Charlotina liczyła pod koniec 2025 roku 486 udokumentowanych przypadków — 324 z nich dotyczyło sądów w USA, zaangażowanych było 128 prawników i 2 sędziów. Częstotliwość wzrosła z kilku przypadków miesięcznie do kilku przypadków dziennie. A to tylko sprawy, które ktoś sprawdził i zgłosił.

Żeby zrozumieć, dlaczego tak się dzieje, trzeba zejść poziom niżej — do architektury, do danych treningowych i do jednej decyzji projektowej, która ma konsekwencje, jakich nikt do końca nie przewidział.

Jak działa przewidywanie następnego tokena — i dlaczego to problem

Modele językowe nie "wiedzą" rzeczy w sensie, w jakim wie je encyklopedia. Nie mają bazy danych faktów z flagami "prawda/fałsz". Ich jedynym celem podczas treningu było jedno: przewidzieć następny token w sekwencji — czyli kolejne słowo, fragment słowa lub znak interpunkcyjny.

To oznacza, że model optymalizuje się pod płynność i statystyczną wiarygodność zdania, a nie pod jego zgodność z rzeczywistością. Dane treningowe nie zawierają etykiet rozróżniających prawdę od fałszu. Z perspektywy modelu "Napoleon wygrał pod Waterloo" i "Napoleon przegrał pod Waterloo" to dwa ciągi tokenów — jeden częstszy w korpusie, drugi rzadszy. Model wybiera częstszy.

Dla popularnych faktów to działa całkiem dobrze. Dla rzadkich — zaczyna się kreatywna improwizacja.

Problem rzadkich faktów

Jeśli jakiś fakt pojawia się w danych treningowych dziesiątki tysięcy razy, model ma szansę wyuczyć się wzorca. Ale jeśli pytasz o wyrok sądowy z 2019 roku w sprawie dotyczącej konkretnej interpretacji prawa transportowego w Ohio — model ma za mało sygnałów, żeby odpowiedzieć poprawnie. Zamiast przyznać, że nie wie, generuje coś statystycznie wiarygodnego: nazwę podobną do istniejących, datę w rozsądnym zakresie, sędziego z prawdziwego sądu. Wszystko się "klei" — i wszystko jest zmyślone.

Badania na modelach z rodziny Gemma pokazują, że w przypadku negacji i konkretnych nazw własnych wskaźnik halucynacji u modelu Gemma-2-2B wynosi 84–95%, a u wariantu 27B przekracza 77%. Mniejszy model halucynuje więcej, ale większy wcale nie rozwiązuje problemu.

RLHF: jak nauczyliśmy modele blefować

Po wstępnym treningu modele przechodzą przez etap RLHF (Reinforcement Learning from Human Feedback) — uczenie przez ludzką ocenę. Ludzcy raterzy porównują odpowiedzi i wybierają lepsze. Brzmi rozsądnie.

Problem: ludzcy raterzy systematycznie preferują odpowiedzi brzmiące pewnie — nawet jeśli są błędne — nad odpowiedzi niepewne, ale poprawne. Efekt? Model uczy się, że blef się opłaca. "Nie wiem" albo "Nie jestem pewien" to statystycznie gorsza odpowiedź niż pewna odpowiedź, która może być kłamstwem.

OpenAI potwierdziło to explicite w badaniach z września 2025 roku: cel treningowy przewidywania tokenów nagradza pewne zgadywanie zamiast skalibrowanej niepewności. Model o4-mini ma wskaźnik abstencji wynoszący zaledwie 1% — czyli w 99% przypadków decyduje się odpowiedzieć, nawet gdy powinien przyznać, że nie wie.

Modele rozumujące (reasoning models) mają tu paradoksalnie gorsze wyniki niż ich nierozumujące odpowiedniki. W testach Vectara z maja 2026 roku wszystkie testowane modele rozumujące przekroczyły 10% wskaźnik halucynacji. Grok-4-fast-reasoning osiągnął 20,2%. GPT-4o w tym samym benchmarku: 1,5%. Gemini-2.0-Flash-001: 0,7% — najniższy wynik spośród dużych modeli w historii tego rankingu.

Twarde liczby: kto halucynuje ile

Model Wskaźnik halucynacji Źródło / Data
Gemini-2.0-Flash-001 0,7% Vectara, kwiecień 2025
GPT-4o 1,5% Vectara leaderboard
Gemini Flash Lite 3,3% Vectara, maj 2026
Claude (modele) ~4,4% Vectara leaderboard
GPT-5, Claude Sonnet 4.5, Grok-4, Gemini-3-Pro >10% Vectara, maj 2026
Grok-4-fast-reasoning 20,2% Vectara, maj 2026
Modele bazowe (TruthfulQA) >50% większość TruthfulQA, 817 pytań, 38 domen
Gemma-2B (HaluEval) 80–90%+ HaluEval 2025–2026

GPT-5.5, uruchomiony 23 kwietnia 2026 roku, twierdzi o 60% redukcji halucynacji w porównaniu do GPT-5.4 — choć weryfikacja tych deklaracji przez niezależne benchmarki trwa. Phi-3.5-MoE-instruct osiąga wynik 0,775 na TruthfulQA — najlepszy na tym benchmarku, bijąc modele znacznie większe od siebie.

Wniosek z tych liczb jest nieoczywisty: większy model nie znaczy mniej halucynacji. Bardziej zaawansowany tryb rozumowania — też nie. Architektura i dane treningowe mają znacznie większe znaczenie niż rozmiar parametrów.

Sprawy sądowe: gdy kłamstwo kosztuje

Przypadek Mata v. Avianca to tylko punkt startowy. Skala problemu prawnego jest już systemowa:

  • Arizona, 2024 — sprawa o świadczenia Social Security: sędzia Alison Bachus stwierdziła, że 12 z 19 cytowanych spraw było "sfabrykowanych, wprowadzających w błąd lub niepoprawnych". Żadne ze wskazanych orzeczeń nie wspierało tezy, którą miały rzekomo wspierać.
  • Mostafavi, Kalifornia, 2025 — kara 10 000 dolarów, 21 z 23 cytatów z ChatGPT okazało się zmyślonych.
  • Zhang v. Chen, Kanada, 2024 — prawnik musiał pokryć koszty sądowe po złożeniu pisma z dwoma nieistniejącymi sprawami wygenerowanymi przez ChatGPT.
  • Prawnik w Colorado dostał 90-dniowe zawieszenie — nie tylko za użycie AI, ale za zaprzeczanie temu w korespondencji z paralegałem, gdzie pisał właśnie o halucynacjach ChatGPT.

Ironia jest podwójna: AI halucynuje, ale karę dostaje człowiek, który nie sprawdził. I słusznie — ale to nie zmienia faktu, że model prezentował fikcję z równą pewnością co prawdziwe precedensy.

Co naprawdę działa, żeby zmniejszyć halucynacje

Zanim przejdziemy do praktyki: kilka popularnych "rozwiązań" nie ma mierzalnego efektu. Proszenie modelu "bądź dokładny" albo "nie halucynuj" — zero wpływu w badaniach. Model nie "stara się bardziej" po takim poleceniu.

RAG — gruntowanie w dokumentach

Retrieval-Augmented Generation to podejście, które faktycznie przynosi efekty. Zamiast pytać model o wiedzę wewnętrzną, podajesz mu konkretne dokumenty i każesz odpowiadać wyłącznie na ich podstawie.

  • Standardowy RAG redukuje halucynacje o 30–50% w zastosowaniach enterprise
  • Organizacje wdrażające RAG raportują 70–80% mniej halucynacji niż bez niego
  • Framework MEGA-RAG (2025): redukcja o ponad 40% względem modelu bazowego
  • SELF-RAG w klinicznym wspomaganiu decyzji: wskaźnik halucynacji spada do 5,8%
  • Hybrydowy KG-RAG (graf wiedzy + dane niestrukturyzowane): 18% redukcja w biomedycznym QA

Praktyczne techniki promptowania

Te działają — mierzone, nie deklaratywne:

  • Zakotwiczenie w dokumencie: "Odpowiadaj wyłącznie na podstawie załączonego dokumentu. Jeśli informacji nie ma w dokumencie, napisz 'Nie wiem'." — skuteczne.
  • Strukturyzowane wyjście (JSON, ściśle zdefiniowany szablon) — model musi wypełnić konkretne pola, a brak danych staje się oczywisty zamiast być maskowany płynną prozą.
  • Definicja roli z cytowaniem: "Jesteś analitykiem finansowym. Cytuj wyłącznie dane z załączonego raportu 10-K." — przesuwa model w stronę zachowania opartego na źródłach.
  • Model Krytyk: drugi model weryfikuje odpowiedź pierwszego zanim trafi do użytkownika. Prosta architektura, mierzalny efekt.
  • Abstencja: "Jeśli nie jesteś pewien, napisz 'nie wiem' zamiast zgadywać." — działa lepiej niż intuicja podpowiada, choć RLHF trenuje modele przeciw temu.

Czego unikać

Chain-of-thought prompting w złożonych zadaniach zwiększa halucynacje o nawet 12%. Intuicja "niech model pomyśli krok po kroku" jest słuszna dla zadań rozumowania logicznego — dla zadań faktograficznych może pogorszyć wynik, bo model ma więcej "miejsca" na generowanie wiarygodnie brzmiących, ale fałszywych kroków pośrednich.

Problem kalibracji: model nie wie, czego nie wie

Najgroźniejszy aspekt halucynacji to nie ich istnienie — to brak sygnału ostrzegawczego. Model nie mówi "wymyślam", bo nie ma dostępu do metapoziomu własnej pewności w sposób, który byłby rzetelnie skalibrowany.

Modele trenowane przez RLHF mają systematyczne odchylenie w stronę wysokiej pewności niezależnie od faktycznej jakości odpowiedzi. Mechanizmy nagradzania (PPO i jego warianty) uczą się, że "brzmiące pewnie" = lepsze. Alternatywne podejścia — PPO-M i PPO-C z kalibrowanym modelowaniem nagród — są badane jako rozwiązanie, ale nie weszły jeszcze do mainstreamu produkcyjnego.

Można promować modele do generowania explicite wyników pewności — i to częściowo działa. Ale modele po RLHF pozostają systematycznie zbyt pewne siebie w porównaniu do swoich wersji sprzed tego etapu treningowego. To wbudowana wada architektury obecnej generacji, nie bug do naprawienia jednym patchem.

Podsumowanie praktyczne

Co zapamiętać z tego artykułu, jeśli używasz AI produkcyjnie:

  • Model nie "kłamie" świadomie — generuje statystycznie wiarygodne ciągi tokenów. Efekt jest identyczny jak kłamstwo, ale mechanizm jest inny i to zmienia strategię obrony.
  • Nawet najlepsze modele (Gemini Flash: 0,7%) halucynują. Żaden nie ma wskaźnika zerowego. Weryfikacja to obowiązek, nie opcja.
  • Modele rozumujące w 2026 roku halucynują częściej niż ich nierozumujące odpowiedniki w krytycznych benchmarkach — paradoks, który powinien być argumentem przeciw ślepemu zaufaniu do etykiety "reasoning".
  • RAG z gruntowaniem w dokumentach redukuje problem realnie — 30–80% zależnie od implementacji. To najlepiej udokumentowana technika mitygacji.
  • Chain-of-thought w zadaniach faktograficznych może pogorszyć wynik. Używaj go do rozumowania, nie do wyciągania faktów.
  • Proszenie modelu o bycie "dokładnym" nie ma mierzalnego efektu. Prompt z zakotwiczeniem w dokumencie — ma.
  • 486 przypadków prawnych do końca 2025 roku to dokumentowany wierzchołek góry lodowej. W każdej dziedzinie, gdzie fakty mają konsekwencje — medycyna, prawo, finanse, technika — weryfikacja przez człowieka pozostaje niezbędna.

AI halucynuje z kamienną twarzą, bo kamienną twarz ma od urodzenia — to nie jest feature do wyłączenia, to właściwość architektury. Twoja robota to wiedzieć, kiedy ta twarz kłamie.

$ udostępnij X in
Piotr Olszewski
Piotr Olszewski

Piszę maistry.pl — AI po polsku, bez ściemy. Codziennie o 18:18.