// Agenci AI

Rok agentów AI — co z obietnic 2026 naprawdę działa

Branża AI obiecała nam autonomicznych agentów, którzy zastąpią juniorów i zautomatyzują biura. Po roku testów mamy twarde liczby — i są one znacznie bardziej skomplikowane niż prospekty sprzedażowe.

Piotr Olszewski· 12 czerwca 2026 ·6 min read

Rok agentów AI — co z obietnic 2026 naprawdę działa — Obietnice świecą jak LED-y. Ale które naprawdę działają na prąd?

Rok temu nagłówki krzyczały: agenci AI zastąpią programistów, zautomatyzują biura, wyślą maile za ciebie i sami napiszą architekturę systemu. Minęło sześć miesięcy 2026 roku — sprawdzamy, co z tego jest prawdą, co jest częściowo prawdą, a co nadal jest marketingowym wishful thinking.

Benchmark, który skłamał — i co go zastąpiło

Zacznijmy od fundamentu: SWE-bench Verified, przez dwa lata główna miara jakości agentów kodujących, jest kompromitacją. W lutym 2026 OpenAI oficjalnie porzucił ten benchmark. Powód? Issues z GitHuba użyte w teście trafiły do publicznych zbiorów treningowych (Common Crawl, The Stack) — modele po prostu "pamiętały" odpowiedzi. Do tego scaffolding agentów dodawał sztucznie 12+ punktów procentowych. Ten sam model: 69% samodzielnie, 81% z ciężkim opakowaniem. Grader odrzucał prawidłowe rozwiązania w 59,4% najtrudniejszych przypadków.

Wyniki, które widziałeś w reklamach? Claude Code ~78%, OpenAI Codex ~76%, Cursor Agent ~67%, Devin ~58%. Na SWE-bench Verified. Czyli na teście, który OpenAI uznał za nienadający się do użytku.

Nowy honest benchmark to SWE-bench Pro — prywatne repozytoria, legalnie niedostępne dla trenerów modeli. Wyniki walą w twarz:

Najlepszy model na rynku: ~57%
Claude Opus 4.5: 45,9%
GPT-5 High: 23,3%

To jest 35-punktowy przepaść między marketingowym 78% a realnym 45,9%. Claude na nieznanym kodzie spada z 22,7% do 17,8%. GPT-5 z 23,1% do 14,9%. Benchmark contamination potwierdzony empirycznie.

Ważna obserwacja dla praktyków: to nie model, to scaffold decyduje. OpenHands (open-source) osiąga 68,4% SWE-bench Verified używając Claude Opus 4.6 — zaledwie 4 punkty poniżej zastrzeżonego Augment Code (72%). Ten sam model bazowy, różne opakowanie, wahania 15+ punktów. Kupujesz agenta, nie model.

Co naprawdę działa: agenci kodujący na dobrze zdefiniowanych zadaniach

Bez owijania w bawełnę — kategoria agentów kodujących jest najbardziej produkcyjnie gotowa. Ale "produkcyjnie gotowa" nie znaczy "działa na wszystkim". Kluczowy jest podział według typu zadania.

Dane z realnych deploymentów (acceptance rates na prawdziwych PR-ach, nie na benchmarkach):

Agent	SWE-bench Verified	Real-world PR acceptance	Koszt/zadanie
Claude Code (Opus 4.7)	~78%	~48%	$1,50–3,00
OpenAI Codex (GPT-5 Pro)	~76%	n/d	BYOK (darmowy CLI)
Cursor Agent	~67%	~42%	$0,40–0,90
Devin	~58%	~38%	$3,00–6,00
Aider	n/d	n/d	$0,30–0,70

Różnica między 78% (benchmark) a 48% (prawdziwy PR) to koszt ambiguity i kontekstu. Benchmark ma jasną specyfikację i clean codebase. Twój projekt — nie.

Gdzie agenci kodujący faktycznie zarabiają na swój chleb

Dane Devina po realnych testach rozbitych na typy zadań:

Pisanie testów: 82% sukcesu — tu agenci są niezawodni. Generowanie unit testów, pokrycie edge case'ów, pytest, Jest — standard.
Jasno zdefiniowane bugfixy: 78% — "Ten endpoint zwraca 500 przy pustym payload" to zadanie dla agenta. "Aplikacja działa wolno" to nie.
Małe, dobrze zdefiniowane featury: 65% — CRUD endpoint z opisanym schematem? Tak. Nowy subsystem autoryzacji z decyzją architektoniczną? Nie.
Refactoring: 45% — Devin refactorując klasę 1800 linii po prostu przeniósł kod bez prawdziwego uproszczenia struktury. Wynik: "zrobione" technicznie, bezużyteczne praktycznie.
Nowa architektura / nieokreślone wymagania: 15% — vaporware territory.

Najlepszy mental model: agent kodujący to cierpliwy junior z ładną pamięcią kontekstową. Nadaje się na powtarzalny backlog, nie na design session.

Krytyczna wada, której marketing nie pokazuje: agenci nie wykrywają podatności bezpieczeństwa. Udokumentowane przypadki — SQL injection i XSS przeszły przez Devina niezauważone. Nie używaj agentów jako zastępstwa code review pod kątem security.

Terminal-Bench: ranking CLI agentów (czerwiec 2026)

Terminal-Bench 2.1 (czerwiec 2026) to benchmark bliższy realnemu użyciu niż SWE-bench — zadania terminalowe, skrypty, operacje na systemie. Wyniki:

Codex CLI (GPT-5.5): 83,4% — darmowy, BYOK
Claude Code (Opus 4.8): 78,9%
Gemini CLI (Gemini 3.1 Pro): 70,7% — darmowy, 1000 req/dzień

Dla przypomnienia: Claude Code na Opus 4.8 osiąga 88,6% SWE-bench Verified (z pełnym scaffoldingiem), ale tylko 69,2% na SWE-bench Pro. Różnica 19 punktów to właśnie benchmark contamination w akcji.

Computer Use: Anthropic dogoniło człowieka, OpenAI nadal gubi się na pulpicie

23 marca 2026 Anthropic uruchomił Claude Computer Use Agent w research preview — dostęp dla subskrybentów Pro ($20/mies.) i Max ($100–200/mies.). OSWorld benchmark z 31 maja 2026 daje pełen obraz:

Anthropic Computer Use: 72%
Człowiek (baseline): 72,4%
OpenAI Operator: 38%

Anthropic faktycznie osiągnął ludzki poziom na kontrolowanym benchmarku. To historyczny milestone. OpenAI Operator zawodzi na 62% podstawowych zadań desktopowych — to nie jest "prawie działa", to "nie działa".

Ważne zastrzeżenie: "poziom ludzki na benchmarku" ≠ "gotowy do produkcji". OSWorld testuje kontrolowane scenariusze. Twój chaotyczny przepływ pracy z 14 otwartymi zakładkami, legacy systemem i przyciskami zmieniającymi pozycję po odświeżeniu strony — to inne wyzwanie. Computer Use Anthropica jest w research preview, nie w GA. Używaj do powtarzalnych, dobrze zdefiniowanych flow — nie jako zastępstwo RPA na krytycznych procesach.

Multi-agentowe systemy: technologia działa, inżynieria zawodzi

LangGraph to de facto standard produkcyjny dla orkiestracji multi-agentowej w 2026. Frameworki istnieją, są w produkcji, firmy na nich zarabiają. Ale udokumentowane failure modes są poważne i mało nagłaśniane.

Cztery główne sposoby w jakie multi-agenty psują dane

Hallucinated consensus — potwierdzona wpadka w pipeline finansowym: jeden agent wygenerował 5-krotnie zawyżony koszt, trzy kolejne agenty "zgodziły się" z wynikiem i przetworzyły go dalej. Błąd wyszedł na jaw dopiero po przejściu przez czwarty węzeł. Zbiorowy "consensus" agentów to iluzja — każdy z nich agreuje się z poprzednim, nie weryfikuje niezależnie.

Stale state — agenty działające na nieaktualnym stanie wspólnym. Typowy scenariusz: agent A aktualizuje dokument, agent B jednocześnie pracuje na starej wersji, wyniki są mergowane, nikt nie protestuje.

Deadlocks — agenty czekające na siebie nawzajem, bez mechanizmu timeout. Silent failure — system "działa", ale nie robi nic.

Silent quality degradation — bez observability 3-tygodniowe pogorszenie jakości outputu przechodzi niezauważone. Zdiagnozowane dopiero przez downstream użytkowników.

Gartner prognozuje: 40% enterprise aplikacji będzie zawierać task-specific agenty do końca 2026 (vs. <5% w 2024). 70% multi-agentowych systemów będzie używać narrow-role agentów do 2027. Dane z DruidAI z realnych wdrożeń pokazują, że containment rates (bez eskalacji do człowieka) w pionowych zastosowaniach są wysokie: finanse 90%, ochrona zdrowia 87%, HR/IT 93%.

Kluczowe słowo: pionowych. Ograniczona domena, ustrukturyzowane dane, zaprojektowana eskalacja. Ogólny autonomiczny agent pracujący przez 8 godzin bez nadzoru — to nadal science fiction.

Devin 2.0: cena spadła, koszty ukryte wzrosły

Cognition obniżyło cenę wejścia z $500/mies. do $20/mies. (Core plan). Brzmi jak rewolucja. Kalkulacja:

Plan	Cena miesięczna	Koszt ACU	Realny koszt 50 zadań/mies.
Core	$20	$2,25 / blok 15 min	$500–2 250
Team	$500	w tym 250 ACU, potem $2,25	zależy od złożoności

Umiarkowanie złożone zadanie kosztuje $11–45 w ACU. 50 takich zadań miesięcznie to $500–2 250 ponad subskrypcję. Model cenowy jest celowo nieprzejrzysty.

Do tego "last 30% problem": Devin regularnie dostarcza 70% gotowe rozwiązania wymagające kilku rund feedbacku. Co technicznie jest "ukończone", ale nie jest "zrobione". Architektonicznie — refactoring 1800-liniowej klasy skończył się przeniesieniem kodu bez uproszczenia struktury. "Make the app faster" bez dalszej specyfikacji — wynik: mediokryczny, bez żadnego zaskoczenia.

Cennik (czerwiec 2026) — zestawienie dla praktyka

Narzędzie	Cena	Uwagi
Claude Pro	$20/mies.	Computer Use, Claude Code
Claude Max 5x	$100/mies.	5x limity użycia
Claude Max 20x	$200/mies.	20x limity użycia
Claude Opus 4.6 API	$5/M input, $25/M output	Batch API: 50% taniej
Devin Core	$20/mies. + $2,25/ACU	Realne koszty znacznie wyższe
Devin Team	$500/mies. + 250 ACU	~$2,25/ACU ponad limit
Cursor Agent	$20–40/mies.	SWE-bench ~67%, PR acceptance 42%
Gemini CLI	Darmowy (1000 req/dzień)	Terminal-Bench 70,7%
Codex CLI	Darmowy (BYOK)	Terminal-Bench 83,4%
GitHub Copilot	Usage-based ($0,01/credit)	Model zmieniony 1 czerwca 2026

Podsumowanie praktyczne: mapa decyzyjna na dziś

Używaj agentów kodujących do: pisania testów, jasno zdefiniowanych bugfixów, małych featurów z dokładną specyfikacją, migracji zależności, boilerplate. Acceptance rate 38–48% na PR-ach to nadal 2–3x szybciej niż pisanie od zera, jeśli dobierasz zadania świadomie.

Nie używaj agentów do: decyzji architektonicznych, security review (SQL injection, XSS przechodzą niezauważone), pracy na nieznanym, dużym prywatnym codebase (realne skuteczności 14–18% na niepublicznym kodzie), wszelkich zadań gdzie specyfikacja brzmi "popraw to".

Computer Use: Anthropic jest near-human baseline w benchmarku i wart testowania dla powtarzalnych, jasnych przepływ pracy. OpenAI Operator — poczekaj na następną wersję, 38% na podstawowych zadaniach to za mało na cokolwiek produkcyjnego.

Multi-agenty: Działają w ograniczonych, pionowych domenach z nadzorem człowieka i zaprojektowaną eskalacją. Nie deployuj ogólnego autonomicznego pipeline bez observability — nie dlatego, że wybuchnie, ale dlatego, że po cichu zacznie dawać złe wyniki i nikt tego nie zauważy przez trzy tygodnie.

Benchmarki: Zawsze pytaj, czy wynik pochodzi z SWE-bench Verified (skompromitowany, nadmuchany przez scaffolding) czy SWE-bench Pro (prywatne repozytoria, twarde liczby). Różnica to 35 punktów procentowych dla niektórych modeli. Sprzedawcy wiedzą, który podają.

Obietnice z 2026 nie były kłamstwem — były po prostu przedwczesne. Agenci AI naprawdę działają. Na konkretnych zadaniach. Z właściwym nadzorem. Z realistycznym oczekiwaniem co do tego, co "działa" znaczy w praktyce. Autonomia jest na horyzoncie, ale horyzont wciąż się przesuwa.

Piotr Olszewski

Piszę maistry.pl — AI po polsku, bez ściemy. Codziennie o 18:18.