Rok temu nagłówki krzyczały: agenci AI zastąpią programistów, zautomatyzują biura, wyślą maile za ciebie i sami napiszą architekturę systemu. Minęło sześć miesięcy 2026 roku — sprawdzamy, co z tego jest prawdą, co jest częściowo prawdą, a co nadal jest marketingowym wishful thinking.
Benchmark, który skłamał — i co go zastąpiło
Zacznijmy od fundamentu: SWE-bench Verified, przez dwa lata główna miara jakości agentów kodujących, jest kompromitacją. W lutym 2026 OpenAI oficjalnie porzucił ten benchmark. Powód? Issues z GitHuba użyte w teście trafiły do publicznych zbiorów treningowych (Common Crawl, The Stack) — modele po prostu "pamiętały" odpowiedzi. Do tego scaffolding agentów dodawał sztucznie 12+ punktów procentowych. Ten sam model: 69% samodzielnie, 81% z ciężkim opakowaniem. Grader odrzucał prawidłowe rozwiązania w 59,4% najtrudniejszych przypadków.
Wyniki, które widziałeś w reklamach? Claude Code ~78%, OpenAI Codex ~76%, Cursor Agent ~67%, Devin ~58%. Na SWE-bench Verified. Czyli na teście, który OpenAI uznał za nienadający się do użytku.
Nowy honest benchmark to SWE-bench Pro — prywatne repozytoria, legalnie niedostępne dla trenerów modeli. Wyniki walą w twarz:
- Najlepszy model na rynku: ~57%
- Claude Opus 4.5: 45,9%
- GPT-5 High: 23,3%
To jest 35-punktowy przepaść między marketingowym 78% a realnym 45,9%. Claude na nieznanym kodzie spada z 22,7% do 17,8%. GPT-5 z 23,1% do 14,9%. Benchmark contamination potwierdzony empirycznie.
Ważna obserwacja dla praktyków: to nie model, to scaffold decyduje. OpenHands (open-source) osiąga 68,4% SWE-bench Verified używając Claude Opus 4.6 — zaledwie 4 punkty poniżej zastrzeżonego Augment Code (72%). Ten sam model bazowy, różne opakowanie, wahania 15+ punktów. Kupujesz agenta, nie model.
Co naprawdę działa: agenci kodujący na dobrze zdefiniowanych zadaniach
Bez owijania w bawełnę — kategoria agentów kodujących jest najbardziej produkcyjnie gotowa. Ale "produkcyjnie gotowa" nie znaczy "działa na wszystkim". Kluczowy jest podział według typu zadania.
Dane z realnych deploymentów (acceptance rates na prawdziwych PR-ach, nie na benchmarkach):
| Agent | SWE-bench Verified | Real-world PR acceptance | Koszt/zadanie |
|---|---|---|---|
| Claude Code (Opus 4.7) | ~78% | ~48% | $1,50–3,00 |
| OpenAI Codex (GPT-5 Pro) | ~76% | n/d | BYOK (darmowy CLI) |
| Cursor Agent | ~67% | ~42% | $0,40–0,90 |
| Devin | ~58% | ~38% | $3,00–6,00 |
| Aider | n/d | n/d | $0,30–0,70 |
Różnica między 78% (benchmark) a 48% (prawdziwy PR) to koszt ambiguity i kontekstu. Benchmark ma jasną specyfikację i clean codebase. Twój projekt — nie.
Gdzie agenci kodujący faktycznie zarabiają na swój chleb
Dane Devina po realnych testach rozbitych na typy zadań:
- Pisanie testów: 82% sukcesu — tu agenci są niezawodni. Generowanie unit testów, pokrycie edge case'ów, pytest, Jest — standard.
- Jasno zdefiniowane bugfixy: 78% — "Ten endpoint zwraca 500 przy pustym payload" to zadanie dla agenta. "Aplikacja działa wolno" to nie.
- Małe, dobrze zdefiniowane featury: 65% — CRUD endpoint z opisanym schematem? Tak. Nowy subsystem autoryzacji z decyzją architektoniczną? Nie.
- Refactoring: 45% — Devin refactorując klasę 1800 linii po prostu przeniósł kod bez prawdziwego uproszczenia struktury. Wynik: "zrobione" technicznie, bezużyteczne praktycznie.
- Nowa architektura / nieokreślone wymagania: 15% — vaporware territory.
Najlepszy mental model: agent kodujący to cierpliwy junior z ładną pamięcią kontekstową. Nadaje się na powtarzalny backlog, nie na design session.
Krytyczna wada, której marketing nie pokazuje: agenci nie wykrywają podatności bezpieczeństwa. Udokumentowane przypadki — SQL injection i XSS przeszły przez Devina niezauważone. Nie używaj agentów jako zastępstwa code review pod kątem security.
Terminal-Bench: ranking CLI agentów (czerwiec 2026)
Terminal-Bench 2.1 (czerwiec 2026) to benchmark bliższy realnemu użyciu niż SWE-bench — zadania terminalowe, skrypty, operacje na systemie. Wyniki:
- Codex CLI (GPT-5.5): 83,4% — darmowy, BYOK
- Claude Code (Opus 4.8): 78,9%
- Gemini CLI (Gemini 3.1 Pro): 70,7% — darmowy, 1000 req/dzień
Dla przypomnienia: Claude Code na Opus 4.8 osiąga 88,6% SWE-bench Verified (z pełnym scaffoldingiem), ale tylko 69,2% na SWE-bench Pro. Różnica 19 punktów to właśnie benchmark contamination w akcji.
Computer Use: Anthropic dogoniło człowieka, OpenAI nadal gubi się na pulpicie
23 marca 2026 Anthropic uruchomił Claude Computer Use Agent w research preview — dostęp dla subskrybentów Pro ($20/mies.) i Max ($100–200/mies.). OSWorld benchmark z 31 maja 2026 daje pełen obraz:
- Anthropic Computer Use: 72%
- Człowiek (baseline): 72,4%
- OpenAI Operator: 38%
Anthropic faktycznie osiągnął ludzki poziom na kontrolowanym benchmarku. To historyczny milestone. OpenAI Operator zawodzi na 62% podstawowych zadań desktopowych — to nie jest "prawie działa", to "nie działa".
Ważne zastrzeżenie: "poziom ludzki na benchmarku" ≠ "gotowy do produkcji". OSWorld testuje kontrolowane scenariusze. Twój chaotyczny przepływ pracy z 14 otwartymi zakładkami, legacy systemem i przyciskami zmieniającymi pozycję po odświeżeniu strony — to inne wyzwanie. Computer Use Anthropica jest w research preview, nie w GA. Używaj do powtarzalnych, dobrze zdefiniowanych flow — nie jako zastępstwo RPA na krytycznych procesach.
Multi-agentowe systemy: technologia działa, inżynieria zawodzi
LangGraph to de facto standard produkcyjny dla orkiestracji multi-agentowej w 2026. Frameworki istnieją, są w produkcji, firmy na nich zarabiają. Ale udokumentowane failure modes są poważne i mało nagłaśniane.
Cztery główne sposoby w jakie multi-agenty psują dane
Hallucinated consensus — potwierdzona wpadka w pipeline finansowym: jeden agent wygenerował 5-krotnie zawyżony koszt, trzy kolejne agenty "zgodziły się" z wynikiem i przetworzyły go dalej. Błąd wyszedł na jaw dopiero po przejściu przez czwarty węzeł. Zbiorowy "consensus" agentów to iluzja — każdy z nich agreuje się z poprzednim, nie weryfikuje niezależnie.
Stale state — agenty działające na nieaktualnym stanie wspólnym. Typowy scenariusz: agent A aktualizuje dokument, agent B jednocześnie pracuje na starej wersji, wyniki są mergowane, nikt nie protestuje.
Deadlocks — agenty czekające na siebie nawzajem, bez mechanizmu timeout. Silent failure — system "działa", ale nie robi nic.
Silent quality degradation — bez observability 3-tygodniowe pogorszenie jakości outputu przechodzi niezauważone. Zdiagnozowane dopiero przez downstream użytkowników.
Gartner prognozuje: 40% enterprise aplikacji będzie zawierać task-specific agenty do końca 2026 (vs. <5% w 2024). 70% multi-agentowych systemów będzie używać narrow-role agentów do 2027. Dane z DruidAI z realnych wdrożeń pokazują, że containment rates (bez eskalacji do człowieka) w pionowych zastosowaniach są wysokie: finanse 90%, ochrona zdrowia 87%, HR/IT 93%.
Kluczowe słowo: pionowych. Ograniczona domena, ustrukturyzowane dane, zaprojektowana eskalacja. Ogólny autonomiczny agent pracujący przez 8 godzin bez nadzoru — to nadal science fiction.
Devin 2.0: cena spadła, koszty ukryte wzrosły
Cognition obniżyło cenę wejścia z $500/mies. do $20/mies. (Core plan). Brzmi jak rewolucja. Kalkulacja:
| Plan | Cena miesięczna | Koszt ACU | Realny koszt 50 zadań/mies. |
|---|---|---|---|
| Core | $20 | $2,25 / blok 15 min | $500–2 250 |
| Team | $500 | w tym 250 ACU, potem $2,25 | zależy od złożoności |
Umiarkowanie złożone zadanie kosztuje $11–45 w ACU. 50 takich zadań miesięcznie to $500–2 250 ponad subskrypcję. Model cenowy jest celowo nieprzejrzysty.
Do tego "last 30% problem": Devin regularnie dostarcza 70% gotowe rozwiązania wymagające kilku rund feedbacku. Co technicznie jest "ukończone", ale nie jest "zrobione". Architektonicznie — refactoring 1800-liniowej klasy skończył się przeniesieniem kodu bez uproszczenia struktury. "Make the app faster" bez dalszej specyfikacji — wynik: mediokryczny, bez żadnego zaskoczenia.
Cennik (czerwiec 2026) — zestawienie dla praktyka
| Narzędzie | Cena | Uwagi |
|---|---|---|
| Claude Pro | $20/mies. | Computer Use, Claude Code |
| Claude Max 5x | $100/mies. | 5x limity użycia |
| Claude Max 20x | $200/mies. | 20x limity użycia |
| Claude Opus 4.6 API | $5/M input, $25/M output | Batch API: 50% taniej |
| Devin Core | $20/mies. + $2,25/ACU | Realne koszty znacznie wyższe |
| Devin Team | $500/mies. + 250 ACU | ~$2,25/ACU ponad limit |
| Cursor Agent | $20–40/mies. | SWE-bench ~67%, PR acceptance 42% |
| Gemini CLI | Darmowy (1000 req/dzień) | Terminal-Bench 70,7% |
| Codex CLI | Darmowy (BYOK) | Terminal-Bench 83,4% |
| GitHub Copilot | Usage-based ($0,01/credit) | Model zmieniony 1 czerwca 2026 |
Podsumowanie praktyczne: mapa decyzyjna na dziś
Używaj agentów kodujących do: pisania testów, jasno zdefiniowanych bugfixów, małych featurów z dokładną specyfikacją, migracji zależności, boilerplate. Acceptance rate 38–48% na PR-ach to nadal 2–3x szybciej niż pisanie od zera, jeśli dobierasz zadania świadomie.
Nie używaj agentów do: decyzji architektonicznych, security review (SQL injection, XSS przechodzą niezauważone), pracy na nieznanym, dużym prywatnym codebase (realne skuteczności 14–18% na niepublicznym kodzie), wszelkich zadań gdzie specyfikacja brzmi "popraw to".
Computer Use: Anthropic jest near-human baseline w benchmarku i wart testowania dla powtarzalnych, jasnych przepływ pracy. OpenAI Operator — poczekaj na następną wersję, 38% na podstawowych zadaniach to za mało na cokolwiek produkcyjnego.
Multi-agenty: Działają w ograniczonych, pionowych domenach z nadzorem człowieka i zaprojektowaną eskalacją. Nie deployuj ogólnego autonomicznego pipeline bez observability — nie dlatego, że wybuchnie, ale dlatego, że po cichu zacznie dawać złe wyniki i nikt tego nie zauważy przez trzy tygodnie.
Benchmarki: Zawsze pytaj, czy wynik pochodzi z SWE-bench Verified (skompromitowany, nadmuchany przez scaffolding) czy SWE-bench Pro (prywatne repozytoria, twarde liczby). Różnica to 35 punktów procentowych dla niektórych modeli. Sprzedawcy wiedzą, który podają.
Obietnice z 2026 nie były kłamstwem — były po prostu przedwczesne. Agenci AI naprawdę działają. Na konkretnych zadaniach. Z właściwym nadzorem. Z realistycznym oczekiwaniem co do tego, co "działa" znaczy w praktyce. Autonomia jest na horyzoncie, ale horyzont wciąż się przesuwa.