Własny ChatGPT na Twoim komputerze — jakie modele open-source realnie uciągniesz w 2026 i jak je odpalić w 10 minut

Lokalny LLM to już nie zabawka dla nerdów. Pokazuję, jak w 10 minut odpalić własny model na Windowsie przez Ollama lub LM Studio, które rodziny modeli (Qwen 3, gpt-oss, Gemma 3, DeepSeek-R1) realnie uciągniesz na swoim sprzęcie i kiedy lokalnie, a kiedy jednak API.

Własny ChatGPT na Twoim komputerze — jakie modele open-source realnie uciągniesz w 2026 i jak je odpalić w 10 minut
Chmura? Dziękuję, mam własną. Stoi pod biurkiem i grzeje nogi.

Przez ostatnie dwa lata „uruchom LLM lokalnie" brzmiało jak hobby dla ludzi z trzema kartami graficznymi i nadmiarem wolnego czasu. W 2026 to się skończyło. Modele open-weight klasy 8–30 miliardów parametrów robią dziś rzeczy, za które w 2023 płaciłeś OpenAI, a narzędzia typu Ollama i LM Studio sprowadziły instalację do poziomu „następny, następny, zakończ". Jeśli masz kartę z 8 GB VRAM albo nowszego laptopa z 16–32 GB RAM — masz sprzęt do własnego ChatGPT. Bez abonamentu, bez wysyłania danych klientów na cudze serwery.

Po co w ogóle lokalny LLM

Trzy realne powody, w kolejności od najpoważniejszego:

  • Prywatność i dane klientów. Umowy NDA, dane osobowe, dokumentacja medyczna, kod produkcyjny — wszystko, czego nie chcesz (albo prawnie nie możesz) wkleić do chmurowego czatu. Lokalny model nie wysyła ani bajta na zewnątrz.
  • Koszty przy dużej skali powtarzalnych zadań. Klasyfikacja tysięcy maili, tagowanie produktów, anonimizacja dokumentów, generowanie opisów — zadania, gdzie nie potrzebujesz inteligencji frontier modelu, a rachunek za API rośnie liniowo z wolumenem. Lokalnie płacisz tylko za prąd.
  • Offline i niezależność. Model działa w pociągu, na działce i wtedy, gdy dostawca API ma awarię albo z dnia na dzień zmienia cennik czy politykę.

I jedno szczere zastrzeżenie: do zadań wymagających najwyższej jakości rozumowania (skomplikowana analiza prawna, trudny kod architektoniczny, długie agentowe workflow) modele frontier przez API nadal wygrywają. Lokalny LLM to narzędzie do konkretnych zadań, nie pełny zamiennik wszystkiego.

Co realnie uciągniesz: stan na czerwiec 2026

Krótka mapa rodzin modeli open-weight, które warto znać (wszystkie dostępne w Ollama i LM Studio):

  • Qwen 3 (Alibaba) — obecnie najmocniejsza rodzina open-weight „na każdą kieszeń": gęste modele od 0,6B przez 4B, 8B, 14B do 32B, plus duże warianty MoE z flagowym 235B-A22B (z 235 mld parametrów aktywne jest tylko ~22 mld na token). Licencja Apache 2.0, świetne rezultaty w kodzie i rozumowaniu. Kolejne iteracje (Qwen 3.5/3.6) systematycznie podnoszą poprzeczkę.
  • gpt-oss (OpenAI) — otwarte modele OpenAI w dwóch rozmiarach: gpt-oss-20b (dzięki kwantyzacji MXFP4 działa na kartach 16 GB, pobiera ~12–13 GB) i gpt-oss-120b (potrzebuje ~65–80 GB pamięci — to liga stacji roboczych). 20b to dziś jeden z najlepszych wyborów „rozsądny rozum na konsumenckiej karcie".
  • Gemma 3 (Google) — rozmiary 1B, 4B, 12B i 27B, multimodalne (oprócz 1B), kontekst 128K. Bonus: warianty QAT (quantization-aware training), które trzymają jakość lepiej niż zwykła kwantyzacja przy tym samym rozmiarze. Gemma 3 27B mieści się na karcie 16 GB i jest jednym z najłatwiejszych mocnych modeli do samodzielnego hostowania.
  • DeepSeek-R1 — model rozumujący. Uwaga na pułapkę: prawdziwy R1 to 671B parametrów (~404 GB na dysku) i na laptopie go nie odpalisz. Tagi 1.5b–70b w Ollamie to destylaty — mniejsze modele (Qwen, Llama) dotrenowane na rozumowaniu R1. Nadal dobre, ale to nie jest „ten" DeepSeek.
  • Llama 4 (Meta) — wariant Scout wyróżnia się kontekstem do 10 milionów tokenów (cała baza kodu w jednym prompcie), ale to modele MoE wymagające sporo pamięci — raczej serwer niż laptop.
  • Mistral / Devstral (Mistral AI) — Francuzi nadal w grze: Mistral Large 3 na górze stawki, a Devstral Small 2 to mocny, lekki wybór do kodowania na lokalnym sprzęcie.
  • Phi-4 14B (Microsoft) — mały, zaskakująco zdolny, chodzi już na 8 GB VRAM.

Tabela: ile pamięci na jaki model (kwantyzacja ~Q4)

Złota zasada: model w kwantyzacji 4-bitowej zajmuje w pamięci mniej więcej połowę liczby parametrów w GB plus narzut na kontekst. 8 GB VRAM wystarcza na modele 7–8B, 24 GB to praktyczne minimum dla klasy 30B, a od 70B w górę potrzebujesz 40+ GB albo zrzucania warstw do RAM (wolno).

ModelParametryMin. VRAM/RAM (Q4)Do czego
Gemma 3 4B4B~4 GBlaptop bez GPU, szybkie podsumowania, klasyfikacja
Qwen 3 8B8B6–8 GBuniwersalny „pierwszy model", dobre po polsku
Phi-414B~8–10 GBrozumowanie i matematyka na słabszym sprzęcie
Qwen 3 14B14B~10–12 GBsolidna praca z tekstem i kodem na karcie 12 GB
gpt-oss-20b20,9B (MXFP4)~16 GBnajlepszy „rozum" na konsumenckiej karcie 16 GB
Gemma 3 27B / Qwen 3 32B27–32B16–24 GBpoważna praca: analiza dokumentów, kod, multimodalność (Gemma)
DeepSeek-R1 70B (destylat)70B40+ GBgłębokie rozumowanie, sprzęt klasy 2× GPU / Mac z dużym RAM
gpt-oss-120b117B (MXFP4)65–80 GBstacja robocza / serwer, jakość zbliżona do API

Bez dedykowanej karty? Na maszynie z 32 GB RAM modele do ~14B działają na CPU znośnie (kilka–kilkanaście tokenów/s), a Maki z układami M-series i zunifikowaną pamięcią to osobna, bardzo wygodna liga.

Droga 1: Ollama (terminal, 5 minut)

Ollama to najprostszy sposób na lokalny LLM, jeśli nie boisz się okna terminala.

  1. Wejdź na ollama.com, pobierz instalator dla Windows i przeklikaj instalację. Ollama wystartuje w tle (ikona w zasobniku).
  2. Otwórz PowerShell i pobierz pierwszy model:
# uniwersalny start na karcie 8 GB
ollama run qwen3:8b

# masz 16 GB VRAM? bierz otwarty model OpenAI
ollama run gpt-oss:20b

# multimodalny mocarz na 16 GB
ollama run gemma3:27b

# model rozumujący (destylat) na 12 GB
ollama run deepseek-r1:14b

Pierwsze uruchomienie pobiera model (4–13 GB, zależnie od rozmiaru), potem czat startuje od razu. Przydatne komendy:

ollama list      # co masz pobrane
ollama ps        # co aktualnie siedzi w pamięci
ollama rm qwen3:8b   # zwolnij miejsce na dysku

Ollama wystawia też lokalne API na http://localhost:11434 — możesz podpiąć je do własnych skryptów i aplikacji.

Droga 2: LM Studio (klikalne GUI, 10 minut)

LM Studio to wybór, jeśli wolisz interfejs graficzny — i szczerze: dla większości czytelników to lepszy start.

  1. Pobierz instalator z lmstudio.ai (Windows 10+; wspiera akcelerację NVIDIA CUDA, AMD ROCm i Intel Arc).
  2. Po uruchomieniu otwórz wbudowaną wyszukiwarkę modeli (katalog Hugging Face). LM Studio sam podpowiada, które warianty GGUF zmieszczą się w Twojej pamięci — zielona etykieta = bierz śmiało.
  3. Pobierz model, kliknij „Load" i pisz. Tyle.

Co dostajesz ekstra: czat z dokumentami (RAG — wrzucasz PDF i pytasz), wsparcie MCP (podpinanie narzędzi zewnętrznych) oraz — kluczowe dla twórców — serwer API zgodny z OpenAI na localhost:1234. Każdy skrypt, który dziś gada z api.openai.com, przekierujesz na własny komputer zmianą jednego adresu.

Protipy wydajności

  • Kwantyzacja Q4_K_M to słodki punkt. Q8 daje minimalnie lepszą jakość za dwukrotnie większą pamięć; Q2–Q3 wyraźnie głupieją. W LM Studio wybieraj warianty Q4_K_M, w Ollamie domyślne tagi zwykle to właśnie ~Q4.
  • Cały model w VRAM albo bóle. Gdy model nie mieści się na karcie, warstwy idą do RAM i prędkość spada z 40–60 tok/s do kilku. Lepszy mniejszy model w całości na GPU niż większy na pół gwizdka.
  • Kontekst zjada pamięć. 128K kontekstu potrafi dodać kilka GB. Jeśli nie analizujesz długich dokumentów, ustaw 8–16K i odzyskaj VRAM.
  • Gemma 3? Bierz wariant QAT. Tagi gemma3:27b-it-qat trzymają jakość lepiej niż standardowa kwantyzacja tej samej wielkości.
  • Zamykaj gry i Chrome'a z 90 kartami — walczą z modelem o VRAM i RAM.

Kiedy lokalnie, a kiedy jednak API

Lokalnie: dane wrażliwe, masowe powtarzalne zadania, praca offline, eksperymenty i nauka, prosty asystent do tekstów i kodu. API: najtrudniejsze rozumowanie, długie agentowe zadania, generowanie na produkcję dla klientów, gdzie liczy się każdy punkt jakości — oraz gdy Twój sprzęt kończy się na 8 GB VRAM, a potrzebujesz klasy 100B+. Najrozsądniejszy układ na 2026: lokalny model do 80% codziennych zadań, API do pozostałych 20%, gdzie jakość jest niepodważalna.

FAQ

Mam laptopa bez karty NVIDIA. Jestem skazany na chmurę?
Nie. Modele 4–8B działają na samym CPU z 16 GB RAM — wolniej (kilka tokenów/s), ale używalnie. LM Studio na Windows wspiera też karty AMD (ROCm) i Intel Arc.

Czy lokalny model jest dobry po polsku?
Qwen 3 i Gemma 3 radzą sobie po polsku zaskakująco dobrze już od 8–12B. Małe modele (1–4B) potrafią kaleczyć odmianę — do polskich tekstów celuj w 8B wzwyż.

Ollama czy LM Studio — co wybrać?
LM Studio, jeśli chcesz klikać i mieć czat z PDF-ami od ręki. Ollama, jeśli planujesz automatyzacje i skrypty. Nic nie stoi na przeszkodzie, by mieć oba — modele i tak trzymają osobno.

Czy „deepseek-r1:8b" z Ollamy to ten słynny DeepSeek R1?
Nie — to destylat (mniejszy model uczony na odpowiedziach R1). Pełny R1 ma 671B parametrów i wymaga sprzętu za dziesiątki tysięcy złotych. Destylaty są dobre, ale nie oczekuj cudów z benchmarków.

Ile to kosztuje?
Oprogramowanie i modele: 0 zł (LM Studio i Ollama są darmowe, modele open-weight również). Płacisz sprzętem — używana RTX 3090 z 24 GB VRAM to dziś najtańszy bilet do klasy 30B — i prądem.

Źródła: Ollama Library, LM Studio Docs, Ollama (GitHub), The Register: How to run gpt-oss-20b locally, IntuitionLabs: Hardware requirements for gpt-oss-20b, Hugging Face: Best open-weight LLMs to run locally in 2026. Tekst powstał z pomocą AI i przeszedł weryfikację redakcyjną człowieka. Grafiki: wygenerowane przez AI (Gemini).

$ udostępnij X in
Piotr Olszewski
Piotr Olszewski

Piszę maistry.pl — AI po polsku, bez ściemy. Codziennie o 18:18.