✦ Model wraca warunkowo (3)

W trzech zdaniach

Fable 5 wraca po trzech tygodniach eksportowej blokady, ale pod warunkami, które mówią więcej niż samo wyłączenie. Dostęp do modelu frontier jest dziś kwestią geopolityki i zgodności, nie ceny.
Anthropic wypuścił przy okazji taniego, agentowego Sonnet 5, jakością bliskiego droższemu Opusowi. Dla firmy, która chce puścić agenty do pracy, to premiera ważniejsza niż powrót flagowca.
Najgłębsze pęknięcie tygodnia jest po stronie zaufania: niezależny test pokazał, że GPT-5.6 oszukuje na egzaminie tak sprawnie, że nie dało się go zmierzyć. Weryfikacja przestała być etapem po wdrożeniu, stała się częścią produktu.

Rękę na wyłączniku najlepszego modelu trzyma dziś państwo, nie dostawca.

Temat tygodnia

Tydzień temu opisałem tu, jak rząd Stanów Zjednoczonych jednym pismem wyłączył Fable 5 i Mythos 5, dwa najzdolniejsze modele Anthropic, dla wszystkich obcokrajowców na świecie, własnych pracowników bez amerykańskiego paszportu i klientów od Warszawy po Tokio. Numer domykałem, nie wiedząc, kiedy i czy model wróci. Wrócił. 30 czerwca Departament Handlu zdjął kontrolę eksportową, a od dziś, środy 1 lipca, Fable 5 znów jest dostępny globalnie. Chociaż ja jeszcze czekam na włączenie.

I to sequel jest ciekawszy od premiery, bo warunki powrotu mówią więcej niż samo wyłączenie. Anthropic zobowiązał się proaktywnie raportować rządowi wykryte ryzyka, uzgadniać z nim protokoły kolejnych wydań i trzymać dane przez trzydzieści dni. Innymi słowy, prywatna firma zgodziła się prowadzić z państwem stałą rozmowę o tym, co i komu wolno udostępnić. To nie jest jednorazowy incydent, to precedens, po którym każde następne wydanie modelu z najwyższej półki będzie miało z tyłu głowy pytanie, czy przejdzie przez tę samą bramkę.

Trzy tygodnie bez najlepszego modelu to doświadczenie, którego żaden dział ryzyka w nie miał w swojej macierzy, bo brzmi jak political fiction: twój najważniejszy dostawca technologii wyłącza produkt nie dlatego, że mu się zepsuł serwer, tylko dlatego, że kazało mu państwo. Dostęp do najlepszego modelu AI przestał być funkcją ceny za milion tokenów. Stał się funkcją geopolityki i zgodności. Jeśli twój proces stoi na jednym modelu frontier, masz w architekturze pojedynczy punkt awarii, który może zdjąć rząd po drugiej stronie oceanu, nie twój dostawca.

A wszystko to dzieje się w tygodniu, w którym Anthropic tym samym ruchem, którym przywraca flagowca, wypuszcza tańszego, agentowego Sonnet 5. Front nie zatrzymał się na czas blokady, przesunął się dalej. Na tym polega cała pułapka: modele robią się coraz lepsze i coraz tańsze, więc pokusa, żeby oprzeć na nich krytyczny proces, rośnie, a jednocześnie kontrola nad tym, czy w ogóle wolno ci ich użyć, przenosi się w miejsce, do którego nie masz wstępu.

Dla firm ta scena ma konkretne przełożenie, i nie jest nim panika. Jest nim jedno pytanie do architektury: gdzie mam plan B. Jeśli krytyczny proces stoi na jednym modelu jednego dostawcy, to nie mam architektury, mam zakład bukmacherski. Trzy tygodnie bez Fable to dla kogoś, kto oparł na nim produkcję, nie niedogodność, a przestój, którego cenę płaci się w kwartale, nie w przeprosinach.

Do tej sceny wrócę jeszcze nie raz w tym numerze, bo cały tydzień się wokół niej ułożył. Ale zanim, rzut oka na resztę stołu, bo działo się dużo więcej niż jeden kill switch.

✦

Premiery tygodnia

Anthropic zdejmuje blokadę z Fable 5 i Mythos 5. Departament Handlu uchylił dyrektywę 30 czerwca, a Fable 5 wraca dla użytkowników na całym świecie od 1 lipca, na platformie Claude, w Claude.ai, Claude Code i Claude Cowork, a na AWS, Google Cloud i Microsoft Foundry tak szybko, jak się da. Warunki zdjęcia blokady są ciekawsze niż samo zdjęcie: firma zobowiązała się proaktywnie wykrywać ryzyka, uzgadniać z rządem protokoły przyszłych wydań i raportować wykryte nadużycia. Do tego proponuje razem z Amazonem, Microsoftem i Google branżowy framework oceny wagi jailbreaków, żeby następnym razem spór o „czy to groźne” toczył się na skali, nie na telefonie. Werdykt: to najlepsza możliwa ilustracja tego, że w architekturze opartej na jednym dostawcy compliance nie kończy się na RODO, zaczyna się od pytania „kto jeszcze ma prawo weta”. Anthropic, CNBC.

Claude Sonnet 5. Tego samego 30 czerwca, w cieniu dramatu z Fable, Anthropic wypuścił model, który dla większości firm znaczy więcej niż powrót flagowca. Sonnet 5 to średniak, który planuje, używa narzędzi jak przeglądarka i terminal, i działa autonomicznie na poziomie, jakiego pół roku temu wymagały modele większe i droższe. Na benchmarku pracy umysłowej minimalnie wyprzedza Opus 4.8, czyli droższego brata od najtrudniejszych zadań. Cena wprowadzająca to 2 dolary za milion tokenów wejścia i 10 za milion wyjścia do 31 sierpnia, potem 3 i 15. Domyślny model dla kont darmowych i Pro. Do tego niższy odsetek „niepożądanych zachowań” i lepsza odporność na prompt injection niż w Sonnecie 4.6. Werdykt: dla firmy, która chce puścić agenty do back-office jutro, a nie w przyszłym kwartale, to jest premiera ważniejsza niż Fable. Jakość blisko topu za ułamek ceny i mniejsza podatność na przejęcie promptu to dokładnie ta kombinacja, której szukasz, kiedy liczysz koszt na tysiąc spraw, nie na jeden efektowny pokaz. TechCrunch, Anthropic.

OpenAI pokazuje GPT-5.6 Sol, Terra i Luna. 26 czerwca ruszył ograniczony podgląd trzech modeli: Sol do najtrudniejszego kodowania i planowania, Terra zrównoważony, Luna szybki i tani. Haczyk: na prośbę rządu USA początkowo dostęp dostało około dwudziestu zatwierdzonych firm, pokłosie czerwcowego rozporządzenia Trumpa o benchmarkowaniu modeli o zaawansowanych zdolnościach cyber przed publicznym wydaniem. Sam OpenAI napisał, że „to nie powinno być normą”. Zapowiedziano też uruchomienie Sola na sprzęcie Cerebras z wyraźnie wyższą prędkością generowania. Werdykt: rok temu to Europa była regulatorem, a USA wolnym rynkiem. Dziś to Waszyngton trzyma rękę na kurku przy wydaniu modelu, a europejski deployer patrzy na to z boku i liczy, na czyim krzemie i pod czyim nadzorem stoi jego proces. OpenAI, Axios.

Sześćdziesiąt jeden procent trafności bez implantu i bez operacji: dziś laboratorium, jutro może produkt.

Meta Brain2Qwerty v2. 30 czerwca laboratorium FAIR pokazało system, który odczytuje pisane zdania z sygnału magnetoencefalografii, bez implantu i bez operacji. Trafność 61 procent na poziomie słów, 78 u najlepszego uczestnika, skok z 8 procent dla wcześniejszych metod nieinwazyjnych. To research, nie produkt: aparat MEG wymaga ekranowanego pomieszczenia i nieruchomej głowy, a licencja jest niekomercyjna. Smaczek dla tych, którzy lubią patrzeć, jak robi się kiełbasę: część pipeline'u dopracowywały iteracyjnie agenty AI, choć finalną konfigurację treningu wybierali ludzie. Werdykt: to nie jest narzędzie, którego użyjesz w tym roku, ale to jeden z tych momentów, w których widać, że krzywa się nie spłaszcza. Meta AI.

IBM pokazuje chip poniżej jednego nanometra. 25 czerwca, na konferencji VLSI, architektura Nanostack: węzeł 0,7 nanometra, około stu miliardów tranzystorów na powierzchni paznokcia, o połowę więcej wydajności albo o 70 procent mniej energii względem 2 nanometrów. Sztuczka polega na układaniu tranzystorów pionowo, w trzech wymiarach, zamiast dalej kurczyć płaszczyznę. Redukcja SRAM o 40 procent celuje wprost w modele AI. Komercjalizacja za jakieś pięć lat. Werdykt: prawo Moore'a dostaje jeszcze jedną dekadę, pod warunkiem że przestaniemy myśleć o miniaturyzacji jak o kurczeniu, a zaczniemy jak o budowaniu wieżowców. IBM, MIT Technology Review.

✦

Blisko-topowa jakość za dwa i dziesięć dolarów: agent do pracy, nie do pokazu.

Narzędzie tygodnia

Sonnet 5. Dla kogo: dla każdego, kto chce postawić agenty do powtarzalnej roboty, gdzie liczy się koszt jednostkowy i przewidywalność, a nie rozwiązywanie zagadek olimpijskich. Obsługa klienta, wstępne przygotowanie dokumentów, przeszukiwanie wewnętrznych baz, streszczanie spotkań, draft odpowiedzi. Werdykt: warto, i to od zaraz, z jednym zastrzeżeniem. Blisko-topowa jakość za 2 i 10 dolarów oraz lepsza odporność na przejęcie promptu to dokładnie profil, którego szukasz do wdrożeń masowych, nie pokazowych. Zastrzeżenie brzmi tak: model tańszy i domyślny to model, który ludzie zaczną wpuszczać wszędzie bez pytania, więc zanim wpuścisz go do procesu dotykającego danych klienta, wpisz do rejestru ryzyk retencję logów i scenariusz nagłego braku dostępu. Dostępność mocy to nie to samo co dopuszczalność jej użycia w regulowanym procesie, a różnicę między tymi dwoma zdaniami płaci się wtedy, kiedy najmniej pasuje. Anthropic.

✦

Co mówią liderzy

Tydzień miał dwie narracje, które ciągnęły w przeciwne strony, i to napięcie jest ciekawsze niż każda z nich osobno.

Po stronie „to bańka” stanął Jeremy Grantham, który u Stevena Bartletta w The Diary of a CEO nazwał AI „możliwie największą bańką inwestycyjną w historii Stanów”, z prognozą spadku rzędu 70 procent i radą, żeby trzymać zero procent w akcjach amerykańskich. DOAC. Wtóruje mu Marietje Schaake, która od tygodni powtarza, że „Europa musi być gotowa, kiedy bańka AI pęknie”. LinkedIn. Nad Wisłą tę samą nutę gra Artur Kurasiński w Technofobii, zestawiając 500 miliardów dolarów projektu Stargate z DeepSeekiem, który robi podobne rzeczy za ułamek kosztów. Pytanie o zwrot z inwestycji stawia wprost. Technofobia.

Po stronie „to się dzieje niezależnie od wycen” stoją twarde dane. Raport Deloitte o trendach w finansach pokazuje, że około 63 procent działów finansów już aktywnie używa AI, a większość spodziewa się przebudowy modelowania i raportowania. Deloitte. Ethan Mollick w One Useful Thing pisze o „zmierzchu chatbotów”, czyli o tym, że twarz AI przenosi się z okienka czatu na agenty, które coś robią, a nie tylko odpowiadają. One Useful Thing. Z kolei ze zjazdu badaczy płynie trzeźwiąca nuta, którą warto potraktować jako głos środowiska, nie wyrok: Chiny wygrywają, drenaż talentów jest realny, a AGI przereklamowane.

Ta notatka o drenażu talentów ma twarde pokrycie w liczbach. W ciągu jednego tygodnia Google stracił kilku kluczowych badaczy: Noam Shazeer, współtwórca architektury Transformer, odszedł do OpenAI, a noblista John Jumper, twórca AlphaFold, przeszedł do Anthropic. Rynek wymazał z wyceny Alphabetu około 270 miliardów dolarów. CNBC, Bloomberg, Fortune. Wyścig o dominację w AI rozstrzyga się nie na poziomie serwerowni, tylko na poziomie kilkunastu nazwisk, które głosują nogami, i to jest ta część historii, której żaden capex nie kupi.

Trzecim głosem, który spina obie strony, jest Dave Keating, który od dwóch tygodni pisze o tym samym z europejskiej perspektywy: „Europa nie deregulacją dogoni znaczenie w AI”, a historia z odcięciem Europejczyków od Anthropic to „boleśnie jawny” dowód zależności od USA. Gulf Stream Blues. Kapitał i regulacja jednocześnie sygnalizują pauzę, a operacyjna adopcja jedzie dalej. Dla kogoś, kto podejmuje decyzje, to nie jest sprzeczność do rozwiązania, tylko warunek pracy: wartość AI i wycena AI to dwie różne liczby, i tylko jedna z nich pojawia się w twoim rachunku wyników.

Anthropic ujawnił, że operatorzy powiązani z Alibabą przeprowadzili około 28,8 miliona wymian z modelami Claude przez blisko 25 tysięcy fałszywych kont między 22 kwietnia a 5 czerwca, próbując metodą destylacji wyciągnąć wzorce rozumowania do trenowania własnych modeli. CNBC. Jeśli nawet firma z najlepszymi systemami weryfikacji nie odróżnia dwudziestu pięciu tysięcy fałszywych kont od prawdziwych użytkowników, to ochrona własności intelektualnej w epoce modeli językowych znaczy mniej, niż byśmy chcieli.

Nad Wisłą pokrewny, choć mniejszy spór toczy Sławosz Uznański-Wiśniewski, którego Polska Agencja Kosmiczna próbuje uciszyć po jego krytyce europejskiego programu i braku krajowej strategii kosmicznej. Rzeczpospolita. Ekspert kontra instytucja to inny front tej samej wojny o to, kto ma prawo mówić i kto ma prawo wyłączyć.

✦

Co warto przeczytać u innych

MIT Technology Review opisał maszynę litograficzną ASML za 400 milionów dolarów, wielkości piętrowego autobusu, ważącą ponad 150 ton, bez której gęstość tranzystorów i cała rewolucja AI utknęłyby w miejscu. Jedna firma robi około 90 procent tych narzędzi na świecie, co jest jednocześnie gwarancją postępu i pojedynczym punktem awarii globalnego łańcucha. MIT Technology Review.

Ta sama redakcja pokazała paradoks, który definiuje dekadę: fala upałów w Europie zmusza Francję do wyłączania reaktorów jądrowych, bo woda w rzekach jest za ciepła na chłodzenie, dokładnie wtedy, gdy klimatyzatory generują szczyt zapotrzebowania. Infrastruktura projektowana w XX wieku nie wytrzymuje klimatu XXI, a data centra AI dokładają do tego zapotrzebowania kolejne gigawaty. MIT Technology Review.

TechCrunch dorzucił dane, które warto trzymać pod ręką na następną rozmowę o zwolnieniach „przez AI”: analitycy z funduszu SignalFire pokazują, że wbrew narracji inżynierowie oprogramowania są najodporniejszą grupą na rynku pracy, a nie pierwszą do zastąpienia. TechCrunch.

A jeśli masz czas tylko na jeden dłuższy tekst, weź reportaż Tygodnika Powszechnego o autonomicznych dronach w Ukrainie i programie Brave1, w którym ponad sto firm trenuje modele na danych z realnych misji, i o tym, co się dzieje, gdy maszyna sama wybiera cel. To najlepszy dostępny po polsku materiał o tym, dokąd prowadzi delegowanie decyzji maszynie, kiedy stawką nie jest źle podsumowany mail. Tygodnik Powszechny.

CNBC opisał coś, co nazywam podatkiem AI, i jest to pierwszy społecznie odczuwalny koszt tej gorączki. Data centra pochłaniają układy pamięci w takim tempie, że Apple i Microsoft podniosły ceny sprzętu, a producent pamięci Micron zaraportował rekordowy kwartał z przychodem 41,46 miliarda dolarów i zamówieniami na pamięć wysokiej przepustowości wyprzedanymi do 2027 roku. CNBC, GlobeNewsWire. Kiedy następnym razem ktoś powie, że AI jest za darmo w chmurze, pokaż mu cennik laptopa.

Gizmodo opisał ruch, który warto śledzić dłużej niż jeden news: Estonia jako pierwszy kraj chce nadać agentom AI osobne kody identyfikacyjne, żeby agent działający w twoim imieniu nie musiał pożyczać całej twojej tożsamości cyfrowej, tylko dostawał dokładnie tyle uprawnień, ile trzeba. Gizmodo. To dokładnie ten rodzaj przyziemnej infrastruktury, bez której agenty w produkcji pozostaną eksperymentem, a nie pracownikiem.

The Decoder odnotował wyrok, który powinien trafić do każdej mapy ryzyka: sąd w Monachium uznał, że odpowiedzi generowane przez podsumowania AI w wyszukiwarce Google to własne wypowiedzi firmy, a nie neutralne linki, i firma odpowiada za ich fałszywość. The Decoder. Jeśli to się utrzyma w apelacji, każdy chatbot obsługi klienta staje się potencjalnym pozwanym, a zdanie „to tylko model tak napisał” przestaje być linią obrony.

Był też ruch, który mógłby rozszczelnić monopol Nvidii na infrastrukturę AI, choć skończył się na razie zaprzeczeniem. Reuters doniósł o zaawansowanych rozmowach Qualcomma o przejęciu Tenstorrent, startupu chipowego Jima Kellera stawiającego na otwartą architekturę RISC-V, za 8 do 10 miliardów dolarów. Pod koniec czerwca sam Keller temu zaprzeczył, więc potraktuj to jako sygnał kierunku, nie fakt dokonany. Tom's Hardware, GuruFocus. Kierunek zostaje ten sam niezależnie od tego jednego dealu: kapitał szuka realnej alternatywy dla zamkniętego ekosystemu, a nie kolejnego slajdu z postulatem.

✦

W gorączce AI najpewniej zarabia ten, kto wynajmuje fabrykę, nie ten, kto trenuje w niej model.

Viral tygodnia

Najlepszą przypowieść tygodnia dostarczył Elon Musk, wbrew sobie. Od 1 lipca laboratorium Reflection AI płaci SpaceX około 150 milionów dolarów miesięcznie za moc obliczeniową w centrum danych Colossus pod Memphis, do 6,3 miliarda dolarów, jeśli umowa dotrwa do 2029. Colossus zbudowano po to, żeby trenować Groka, model xAI. Tyle że, jak donoszą media, SpaceX „nie umiał zmusić go do pracy pod własne modele”, więc zamienił fabrykę w wynajem. Nvidia siedzi po obu stronach transakcji: dostarcza chipy i zainwestowała około 800 milionów dolarów w najemcę. Miliarder zbudował największą fabrykę AI w kraju dla siebie, nie odpalił jej i został rentierem, a producent łopat finansuje kopacza, żeby ten kupił od niego łopatę. W gorączce złota najpewniej zarabia ten, kto sprzedaje narzędzia, nie ten, kto kopie. Reszta płaci czynsz. CNBC.

Drugi wiral jest mniej zabawny i bardziej pouczający. 30 czerwca Cisco ogłosiło likwidację 471 stanowisk w Kalifornii, uzasadniając to „priorytetyzacją inwestycji w AI”. W 2026 ponad połowa zwolnień w branży technologicznej nosi etykietę AI, a rośnie liczba dowodów, że to często listek figowy na przewymiarowane zatrudnienie i presję inwestorów. 471 to zbyt precyzyjna liczba na transformację. Tak precyzyjne liczby biorą się z kwartału, nie z wizji. To samo słowo, które w moich premierach oznacza realny postęp, w komunikacie o zwolnieniach coraz częściej znaczy „potrzebowaliśmy ładniejszego slajdu”. InformationWeek.

Trzeci wiral to sygnał dla każdego, kto sprzedaje albo kupuje AI dla przedsiębiorstwa. 30 czerwca Amazon uruchomił jednostkę inżynierów osadzanych u klienta wartą miliard dolarów, kopiując to, co wcześniej ogłosiły OpenAI i Anthropic. Trzy firmy AI w jednym kwartale odkryły to samo: model to nie produkt, produktem jest wdrożenie. Drogie słowo na konsultanta, który zrobi robotę za klienta, i miliard dolarów na potwierdzenie, że wartość w AI przenosi się z modelu na integrację. Banki wiedzą to od zawsze, dlatego mają działy wdrożeń, nie tylko licencje. TechCrunch.

✦

Z laboratoriów

Poza brain-to-text Meta warto zapamiętać dwie rzeczy. Singularity Hub opisał układy radiowe zaprojektowane przez AI, które wyglądają jak sztuka abstrakcyjna, a nie jak konwencjonalne obwody, i biją ludzkie projekty pod względem wydajności, bo AI eksploruje przestrzeń rozwiązań, do której ludzka intuicja po prostu nie dociera. To nie jest zastępowanie inżyniera, to poszerzanie mapy tego, co w ogóle uznajemy za możliwe. Singularity Hub.

Z zupełnie innej półki przyszła lekcja pokory dla całej branży przełomów. W Nature ukazała się recenzowana krytyka głośnego chipu kwantowego Microsoftu: fizyk z Uniwersytetu St Andrews przeanalizował dane i argumentuje, że firma nie wykazała rozstrzygająco działającego kubitu topologicznego, a kluczowa metoda detekcji jest wadliwa. Microsoft odpowiada, że błędy są trywialne. To już trzeci raz, gdy zewnętrzni fizycy kwestionują fundamenty tego podejścia. Morał nie dotyczy tylko kwantów: kiedy presja na ogłaszanie przełomów wyprzedza weryfikację, komunikat prasowy zaczyna żyć własnym życiem, dłuższym niż dane, które miał opisywać. Nature.

Druga rzecz to sygnał, który łatwo przegapić w hałasie premier: na Hacker News narracja przeskoczyła z „jak szybko AI pisze kod” na „nie nadążamy tego weryfikować”. Generacja jest tania, weryfikacja droga, i cała ekonomia programowania z AI sprowadza się teraz do tego jednego zdania. Kto sprzedaje demo, sprzedaje wczoraj. Kto potrafi zagwarantować, że wygenerowane działa i nie kłamie, sprzedaje 2027. Zapamiętaj to zdanie, bo wróci w niewypale tygodnia.

✦

Dwa tysiące lat węgla kontra jeden przebieg algorytmu.

Case tygodnia

Najlepsze wdrożenie tygodnia nie miało slajdu z ROI ani konferencji prasowej. 25 czerwca zespół Vesuvius Challenge ogłosił pierwsze niemal kompletne odczytanie zachowanego tekstu jednego ze zwojów z Herkulanum, zwęglonego przez erupcję Wezuwiusza w 79 roku naszej ery. Bryłę węgla, której nikt nie mógł rozwinąć bez zniszczenia, prześwietlono tomograficznie, a modele AI rozpoznały ślady atramentu: około dwudziestu dwóch kolumn greki, stoicki traktat o naturze człowieka i granicach poznania, a przy okazji zidentyfikowano tytuł nieznanego wcześniej dzieła, „Filodemos, O bogach, księga ósma”. Liczba efektu jest tu prostsza niż w każdym enterprise case: dwa tysiące lat nieczytelności kontra jeden przebieg algorytmu. W morzu newsów o halucynacjach i modelach oszukujących testy warto trzymać ten przykład pod ręką, bo pokazuje, że to samo narzędzie, które w innej sekcji ściąga na egzaminie, potrafi oddać ludzkości głos sprzed dwóch tysiącleci. CNN, Vesuvius Challenge.

Trzymam ten przykład obok niewypału z premedytacją. Ta sama technologia, w tym samym tygodniu, oszukuje na egzaminie i odczytuje spalony rękopis sprzed dwóch tysięcy lat. Narzędzie robi to, pod co je ustawisz i za co je nagrodzisz. Ustaw je pod wynik testu, dostaniesz spryt egzaminacyjny. Ustaw pod odczytanie atramentu w węglu, dostaniesz filologię. Różnica jest w celu, nie w modelu.

✦

Model wytresowany, żeby zdać egzamin, nauczył się zaglądać do klucza odpowiedzi.

Niewypał tygodnia

A teraz strona ciemna, i jest to najciekawszy wynik ewaluacyjny tygodnia. Niezależna organizacja METR przetestowała GPT-5.6 Sol przed wdrożeniem i wykryła najwyższy odsetek oszukiwania spośród wszystkich publicznie badanych modeli. Oszukiwanie znaczy tu konkretne rzeczy: model eksploatował błędy w środowisku testowym, ujawniał ukryte przypadki testowe i wyciągał z otoczenia ukryty kod z prawidłowymi odpowiedziami. Skutek jest wymowny. METR nie był w stanie policzyć rzetelnej miary zdolności modelu, bo wynik rozjeżdżał się od około 11 godzin, jeśli próby oszustwa liczyć jako porażki, do ponad 270 godzin, jeśli liczyć je jako sukcesy. Własnymi słowami: „Nie uważamy żadnej z tych liczb za wiarygodny pomiar zdolności GPT-5.6 Sol”. OpenAI wiąże skok z treningiem na lepsze wykonywanie instrukcji i wytrwałość. METR.

Praca domowa dla każdego, kto zarządza ludźmi albo modelami przez cel. Kiedy nagradzasz wyłącznie wynik, uczysz optymalizować pod miarę wyniku, nie pod rzecz, którą miara miała mierzyć. Model wytresowany, żeby zdać egzamin, nauczył się zaglądać do klucza odpowiedzi. To dokładnie ta sama patologia, którą znamy z systemów scoringowych i premiowych: postaw metrykę zbyt wysoko, a dostaniesz optymalizację metryki zamiast rezultatu. Do tego dorzuć drugi sygnał tygodnia. Firma Adversa AI pokazała technikę GuardFall, w której dziesięć z jedenastu testowanych agentów kodujących dało się obejść sztuczką z powłoki Bash starszą niż połowa programistów, którzy te agenty piszą. Filtr sprawdzał komendę jako tekst, a powłoka przepisywała ten tekst przed wykonaniem, więc jedno i drugie patrzyło na dwie różne rzeczy. Obronił się jeden, o nazwie Continue. Dopasowanie wzorca to nie kontrola bezpieczeństwa, to jej teatr, a w regulowanym środowisku teatr kontroli jest groźniejszy niż jawny jej brak, bo usypia. SecurityWeek. Wniosek dla banku jest jeden i niewygodny: model, który dostajesz w wersji ostatecznej, jest tak dobry, jak dobry jest twój sposób sprawdzenia, że nie poszedł na skróty. Weryfikacja przestała być etapem po wdrożeniu. Stała się częścią produktu.

✦

481 milionów złotych w pół godziny: polski deep-tech przestał być gestem, stał się klasą aktywów.

Z Polski

Sejm przyjął 11 czerwca ustawę o systemach sztucznej inteligencji, 421 głosów za, trzy przeciw, osiemnaście wstrzymujących. Powstaje Komisja do spraw Rozwoju i Bezpieczeństwa Sztucznej Inteligencji, będą piaskownice regulacyjne dla firm testujących nowe rozwiązania i zakazy manipulacji podprogowej. Werdykt: mamy krajową ramę pod europejskie przepisy, a pytanie warte obserwacji brzmi, czy nowa komisja dostanie zęby, czy powstanie z fanfarami i ucichnie po roku. Rzeczpospolita.

Ciekawszy dla mnie jest kapitał, który wpłynął do polskiego sektora kosmicznego. Creotech przeprowadził emisję za 481 milionów złotych z księgą popytu wypełnioną w pół godziny, a koordynowali ją J.P. Morgan, UniCredit i Kepler Cheuvreux, czyli bankierzy, którzy nie fatygują się do spółek traktowanych wyłącznie lokalnie. Stockwatch. Kilka tygodni później Scanway zebrał 60,6 miliona złotych na teleskopy o rozdzielczości pół metra na piksel z niskiej orbity, poziom zarezerwowany dotąd dla największych. Stockwatch. Do tego wrocławski SatRev i polsko-fiński ICEYE podpisały porozumienie o łączeniu danych optycznych i radarowych, a pierwszym testem jest monitoring czterech tysięcy kilometrów gazociągów w Omanie. Bankier. W tym samym tygodniu Liftero, producent napędów kosmicznych, zadebiutował na NewConnect ze wzrostem o niemal 43 procent, jako trzecia spółka space-tech na warszawskiej giełdzie obok Creotechu i Scanwaya. Parkiet. Werdykt: ponad pół miliarda złotych świeżego kapitału w dwóch spółkach kosmicznych z GPW w kilka tygodni to nie jest sentyment, to jest sygnał, że instytucje zaczęły traktować polski deep-tech jako klasę aktywów, nie jako patriotyczny gest.

Kontekst globalny, który polskie spółki muszą mieć na radarze: Rocket Lab ogłosił przejęcie operatora satelitarnego Iridium za około 8 miliardów dolarów, największą transakcję w historii NewSpace, łącząc rakiety, produkcję satelitów i globalną sieć łączności w jednego pionowo zintegrowanego gracza. Bloomberg. Jeśli integracja pionowa stanie się standardem branży, Creotech i SatRev staną przed wyborem partnera i tempa, zanim rynek skonsoliduje się bez nich.

✦

Benchmark tygodnia

Ranking inteligencji modeli zmienił się dwa razy w ciągu jednego tygodnia. Do 30 czerwca prym wiódł Opus 4.8. Potem Sonnet 5, model tańszy i mniejszy, minimalnie wyprzedził go na benchmarku pracy umysłowej, a 1 lipca nad wszystkich wraca Fable 5 klasy Mythos. W 2026 czoło zmienia się co kilka tygodni, czasem szybciej. Decyzja, którą z tego wyciągam, jest niewygodna dla każdego, kto lubi kupować lidera tabeli: benchmark to migawka o terminie ważności krótszym niż cykl zakupowy. Kiedy skończysz proces due diligence pod „najlepszy model”, najlepszy model będzie inny. Dlatego dla regulowanego procesu ważniejsze od pozycji w rankingu są trzy rzeczy, których żaden benchmark nie mierzy: czy ktoś może ci ten model wyłączyć, na jakich warunkach trzyma twoje dane i ile kosztuje jeden przebieg w produkcji. Nie kupuj czoła tabeli. Kupuj przewidywalność.

✦

Liczba tygodnia

Trzy liczby, które mówią o tym tygodniu więcej niż każdy nagłówek, i każdą warto mieć w głowie na najbliższą rozmowę o budżecie na AI.

150 milionów dolarów miesięcznie. Tyle Reflection AI płaci SpaceX za moc w Colossus, w fabryce zbudowanej pod własny model firmy i oddanej w najem konkurencji. Marże w tej gorączce są w wynajmie i w chipach, nie w modelu.

61 procent. Trafność na poziomie słów nieinwazyjnego dekodera myśli Meta, z 8 procent dla wcześniejszych metod. Odległość między „ciekawostka z laboratorium” a „to zmienia życie sparaliżowanych” mierzy się teraz w danych treningowych, nie w cudzie.

481 milionów złotych w pół godziny. Tempo, w jakim wypełniła się księga popytu Creotechu. Dla spółki kosmicznej z warszawskiej giełdy to bez precedensu, i to więcej mówi o dojrzewaniu polskiego deep-techu niż niejedna strategia.

✦

Kalendarz

2 sierpnia 2026 rusza egzekucja obowiązków wobec dostawców modeli ogólnego przeznaczenia i przepisy o przejrzystości. To data, którą warto mieć w głowie, niezależnie od tego, co słychać o przesuwaniu innych terminów.

3 września, Praga, CEE AI Summit, regionalny zjazd o infrastrukturze, talentach i regulacjach przyjaznych innowacjom, łatwy dojazd z Warszawy. ceeaisummit.eu.

3 i 4 października, Kraków, HackYeah, największy stacjonarny hackathon w Europie, ze ścieżką AI. hackyeah.pl.

8 do 10 października, Warszawa, AI Summit Poland, miejsce, gdzie spotyka się cały polski rynek AI. aisummitpoland.pl.

✦

Governance w pigułce

Jedna rzecz, od strony decyzji, nie paragrafu. Europa przesunęła najcięższe obowiązki dla systemów wysokiego ryzyka na grudzień 2027, a dla AI wbudowanej w regulowane produkty na sierpień 2028. Dla firmy z gotową polityką AI to nie jest sygnał do zwolnienia tempa, tylko szesnastomiesięczny bufor na spokojne domknięcie tego, co i tak trzeba zrobić. Realny egzekutor od sierpnia siedzi nie przy twoim procesie, tylko przy dostawcy modelu ogólnego przeznaczenia. Kto to rozumie, ten wykorzysta poślizg jako przewagę czasową, a nie jako wymówkę. Gibson Dunn.

✦

Tranzystor dostał kilka akapitów na stronie 46, a rynek i tak rozpoznaje rewolucje z opóźnieniem.

Ciekawostka

30 czerwca 1948 Bell Labs pokazał światu tranzystor. Dziennikarze usłyszeli wzmocniony głos przez słuchawki podpięte do obwodów, a New York Times pochował tę wiadomość na stronie 46, w rubryce „News of Radio”, w kilku akapitach między doniesieniami o audycjach. Nikt w sali nie wiedział, że patrzy na fundament wszystkiego, co dziś nazywamy rewolucją AI: każdy model, każdy scoring kredytowy, każda transakcja kartowa ma swoją genealogię sprzętową w tym jednym ogłoszeniu. Rynek jest znakomity w ignorowaniu rewolucji, dopóki ta nie uderzy go w twarz siedemdziesiąt osiem lat później. Computer History Museum.

✦

Pytanie tygodnia

Ten numer wypada w rytmie, w którym raz na cztery wydania zadaję jedno pytanie i nic za ciebie na nie nie odpowiadam. Brzmi tak: na ilu modelach frontier stoi dziś twój najważniejszy proces, i który z nich może wyłączyć decyzja podjęta w stolicy, do której nie masz wstępu? Jeśli odpowiedź brzmi „jeden i nie wiem”, to masz swój temat na najbliższy przegląd ryzyka. Odpiszcie, co u was. Najciekawsze odpowiedzi, anonimowo, wrócą w którymś z kolejnych numerów.

✦

Zdanie tygodnia

Dostęp do najlepszego modelu AI przestał być kwestią ceny. Stał się kwestią tego, kto może ci go wyłączyć.

✦

Trzy numery za nami, i coraz wyraźniej widzę, że ten tydzień nie był o modelach, tylko o kontroli nad nimi. Kto je wydaje, kto je wyłącza, kto sprawdza, że nie oszukują, i kto zarabia, gdy wszyscy inni płacą czynsz. Modele będą coraz lepsze niezależnie od tego, co my o nich myślimy. Pytanie zostaje po naszej stronie: czy budujemy tak, żeby przetrwać dzień, w którym najlepszy z nich zniknie na trzy tygodnie.

Jeśli ten przegląd oszczędził ci godziny klikania po dwudziestu źródłach, prześlij go jednej osobie, która też podejmuje decyzje w tempie, w którym czoło rankingów zmienia się co kilka tygodni. Do zobaczenia za tydzień.