[AI] OpenAI wprowadza agenta o3 do złożonych analiz, udostępnia o3-mini dla wszystkich


Witaj Reader!

W ostatnich dniach OpenAI dodało nowe możliwości do swoich systemów wprowadzając model o3-mini dla wszystkich użytkowników oraz nową usługę "Deep Research", która potrafi przeprowadzać złożone analizy na podstawie wielu źródeł. Nie mniej ciekawe są doniesienia o problemie "niedostatecznego myślenia" w modelach AI oraz nowy system Google'a do automatyzacji rozmów telefonicznych. Coraz więcej uwagi poświęca się też kwestiom efektywności obliczeniowej - zarówno w kontekście dużych modeli językowych jak i tradycyjnych symulacji inżynierskich.

Ale zanim przejdę do newsów dwie informacje:

  • Już we czwartek 6 lutego o 10:00 druga edycja mojego warsztatu "Efektywna praca z Claude" dla tych, którzy nie mogli wziąć udziału w pierwszej edycji ze względu na późną porę. Zapisy tutaj.
  • Zaś już za tydzień całodniowe szkolenie "AI Toolbox - Intro" z Grzegorzem Bednarczykiem. Już tradycją jest, że każda edycja jest trochę inna bo tak szybko zmieniają się możliwości narzędzi AI. Zainwestuj w siebie i dołącz już 13 lutego.

A teraz przechodzę do wieści:

🔍 OpenAI przedstawia Deep Research - asystenta do złożonych analiz

OpenAI wprowadziło nową funkcję ChatGPT o nazwie "Deep Research", która może przeprowadzać kompleksowe analizy na podstawie wielu źródeł internetowych i dokumentów. System wykorzystuje specjalną wersję modelu o3, zoptymalizowaną pod kątem wyszukiwania i analizy danych. Potrafi przetwarzać tekst, obrazy i pliki PDF, dostarczając szczegółowe raporty z pełnymi cytatami po samodzielnej pracy trwającej od 5 do nawet 30 minut. W testach na bardzo trudnym benchmarku Humanity's Last Exam osiągnął wynik 26,6%, znacząco przewyższając konkurencyjne modele jak Gemini Thinking (6,2%) i GPT-4o (3,3%).

Czytaj więcej Ogłoszenie OpenAI

Wes Roth, który ma dostęp do tej funkcji wrzucił na X kilka przykładowych raportów:

Wrzucam jest tu, żebyście mogli sobie wyrobić zdanie o możliwościach narzędzia. Obecnie dostępne dla użytkowników planu Pro (tego za $200 / m-c) ale... nie w EU. Stopniowo będzie jednak udostępniane użytkownikom planów Team i Edu - no i w EU.

Warto zauważyć, że Google podobną funkcję udostępnił na początku grudnia zeszłego roku, ale mało kto się nią przejął. Z porównania, które zrobiłem - bo mam do niej dostęp, do OpenAI Deep Research niestety jeszcze nie - wynika, że nie działa tak dobrze ale jest użyteczna.

Tak czy siak: duża rzecz. Zwłaszcza, że zapowiedzieli agentów, którzy będą samodzielnie rozwiązywać zadania od użytkowników przez całe godziny. Przypominam, jest dopiero 3 lutego...

🧠 o3-mini dostępny dla wszystkich użytkowników ChatGPT

OpenAI udostępniło też model o3-mini zarówno użytkownikom darmowym jak i płatnym. Model ten wykazuje szczególną skuteczność w zadaniach technicznych, takich jak matematyka i programowanie, dorównując a nawet przewyższając wydajność modelu o1, przy jednoczesnym skróceniu czasu odpowiedzi o 24%. Dla programistów wprowadzono trzy poziomy "wysiłku rozumowania" - niski, średni i wysoki - pozwalające zrównoważyć szybkość i dokładność odpowiedzi. Co ważne, koszt działania jest o 63% niższy od poprzednika, wynosząc 1,10 USD za milion tokenów wejściowych.

Czytaj więcej

Poza oczywistymi korzyściami (a model jest już też dostępny w Cursor) widzę tu potwierdzenie spekulacji, że firmy AI obecnie dedykują moc obliczeniową do trenowania modeli, które trenują kolejne modele. Wskazuje na to jak dobrze radzą sobie "półprodukty" tego procesu takie jak model o3 mini.

I druga obserwacja: rośnie ciśnienie na Anthropic.

Minęło pół roku od nowszego Claude 3.5 Sonnet (zwanego przez niektórych też 3.6). Wtedy był przełomowy, teraz inni nadrobili stracony dystans. Czy Anthropic też skoncentrował moc obliczeniową głównie na treningu kolejnych generacji i jak wyjdzie Claude 4 to nam "kapcie pospadają"? Liczę na to, bo mam dużą sympatię dla tej firmy - i do Claude-a, bo wciąż jest bardziej "ludzki" w swoim pisaniu. Ale jeśli Anthropic nie pokaże przed końcem kwietnia czegoś nowego zacznie się osuwać w cień.

📞 Google automatyzuje rozmowy telefoniczne z nowymi agentami AI

Google wprowadził dwie nowe eksperymentalne funkcje w Search Labs - "Ask for Me" oraz "Talk to a Live Representative". Pierwsza potrafi w imieniu użytkownika kontaktować się z lokalnymi firmami w celu zebrania informacji o cenach i dostępności usług - w sensie dzwoni np. do warsztatu i prowadzi rozmowę pytając o dostępność, cenę itp., druga natomiast czeka w kolejce podczas rozmów z obsługą klienta i powiadamia użytkownika, gdy reprezentant jest dostępny. Obie funkcje wykorzystują zaawansowaną technologię Duplex AI do prowadzenia naturalnie brzmiących rozmów głosowych.

Czytaj więcej

Robo-call, żeby dzwonić do biznesów... zemsta jest słodka... ja bym osobiście napuścił ich na firmy od PV. A Ty? Dobra, na razie to tylko testują w USA.

🤖 Problem "niedostatecznego myślenia" w modelach AI

Badacze z Tencent AI Lab, Uniwersytetu Soochow i Uniwersytetu Jiao Tong w Szanghaju odkryli, że modele rozumowania takie jak DeepSeek-R1 i o1 cierpią na problem "niedostatecznego myślenia". Polega on na przedwczesnym porzucaniu możliwych rozwiązań, co prowadzi do nieefektywnego wykorzystania zasobów i nieoptymalnej dokładności. Modele generują o 225% więcej tokenów i zmieniają strategie rozwiązywania problemów o 418% częściej, gdy udzielają nieprawidłowych odpowiedzi.

Czytaj więcej

🔧 Nowa sieć neuronowa zmniejsza koszty symulacji inżynierskich

Naukowcy z Carnegie Mellon University opracowali metodę up-samplingu o nazwie Taylor Expansion Error Correction Network (TEECNet), która znacząco redukuje koszty obliczeniowe symulacji inżynierskich. Sieć neuronowa osiąga ponad 96% dokładności przy wykorzystaniu o 42,76% mniejszych zasobów obliczeniowych w porównaniu do innych popularnych metod. System sprawdza się w różnorodnych problemach fizycznych, w tym w transferze ciepła i przepływie płynów.

Czytaj więcej

Co jeszcze w świecie AI?

  • EU rozpoczęła pierwszą fazę wdrażania AI Act, zakazując systemów AI uznanych za "niedopuszczalnie ryzykowne" i wprowadzając kary do 35 mln euro. Czytaj więcej Wspaniale, nie? A swoją drogą, zwróciliście uwagę, że Mistral przestał się już liczyć?
  • Microsoft AI tworzy nową jednostkę badawczą do studiowania społecznych skutków AI, zatrudniając ekonomistów i psychologów. Czytaj więcej
  • Sam Altman przyznaje, że OpenAI "było po złej stronie historii" w kwestii open source i potrzebuje nowej strategii. Czytaj więcej
  • Google X uruchomił projekt Heritable Agriculture wykorzystujący AI do przyspieszenia hodowli roślin. Czytaj więcej
  • Badacze MIT stworzyli ChromoGen - model AI przewidujący struktury 3D genomu w minuty zamiast dni. Czytaj więcej
  • Wykryto niezabezpieczoną bazę danych DeepSeek zawierającą ponad milion zapytań użytkowników i kluczy API. Czytaj więcej
  • Dwuinstancjowe konwersacje DeepSeek R1 odkryte w nowym badaniu Czytaj więcej

Tak czy siak - technologia AI rozwija się w zawrotnym tempie, oferując coraz bardziej zaawansowane narzędzia do analizy danych i automatyzacji zadań. Szkoda, że wciąż tak niewielki odsetek firm i ludzi z niej korzysta. Staramy się to zmienić, dlatego jeśli uważasz te informacje za wartościowe, podziel się tym newsletterem z innymi osobami zainteresowanymi rozwojem AI.

Działania takich osób jak ja niestety nie zawsze spotykają się ze zrozumieniem czy docenieniem. Przeciwnie, doświadczamy też... hejtu. Piszę o tym na moim blogu w artykule W obronie szamanów AI. Uważam ten tekst za ważny, więc będę wdzięczny za uważną lekturą i - jeśli zgadzacie z postawionymi tam tezami - również podzielnie się nim z innymi. Z góry dziękuję - i do zobaczenia w następnym wydaniu.

Pozdrawiam,
Andy

AI Sprinters

Dwa razy w tygodniu na Twojej skrzynce!

Read more from AI Sprinters

Witaj Reader! Kolejny tydzień przyniósł kolejne ważne newsy w świecie AI. OpenAI przedstawił swoją wizję przyszłości - GPT-4.5 ma być ostatnim "zwykłym" modelem językowym, a GPT-5 ma zintegrować wszystkie narzędzia w jeden inteligentny system. Tymczasem Anthropic zapowiada nowy model z unikalnymi możliwościami rozumowania, a w Polsce ludzie kupują startery T-Mobile aby odebrać darmowy rok Preplexity. W dziale "refleksyjnym" polecam dziś wpis, w którym na swoim blogu CEO OpenAI Sam Altman...

Witaj Reader! Witaj w poniedziałkowy poranek! W tym tygodniu Google zaskoczyło społeczność AI wypuszczając całą rodzinę nowych modeli Gemini 2.0, w tym flagowy model Pro z imponującym oknem kontekstowym 2 milionów tokenów (to o rząd wielkości więcej niż modele OpenAI i Anthropic). Kiedy będziecie go próbować zwróćcie uwagę na "Deep Research" do Google - choć oparty na starszym modelu 1.5 Pro jest jednak bardzo pożyteczny i może osłodzić oczekiwanie na włączenie o3 Deep Research na Waszych...

Witaj Reader! Świat AI nadal żyje przełomem dokonanym przez DeepSeek, którego model R1 nie tylko dorównuje GPT-4 przy wielokrotnie niższych kosztach, ale również budzi niezrozumiałe obawy o bezpieczeństwo danych. Jednocześnie na rynku pojawiają się kolejne ciekawe rozwiązania - od ChatGPT dla agencji rządowych po nowe modele ze świata open source. Warto zwrócić uwagę, że również konkurenci nie śpią - Qwen2.5 właśnie wprowadził możliwość sterowania urządzeniami, odpowiadając tym samym na...