Witaj Reader! W ostatnich dniach OpenAI dodało nowe możliwości do swoich systemów wprowadzając model o3-mini dla wszystkich użytkowników oraz nową usługę "Deep Research", która potrafi przeprowadzać złożone analizy na podstawie wielu źródeł. Nie mniej ciekawe są doniesienia o problemie "niedostatecznego myślenia" w modelach AI oraz nowy system Google'a do automatyzacji rozmów telefonicznych. Coraz więcej uwagi poświęca się też kwestiom efektywności obliczeniowej - zarówno w kontekście dużych modeli językowych jak i tradycyjnych symulacji inżynierskich. Ale zanim przejdę do newsów dwie informacje:
A teraz przechodzę do wieści: 🔍 OpenAI przedstawia Deep Research - asystenta do złożonych analizOpenAI wprowadziło nową funkcję ChatGPT o nazwie "Deep Research", która może przeprowadzać kompleksowe analizy na podstawie wielu źródeł internetowych i dokumentów. System wykorzystuje specjalną wersję modelu o3, zoptymalizowaną pod kątem wyszukiwania i analizy danych. Potrafi przetwarzać tekst, obrazy i pliki PDF, dostarczając szczegółowe raporty z pełnymi cytatami po samodzielnej pracy trwającej od 5 do nawet 30 minut. W testach na bardzo trudnym benchmarku Humanity's Last Exam osiągnął wynik 26,6%, znacząco przewyższając konkurencyjne modele jak Gemini Thinking (6,2%) i GPT-4o (3,3%). Czytaj więcej Ogłoszenie OpenAI Wes Roth, który ma dostęp do tej funkcji wrzucił na X kilka przykładowych raportów:
Wrzucam jest tu, żebyście mogli sobie wyrobić zdanie o możliwościach narzędzia. Obecnie dostępne dla użytkowników planu Pro (tego za $200 / m-c) ale... nie w EU. Stopniowo będzie jednak udostępniane użytkownikom planów Team i Edu - no i w EU. Warto zauważyć, że Google podobną funkcję udostępnił na początku grudnia zeszłego roku, ale mało kto się nią przejął. Z porównania, które zrobiłem - bo mam do niej dostęp, do OpenAI Deep Research niestety jeszcze nie - wynika, że nie działa tak dobrze ale jest użyteczna. Tak czy siak: duża rzecz. Zwłaszcza, że zapowiedzieli agentów, którzy będą samodzielnie rozwiązywać zadania od użytkowników przez całe godziny. Przypominam, jest dopiero 3 lutego... 🧠 o3-mini dostępny dla wszystkich użytkowników ChatGPTOpenAI udostępniło też model o3-mini zarówno użytkownikom darmowym jak i płatnym. Model ten wykazuje szczególną skuteczność w zadaniach technicznych, takich jak matematyka i programowanie, dorównując a nawet przewyższając wydajność modelu o1, przy jednoczesnym skróceniu czasu odpowiedzi o 24%. Dla programistów wprowadzono trzy poziomy "wysiłku rozumowania" - niski, średni i wysoki - pozwalające zrównoważyć szybkość i dokładność odpowiedzi. Co ważne, koszt działania jest o 63% niższy od poprzednika, wynosząc 1,10 USD za milion tokenów wejściowych. Poza oczywistymi korzyściami (a model jest już też dostępny w Cursor) widzę tu potwierdzenie spekulacji, że firmy AI obecnie dedykują moc obliczeniową do trenowania modeli, które trenują kolejne modele. Wskazuje na to jak dobrze radzą sobie "półprodukty" tego procesu takie jak model o3 mini. I druga obserwacja: rośnie ciśnienie na Anthropic. Minęło pół roku od nowszego Claude 3.5 Sonnet (zwanego przez niektórych też 3.6). Wtedy był przełomowy, teraz inni nadrobili stracony dystans. Czy Anthropic też skoncentrował moc obliczeniową głównie na treningu kolejnych generacji i jak wyjdzie Claude 4 to nam "kapcie pospadają"? Liczę na to, bo mam dużą sympatię dla tej firmy - i do Claude-a, bo wciąż jest bardziej "ludzki" w swoim pisaniu. Ale jeśli Anthropic nie pokaże przed końcem kwietnia czegoś nowego zacznie się osuwać w cień. 📞 Google automatyzuje rozmowy telefoniczne z nowymi agentami AIGoogle wprowadził dwie nowe eksperymentalne funkcje w Search Labs - "Ask for Me" oraz "Talk to a Live Representative". Pierwsza potrafi w imieniu użytkownika kontaktować się z lokalnymi firmami w celu zebrania informacji o cenach i dostępności usług - w sensie dzwoni np. do warsztatu i prowadzi rozmowę pytając o dostępność, cenę itp., druga natomiast czeka w kolejce podczas rozmów z obsługą klienta i powiadamia użytkownika, gdy reprezentant jest dostępny. Obie funkcje wykorzystują zaawansowaną technologię Duplex AI do prowadzenia naturalnie brzmiących rozmów głosowych. Robo-call, żeby dzwonić do biznesów... zemsta jest słodka... ja bym osobiście napuścił ich na firmy od PV. A Ty? Dobra, na razie to tylko testują w USA. 🤖 Problem "niedostatecznego myślenia" w modelach AIBadacze z Tencent AI Lab, Uniwersytetu Soochow i Uniwersytetu Jiao Tong w Szanghaju odkryli, że modele rozumowania takie jak DeepSeek-R1 i o1 cierpią na problem "niedostatecznego myślenia". Polega on na przedwczesnym porzucaniu możliwych rozwiązań, co prowadzi do nieefektywnego wykorzystania zasobów i nieoptymalnej dokładności. Modele generują o 225% więcej tokenów i zmieniają strategie rozwiązywania problemów o 418% częściej, gdy udzielają nieprawidłowych odpowiedzi. 🔧 Nowa sieć neuronowa zmniejsza koszty symulacji inżynierskichNaukowcy z Carnegie Mellon University opracowali metodę up-samplingu o nazwie Taylor Expansion Error Correction Network (TEECNet), która znacząco redukuje koszty obliczeniowe symulacji inżynierskich. Sieć neuronowa osiąga ponad 96% dokładności przy wykorzystaniu o 42,76% mniejszych zasobów obliczeniowych w porównaniu do innych popularnych metod. System sprawdza się w różnorodnych problemach fizycznych, w tym w transferze ciepła i przepływie płynów. Co jeszcze w świecie AI?
Tak czy siak - technologia AI rozwija się w zawrotnym tempie, oferując coraz bardziej zaawansowane narzędzia do analizy danych i automatyzacji zadań. Szkoda, że wciąż tak niewielki odsetek firm i ludzi z niej korzysta. Staramy się to zmienić, dlatego jeśli uważasz te informacje za wartościowe, podziel się tym newsletterem z innymi osobami zainteresowanymi rozwojem AI. Działania takich osób jak ja niestety nie zawsze spotykają się ze zrozumieniem czy docenieniem. Przeciwnie, doświadczamy też... hejtu. Piszę o tym na moim blogu w artykule W obronie szamanów AI. Uważam ten tekst za ważny, więc będę wdzięczny za uważną lekturą i - jeśli zgadzacie z postawionymi tam tezami - również podzielnie się nim z innymi. Z góry dziękuję - i do zobaczenia w następnym wydaniu. Pozdrawiam, |
Dwa razy w tygodniu na Twojej skrzynce!
Witaj Reader! Kolejny tydzień przyniósł kolejne ważne newsy w świecie AI. OpenAI przedstawił swoją wizję przyszłości - GPT-4.5 ma być ostatnim "zwykłym" modelem językowym, a GPT-5 ma zintegrować wszystkie narzędzia w jeden inteligentny system. Tymczasem Anthropic zapowiada nowy model z unikalnymi możliwościami rozumowania, a w Polsce ludzie kupują startery T-Mobile aby odebrać darmowy rok Preplexity. W dziale "refleksyjnym" polecam dziś wpis, w którym na swoim blogu CEO OpenAI Sam Altman...
Witaj Reader! Witaj w poniedziałkowy poranek! W tym tygodniu Google zaskoczyło społeczność AI wypuszczając całą rodzinę nowych modeli Gemini 2.0, w tym flagowy model Pro z imponującym oknem kontekstowym 2 milionów tokenów (to o rząd wielkości więcej niż modele OpenAI i Anthropic). Kiedy będziecie go próbować zwróćcie uwagę na "Deep Research" do Google - choć oparty na starszym modelu 1.5 Pro jest jednak bardzo pożyteczny i może osłodzić oczekiwanie na włączenie o3 Deep Research na Waszych...
Witaj Reader! Świat AI nadal żyje przełomem dokonanym przez DeepSeek, którego model R1 nie tylko dorównuje GPT-4 przy wielokrotnie niższych kosztach, ale również budzi niezrozumiałe obawy o bezpieczeństwo danych. Jednocześnie na rynku pojawiają się kolejne ciekawe rozwiązania - od ChatGPT dla agencji rządowych po nowe modele ze świata open source. Warto zwrócić uwagę, że również konkurenci nie śpią - Qwen2.5 właśnie wprowadził możliwość sterowania urządzeniami, odpowiadając tym samym na...