News AI 11/25 –

GPT 4.5 // Alexa+ // QwQ 32B // Mistral OCR // Google: AI Mode in Search, Gemine Code Execution

12.03.2025

Shownotes

Willkommen zur neuen Ausgabe der programmier.bar AI News!

Google hat seine AI-Coding-Assistenz jetzt kostenlos gemacht. Damit erhalten Entwickler:innen wertvolle Unterstützung direkt in ihrer IDE. 

Google setzt mit AI Mode in der Suche auf generative KI in der Websuche.

Auch OpenAI hat mit GPT-4.5 (Research Preview) ein neues Modell vorgestellt, das leistungsfähiger und umfassender ist als seine Vorgänger.

Gleichzeitig wurde Gemini 2.0 um eine verbesserte Code Execution erweitert, was besonders für Entwickler:innen interessant ist.

Im Bereich Open-Source hat Wan2.1 für Aufsehen gesorgt – ein neues Video-Generierungsmodell mit Open-Source-Lizenz. Auch QwQ-32B, ein leistungsstarkes Reasoning-Modell, wurde von Alibaba veröffentlicht.

Amazon hat ebenfalls nachgelegt und mit Alexa+ ein großes AI-Upgrade vorgestellt.

Bei den Unternehmen sicherte sich Anthropic eine Finanzierungsrunde über 3,5 Mrd. USD, während CoreWeave Weights & Biases für 1,7 Mrd. USD übernommen hat.

Weitere interessante Entwicklungen: ChatGPT kann jetzt direkt Code auf macOS bearbeiten – ein spannendes neues Feature für Entwickler:innen. Zudem hat Windsurf AI eine Website-Vorschau und visuelle Editoren eingeführt.

Zum Abschluss noch ein kontroverses Thema: Sergey Brin fordert tägliche Büropräsenz bei Google – eine Maßnahme, die für Diskussionen sorgt.

Das war’s für diese Folge – wir freuen uns auf euer Feedback! 🎙️🚀

/transkript/programmierbar/news-ai-11-25-gpt-4-5-alexa-qwq-32b-mistral-ocr-google-ai-mode-in-search-gemine-code-execution
Dennis
Hallo und herzlich willkommen zu 1 neuen programmier.bar AI News Folge. Wir haben kleine Woche 11 im Jahr 2025 und wie jetzt schon seit über einem Jahr sitzt uns Philipp gegenüber. Hallo Philipp. Hallo. Heute ein bisschen weiter wieder zugeschaltet, deswegen vielleicht ein anderer leicht anderer Ton, der so ein bisschen rüberkommt. Wo bist Du gerade Philipp?
Philipp
In Paris.
Dennis
Sehr gut. Sehr schön. Ja, auch für die letzten Wochen wieder einiges im Gepäck an News für euch. Ich würde sagen auch wieder aus ziemlich allen Kategorien. Produktupdates vor allem den großen Firmen, Investmentsachen, die passiert sind, Models, die neu sind von Open Eye, von Google, von Gwen, was wir auch schon ab und zu mal hatten und genau. Ich würde sagen, wir starten direkt rein. OpenAI hat in den letzten 2 Wochen nämlich auch wieder ein neues Modell rausgebracht und dabei handelt es sich GPD 4 Punkt 4 Point, nee, 4 Punkt 5 aus Deutschland.
Philipp
Ja, 4 Punkt 5.
Dennis
Vor Punkt 4. Ja.
Philipp
Yes, also ich weiß nicht, ich, ob Du's verfolgt hast. Es gab ja auch 'n Livestream und es war 'n sehr, sehr interessanter Release und sehr untypisch schon fast für wie die letzten Releases war. Wenn man vielleicht bisschen zurückdenkt, wo GPT 4 vorgestellt wird, war's ja eine eine Riesenpräsentation, irgendwie, ich glaub, fast eine Stunde mit ganz vielen Features und Capabilities gezeigt und jetzt für GPT 4 Punkt 5, 10 Minuten, Research Team hat 'n bisschen drüber geredet, was für Challenges Sie hatten beim Scalen und haben eine kurze Demo gezeigt, wie ChatGPT oder alles neue Modelle genutzt wird und Text generiert. Und dann war's eigentlich schon zu Ende. Und ich glaub, das das Interessante war der Post von Sam Altman, der geschrieben hat, dass Modell von von, also das größte Modell, das Open Air jemals trainiert hat, ist und es ist kein Follow, also ist ja uns explizit schon hervorgehoben. Und das ist auch sehr interessant, weil auf Benchmarks zuallererst gar nicht so krass nach 'ner Riesenverbesserung aussieht. Also gerade vor allem in den interessanten, sag ich mal, neuen Mathe Benchmarks oder Benchmarks ist es gar nicht so viel besser wie oder auch andere Modelle, aber kostet eine Menge an Geld, und zwar 75 Dollar pro 1000000 Input Tokens und 37 Dollar Cash und 150 Dollar pro 1000000 Output Token. Das heißt, vielleicht zum Vergleich, Gemini Flash kostet 10 Cent pro 1000000 Input Tokens, Claude kostet 3 Dollar und jetzt sind wir bei 37 Dollar. Also es ist, man man merkt das auch, sag ich mal, wie teuer das ist. War auf jeden Fall interessant zu sehen, Social Media bei alle waren son bisschen okay, haben wir wirklich die Scaling Wall irgendwie erreicht? Macht man keinen Fortschritt mehr? Hat Open Air keinen großen Vorteil mehr? Seitdem hat sich das 'n bisschen entwickelt und viele, also der, man merkt schon, dass es 'n Art anderen Ton hat. Ich hab's jetzt selber noch nicht testen können, da es bis vor Kurzem nur in dem ChatGPT Pro Exklusiv Vertrag war, also für 200 Dollar im Monat und halt natürlich über die API verfügbar. Aber ja, wenn man das testet, muss man sehr, sehr aufpassen, da es echt teuer ist und man schnell mal 'n paar Euro oder Dollar an Kosten erzeugt. Vielleicht noch kurz zum Modell, hat 128000 Kontext, also nicht irgendwie 1000000 oder sonst was und ist bisher nur text in text out, also nicht irgendwie krass speziell multimodal oder irgendwas Neues. Besonderes ist 'n bisschen wie GPT-4, nur größer. Hm. Und vielleicht noch was Interessantes, es hat Knowledge Cut off von September 20 23. Also dieser hat sich auch nicht verschieben. Das heißt, alles, was 24 irgendwie passiert ist, ist alles, keine Ahnung, direkt darüber.
Dennis
Okay. Du meintest, es ist kein Foundation Model und das heißt, wie unterscheidet sich das zu einem Foundation Model?
Philipp
Ich glaub, das ist einfach nur eine Begrifflichkeit. Ob mehr das hat in ihrem, also es gibt auch 'n 'n Technical Paper oder eine nennen sie's, glaub ich. Und da schreiben sie sozusagen, dass es kein Model ist, sondern irgendwie das größte. Warte, ich kann das kurz raussuchen, die heißt das. Und dort schreiben Sie bla bla bla. Ich glaub, sie wollen einfach 'n bisschen dieses Benchmarkverhältnis anpassen und dass sie einfach sagen, okay, das ist halt 'n 4 Punkt 5 Release. Sie hätten noch vieles mehr machen müssen, dass es 'n Foundation Model ist oder halt wirklich genutzt werden kann, aber sie haben sich halt irgendwie dazu entschieden, es zu releasen. Okay. Ja.
Dennis
Und dass dieser Knowledge Cut off so früh ist, ist es, weil das schon dann irgendwie lange im Training ist oder weiß man auch nicht, was die was die Begründung davon sind?
Philipp
Wäre Open Air ein bisschen Opener, dann wüsste man wahrscheinlich 'n paar mehr Details. Es gibt natürlich Spekulationen. Viele sagen auch, dass es 'n bisschen irgendwie, es fühlt sich so an, als dass irgendwie, dass es GPT-4 Point-o hätte sein sollen und halt irgendwie 2 Jahre gefühlt zu spät kommt, wenn man das 'n bisschen vergleicht mit dem, was die geschafft haben. Man weiß es nicht genau. Also es kann wirklich sein, okay, dass es, dass da Researcher daran gearbeitet haben nach GPT-4 und dieses multimodalen anderer Workstream eventuell war und sie halt wirklich erst trainiert haben. Ich mein, für mich gibt's 3 Gründe, sage ich mal. Also entweder, sie haben, also es ist schon länger trainiert, das heißt, sie hatten keinen Zugang zu neueren Daten, weil wir wissen ja auch nicht, was wirklich bedeutet. Das andere ist, Sie wollten Trainingsdaten, wo kein AI enthalten ist, weil also alles vor 23 sozusagen ist ja pre Jet GPT.
Dennis
Mhm.
Philipp
Das heißt, da das Internet ist nicht irgendwie vor mit Content. Und Option 3 ist, Sie haben eventuell keinen Fortschritt gesehen, also der Aufwand, der eventuell nötig war. Aber es ist schon sehr merkwürdig bei alles, was im Coding Bereich ist oder auch für generelles Wissen und sonst was. Man merkt halt trotzdem, dass es dass es 'n Unterschied hat auch in unserer Sprache und in allem. Mhm. Also wenn ich irgendwas releast hab in 2024, dann weiß das Mutterleib einfach nicht darüber Bescheid.
Dennis
Okay. Ist ja noch nicht so direkt in die Richtung, was Sam Altmann auch gesagt hat, dass sie das alles vereinfachen wollen, dass man nicht mehr so viele Modelle sich auswählen muss, irgendwas zu tun, sondern eher noch Komplexität erhöhen. Gibt's so für dich einen klaren Use Case, wo Du sagst so, da würd ich mir GPT 4 Punkt 5 angucken?
Philipp
Also ich glaub zum einen, was in der Systemcard hervorgeht, ist, dass GPT 4 Punkt 5 scheinbar gut ist im Prompton von anderen Modellen. Also so Mhm. Promps schreiben und halt andere Modelle nutzen. Und zum anderen natürlich der Use Case, den wahrscheinlich auch Open Air nutzen wird, ist synthetische Daten generieren oder so. Also ich glaub, selbst wenn es teuer ist, wenn ich das ganze Knowledge von diesem großen Modell wieder nehmen kann und 'n kleineres Modell trainieren kann, dann hab ich ja im Endeffekt auf lange Sicht wieder 'n Vorteil. Und ich kann mir auch gut vorstellen, dass wir in den nächsten 3 bis 6 Monaten vielleicht 'n GP-4-Punkt-fünf-T-Roll-sehen oder halt wirklich dann GPT, keine Ahnung, wie sie's nennen, halt dieses, wo sie alles integrieren, sag ich mal.
Dennis
Okay. Also jetzt nicht unbedingt das Consumer Ding, wo ihr sie da drauf springt, das Entchatten
Philipp
zu tun? Ja, ich mein, es gilt halt abzuwarten und zu evaluieren, ob es Sinn macht oder nicht. Ich meine, wir haben's, ich hab's mal durchgerechnet. Man kann, wenn ich selber prompt, wen man zu GPT 4 Punkt 5 einmal schickt, kann man halt zweihundertmal zu Gemini schicken. Und da ist halt die Frage, ist es zweihundertmal besser oder kann ich halt wirklich, anstatt zweihundertmal es nur zehnmal zu Germany schicken und dann hab halt son bisschen Reflexion und mit dabei muss man für sich schauen. Ich denke, 99 Prozent der Use Cases werden nicht auf 4 Punkt 5 updaten, weil es schon extrem teuer ist.
Dennis
Ja. Okay. Gut. Bleiben wir vielleicht ganz kurz noch im Open AI Space, wo's eine kleine Änderung gibt oder 'n kleines Update zu für die Mac OS App von ChatGPT ausschließlich und zwar, dass sie jetzt auch mit programmieren kann. Also man kannte das schon, das Feature, dass man praktisch auf andere Apps Zugriff geben kann und dort wird dann interagiert und wird irgendwie geguckt und kann darauf zugreifen. Und jetzt ist eben der große Unterschied, dass ins in verschiedenen IDIs einfach möglich ist letztendlich ChatGPT zu nutzen, Code Dateien zu editieren. Und genau, man kann eben, was ganz bequem ist halt über den den, das Interface zu holen. Das heißt, man hat die IDI als aktives Fenster, kann über den Shortcut einfach öffnen und dann eben was fragen. Und man kann auch aktivieren, dass die Änderungen automatisch auch in im im Code Editor erbleit werden. Also genau, wer jetzt auch 'n bisschen die Frage, was dann die die Nische ist oder wo sie da noch 'n bisschen zu spät sind, wenn's dann die ganzen Tools gibt oder die AI basierten IDIs, die es da draußen gibt. Aber wenn man eben ein großer Fan von ChatGPT ist, dann kann man auch in dem Kontext und in dem Zuge das nutzen, direkt in den IDIs damit zu interagieren.
Philipp
Nutzt Du die Desktop App?
Dennis
Ich nutz die Desktop App relativ viel, ja. Ich nutz das Feature, mit anderen Apps zusammenzuarbeiten, gar nicht.
Philipp
Und dann vielleicht jetzt eine gute Möglichkeit, das mal zu Auspuff auszuprobieren.
Dennis
Ja, das ist das richtig, ja. Genau. Ja, aber Geld dafür zahlen muss man wahrscheinlich ja trotzdem noch irgendwo in 'ner gewissen Weise, oh weiß, oder ja, denke oder ist man zumindest limitiert. Ich wollt eigentlich 'n schönen Übergang machen, aber ich bin gerade unsicher, in welchen Price Tears da sind, weil wir eine ja bezahlte Version haben. Weiß gar nicht, was aktuell kostenlos möglich ist mit ChatGPT, ob diese Funktionalität integriert ist. Ich glaube eher nicht. Aber was kostenlos würde oder zumindest die AI Coding Assistance angeht.
Philipp
Genau. Google hat gelauncht, kostenlos zur Verfügung gestellt. Ich weiß aber gar nicht so genau. Ist eine Extension für IDIs, also für VHS Code, Chatbrands kann man sich installieren, Bisschen so ähnlich wie Copilot. Der einzige Unterschied, man nutzt halt Gemini und es ist kostenlos. Man hat 180000 Code Competions pro Monat, was ich glaub einiges mehr als das von Chat von Copilot ist. Und man hat 'n Windows Windows, also man hat 128000 Input Kontext. Das heißt, es ist nicht nur irgendwie Profile und so was. Du kannst dich supereinfach anmelden über seinen GitHub Account oder mit Gmail, braucht keine Kreditkarte, einfach in der Videos Code Extension oder in in Chatbrands suchen, testen. Ja. Cool.
Dennis
Dann bleibt mir vielleicht bei dir und Google, und zwar mit der Code Execution innerhalb von Gemini 2. Womit hattest Du da was, worum geht's da?
Philipp
Genau, also Gemini hat, also es nennt sich native Tools, also man kennt's vielleicht oder wir hatten's bestimmt auch schon. LLMs oder halt APIs können ja mittlerweile Tools nutzen oder Function Calling. Und bei den meisten Providern ist es so, dass man sone Art Schema mitschickt für seinen und dann das LLM generiert dann sone Art Struktur oder halt auch 'n Output, welcher dann den Funktionen zusammenenthält und auch die Parameter, die man dann nutzen kann, in seinem in seiner Applikation den Code auszuführen. Native Tools von Gemini ist sozusagen, dass das auf der Seite von Google passiert. Es gibt aktuell 2 native Tools. 1 ist Google Search. Das heißt, man kann einfach sagen, hey, ich möchte Google Search nutzen, schicke ich meine, ganz normal die SDK und dann wird sozusagen im Hintergrund gegoogelt und die Suchergebnisse mitten hat die Antwort hinzugefügt. Das andere, was jetzt 'n paar Updates bekommen hat, ist Code Execution und dabei, wie der Name auch verrät, wird Code ausgeführt. Und zwar funktioniert es im Sinne von, ich hab irgend einen Prompt wie irgendwie, keine Ahnung, ich hab eine CSV ausstelle die bereit und sag, hey, analysier mir bitte die CSV mit irgendwie Python und find die Top 10 Kunden oder so was. Und im Hintergrund auf der API Seite generiert Jamini dann Python Code. Dieser Python Code wird dann in 1 Box ausgeführt und dann wird das Ergebnis sozusagen wieder zu Jamini geschickt und Jamini generiert dann aus dem Ergebnis und deinem User Input die Antwort. Das Ganze hat auch sone Art Autofix Loop, das heißt, wenn der Code, der ausgeführt wird von Gemini, 'n Fehler hat, geht es wieder zu Gemini und es versucht, sich selber sozusagen zu lösen. Das kann fünfmal passieren und wenn's dann nicht funktioniert, dann bekommt man halt 'n Fehler. Aber was wirklich, ich find's sehr, sehr cool ist, ist halt, dass es nicht auf deiner Seite ist, weil son, sag ich mal, Code Sendbox zu managen ist nicht gerade einfach und kommt einfach mit out of the box. Das heißt, wenn ich irgend 'n Use Case hab, vor allem gerade, sag ich mal, für so Data Analysis oder auch Visualisierungen kann ich jetzt halt einfach eine CSV bis zu einem Megabyte groß mit meinen prompt reinpacken und auch sagen, wie generiert man 'n Graph? Also man man supportet ModplotLib, das ist sone Python Library zum Erstellen von Charts, sondern wird auch sozusagen dieses PNG returned, was halt schon, find ich, echt cool ist.
Dennis
Ja. Das kann ChatGPT ja, glaub ich, auch 'n Teil, ne? Also das ist auch Ich ich
Philipp
es konnte es auf jeden Fall. Ja. Ich weiß nicht mehr, ob's noch existiert. Ich weiß, dass es mal irgendwie auch Code Interpreta geheißen hat oder sonst irgendwas, aber ich ich hab's ehrlicherweise nicht mehr gefunden. Also ich
Dennis
glaube, es macht das son bisschen intern. Also man kann schon sagen, irgendwie Schreiben Script und das und das zu machen und dann wird das auch ausgeführt. Also das das siehst Du dann auch, also das passiert auch noch. Aber ich glaube, was der Unterschied ist, dass Du's halt bei Google sehr explizit auch anschalten kannst, ne. Also das ist 'n bisschen mehr in der Kontrolle von dir. Ja. Bei Kann,
Philipp
ist es bei bei nur 'n Feature oder auch 'n Feature?
Dennis
Da ist es eine gute Frage und vermutlich ist es nur 'n Feature, ja.
Philipp
Genau, weil bei bei Gender oder halt designative Tools kann ich 'n AI Studio testen oder halt dann auch per API Request. Ja. Das heißt, ich kann in meine Anwendung irgendwas einbauen. Wenn dann im Hintergrund Code benötigt wird, würde das alles funktionieren. Ja, okay, cool.
Dennis
Ach komm, bleiben wir grad noch bei Google. Machen wir alles durch von Google hier. Wahrscheinlich erst mal nur wieder relevant für, nicht sofort für die EU und für deutsche Nutzer, aber es gibt auch ein neues Tool in der AI Suche.
Philipp
Genau, also ich glaub, wir hatten's schon, es gab früher ja dieses AI generated AI Overviews in in Google Search. Ich glaub, es kam nie nach Europa oder Deutschland zumindest, weil ich hab's aber nur gesehen, wenn ich Übersee war sozusagen. Und Google hat jetzt sozusagen von seinen Suchergebnissen hat, sondern möglichen dedizierten AI Mode, der son bisschen ist, sag ich mal, wie die Geminar App, aber nicht so ganz. Hat immer noch sozusagen seine Google Suche und bekommt dann halt wie sone Art kürzen Report generiert in diesem AI Mode. Das Besondere, glaube ich, vor allem ist, dass es jetzt Gemini 2 Punkt 0 nutzt und nicht mehr 1 Punkt 5. Weil also man hat viele Fehler gesehen bei dem AI Motor auf Social Media und was alles falsch gemacht wurde. Und wenn man irgendwie gefragt hat, ob es gesund ist, Kleber zu essen, dann gab's auch Antworten, die gesagt haben, ja. Also da gab's viel Verbesserung und mit diesem neuen Update nutzt man Germanate 2 Punkt 0 und das ist ja einiges besser. Aber wie Du gemeint hast, aktuell Experimental Mode in Preview für Google, One, AI User, also man muss bezahlen und auch in den USA sozusagen sein. Das heißt, mal mal abwarten, ob und wann das nach Europa kommt.
Dennis
Ja. Und das ist natürlich auch vom Interface trotzdem noch 'n bisschen anders und das ist nicht nur so ein, hier ist ein Snippet und Du hast dann sowieso, sondern Du, ähnlich eigentlich letztendlich wie eine wie eine Gemini Oberfläche so im Chat, aber halt noch mit der Möglichkeit, dass ja dort noch mehr Informationen des Laptops, glaub ich, reingesucht wird.
Philipp
Also wenn man sich den Blogpost angibt, da gibt's auch sone Art sone Art kurze kurzes Beispiel. Mhm. Und es sieht sehr stark nach Perplexity aus. Also man hat auch seine Frage, dann hat man oben so bisschen die Quellen, dann wird auch der das Ergebnis generiert, man hat die Links zu den ganzen Ressourcen, man kann eine Follow up Frage stellen. Also hat am ehesten würde ich's einfach mal jetzt vergleichen mit, was man bei perplexity bekommt, wenn man eine Suche macht. Ja.
Dennis
Gut. Jetzt hab ich hier jemandem gegenübersitzen, der das Google Deep Mind T-Shirt anhat und wie wir hier in der Folge geteilt haben, auch seit einiger Zeit jetzt bei Google Deep Mind ist, gucken, wie weit würde ich hier träge können, irgendwas zu sagen. Nein, aber ich will kurz über einen Artikel sprechen, der in der New York Times erschienen ist und da geht's ein, ich weiß gar nicht, ob das ein Gespräch oder eine E-Mail oder was es auch endlich war, aber Sergej Brin hat dort, ja, ein paar Aussagen getroffen, die vielleicht, also son bisschen Gegentrend vielleicht zu der Viertagewoche, die in Deutschland hier und da diskutiert wird und letztendlich, aber es gibt glaube ich 2 Sachen, die ich interessant fand, die da rauskommen. Also zum einen und das war so ein bisschen die Clickbait Headline, da hat er gesagt, dass die eine 60 Stunden Woche der sweet Spot der Produktivität ist und dass er vorschlägt, dass alle Mitarbeiter zumindest gegen Werktag ins Büro kommen. Also das heißt nicht nur eine eine Return to Office Policy, sondern letztendlich auch noch Return to Office Plus. Wenn am Wochenende auch noch kommst, macht es das noch besser. Alles hinter dem Hintergrund natürlich irgendwo dieser der das Wettrennen zu AGI irgendwie zu gewinnen in dem Framing, da einfach zu sagen, so, wir haben bei Google die Ressourcen und die Menschen, die das können und wenn wir da uns genug anstrengen, dann kommen wir da auch dahin. So, das ist das eine, also erstens, ne, viel im Office zu sein und sehr viel zu arbeiten, was er dort erwartet. Und das andere, was ich interessant fand, dass er auch so sehr gepusht hat, dass die Mitarbeiter selbst die AI Tools mehr nutzen, die aktuell schon da sind, ne? Also dass man so das verstärkt, dass man das dann jetzt schon hat an Wissen und an Möglichkeit mit AI noch viel stärker einsetzen muss, auch AI weiterzuentwickeln und da eben auch 'n Fokus draufzusetzen, was ich 'n, ja, spannenden Take fand von von ihm.
Philipp
Vielleicht magst Du noch kurz sagen, wer Sergy Print ist.
Dennis
Ja, Co Founder von Google. Und ich glaub, ich weiß gar nicht ganz genau, welche Rolle er im Moment offiziell hat. Also ich glaube, er hat relativ viel zu tun auch mit Google Deep Mind oder sitzt er zumindest häufig auch mit rum, aber ich weiß gar nicht genau, wie er sonst aufgehängt ist. Aber das kannst Du.
Philipp
Nee, kann ich leider auch nicht. Ich hab das auch noch nicht ganz verstanden. Okay. Ich mein, es ist 'n interessantes Statement. Ich arbeite auf jeden Fall keine 60 Stunden die Woche. Bisschen weniger, würde ich mal sagen. Ich weiß auch, ich wär halt immer vorsichtig bei so was, wie man in welchem Kontext das gesagt wird. Worauf ich natürlich unterschreiben würde, ist halt, man muss mehr die Tools nutzen, die man selber erstellt. Also ich sag, wie wer alle müsste, hat jetzt nichts mit EA irgendwie zu tun, sondern wenn ich halt irgendwie nichts mein eigener und bester und größter Nutzer bin, dann kann ich halt auch irgendwie am Ende nicht erwarten, dass ich meine User verstehe oder besser werde, wenn ich selber nicht genau weiß, wo die Probleme sind oder was die User Experience ist. Also das würde ich definitiv unterschreiben. Ich glaub aber nicht, dass man 60 Stunden arbeiten muss, die Ergebnisse zu erreichen.
Dennis
Okay. Und ah nee, das müssen wir für die für die Weihnachtsfolge aufheben, dein aktueller, dein aktueller Take to, wann wir denn erreichen können. Ist vielleicht zu früh für dieses Jahr.
Philipp
Was ist, wenn's schon Weihnachten passiert ist?
Dennis
Ja ja, genau deswegen.
Philipp
Das ist
Dennis
'n bisschen die Frage. Weil zumindest ja auch da mit drin stand so. Es wird daran geglaubt, dass das irgendwann erreichbar ist. Gut, lass uns kurz auf die Liste gucken. Ich würde vielleicht weitermachen mit einem größeren Produkt Update, das es auch in der Zeit gab. Initial vor anderthalb Jahren oder sowas angekündigt und eigentlich auch ein sehr logischer Schritt, aber es hat gedauert bis es kommt und zwar die neue Alexa. Und wie viele Bezahlmodelle so da draußen den Namen einfach mal ein Plus hinten dran gehängt. Also es ist jetzt Alexa Plus nennt sich das neue AI andusered Alexa. Was auch in den letzten 2 Wochen, weiß ich gar nicht genau, ungefähr vor 2 Wochen, ne, irgendwann Ende Ende Februar vorgestellt wurde. Vielleicht vorneweg zum Rollout, also auch der ist erstmal ein bisschen langsamer jetzt in den nächsten Tagen und Wochen in den USA für auch eine Auswahl an Geräten letztendlich, aber der internationale Roll out ist auf jeden Fall geplant. Es gibt aber zu nichts davon irgendwie ganz feste Daten, wann das kommen wird, aber sie wollen wirklich auch viele alte Geräte und einfach die ganzen, ja, Eco Devices und so was, die es da draußen gibt, auf die neue Alexa updaten. Und letztendlich, ich denke so vor vor anderthalb Jahren, als es das erste Mal war, da hatte man noch irgendwie vielleicht mehr Fragezeichen, was das Ganze sein kann und wie das Ganze aussieht und was sie was sie da gezeigt haben, ist eigentlich schon einfach eine sehr schöne Integration von LLMs und und Gen AI in dem Space, in dem Alexa heute ist, nämlich zu Hause irgendwie aufm Küchentisch, mehr oder weniger als persönliche Assistentin einem einfach Tasks abzunehmen. Technisch ist es so, dass das Ganze in Alexa Batrock liegt und processed wird und es gibt zum einen 'n eigenes Modell von Amazon, was dort kommt, aber sie arbeiten eben auch mit anderen zusammen, mit Claywed oder an an der Stelle. Und es wird eben Use Case für Use Case entschieden, wo wohin die geht und welches LLM das Ganze am besten beantwortet. Aber was wir auch schon kennen letztendlich oder sehr ähnlich ist bei anderen Tools, es gibt halt so die Integration zu anderen Services, die aber auch relativ, also macht erst mal den Eindruck, relativ starr sind in Anführungsstrichen, also dass Alex jetzt noch nicht in der Lage ist, sich da irgendwie neu eine API zu erschließen und dann direkt was zu machen. Aber sei es etwas wie Tischreservierungstools, die es da draußen gibt oder Uber oder Netflix oder ne also Ticketmaster, irgendwelche Karten zu kaufen. Also den Alltag, zu sagen, hey, ich würd gern 'n Konzert zu dem und dem hören. Also Gespräche einfach, natürliche Gespräche in natürlicher Sprache zu machen, ist dort dann möglich. Viel auch auf Personalisierung. Es kann sich sehr viel merken zu einem selbst, zu der Familie, zu beispielsweise Unverträglichkeiten von Freunden. Das heißt, wenn man sagt, hey, ich hab wieder eine Party und lade die und die ein. Wie war das noch mal? Wenn Du irgendwann vorher halt Alexa gesagt hast, hey, das sind die Unverträglichkeiten. Dann kann sich das merken, kann Rezepte et cetera entsprechend anpassen. Ja, also einfach, ich glaube für den Alltag schon viele coole Sachen. Am Ende wird es sich dann rausstellen, wie cool es ist, wenn man's selbst mal da nutzen kann im eigenen Kontext, aber ich kann's mir schon eine eine ganz schöne Integration vorstellen. Es ist relativ UIUI lastig aktuell, es wird wurde vor allen Dingen gezeigt auf all den, ja, Geräten, die viel viel Bildschirmfläche haben, wo man dann auch viel der Resultate sieht und son bisschen ja, dort hat. Also kann auch Bilder generieren, kann auch nur Storys für Kinder und so weiter. Also all all das so die Magic, die LLMs irgendwie hat, ist dann mit integriert. Vielleicht ganz lustige Integration auch noch. Hier Suno AI, die Songs erstellen, ist auch nativ mit dabei. Das heißt, auch wenn man einfach sich spontan einen Song erstellen lassen möchte zu irgendeinem Thema, ist es einfach über Alexa eben auch möglich. Und ja, ich hoffe, da ich son uralt Echo 5 irgendwie hab, dass erstens dafür mal kommt, ob ich das testen kann und es irgendwann nach Deutschland kommt, aber das ist das, was Alexa plus bald sein wird.
Philipp
Also woran ich bei mir am meisten scheiter, das so, ich hoff, das haben sie gelöst, ich weiß nicht, Europa die nutzt, aber wenn man halt so verknüpfende Fragen hat, so Umfragen oder so was, das können die ja gar nicht. Also Du kannst ja irgendwie nicht fragen, so, hey, stell mir 'n Timer auf 30 Minuten und da erinnere mich morgen irgendwas zu tun, da steigen die ja komplett aus. Ja. Oder schalt alle Lichter aus und irgendwas. Ich bin mal gespannt, ob ob das dann funktioniert und dann mal schauen. Also es ist auf jeden Fall 'n Update definitiv notwendig, vor allem auch für so die normalen Fragen. Ich mein, wenn ich anstatt dann irgendwie Jaminar oder Chat GPT in meinem Handy zu nutzen, Alex oder irgendwie so fragen kann und dasselbe passiert ist, wär schon cool. Aber ich bin mal gespannt, ob das mit dem Preis haltbar ist. Also aktuell, weil wenn Du ein Prime Kunde ist, ist es sozusagen kostenlos dabei. Wenn man kein Prime Kunde ist, sagen sie, es kostet 20 Euro im Monat. Ja. Aber ich glaub, mein Prime Abo ist günstiger als 20 Euro im Monat.
Dennis
Das ist richtig. Ist gut, dass Du's noch mal ansprichst mit dem Preis, hab ich ganz vergessen, ja. Ich glaube, das ist halt auch ein ein weiteres Feature, einfach Prime zu zu boosten und es wird praktisch keinen geben, der das, ne, kauft, dieses Feature, sondern wenn überhaupt, Leute noch mehr dazu bindet, Prime Kunden zu werden. Ja, ist richtig.
Philipp
Ja, ich bin halt mal gespannt, ob das dann dazu führt, dass generell das Prime Abo teurer wird. Mhm. Oder ja.
Dennis
Ich hoffe nicht.
Philipp
Weil 20 Euro im Monat ist schon viel. Also Ja. Ja. Würd ich glaub, nur ich bezahlen, nur damit die bisschen intelligenter sind.
Dennis
Ja, obwohl's so gefühlt dumm sind, ne. Also im Vergleich einfach zu dem, was Du weißt, was halt geht, dann ist ja irgendwie so
Philipp
Ja, aber dann denk ich eher, vielleicht kommt Google oder Apple nach und dann hast Du halt auch noch 'n Mobiltelefon oder eine App am PC. Ich mein, Sie haben zwar auch gesagt, dass es eine Alexa WebUI oder irgendwie so was nehmen soll, die so ähnlich wie Jet GPT werden soll. Ja. Ja, bleibt abwarten. Ich mein, ich weiß nicht, ob Du's so gerade erwähnt hast, aber soll ja gepowert werden von mehreren Modellen im Hintergrund. Also zum einen wird Claude von Antropic genutzt, aber auch die Nova Modelle von von Amazon und sie routen, also der Request oder die Anfrage geht dann immer zu dem Modell, wo's am passendsten ist oder am besten die Experience ist. Ja, ich mein, wer weiß, vielleicht kommt Open Air in 'nem halben Jahr mit ihrem eigenen Smart Speaker raus und dann, weiß nicht, dann muss man schon abwarten, ob's die 20 Euro für Alexa oder hat Amazon werzen oder ob's halt dann die Konkurrenz ist.
Dennis
Ja. Ja, und in in dem Zuge hatte ich auch noch mal gelesen oder geguckt, ne, weil Gemana ja grundsätzlich so als Assistent schon vielleicht 'n bisschen weiter ist auf den Telefon, weil's da halt viele verknüpfende Dinge gibt, auch mit, ne, persönlichen Dingen wie Kalender et cetera. Da warte ich immer noch, irgendwo steht auch noch son alter Google, wie hieß 'n die noch, Google Home mini oder sowas rum. Aber auch da Es heißt trotzdem, es kommt auch irgendwann noch mal dahin, ist aber aktuell noch nicht so. Mal gucken, wann das so die komplette Durchdringung hat, dass auch diese Smarthome Geräte von Google komplett auf Germanai geupdatet werden. Lasst uns doch grad mal diese beiden Finanzierungstopics noch haben, die Du mitgebracht hast, die Ant Tropic Series E- Finanzierung.
Philipp
Genau, also superschnell Ant Tropic hat nach Ihrem Cloud Free Point 7 Release eine neue Fundinground bekannt gegeben, 3500000000.0 bei 'ner Evaluierung von 61000000000. Ja, ich mein, es wird nicht viel dazu geschrieben, einfach nur, okay, es geht weiter und mehr Unternehmen und Kunden nutzen jetzt Cloud. Sie haben Avven Curser, Zoom, Raplet, einmal Alexa plus wird wird aufgeführt, haben 10 gemacht. Ja.
Dennis
Sehr gut. Und dann hast Du noch, eine Firma, die Gewichte gekauft hat, also ohne ohne Ei, Ei Kontext müssen Sie komisch, und dafür 1700000000.0 US Dollar ausgegeben hat.
Philipp
Gewichte und Vorurteile haben Sie gekauft.
Dennis
Gewichte und Vorurteile, ja.
Philipp
Genau, ich mein, Covie war ja bisher immer bekannt mit ihren Finanzierungsrunden, bei denen sie ganz viel Geld eingesammelt haben, GPS zu kaufen oder auch bei 'ner Bank 'n Kredit aufgenommen haben mit CPU als Schuldengrundlage mehr oder weniger. Und Corvey hat jetzt angekündigt oder veröffentlicht, dass sie Weiaseds and Biases Aquirern. Weiaseds and Biases ist eine, sag ich mal, DevOps Plattform und Tool, haben über 1000000 Nutzer und ganz einfach gesagt, kann man sich das so vorstellen, man installiert sich das, man man Modelle feintun und Weiases lockt dann sozusagen die ganzen Trainingslog, dann den Parameter. Man kann dann verschiedene Trainingsrand supereasy miteinander vergleichen. Man kann auch so Art Blogposts und Reports generieren, dann halt sozusagen Dinge zu teilen. Son bisschen eine End to End Modellop Plattform mehr oder weniger geworden. Man hat auch so Tracing mittlerweile für die ganzen LLMs, das heißt, man kann Inputs und Outputs von LLM APIs speichern, ja, bleibt abzuwarten, was Coreview damit macht, ob sie's bei ihren, ich, bei sich intern in ihre Cloud integrieren, ob eine eigene Plattform bleibt und weiterhin so macht. Auf jeden Fall eine interessante und definitiv cool für für die Leute.
Dennis
Cool. Dann, wo wir auch schon wieder 'n bisschen fortgeschritten sind in der Zeit, mach ich noch 3 kleinere Produktupdates. Einmal angefangen mit, auch das hatten wir ja schon häufiger, also, man schreibt einen prompt und man kriegt eine ganze App generiert. Dort jetzt in Version 2, hab ich tatsächlich auch selbst schon ausprobiert, was wirklich cool ist und was man fast denkt, warum war das vorher nicht dass viel mehr selbst iterativ passiert. Das heißt, wenn ein Fehler im Bildprozess passiert, wenn ein Fehler auf der Webseite passiert, wie auch immer, dann nimmt Dreplate das selbst wieder auf und fixt das erst mal mal wirklich gefragt, hey, willst Du diesen oder pace mal den error hier rein? Das heißt, mit einem prompt kommt man schon viel, viel weiter, weil dieser Prozess von AI Seite aus deutlich iterativer ist. Und ja, ich hatte jetzt die Programmierer, ganz kurz den Use Case zu zitieren, wollten wir für eine Konferenz son, dass man ein eingibt und man kriegt eine Spotify Playlist, die einem die relevantesten Programmierfolgen dazu als als Playlist gibt, als QR Code. Und die Anfrage hat es in einem prompt letztendlich gemacht und was ich irgendwie sehr spannend fand, das hat erst mal eine UI gebaut, die recht hässlich war, aber schon grundsätzlich zu dem Style und das sich auch gesapchatd angeguckt und evaluiert, ob das irgendwie das ist und dann eine eine fertige hübsche Webseite auch in dem gleichen Schritt daraus gebaut. Also selbst diesen Schritt so okay, ich prototype selbst erstmal wie das aussehen könnte und was die Funktionen sind und mach's dann schön, weil alles innerhalb von der vom ersten von der ersten Antwort des Proms. Also schön, dass da auch man merkt, wie viel Weiterentwicklung dort passiert. Hab ich grad gesagt, ich mach das kurz hier, ne, war's nicht. Gut, dann, das Nächste schaff ich schneller. Hat sich noch mal auf einen spezialisiert, 0CR, das heißt, das Erkennen von irgendwelchen Textdokumenten und es ist integriert in, das heißt, wenn man dort Dokumente hochlädt, kann man's einfach nutzen. Es ist auf Benchmarks einfach einen Ticken besser als alles, was da draußen aktuell 0CR machen kann und bringt das einfach noch mal weiter in verschiedensten Use Cases, in schlechter Qualität, in anderen Sprachen, in quer aufgenommen et cetera, einfach Text zu extrahieren und vor allen Dingen in 1 schönen Art einfach strukturiert dann zu präsentieren. Können Bilder drin sein, es können Graphen drin sein, das wird dann alles an die richtige Stelle gepackt. Also wenn man irgendwo Dokumente digitalisieren möchte, dann ist misstrauisch vielleicht grade der an der Stelle. Und dann Windsurve als eine IDI, die eben AI Native ist. Weiß nicht, ob das der richtige Begriff ist, aber drinnen hat. Ein neues Feature, dass dort ein sogenanntes Website Preview ist. Das heißt, dass man innerhalb der IDI direkt das Webprojekt sich ansehen kann und dort auch ja, praktisch so Visual Edits dann in dieser Oberfläche machen kann. Das als kleines Update zu Windsurf. Und dann haben wir noch 2 Modelle. Es ist ja fast fast kann man sagen, relativ wenig so im Vergleich über die
Philipp
Ja, aber das stimmt. Wir haben hier 2 richtig coole Modelle.
Dennis
Das ist doch gut.
Philipp
Beide kommen mit 'ner Apache 2 Point o Lights sind, also kommerziell nutzbar. Das beide kommen aus China und beide kommen von Alibaba. Okay. Zum einen ist es wann oder wann, ich hoffe, ich spreche das richtig aus, welches ein Text to Video Modell ist, kommt in 2 Größen, 1300000000.0 Parameter und 14000000000 Parameter. Das große, das 14000000000 Parameter kann HD Videos generieren in 720 p Auflösung. Und ich sag einfach mal so, das ist son bisschen mindestens auf dem Level von Zora. Das heißt, wenn ihr irgendwie Zora beeindruckend fand, dann schaut euch definitiv das Modell an. Auch das das kleinere, also das 1.3 b Milliarden kann man mit nur 8 Gigabyte zum laufen lassen. Also teils auf 'ner kleinen Grafikkarte kann man dann 5 Sekunden Video in 480 p generieren. Das größere braucht bisschen mehr, ist verfügbar. Es gibt auch eine eine Demo, die man testen kann. Da läuft aber nur das kleine Modell und auch ganz, ganz viele Videos, die man anschauen kann. Das zweite Modell, mindestens genauso cool, ist QVQ, also 'n QVEN Textmodell. Es gab schon vorn paar Monaten mal QVQ Preview und QBQ ist das Resending Modell von Quen. Und es hat 32000000000 Parameter und es ist auf Benchmarks, vor allem in Mathe und Coding und auch Instruction Following genauso gut wie Deep Siege A1 oder OU One von OpenAI, Mhm. Aber hat nur 32000000000 Parameter. Das heißt, mit kann man das auch auf 'nem MacBook mit 32 Gigabyte Arbeitsspeicher ausführen. Das heißt, wenn ihr das irgendwie habt, könnt ihr mit Olahm Studio oder irgendwie so was das Lokal testen. Supercool, ist echt beeindruckend. Also es generiert auch echt viele Tokens. Ich hab diesen typischen erstellende Kugel in 'nem Hexagon und Simulier Physik sozusagen prompt getestet. Hat irgendwie 10 Minuten gedauert, bis es generiert war, aber es hat dann funktioniert. Also wenn ihr euch für die ganzen, sage ich mal, Reasoning Modelle mit A-1, O-1, O-Flee, Flash Thinking, auch jetzt ,ledured Thinking, whatever, dann definitiv mal reinschauen. Wie gesagt, der Patchie, man kann's lokal relativ einfach, sag ich mal, testen. Ja. Hast Du
Dennis
da irgendwas zu gelesen, was irgendwie Entwicklungskosten angeht?
Philipp
Nö. Es gibt 'n Blogpost, es gibt Beispiele, es gibt Benchmarks, aber es gibt kein Paper bisher.
Dennis
Okay. Alles klar. Gut. Ich glaub dann, ich guck noch mal kurz, über unser Rest da rüber, dass wir nicht vergessen, was wir drauf stehen haben. Nee. Haben wir soweit alles? Dann vielen Dank fürs Zuhören. Vielen Dank Philipp, dass Du hier warst und wieder uns geholfen hast, das alles ein bisschen einzuordnen. An die Hörer*innen da draußen gerne Feedback an Podcast at Programmier Punkt bar und sonst hören wir uns in 2 Wochen wieder zu den AI News. Nächste Woche geht's mit den normalen News weiter. Bis denn, macht's gut.

Speaker Info

  • Philipp Schmid Profile

    Philipp Schmid

    Philipp Schmid ist Senior AI Developer Relations Engineer bei Google DeepMind und arbeitet an Gemini und Gemma. Er hat es sich zur Mission gemacht, Entwickler:innen dabei zu unterstützen künstliche Intelligenz verantwortungsvoll einzusetzen. Zuvor war er Technical Lead und Machine Learning Engineer bei Hugging Face, einer Firma, die gutes Machine Learning durch Open Source und Open Science demokratisieren möchte. Der junge Nürnberger und AWS Machine Learning Hero hat sozusagen die deutsche Variante von ChatGPT entwickelt und darüber auf seinem Blog geschrieben. Checkt sie im Playground aus!

    Mehr Infos
Feedback