News AI 09/25 –

Claude 3.7 // Grok 3 // Lovable Visual Edits // Bolt to App Store // Roadmap GPT 4.5 // Perplexity Deep Research // Google AI Co Scientist

26.02.2025

// Podcast
// News AI 09/25

Shownotes

Die Themen der letzten zwei Wochen im AI-Umfeld:

Grok 3 wurde von xAI veröffentlicht und die Benchmarks angezweifelt
Bolt kann jetzt auch App Store Apps bauen
Visual Edits sind neu in Lovable – damit lassen sich kleine visuelle Änderungen ohne Prompt umsetzen
Mit Google AI co-scientist gibt es ein neues Tool für Wissenschaftler:innen, um mit einem Multi-Agenten-System Hypothesen zu finden und validieren
iOS 18.4 kommt mit Apple Intelligence in Deutsch, aber noch ohne neue Siri
Apple bereitet Google Gemini Integration vor
Mit Claude 3.7 kommt eine neue Version des LLMs von Antrophic, das einen großen Fokus auf Development legt. Nicht ganz günstig, dafür qualitativ hochwertig.
Aus der OpenAI-Welt kommen mehrere Themen: Die OpenAI Roadmap GPT 4.5 / ChatGPT hat 400M WAU / GPT-4o-copilot released
Und auch Perplexity hat gleich eine Reihe an Announcements: Perplexity Deep Research Agent / Perplexity veröffentlicht unzensiertes DeepSeek-R1 / Comet als neuer Browser
Apple kündigt an, $500 Milliarden in AI in US zu investieren
Microsoft kündigt Anteile an Datenzentren

Download

/transkript/programmierbar/news-ai-09-25-claude-3-7-grok-3-lovable-visual-edits-bolt-to-app-store-roadmap-gpt-4-5-perplexity-deep-research-google-ai-co-scientist

Dennis: Hallo und herzlich Willkommen zu einer neuen AI News Ausgabe. Wir sind in Woche neun im Jahr zweitausendfünfundzwanzig. Philipp ist mit am Start. Hallo Philipp.
Philipp: Hallo.
Dennis: Und ich bin Dennis und wir führen euch wieder durch die spannendsten AI News der letzten vierzehn Tage und vermutlich wird es erst mal weiter so bleiben, dass wir jede Woche sagen, da waren sehr viele Themen und wir mussten ein paar rausstreichen und haben uns noch die wichtigsten konzentriert. Es ist einfach weiterhin eine Menge, die dort passiert und von allen möglichen Firmen irgendwelche Announcements kommen. Auch heute wieder alle großen mit dabei. Von Google verschiedenste Ankündigungen. Von Microsoft, von Apple, von Groc, den ja Bolt Lovable, die wir auch schon häufiger hatten, Anthropic, die mit dabei sind. Also eigentlich aus allen großen Playern kam wieder ein bisschen was, was veröffentlicht wurde und ja, daneben natürlich auch andere kleinere News, die relevant sind. Wir versuchen es möglichst knapp euch zusammenzufassen und ich würde mal sagen, dass Kannst Du sagen, ob Du das einen anderen Take hast, Philipp? Aber für mich das Interessanteste, sagen wir mal, der letzten zwei Wochen ist Clay drei Punkt sieben. Aber vielleicht wählst Du was anderes auf Platz eins.
Philipp: Nee, also ich glaub, vor allem für unsere Zuhörer und Entwickler ist Clay drei Punkt sieben von gestern Abend. Also wir nehmen dienstags immer auf. Mhm. Wahrscheinlich die interessanteste News und meiste haben's wahrscheinlich schon gehört, gesehen oder sonst wo. Antropic hat gestern Cloud drei Punkt sieben und Cloud Code released. Und wie der Name schon verraten lässt, das ist 'n Update zu der Clayd drei Familie. Also nicht irgendwas komplett Neues, Verrücktes, Unbekanntes, sondern eher 'n 'n Update mit großem Fokus auf Coding oder Programmieren. Und was sehr, sehr interessant ist, vor allem, was man gesehen hat auf Social Media jetzt schon die letzten sechzehn Stunden, sag ich mal, dass Claw drei Punkt sieben besser ist als Claw drei Punkt fünf oder Claw drei Punkt fünf New, wie auch immer die die weirde Version dazwischen mal hieß. Sie erreichen State of the Art Results auf dem SWI Bench Benchmark. Und noch mal vielleicht kurz zur Erklärung, SWI Bench ist 'n Benchmark, bei dem GitHub Issues und herangezogen wurden, zu testen, ob AI Agents sozusagen das von alleine umsetzen können, also wirklich Entwicklungsarbeit durchführen. Das Spezielle bei Cloud drei Punkt sieben, so wie bei allen Foundation Models jetzt ist, sie haben auch einen Reasoning Mode oder einen Thinking Mode, welcher bis zu vierundsechzigtausend Tokens nutzen kann. Sehr cool ist, dass sie die Reasonings Tokens zeigen. Also es wird nicht wie bei OpenAI oder bei anderen versteckt, was das Modell, sag ich mal, denkt. Schade ist, dass der Preis gleich bleibt. Das heißt, Cloud war in der Vergangenheit schon eins der eher teureren Modelle, wenn man das gerade mal mit Gemini Flash vergleicht oder mit mini oder mit anderen. Das heißt immer noch drei Dollar pro Million Input Tokens, fünfzehn Dollar pro Million Output Tokens. Vielleicht noch mal so als Rahmen, das ist jetzt aktuell dreißig Mal teurer als Gemini zwei Punkt null Flash und dreimal teurer als O-Free mini. Mhm. Was noch ganz interessant ist, also Sie haben in dem Blogpost noch weitere Benchmarks released, aber es geht alles 'n bisschen hin Richtung, okay, die Benchmark Performance verändert sich weniger, würde ich mal behaupten. Ich glaub, das liegt jetzt nicht daran, dass wir keinen Fortschritt mehr machen, sondern dass es halt einfach viel, viel schwieriger ist, Dean Wanzen festzustellen. Und Antropic hat 'n sehr, sehr coolen Benchmark sich überlegt oder auch mit Release. Und zwar haben sie Claude Pokémon spielen lassen. Also Mhm. Pokémon, die erste Generation, die rote Edition. Und dann haben sie mehr oder weniger Clayd Tools an die Hand gegeben, dass es sozusagen Pokémon spielt. Und Clayd drei Punkt sieben hat es bis zum Donnerorden geschafft, welche irgendwie ich Clay Orden drei ist, wenn ich das richtig sehe. Also bis zum dritten Orden hat fünfunddreißigtausend Actions, nennen sie es gebraucht. Und im Verhältnis zu Clay drei oder drei Punkt fünf welche Also Clay drei ist nicht mehr aus der Anfangsstadt herausgekommen für die, die die Pokémon kennen. Clay drei Punkt fünf hat nicht den ersten Orden geschafft. Drei Punkt fünf New hat auch nicht den ersten Orden geschafft und drei Punkt sieben ist sozusagen einiges weitergekommen bis zum dritten Orden, was ich schon 'n sehr, sehr coolen Benchmark finde, weil ich weiß nicht, ob ich damals mit zehn so weit gekommen bin, wenn ich mich richtig erinner.
Dennis: Weißt Du weißt Du, welche Tools sie den, also welche Schnittstellen da genutzt wurden?
Philipp: Nee, aber ich geh mal was interpretiert haben. Davon aus, dass sie computer Use mäßig erklärt haben. Das heißt, Du hast den die UI Inputs, hast eine Art History oder Memory und dann Aktion, die das Modell durchführen kann, wie auf dem Gameboy mit links, rechts, unten, a, b, wie auch immer. Okay.
Dennis: Mhm.
Philipp: Und zusätzlich noch wahrscheinlich auch mit das größte Update ist, Cloud oder, Ihr ersten Ihren ersten Agent oder Assistant mit released. Wir hatten's ja in der Vergangenheit schon von Open AI mit Operator oder Deep Research und Antropic hat jetzt Clayd Code released, welches eine ist, die man sich einfach über NPM installieren kann. Und wenn man einen Zugang zu Cloud hat, kann man die auch direkt nutzen. Also es gibt keinen whatever.
Dennis: Mhm. Und
Philipp: Cloud Code ist son bisschen wie vielleicht skeptisch schon was von gehört, mehr oder weniger. Es kann halt, man es und es kann dann Files lesen und Files bearbeiten und verändern, Test schreiben. Also ist so ähnlich wie der Agent Mode in den ganzen IDIs, dass ich mehr oder weniger erklär, was ich gern geändert haben möchte oder erstellt haben möchte. Und geht dann los und liest verschiedene Files, schaut sich deinen Code an, macht Vorschläge, die Du dann akzeptieren kannst. Und auch jedes Mal, bevor 'n ausgeführt wird, also Cloud kann auch irgendwie ausführen oder Tests selber ausführen lassen und so was, musst Du das als Human noch bestätigen. Was sehr cool ist, ist, dass sie zeigen, wie viele Token es genutzt wird und auch, wie viel es am Ende gekostet hat. Das heißt, wenn man's testet und man sieht, oh Shit, ich hab einfach mein repository lesen lassen, wieder zehn Cent weniger. Ist auf jeden Fall sehr interessant und verfügbar auf einen, auf Amazon Batrock, auch bei Google Cloud. Man kann es testen in clau dot a I. Es ist verfügbar in Cursur, in Windsurf, GitHub Co Pilot, Also überall, wo man eigentlich Chlw drei Punkt fünf bisher gesehen hat, kann man jetzt Chlw drei Punkt sieben sehen und testen.
Dennis: Ja, spannend. Und auch ja 'n interessanter Ansatz, das irgendwie über die das Ideal dann zu machen, über das Terminal darauf Zugriff zu bekommen. Weißt Du, wie die das mittlerweile so in dem Umfeld machen, was den den Kontext holen? Weil es ist, glaube ich, hier irgendwo, also man muss nicht explizit irgendwelche Dateien angeben und sagen, macht das jetzt hier, Aber ist das ganze Projekt im dann im im Kontext im Index oder sucht er sich schon, hangelt er sich selbst irgendwie in Fahrt und gibt verschiedene Files als Kontext zu sein?
Philipp: Ja, bei anderen Agents oder Agent Frameworks, die auch auf s wie bench validiert wurden, ist es ganz oft so, dass das Modell mehr oder weniger, es wird sone Art Plan erstellt. Also okay, ich, der User möchte gern irgendwie den Button blau machen. Okay, dann wo hab ich überhaupt Buttons? Wo wird da das Design geändert? Und dann so wird dann sozusagen durchgegangen. Also es wird mehr oder weniger im Vorfeld wirklich erst mal, wenn man nicht genau spezifisch ist, geht man das Modell halt her und versucht halt, den Kontext für sich selber zu erstellen anhand von dem Plan, der generiert wurde. Und dann versucht es, die Aufgabe umzusetzen. Und immer, wenn es dann mehr Informationen hat, wird es wie eine Art Memory gespeichert, der dann wieder genutzt wird, die nächsten Tasks zu machen. Cloud Code auch auch Kontext Caching. Weiß nicht genau, was sie damit machen, also ob dann der Code immer am Anfang von dem Prompt ist, dass man, sag ich mal, Kosten sich spart. Wär cool gewesen, hätten sie's Open Source an sich, die. Mhm. Das bisschen besser zu verstehen. Ich geh stark davon aus, dass irgendwelche Leute jetzt wahrscheinlich schon dran sitzen und eine Open Source Alternative zu bauen oder das nachzubauen. Man kann auch auf NPM gehen und sich die oder das compilte Comon Jers anschauen und dann bisschen schauen, welche Prompt sie nutzen und Tools sie nutzen. Und interessanterweise hatten sie haben sie auch 'n Easter Egg integriert, dass wenn Du sozusagen Cloud Code fragst, so, hey, kann ich Sticker haben? Wird son Special Tool ausgeführt, wo man dann seine Adresse angeben kann und dann sollte man Sticker zugeschickt bekommen. Funktioniert leider nur in den USA. Also könnt's gerne mal testen, aber leider bekommt er dann keine Stickers. Und kann auch MCP, also diese Model Kontext Protokoll Server, die einen vorgestellt haben, nutzen. Das sind sozusagen die managed Services, die auch nutzen kann. Also 'n interessanter Release, 'n vor allem im Verhältnis, wenn man das 'n bisschen mit vergleicht, ich sag mal weniger und mehr Entwicklerorientiert, weil welcher Nichtentwickler nutzt überhaupt 'n Terminal? Also wenn man so davon ausgeht, okay, in Zukunft braucht man keine Entwickler mehr, AI macht alles, aber Cloud Code ist 'n Terminal. Ich glaub, wenn ich irgendwie jemanden frag, so, hey, kannst Du mal ein Terminal aufmachen und dann kannst Du deine App bauen? Ich glaub, die wenigsten werden das schaffen. Ja. Das heißt, das ist schon sehr, sehr andere an Herangehensweise mit irgendwie Open AI, wenn man das aktuell son bisschen vergleicht. Und ist eher irgendwie, fühlt sich son bisschen an, wie sie die Entwickler unterstützen, verbessern wollen und sich wirklich dort etablieren. Und wahrscheinlich daraus dann alles ziehen und Open Air eher diesen, b two c, großen Mengen an Nutzer geht. Mhm.
Dennis: Eine kleine Nachfrage hab ich noch. Du meintest eben, dass es auch kann. Ja. Bei vielen anderen sehen wir ja dann immer, dass das eigene Modelle sind, diese Modelle. Und hier ist es aber praktisch ein Modell und einen Modus oder einfach, das Modell entscheidet selbstständig, ob es dann noch mal 'n macht oder ist das 'n expliziter Feature Flag sozusagen?
Philipp: Man weiß es nicht. Okay. Also man kann über die API und über die UI sozusagen, einstellen, auch bei und man kann auch definieren, wie viele Tokens man sozusagen möchte, dass es nutzt. Aber man ich, also man weiß nicht, ob es dasselbe Modell ist, wo dann irgendwie sone Art Anfangssystem prompt hat, dass das Modell weiß, okay, ich muss mit anfangen. Also vielleicht, wenn man da an DeepSeak denkt, die die haben ja diese HTML Tags mit Think und dann kommt sozusagen der Gedankenprozess und dann schließt sich das wieder. Vielleicht machen sie einfach nur so was. Vielleicht haben sie 'n spezielles Modell. Vielleicht ist 'n anderes Modell. Man weiß es einfach nicht.
Dennis: Okay. Gut. Dann machen wir vielleicht direkt weiter mit einem großen anderen Modell, was in den letzten vierzehn Tagen rausgekommen ist in einer Beta und zwar von XAI. Grok drei Beta und der Blogpost ist betitelt mit the Age of Reasoning Agents. Also auch hier geht es eben die Reasoning, aber dort heißt es dann auch tatsächlich Grog drei Think und Grog drei Mini Think, boah, alles Zungenbrecher, die man hat. Genau und grundlegend ist aber trotzdem ein noch mal neu trainiertes Modell, was unten drunter die Basis dafür bietet. Und ja, auch hier wieder verschiedenste Benchmarks, die herangezogen wurden und wo man schon sagen kann, okay, es spielt auf jeden Fall in einer sehr in der Liga sehr weit oben mit und gleichzeitig gab's da aber auch son bisschen Fragezeichen, wo sich dann OpenAI oder ein Mitarbeiter von OpenAI ein bisschen beschwert hat und gesagt hat, so ist das denn alles richtig, was da an dem Blogpost geschrieben wurde und die Graphen, die da gezeigt wurden. Genau. Glaub, brauchen wir nicht unbedingt in die Details reingehen, aber gab's so 'n Modus, wo man verschiedene Antworten geben kann, dann irgendwann zu gucken, ob das Modell richtig ist und da haben sie sich halt 'n bisschen gestritten, ob man ja, was jetzt die richtige Aussage ist. Ich glaube, was man auf jeden Fall festhalten kann und was so ist, dass es ein sehr starkes Modell ist, was auf jeden Fall en paar ist mit vielem der Großen, die wir da aktuell draußen sehen.
Philipp: Ja, was vielleicht noch ganz interessant ist, Sie haben ja, also es gab son Livestream, wo dann auch Elon mit dabei war, wo Sie's vorgestellt haben. Und was sie dann dort erzählt haben, war, dass sie zehnmal mehr genutzt haben als für Groc zweite Und ich bin, also es gibt, also es wurde angekündigt, dass es bald als API zur Verfügung steht, aber es gibt noch keine Details und ich bin echt gespannt, was das bedeutet, weil Krok zwei war schon nicht 'n günstiges Modell. Also es war in sonem Cloud drei Punkt fünf Bereich. Und wenn Krok drei jetzt einfach mal angenommen größer ist, weil sie's einfach das Modell skaliert haben und die Daten, dann bedeutet das da auch, dass es teurer ist. Und Sie vergleichen es ja in Ihrem Blogpost mit o drei mini, was ja günstiger ist oder Gemini Flash gibt's zum Beispiel aktuell noch gar kein Pricing. Ja. Oder mit aber mit Deep Siege O1. Das sind alles Modelle, die sich im unteren fünf, also pro Million Tokens unter fünf Dollar, sag ich mal, befinden. Wenn jetzt Groc drei genauso gut ist, aber viermal mehr kostet, dann bleibt es definitiv interessant zu sehen, ob das son Art Subventionsding wird und Elon und X, das dann einfach dort intern nutzen oder ob es wirklich Anklang findet. Was ich auf jeden Fall gesehen hab, ist 'n 'n starker Bias auf Twitter beziehungsweise X, dass wie toll das das Modell doch ist und alles son bisschen darauf hoffen, dass Elon sich sie retweetet und so was. Also die die ganze Marke Elon Musk spielt bei XAI auf jeden Fall mit rein. Ich weiß jetzt nicht, ob das gut oder schlecht ist. Ja. Wird sich auf jeden Fall noch in der Zukunft zeigen, aber ich mein, am Ende gewinnen die Consumer, wenn man mehr Konkurrenz hat. Und mehr Modelle und bessere Modelle hoffentlich fördert Innovation. Deswegen bleibt's spannend, was in den nächsten Wochen und Monaten passiert dann.
Dennis: Mhm. Gab's Du, dass im Moment vor allen Dingen auch über das Pricing so der Erfolg entschieden wird oder Usability und gefühlter Output, der irgendwie kommt? Ich mein, klar, für größere Anwendungen, wenn man skalieren will und so, muss man sich Sicherheit dann die Kosten angucken, wenn's auch grade irgendwelche Userfacing AI Features sind, die einfach dann viele viele Tokens und Computing brauchen. Aber glaub, das ist so eine der maßgeblichen Indikatoren,
Philipp: die
Dennis: über den Erfolg dann entscheiden? Also ich
Philipp: glaub, wir haben einen Punkt erreicht, wo ganz, ganz viele Dinge schon umgesetzt werden können mit jedem Modell. Und dann kommt es, denk ich, auf den Preis drauf an, was vielleicht eine interessante Entwicklung ist, die wir jetzt gesehen haben, ist. GMy zwei Punkt o Flash wurde ja Anfang Februar GA released und ist jetzt auf Open Router das meistgenutzte Modell. Also man kann schauen, das Week Gemini Flash hat dreihundertvierzehn Milliarden Tokens sozusagen generiert. Mhm. Und Clay drei Punkt fünf, also ist klar, das ist 'n neues Modell da, das heißt, es wird nicht steigen, aber bis gestern war's noch nicht so, hat zwanzig Prozent weniger Tokens als so vorgeneriert und war bisher immer die Nummer eins. Also Pricing spielt definitiv auch mit eine Rolle. Und wenn ich halt drüber nachdenke, ich hab Modell eins von irgendwie OpenAI oder von Antropic und dann von Croc oder von XAI, was aber dann doppelt so viel kostet oder wenn man das vergleicht mit Germani Flash, was dann dreißig mal günstiger ist. Klar ist es vielleicht nicht ganz genauso gut, aber für neunzig Prozent der Use Cases reicht's wieder aus und dann muss man halt irgendwann diese Businessentscheidungen treffen. Ja. Und dreißig mal günstiger ist, sag ich mal, schon im Bereich, wo man sich Gedanken machen sollte, ob es Sinn macht oder nicht.
Dennis: Ah, absolut. Okay, so. Eine AI News wär keine AI News, wenn wir nicht Open AI mit im Programm hätten. Da gibt's 'n paar kleinere Neuigkeiten.
Philipp: Genau. Kann fast irgendwie 'n bisschen meinen, dass sie's geahnt hätten, dass sowohl XAI als auch auch 'n Tropping 'n neues Modell releast und son bisschen vorab gute Laune und Presse gemacht haben. Und zwar hat Sam Altman und Pratt Light Cap, welcher CEO O ist und Sam Altman kennen wir ja, CEO von OpenAI am zwölften Februar und am zwanzigsten Februar 'n paar Insides zu der Roadmap geteilt. Und zwar hat Open Sam Altman geteilt, dass GPT vier Punkt fünf bald kommen wird, welches intern Orion gecrollt wurde. Ich weiß nicht, ob wir's in den News hatten, aber es war ja Ende letzten Jahres son bisschen spekuliert, was dieses Orion Modell ist. Und das Ziel für GPT fünf ist, dass sich sozusagen die O-Series, also ihre Reasoning Modellserie mit der vier O-Serie, also dem normalen GPT sozusagen, mergen und das dann GPT fünf sein sollte. Jeder, und Sie schreiben auch dazu, dass das von Jet GPT unlimited Access zu GPT fünf bekommt mit normaler Intelligenz Setting. Also man hat nicht dieses Advanced Reasoning oder High Reasoning, wie sie's klappt nennen, wo man dann mehr Comput spenden kann.
Dennis: Mhm.
Philipp: Aber auf jeden Fall sehr viel Stimmung gemacht, dass hey, wir haben einen neues Modell, das kommt bald und hey und GPT fünf kommt auch bald. Keine genauen Details. Man weiß nicht genau, also er spricht sehr 'n Rätsel, was das bedeutet, dass sie die oder mit der O-Serie kombinieren? Ist es dann wie sone Art Router oder haben sie irgendwie was anderes wieder rausgefunden, dass sie auch dynamisch das Resignling kontrollieren können? Was aber dann definitiv die Woche darauf interessant war von Pratt. Der hat geteilt, dass ChatGPT die hundert Millionen Weekly Active User gecroßt hat. Das sind ungefähr fünf Prozent der Weltbevölkerung. Und über zwei Millionen Businessusers nutzen jetzt ChatGPT und die ist das Fünffache angewachsenen User, was auf jeden Fall schon Zahlen sind, die beeindruckend sind, muss man wirklich sagen. Also ich kenn wenige Anwendungen, die vierhundert Millionen Active User haben, die nicht Social Media sind. Also ich wüsste jetzt spontan nicht, ob wir irgend eine Art Produktivität App hätten mit so vielen Nutzern Ja. Auf der Welt.
Dennis: Das ist eine gute Frage. Nee, ist auf jeden Fall, ja. Sind ja vor allen Dingen auch Weekly, Hektophuser, ist ja noch mal, so viele andere sind ja immer als smarte Hektophuser angegeben. Ist eine Hausnummer, ja. Hast Du da, nee, er ist keine Vergleichswerte, ne, Gemdreiy. Veröffentlicht ich jetzt keinen Wagum. Aber wäre natürlich mal interessant zu wissen. Wie sehr da einfach doch der Vorsprung ist dadurch, dass sie als, ne, als Erster oder als Kunde Ich
Philipp: glaub, der ist
Dennis: Markt spannend.
Philipp: Also ich glaub, auch wir hatten's ja mit Clay oder X-e. Ja, ich glaub, das sind Modelle, die sich in 'ner ganz kleinen Bubble bewegen. Und ich sag mal so, dadurch, dass ich jetzt bei Google angefangen hab, hab ich natürlich auch Freunden und Family von Geminar erzählt und was man damit machen kann. Und es gibt ja auch eine App und so was und die wenigsten haben da was davon gehört. Also es gibt zwar, ich bekomm zum Beispiel ganz oft so YouTube Werbung oder andere Werbung, aber ich glaub, ich würd sagen, ChatGPT, so bei der Normalbevölkerung, ist mit im hohen neunziger Bereich einfach das, was die Leute kennen und nutzen. Ja. Und da ist viel Arbeiten noch liegt noch vor Google, vor Antropic, vor Amazon, vor XEAI, wenn man dort mitspielen möchte.
Dennis: Ich frag mich ein bisschen, ob es zumindest sagen wir mal in anderen Ländern oder in den USA anders ist. Ich war vor vor zwei Wochen in New York fürn Parteige und was mir da richtig krass aufgefallen ist, dass im im im öffentlichen Traum, also auf normalen Werbeanzeigen und so wahnsinnig viel AI Produkte Ja. Beworben wurden und wenn ich dann hier überlege, jetzt auch länger nicht in der Frankfurter Innenstadt unterwegs, aber das habe ich hier noch nicht gesehen, ne? Wo explizit hier für Customer Support ist das Modell und hier ist ein AI Service und mach Ja. Und so weiter.
Philipp: Wahnsinn von Berlin ein paar Bildern gesehen, gerade von Perplexity oder auch von OpenAI, dass da Werbung geschaltet wird, aber weit nicht. Weit nicht so. Ich meine, es ist auch immer Deutschland ist oder Europa ist jetzt vielleicht noch 'n relativ kleiner Markt und deutschland spezifisch und dadurch, dass es alles oder viele amerikanische Unternehmen sind, möchtest Du ja auch Wahrscheinlich ist der Markt einfach viel, viel wichtiger. Ja. Und ich meine, Amerikaner sind auch eher dafür bekannt, dass sie für monatliche Abonnements eher Geld ausgeben als irgendwie in Europa. Ich meine, bei uns macht man sich ja schon Gedanken, okay, soll ich jetzt zehn Euro im Monat für irgendwie ChatGPT ausgeben oder nicht? Und was hab ich davon? Und dort machen's halt die Leute einfach, aber ja. Ich mein, was mir die bei der Zahl immer kommt, die Lizenz von Lama und von ja Lama wars, die war gekappt bei siebenhundert Monfly Active User zum Zeit vom Release. Und es war gerade so, dass Snapchat, Amazon, YouTube, Instagram, Whatsapp, Facebook nicht Lama einfach so nutzen konnten. Also sie bewegen sich wahrscheinlich schon im Top zehn Bereich jetzt bald bei von allen Apps und wahrscheinlich Top eins, was nicht Social Media ist. Und ich weiß nicht, ob man Youtube da jetzt mit reinzieht oder nicht, aber es ist Ja. Innerhalb von zwei Jahren echt verrückt. Ja. Ja Wahnsinn.
Dennis: Okay. Aber eine Kleinigkeit gab's auch noch von OpenAI, ne?
Philipp: Genau. Was können
Dennis: wir jetzt gerade mitmachen?
Philipp: Ja, also nicht direkt OpenAI, sondern eher GitHub. Also ich meine, Coply, wir hatten zwar ja kurz, hat jetzt Cloud drei Punkt sieben für den Chat Mode und Agent Mode. Zusätzlich hat Github aber auch ihr eigenes Completion Modell trainiert. Das heißt, wenn ihr Copilot nutzt, sondern immer im Editor die Vorschläge bekommt, wie ihr einen Code vervollständigen könnt, haben sie jetzt 'n neues Modell, das ist auf GPTVO mini trainiert. Soll besser sein, soll schneller sein, vor allem besser für nichtgängige Sprachen. Man kann es in den Einstellungen anpassen, in VS Code. Ich glaub, ihr könnt definitiv den den Blogpost in die Shownotes packen, wenn ihr nutzt. Gerne mal reinschauen, Free Nutzer bekommen, zweitausend Monfly Completions, Paid Nutzer haben unlimited. Kommt auch bald nach Chat Brains. Ja.
Dennis: Cool. Sehr gut. Ja, dann zwei kleine Updates aus der Welt der Was 'n da 'n Überbegriff für so was wie und und Russell, wie Zero? Sind das? Agentic?
Philipp: Junior Full Stack engineers.
Dennis: Tools, mit denen man per prompt komplette Apps erstellen kann. Vielleicht finden wir da irgendwann eine schöne Kategorienennamen für. Genau und was bei bolt new ist, dass sie jetzt so den kompletten die komplette Pipeline bis zu einer App, also alternativen App im App Store gemacht haben, setzen da auf Reagnative, aber das heißt, man ist nicht nur begrenzt irgendwelche Web Apps zu bauen, sondern kann tatsächlich jetzt auch native Apps bauen und das ist letztendlich ja noch ein kleiner Schritt, der hinten dran kommt, was auf jeden Fall ganz spannend ist. Und in Lovable, was wir auch schon ein oder andere Mal in den News hatten, gibt es jetzt sogenannte Visual Adits. Und dann ist es so, dass praktisch man ein Interface bekommt auf die App, die man generiert hat und eben Kleinigkeiten in der UI, wie ich mache einen Button ein bisschen größer, ich ändere eine Farbe von irgendwas, letztendlich auf dieser UI wie 'nem wie 'nem Grafik Editor bearbeiten kann, Textgrößen anpassen kann, einfach so Styleelemente, wo die Tools schon deutlich besser geworden sind, schöne Interfaces zu bauen, aber damit ich eben nicht für jede dieser Änderungen einen prompt machen muss, so, hey, mach jetzt diesen Button, wir sind da zwanzig Prozent größer, kann man eben die direkt im Interface einfach machen. Also ein bisschen praktisch einen Schritt zurück und da wieder ein bisschen manuell mehr Handarbeit anlegen. Ist aber glaube ich super sinnvoll, weil ja, wenn wenn Kleinigkeiten in der UI halt da noch nicht so waren, wie man's wollte, dann hätte man entweder den langen Umweg über Prompts gehen müssen oder im Code selbst editieren und so kriegt man ein schickes Interface, wo man diese Dinger schnell anpassen kann.
Philipp: Mit mich erinnert das immer ein bisschen an Webflow. Also Webflow ist ja auch so eine No Code Solution und auch relativ polished, dass man das markieren kann und dann größer, kleiner ziehen, Drag and drop mäßig.
Dennis: Ist auf
Philipp: jeden Fall cool aus. Ich weiß nicht, hast Du's getestet?
Dennis: Nee, selbst noch nicht getestet, ne.
Philipp: Okay. Und ich hab mal nachgeschaut, also Andre Horowitz nennt diese Art von Applikationen oder AI powered Web App Builders. Ich glaub, Web müssen wir jetzt streichen. Okay. Ja. Oder AI powered App Builder.
Dennis: Das ist sozusagen Ja, Powered.
Philipp: Vom prompt to product.
Dennis: Okay. Ja. Sehr gut. Gut. Die nächste große Firma, die auch verschiedene Updates in den letzten vierzehn Tagen released hat oder announced hat, ist Perplexity. Und ja, müsst ihr natürlich angelehnt, glaube ich, an andere News, die wir auch hatten, aber Philipp, was gibt's da Neues?
Philipp: Genau, also bis vor letzter Woche war ja Deep Research ganz groß im Hype. Open Air, die ist vorgestellt. Googlet hatte ja eine Version schon letztes Jahr. Es gab unzählige, unzählige Open Source Implementierungen und perplex hat ja jetzt auch ihre oder ihr vorgestellt. Ähnliches Prinzip, einfach bessere Suche dauert länger, werden mehr Ressourcen benutzt. Es wird bisschen kritischer alles hinterfragt. Verfügbar für Free Nutzer, ich glaub zwei oder so pro Tag. Und Paid Nutzers für zwanzig Euro im Monat bekommen mehr, oder? Und was noch ganz spannend ist, es nutzt auch Ihr neues Modell, was Sie letzte Woche noch released haben, also zusätzlich zu Deep Research, das Peplexity in die, sag ich mal, Modelbilder- und Open Source Community jetzt auch gewandert. Und zwar haben Sie Deep Siege a one sevenety released, welches ein unzensored Deep Siege a one Modell ist. Also Deep Siege a one wurde ja, kommt ja aus China und hatte 'n paar Schwierigkeiten, sag ich mal, chinaspezifische politische Themen zu beantworten. Und was Deep Siege hier gemacht hat, ist sozusagen einfach dieses rauszu filtern, raus zu trainieren, sag ich mal. Also sie haben wirklich Prompts generiert für diese Themen, die vorher gefiltert wurden, das Modell weiter trainiert, paar Informationen dazugegeben und A1 von Perplexity sozusagen jetzt unzensert, was die China Thematik angeht. Ich weiß jetzt nicht, ob es besser oder schlechter ist. Mhm.
Dennis: Auf jeden
Philipp: Fall hab sie ihr eigenes Modell trainiert, wo man fragen kann, was denn auf dem, wie heißt der, Square, Taiwan Square acht neunzehnhundertachtundneunzig oder so was passiert ist. Und sie haben auch 'n Benchmark gemacht und gezeigt, wie viel es besser geworden ist. Und zusätzlich sind andere Benchmarks nicht gefallen. Also sie haben dadurch nicht die Performance auf irgendwie oder anderen Benchmarks geschädigt. Open Source, MIT Lizenz, wenn ihr viel GPUs zur Verfügung habt, testet das mal aus. Ansonsten, man kann auch auf Labs Punkt perplexity Punkt a I gehen. Da kann man's kostenlos testen. Ist sehr interessant, wenn ihr aktuell nutzt, dann kann man das immer schön 'n bisschen vergleichen, wenn man Zeit hat. Genau und noch superspannend, das war für mich komplett unerwartet, kam gestern Abend zum Cloud Release hat Perplexity einen Browser angekündigt, und zwar Comet ist 'n. Mehr wissen wir nicht, zum zum Draufschreiben. Ich hab direkt mal meinen Namen draufgeschrieben. Aber man will wirklich wohl Google auf allen allen Ebenen 'n bisschen reizen. Mal schauen, ob's 'n Chromium Browser wird und wie der aussieht. Ich kann's mir sehr, sehr interessant vorstellen, dass einfach das Google Suchinterface einfach nicht mehr existiert, sondern ich wie die per Plexiglas App halt einfach nutze. Bleibt auf jeden Fall spannend, was da noch kommt. Ja.
Dennis: Irgendwie während Du das gerade mit dem Unzensored Version von R eins R R eins erzählt hast, macht einem das auch immer ein bisschen Gedanken, finde ich, weißt Du? Weil man dadurch so den Eindruck bekommt, okay, Du kannst ja auch diese Modelle dann schon irgendwo in eine Richtung trainieren, ne? Im Moment hat man noch so das ein Gefühl, okay, die basieren auf dem Wissen, was irgendwie online verfügbar ist und und von daher sind sie nicht so sehr nach irgendeiner Meinung oder Richtung oder so, aber das, gerade wenn man's dann einfach mal so feintunen kann in ein Mindset sozusagen rein oder ja, Also ich glaub,
Philipp: da muss man jetzt schon ganz, ganz arg vorsichtig sein. Auch OpenEA und andere Modelle sind schon sehr in eine gewisse kulturelle Richtung, was halt aktuell sehr Western orientiert ist mit USA und Europa und dann sag ich mal, bisschen unsere Werte mehr vertritt. Das ist dasselbe Prinzip. Also man kann auch die Modelle beantworten, nicht fragen, wo man sich eigentlich denkt, hey, warum antwortet das darauf nicht? Und dasselbe war son bisschen auf der anderen chinesischen Seite, nur sind wir halt dort auf der anderen Seite. Ich glaub, für eventuell für für die Bevölkerung in China ist es okay, dass man nicht darüber spricht, sage ich einfach mal. Also es ist nicht so, dass Modelle aus der westlichen Welt nicht sensored sind. Und an sich ist ja den Content, den man produziert, den man teilt im Internet schon ja auch gewissermaßen bei ist, weil ja nicht jeder den gleichen Zugang zur Technologie und zu Wissen hat. Bleibt auf jeden Fall spannend. Ich weiß genau, was Du meinst damit und ob da noch mehr kommt, ob es 'n bisschen subtiler ist, weiß man ja auch aktuell nicht, weil
Dennis: ist
Philipp: ja viel Text, den man einfach konsumiert und es ist immer gut, wenn man da 'n bisschen mit 'nem kritischen Auge drauf schaut. Ja, absolut.
Dennis: Gut, dann machen wir weiter mit etwas von Google. Sie haben einen AI Co Scientist released, der jetzt nicht für jedermann ist, sondern es geht wirklich dort ja Forschung. Forschung an verschiedenen Themen, die es gibt. Und letztendlich ist das ein System aus verschiedensten AI Agents, die zusammenarbeiten, im Hintergrund Gemini zwei nutzen und letztendlich ein, ja, wie wissenschaftlicher Mitarbeiter irgendwie darstellen soll. Und ich find's superspannend, sich mal einfach den Blogpost dazu durchzulesen, weil's, glaube ich, son bisschen einen Einblick auch geben kann, was wir in verschiedensten Bereichen vielleicht zukünftig so sehen, wie einfach unterschiedliche Felder dann noch abgedeckt werden, denen man spezifischere Lösungen einfach findet. Und hier an der Stelle ist einfach so, dieses System hat sechs, glaube ich, spezialisierte Agents, die so sehr nah dran sind an dem Prozess, wie normalerweise Research auch betrieben wird, also wie wie man wissenschaftlich arbeitet. Es gibt, ne, irgendwie die Generationen von Ideen. Es gibt Hypothesen. Es gibt welche, die das einordnen. Es gibt welche, die das bewerten am Ende und irgendwie dann auf 'ner Metaebene noch mal sich zusammen gucken. Und hier gibt es eben dann einen einen Supervisor Agent und der zusammen mit dem Forscher, mit dem Wissenschaftler eben ein ein ja Research Goal, ein ein ein Ziel definiert und die Agenten dann loslaufen, aus allen möglichen Papern et cetera was zusammenzufinden, letztendlich auch neue Hypothesen vorzuschlagen. Also ich glaub, das ist auch superspannend, wenn man dann überlegt, vielleicht ist aktuell, ne, ein Ding, wo wir noch besser drin werden können, verschiedene Disziplinen irgendwie zu kombinieren, ja? Sei es irgendwie Chemie mit irgendwas anderem, wo dann spannende Dinge rauskommen und ja man das eben hat, auch da auf neue Hypothesen zu kommen, wo dann Wissenschaftler weiterarbeiten können, ja neue Dinge rausfinden, erforschen und der Menschheit zur Verfügung stellen zu können. Das im groben Überblick, genau, der der Blogartikel geht dann noch 'n bisschen tiefer auch in die Ergebnisse. Evaluiert das Ganze, was Sie da jetzt schon rausgefunden haben. Und ja, ich glaube, es ist auf jeden Fall spannend, wenn AI uns Menschen da so sehr unterstützen kann, auch in dem Bereich neue Erkenntnisse zu gewinnen. Dann hast Du noch zwei, wie nennt man das, Businessthemen oder Investmentsachen?
Philipp: Ja. Und zwar, ich mein, wir hatten's ja vor zwei Wochen, vier Wochen Project Stargate und wir hatten ja letzte Woche oder vor, sorry, vor zwei Wochen die EU Ja. Mit im in in in Westen und war 'n bisschen so, dass sich Apple ausgeschlossen gefühlt hat scheinbar. Und zwar haben sie jetzt auch diese Woche angekündigt oder am Wochenende eher gesagt, dass Apple über fünfhundert Milliarden US Dollar investieren möchte in AI, Silicon Engineering und Advanced Manufacturing. Über die nächsten vier Jahre möchte zwanzigtausend neue Leute einstellen, vierundzwanzig Facilities in den USA, die im Silicon Bereich tätig sind oder produzieren, erstellen oder erweitern. Also alles, was mehr oder weniger Projectstargate möchte, nur macht das Apple alleine. Was noch ganz interessant ist, wenn wir grade von Project Stargate reden, es sind Roomers oder Interviews aufgekommen, beziehungsweise Microsoft hat ein Datacenterlease für Energie gecancelt. Also man kann sich das 'n bisschen so vorstellen, wenn man 'n Unternehmen einen Rechenzentrum baut in 'ner sehr großen Größe, kann ich das nicht einfach irgendwie ins Stromnetz packen und das passt schon, sondern man muss da vorher mehr oder weniger mit dem mit dem Bereich oder mit dem State halt verhandeln oder halt dem sagen, so, hey, ich bau hier 'n neues Rechenzentrum, Ich brauch, keine Ahnung, mehrere Hundert Megawatt an Strom. Das kommt ja auch nicht irgendwoher. Und sie haben dort ein Lease gecancelt. Es ist aktuell noch unklar, ob es nur eine Verschiebung ist oder wirklich komplett gecancelt. Und es wird auch mit dem Project Stargate verbunden und man munkelt, dass das mehr oder weniger eine Andeutung ist, dass Open AI over supplyed ist, also dass vielleicht, dass wir in der nahen Zukunft nicht mehr dieses GPU Capacity Problem haben und sie deswegen da einen Schritt zurück machen. Gibt keine genauen Details. Man hat nur gesehen, dass sie halt diesen dieses lease gecancelt haben für a Couple hundert auf Megawatt, also schon eine ordentliche Menge an Strom. Und jetzt bleibt abzuwarten, was da passiert. Ich bin ja generell skeptisch bei den ganzen Zahlen, die da aktuell rumfliegen mit, hey, wir werden in den nächsten vier Jahren und mal schauen.
Dennis: Ja, das war ja ja Auch ja ein bisschen bei dem Apple Ding, dass das zwar jetzt noch mal schön zusammengefasst wurde, aber es auch nicht komplett neue Pläne waren. Ja. Die irgendwo dahinter stehen. Cool. Dann haben wir noch zwei Kleinigkeiten auch noch aus der Apple Welt. Ja. Zum einen geht es darum, dass Apple in der Vorbereitung ist, auch Gemini zu unterstützen in der Integration. Also im Moment ist es ja so, wenn man irgendwie eine Anfrage hat an Siri, dann wird das erst mal geguckt, ob das lokal gemacht werden kann. Wenn nicht, wird das an die Apple Cloud weitergeben und man kann es aber auch an ChatGPT weiterleiten. Und ja, Und Apple hatte auch damals schon bei der Ankündigung gesagt, so hey, wir halten uns das offen, da die Anbieter verschiedene zu ermöglichen. Und genau, sieht so aus, als ob Germany in nicht allzu weiter Zukunft dort einer der Models ist, was man dann eben auch nutzen kann, die Anfragen weiterzugeben. Und das andere tatsächlich für uns hier in Deutschland ganz interessant. Bald im bald ja im April wird iOS achtzehn Punkt vier rauskommen und das bringt tatsächlich dann Apple Intelligence in zehn neue Sprachen und in einer dieser Sprachen ist eben auch Deutsch vorhanden und das heißt, wir werden dann auch hier auf die dann ja ersten, kann man letztendlich sagen, Apple Intendials Features zugreifen. Ist ja auch immer noch nicht so der der ganz große Wurf, wo man jetzt irgendwie alles kann und genauso auch wird tatsächlich das neue Serie, was oh, sag mal, was war das jetzt? Im Juli Juni zweitausendvierundzwanzig vorgestellt wurde, auch immer noch nicht mit drin sein, das heißt, das wird erst mit achtzehn fünf kommen. Guck mal zuerst kommt, die nächste WWDC oder das, was damals vorgestellt wurde. Genau. Aber nichtsdestotrotz kommen immerhin dann die ersten Apple Intelligence Features auch hier in unsere Region.
Philipp: Auf welches freust Du dich am meisten? Feature von Apple Intelligence?
Dennis: Du ich muss ganz ehrlich sagen, dass ich einigermaßen enttäuscht bin von dem, was mich da jetzt erwartet. Ich glaube, wenn überhaupt, wäre schon irgendwie Siri das Ding, wo ich sagen würde so, das könnte ich mir vorstellen, weil ichs ja für son paar Kleinigkeiten im Alter schon immer wieder benutze und wenn Du da halt son Systemzugriff hast, dann auch einfach ChatGPT zu fragen, ne, also einfach die bessere Integration von
Philipp: Du meinst Germany?
Dennis: Natürlich, wenn möglich, dann natürlich Germany. Ja, das wär das so. Also ich ich bin jetzt nicht hyped und warte oder laber mir die Beete von achtzehn vier runter. Also die
Philipp: Beete auch nicht, aber ich muss sagen, also Apple in Gelotinge, das weiß er kommt, ist mehr als dieses Rewriting und Summarization Tool und es kommt ja in Apple Fotos, dass man Dinge markieren kann und löschen, was ja aktuell, zumindest auf meinem iPhone, noch nicht funktioniert. Das find ich eigentlich ganz cool. Und die Chen Emojis, also dass man aus mehreren Emojis neue Emojis generieren kann, finde ich auch ganz cool, muss ich sagen.
Dennis: Darum übrigens waren auch riesige Plakate in New York. Ja. Was ich auch spannend fand für son Feature, was son bisschen eine Spielerei ist, da groß Werbung zu machen. Aber ja. Okay. Die kann man auch, glaube ich, prompton, oder? Das ist nur die Kombination von
Philipp: Ja, ich glaub, Du kannst die schon, hast Du, Du sagst es son bisschen und es wird dann ein neues generiert, glaube ich. Ich mein, ich ich teste einfach immer Pfröder. Ja.
Dennis: Genau. Sehr gut. Jo, das wars. Wir treffen immer ziemlich genau die Marke von vierzig Minuten, ne.
Philipp: Na ja, da bleiben wir mal dreißig Minuten, aber das braucht ja niemand wissen.
Dennis: Nein, wir würden's gerne knackig und kürzer machen, aber wir streichen ja auch schon Themen weg. Vielleicht kommt ja wieder irgendwann im Sommerloch oder keine Ahnung, wo alles 'n bisschen ruhiger wird und wir uns mal schütte Stark den Kopf glaubt nicht daran, dass das abnimmt, die News Stärke hier. Oder wir müssen irgendwann noch wöchentlich gehen als Alternative. Vielen Dank fürs Zuhören. Auf jeden Fall danke dir Philipp für all den Input und ja, wenn ihr Feedback habt, schreibt uns gerne an Podcast at Programmier Punkt bar. Ich glaube, jetzt ist die letzte Woche, wo noch diese Umfrage ist, wo man einen coolen Programmierber Merch abgreifen kann. Die endet glaube ich am Ende der Woche. Von daher macht das auch gerne. Sonst wünschen wir euch eine schöne Zeit und bis ganz bald. Macht's gut.
Philipp: Tschau. Tschüss.

Claude 3.7 // Grok 3 // Lovable Visual Edits // Bolt to App Store // Roadmap GPT 4.5 // Perplexity Deep Research // Google AI Co Scientist

Shownotes

Speaker Info

Philipp Schmid