News AI 13/25 –

Manus AI // Open AI Agent Tools // Google’s Gemini // Mistral 3.1 Small

26.03.2025

Shownotes

Dennis und Philipp lotsen euch durch die aufregendsten Entwicklungen der KI-Welt. Diese Woche im Fokus: Von Modell-Updates bis hin zu praktischen Tools, die eure AI-Workflows revolutionieren könnten.

Manus AI, dem neuen Stern am AI-Agenten-Himmel, sorgt aktuell für Furore. Wir analysieren, was hinter dem DeepSeek-Hype steckt und wie es sich im Vergleich zu anderen Modellen schlägt.

Weiter geht’s zu Cohere und ihrem Command A. Was macht Command A so besonders, und wie positioniert es sich als effiziente Alternative zu GPT-4o?

Auch Open AI mischt mit: Sie haben o1-pro in ihrer API veröffentlicht, aber zu welchem Preis? Wir vergleichen die Kosten und Leistung mit anderen Modellen und diskutieren, für wen sich das Upgrade lohnt.

Open AI krempelt die Agenten-Entwicklung um! Mit den neuen Agent Building Tools soll das Erstellen von AI-Assistenten einfacher denn je werden. Außerdem gibt es Next-Gen Audio-Modelle inklusive Voice Customization, die neue Maßstäbe setzen könnten.

Google hat in den letzten Wochen nicht geschlafen und die Gemini App auf den Markt gebracht. Von Collaboration Features bis hin zu einem praktischen Gemini Cookbook Quickstart Notebook. Wir besprechen die wichtigsten Neuerungen.

Die Open-Source-Szene boomt! Google DeepMind hat mit Gemma 3 einen echten Kracher gelandet. Wir beleuchten, was Gemma 3 so besonders macht und warum es die Open-Source-Community begeistert. Zusätzlich stellt Google ShieldGemma 2 & Gemini Robotics vor.

Claude integriert nun auch Web Search.

Google NotebookLM bietet jetzt Interaktive Mindmaps.

Mistral hat mit Mistral Small 3.1 ebenfalls ein spannendes Modell vorgestellt, das wir genauer unter die Lupe nehmen. Was kann das Modell und für wen ist es interessant?

Und zu guter Letzt: DeepSeek V3-0324 ist da! Wir analysieren die Verbesserungen und zeigen euch, wo ihr das Modell testen könnt.

 

/transkript/programmierbar/news-ai-13-25-manus-ai-open-ai-agent-tools-googles-gemini-mistral-3-1-small
Dennis
Hallo und herzlich willkommen zu 1 neuen programmier.bar AI News. Wir haben die Woche 13 im Jahr 2025 mir gegenüber wie immer Philipp. Hallo Philipp.
Philipp
Hallo.
Dennis
Ich bin Dennis und wir freuen uns auch diese Woche wieder ein volles Programm zu haben, wieder von den großen und kleinen neue Modelle, neue Tools, alles was AI noch besser nutzbar macht und was AI voranbringt. Gibt's irgendein Theme, wo Du die letzten 2 Wochen drunter zusammenfassen würdest oder ist das ein stetiges, so wie wir es die ersten Wochen auch gesehen haben in dem Jahr?
Philipp
Ich würd sagen, viele kleine Quality of Life Verbesserungen und nichts komplett mind blowing mit 1 Ausnahme.
Dennis
Ja. Willst Du mit der starten?
Philipp
Ja, ich weiß nicht, erzähl ich, es, man hat's ja letztes oder am Anfang vom Jahr mitbekommen, Deep Sieg und China hat große Wellen geschlagen, sag ich mal. Und dann, es war glaub, knapp wirklich jetzt vor 2 Wochen ging auf Social Media rum, Manus, Moment son bisschen. Manus, ey, beziehungsweise Manus ist die Anwendung oder der Agent,
Dennis
das ist
Philipp
'n Start-up auch aus China, welches son bisschen alle geschockt hat mit dem, was sie tun können. Son bisschen, Manus ist eine Kombination aus Open AI Operator mit irgendwie, allem Möglichen. Also son bisschen alles, was Open AI und dann Tropic aktuell versucht, umzusetzen. Aber sie haben alle outperformt auf allen Benchmarks und am Anfang war halt der große Hype, weil man halt wenig wusste, okay, wie genau funktioniert das? Was machen Sie? Haben Sie das eigenes Modell? Ist OpenAia jetzt völlig aufgeschmissen, weil man halt noch nie was von dem Start-up gehört Paar Tage später wurde dann irgendwie klar, also ist immer noch beeindruckend und die, also es funktioniert, aber es ist basiert auf Cloud, nutzt Open Source Tools wie Browser Use, den Browser zu kontrollieren, hat son bisschen eine eigene Abstraktion, also war eine sehr große Marketingblase, wollt ich jetzt mal sagen, so von Manus. Aber 'n cooles Beispiel, wie viel man doch heutzutage schon erreichen kann, wenn man das selber baut. Also man könnte das theoretisch nachbauen, weil alles irgendwie 'n bisschen verfügbar ist für das und es hat sehr, sehr große Wellen geschlagen.
Dennis
Ja, ist das nicht generell auch etwas, wo ich, also das ist so mein Status aktueller, also sage, selbst wenn sich halt die Modelle aktuell nicht weiterentwickeln würden, wir könnten noch so viel mehr tun, als wir im Moment tun, weil halt das Ja. Weil die die Tools und die Produkte, die es drum rum gibt, einfach noch nicht das komplett ausnutzen, was jetzt schon möglich ist so. Ich glaub, das ist 'n ganz guter Blick da rein, da ist jetzt nichts grundsätzliches Neues entstehen, aber die zumindest sagen wir mal, was den reinen AI Teil vielleicht angeht, aber gerade die die Verbindung der unterschiedlichen Dinge. Ist natürlich sehr cool. Hast Du dich da auf die, also auf die White Liste hast Du dich wahrscheinlich schon setzen lassen? Nee, ich
Philipp
hatte es aber Ich hab Zugang bekommen. Okay. Die war war schnell genug. Ich hab eben auf Twitter gepostet, er hat irgendwie 20 Codes. Ich und ich hab's zufälligerweise gesehen, hab nicht angemeldet. Ich hab's getestet. Ich hab auch grad noch mal eine Anfrage gestartet und zwar, ich plan, im Dezember höchstwahrscheinlich nach Thailand zu gehen. Und ich hab dann gefragt, was der günstigste Flug von Frankfurt oder München nach Bangkok ist im Dezember. Halt so, wir sind zu zweit. Wir gehen halt wollen da oder da gehen. Und aktuell nutzt er son bisschen den Browser und ist auf Google Flüge und versucht sozusagen, die Zeiten einzugeben. Und manus funktioniert im Ganzen nur Großen und Ganzen so, dass Du son Art Splending Step hast, so ähnlich wie bei den ganzen Deep search Agents, der halt mehr oder weniger erst mal plant, okay, was muss ich überhaupt machen? So, hey, okay, ich muss erst mal, also für mich hat er jetzt sozusagen, ich hab, Analysis Tasks und Delivery Tasks. In den ist er versucht 2 Reisedaten, also Frankfurt, Bangkok von achten Dezember bis Zweiundzwanzigsten und Frankfurt, Bangkok Neunter bis Dreiundzwanzigster und dann von München die Flüge. Und dann ist dann sozusagen, er möchte gern alle Flüge vergleichen, versucht einen günstigsten Flug zu finden und erstell dann sone Art Overview für mich. Und aktuell bin ich noch bei dem Schritt Flüge finden und dafür nutzt er sozusagen Chrome so managt und schaut gerade, wie ich denn am günstigsten von Frankfurt nach Bangkok com.
Dennis
Sehr gut. Ja, dann sind wir mal gespannt, ob er innerhalb der Folge hier dir vernünftige Ergebnisse ausspuckt. Und wir können ein bisschen Updates darüber Ja,
Philipp
aber es zeigt auch 'n bisschen zu, wo aktuell das noch hakelt. Also wie's der der läuft
Dennis
schon seit
Philipp
10 Minuten. Mhm. Und ich hab noch nicht mal das Ergebnis
Dennis
für die erste Flugsuche bekommen.
Philipp
Mhm. Also so sieht die Schwächen. Also viele Tokens, viele Zeit und nicht Magic, sag ich mal.
Dennis
Ja. Aber ich meine, wenn, da ist ja die Hoffnung, dass sich das letztendlich ja auch irgendwie stetig Ja, klar. Weiterentwickelt, ne? Ich hatte auch, wir hatten letzte Woche Game Jam hier bei Lotum und da wurde natürlich auch relativ viel AI genutzt, weil frei in Projektwahl und so weiter und da auch Teile von so, also wir hatten ein Spiel, was mit Phaser der Game Engine geschrieben wurde und wo ich dann Raplet für so Minigames genutzt hab und das war schon auch wieder sehr beeindruckend, weil mit einem prompt wirklich in 'nem Phaser Umfeld und so weiter einen 'n komplett funktionierendes Minispiel so da stand. Aber die Geschwindigkeit ist schon auch irgendwie was 'n bisschen noch nervt. Also man muss halt im Moment noch auch einen anderen Job haben so ne. Also Du kannst irgendwie die ganze Zeit die Reihe son bisschen triggern und danach eine Viertelstunde nochmal was Neues machen. Aber die Viertelstunde dazwischen musst Du aktuell noch irgendwie ganz gut anders nutzen. Ja. Sonst sitzt man für rum. Macht es da vielleicht Sinn? Haben wir nicht auf der Liste, macht es da Sinn, kurz über cmd a zu sprechen?
Philipp
Nein, aber wir können das gerne trotzdem. Wieso nicht, da geht's auch Effizienz. Genau.
Dennis
Okay, Thema, warum das nicht so ist.
Philipp
Auch wenn der Name vielleicht, also ich mein, das stimmt schon, der Name, also Command a ist 'n neues Open LLM von Kuhier, Open hier in großen Anführungszeichen, die Wait sind verfügbar, aber es ist mit 1 Non Commercial Lycense released. Mhm. Und natürlich, wenn man das nutzen möchte, kann man mit Qhier kontaktieren und mit denen zusammenarbeiten. Und ist sozusagen das letzte oder das neueste Modell von Qhier und soll so gut wie und Deep Seek V 3 sein, aber es soll günstiger sein beziehungsweise effizienter. Also es hat einhundertelf Milliarden Parameter. Sie haben 'n großen Fokus bei der Evaluierung halt auf gesetzt. Das heißt, man prompttet mehrere LLMs mit derselben Instruktion und dann hat man sone Art Ranking, welches welche Antwort eher wird. Und da ist Co hier halt oder auf auf 'nem besseren Level. Und sie sagen auch, dass sie schneller sind im Sinne von, also Tokens pro Sekunde, die sie generieren können. Da muss man allerdings 'n bisschen vorsichtig sein. Ich mein, wird via der API zur Verfügung gestellt und ist nicht etwas, was ich selber hoste auf meiner eigenen Instanz. Das heißt, man mal 'n bisschen vorsichtig sein, aber sieht nach 'nem sehr, sehr guten Modell aus. Und vor allem, wenn man irgendwie im Company- und Enterprise Umfeld unterwegs ist, kuriervier das ja an, dass man's on premise hosten kann, braucht halt eine Lizenz. Aktuell Preis, aber allerdings find ich schon teuer. Also sie gehen mit 2 Dollar 50 pro 1000000 Input Tokens und 10 Dollar Output Tokens für 1000000. Und wenn man das irgendwie mit 2 Punkt 0 Flash vergleicht, was ja auch im im selben Rahmen ist wie oder Deep SEK V 3, da ist man halt wieder zehnmal teurer, weil Flash kostet ja nur 0.1. Das ist, nee, zwanzigmal sogar.
Dennis
Mhm.
Philipp
Und 0.3 pro Output. Also sie bewegen sich eher in diesem. Was macht OpenAI? Wir sind 'n bisschen günstiger als OpenAI.
Dennis
Okay. Und Du meinst diesen Geschwindigkeits Also weil da wollte ich eigentlich darauf hinaus so Token Token Output pro Sekunde, den man hat. Der würde in solchen Fällen dann nicht sich materialisieren, dass wenn alle Modelle so viel schneller wär, dass dann halt dein Recast, den Du gerade machst, einfach doppelt so schnell wär?
Philipp
Ja, man muss es wirklich mit Vorsicht genießen. Sie haben's auch hier 'n bisschen in Ihrem Blogpost oder in Ihre Grafik dargestellt. Alle, also Sie haben 3 verschiedene Balken mit Command a, und Deep SEK V 3. Sowohl GPT als auch Deep SEK hat 'n beziehungsweise 2. Die eine Nummern sind reportet by Artificial Analysis, welches sone, also ja, Analytics oder halt der LLMs untersucht. Das heißt, die haben auch nur über eine API genutzt. Und je nachdem, wie viele Nutzen aktuell die API hat oder wie viele sind, umso höher oder niedriger ist ja der der Token Output, sag ich mal. Und Deep SEQUG V 3 wurde auch getestet auf der ai API, was sie selber sozusagen gemessen haben. Und ihr eigenes Modell können sie nach seinem Tisch selber. Und bei generell bei muss man aufpassen. Man weiß ja nicht, was die Hardware dahinter ist. Also wenn ich zum Beispiel sag, okay, ich mach irgendwie, ich pack 100 GPS dahinter und 1000 pro Sekunde, dann kann ich halt ganz viel parallelisieren. Aber wenn ich halt irgendwie nur ein GPS hab, dann werden halt irgendwie die auch gecued und dann geht halt meine Token oder meine Flugfurt nach unten, deswegen muss man da 'n bisschen vorsichtig sein. Ich würd halt eher nachm Preis schauen und dann halt wirklich, was so die die Durchschnittstoken pro Sekunde sind, wenn ich halt alle in 'nem selben Rahmen vergleich. Also ich kann nicht sagen, okay, das eine ist das andere ist das andere Host das andere Host ich selber und teste dann. Also das muss man vorsichtig sein.
Dennis
Ja. Mhm. Na gut. Dann drehen wir vielleicht noch mal, also wir könnten jetzt an bei bei hohen Kosten weitermachen, aber vielleicht drehen wir noch einmal ganz kurz zurück und bleiben bei Tools und zwar oder ja, was auch mit Agenten ein bisschen zu tun hat. Open AI hat vorgestellt, dass sie neue Tools zur zum Bauen von Agents bereitstellen letztendlich. Und genau, es gab ja früher mal die oder was heißt es gab, es gibt auch noch mal diese Chat Completions Abi, also heißt letztendlich, wo man auf die Modelle zugreifen kann in sonem Chat Interface hin und her. Und es gibt jetzt eine neue APPONCESS API. Und diese APPONCESS API macht es eben einfacher, auch Tools und andere APIs und andere Schnittstellen zu integrieren und auch praktisch Antworten weiterzugeben, die die aus einem, ja, aus aus 1 Antwort praktisch kommen. Und es gibt son paar, die Sie jetzt direkt, die praktisch eingebaut sind in diese API. Das heißt, das ist die Websuche, die's beispielsweise daran gibt. Man kann auch diese Computer, also das, was letztendlich hinter Operator steht, kann man darüber auch nutzen. Und genau, es gibt dann noch 'n SDK außenrum, was diese ganzen Bausteine zusammenstöpsel und man eben in der in der in der Lage ist, einfacher diese unterschiedlichen Anwendungsfälle, wo man da was 'n spezialisiertes Modell hat oder besondere Instruktions hat für eine Sache zusammenzubringen, tatsächlich, ja, es einfach einfacher zu machen. Aber im Moment ist, glaub ich, bei vielen Devs so halt, okay, es geht jetzt ganz cool und so Multistep war irgendwie ganz schön, aber wie orchestriert man das? Wie macht man, stellt man sicher, dass man irgendwie, dass der eine Schritt erfolgreich ist und auch wirklich in 'nem Format ankommt, was man dann weiter verarbeiten kann. Und da geht Open Air jetzt voran und macht das ein bisschen einfacher.
Philipp
Ja, vielleicht noch mal zu verdeutlichen, so die Responses API ist eine neue API Route Und für mich das Besondere dahinter ist sie. Also man hat sozusagen wie eine Art Datenbank mit integriert und ich schick sozusagen nur mein Input hin und ich bekomm eine ID zurück. Und wenn ich da eine neue Anfrage machen möchte, die wie sone Art History hat oder halt Bezug auf die alte Antwort nimmt, kann ich die die ID, also meine alte ID bei meinem neuen mit angeben. Und sie haben automatisiertes Tracking und Tracing mit eingebaut. Das heißt, jeden, den ich mitschicke zu der neuen API, wird auf der Open AI Plattform gelockt und ich kann mir dann sozusagen Input, Output, Latency und verschiedene Dinge anschauen. Und Sie haben zusätzlich die Agens, Open AI Agens SDK released, das ist sozusagen der Nachfolger. Wir hatten das definitiv in den News zu Open Aia SwAR, also ist wirklich sone Art Open Source Library, die son bisschen das ganze Tool Use abstrachiert oder wie ich mehrere Agens miteinander verbinden kann. Und diese ist auch integriert in dieses Tracing. Das heißt, ich sag, ich seh wirklich, okay, hier hab ich meinen Agent definiert, der hat erst irgendwie den einen Tool oder das eine Tool gecall, dann hat er das an den anderen Agent übergeben. Und ich hab sone Art, wie so, sag ich mal, kann's dir vorstellen beim Loggen, ich son son richtigen Trace, wo ich durchgehen kann und sehe, okay, welche Aktion nacheinander durchgeführt wurde.
Dennis
Ja. Cool. In einem Satz, glaub ich, können wir abhaken, Clayw. Also es, man merkt ja immer so, dass neue Features rauskommen, dann alle großen versuchen das irgendwie nachzubauen. Claywth kann jetzt auch das Web durchsuchen. Das war bis jetzt nicht so, also auch da in der Oberfläche hat man jetzt die Möglichkeit eben aktuellere Ergebnisse zu bekommen, indem Claywth auf das Web zurückgreift. Vielleicht passt ganz gut dazu, Google hat ja auch eine ganze Reihe an Updates in den letzten 2 Wochen veröffentlicht. Vielleicht kannst Du mal kurz 'n bisschen durchführen, was es so in der Gemini App Neues gibt. Also das heißt ja letztendlich der User Faceing, dem User Faceing Chat GPT
Philipp
Genau. Von von von Google. Also es geht speziell Gemini Punkt Google Punkt com. Also das der die Chatanwendung hat viele, viele coole Updates bekommen, aber auch so ähnlich wie 'n bisschen wie bei bei Websuche. Man passt sich allem son bisschen an. Also ist alles unter dem zusammengeführt. Man hat jetzt Canvas, die man aktivieren kann unten in seinem Inputfeld, so ähnlich wie von OpenAI Canvas oder, dass man sozusagen, dass Google, sone Art, also der Chat wird nach links geschoben und dann kommt sone Art Google Docs, wo in der Content geschrieben wird. Was ich sehr cool finde, ist, man kann's direkt als Google Docs exportieren. Das heißt, wenn ihr irgendwie Google Docs nutzt auf der Arbeit, kann man halt einfach in Germany jetzt gehen und irgendwie starten, keine Ahnung, erstellt, hier 'n Summary, mach das und das und dann hab ich 'n Google Docs. Dann kann ich noch mal 'n bisschen in diesem Google Docs Germany nutzen, direkt in der in dem Interface und dann halt auch nach Google Docs exportieren oder direkt drinschreiben, was ich cool find als als Editor. Dann man kann auch,
Dennis
ja. Kurze Nachfrage hattest Du, wenn da Code generiert wird, kann man den auch ausführt schon?
Philipp
Genau, das ist das Zweite. Also das geht des des Canvas für Produktivität würd ich jetzt einfach mal nennen. Da gibt's aber auch einen Code Canvas, das heißt, man kann jetzt auch Germani prompten und sagen, hey, erstelle mir bitte eine React App oder 'n Tic Tac To Game. Wenn ein Code generiert wird, hat man wie sone Art Code Sandbox, wo ich mein eine hab mit meinem Code und dann also auch eine Preview für die Preview. Ist noch 'n bisschen limitierter, würd ich mal sagen. Alles, was mit HTML zu tun hat, funktioniert. Funktioniert auch, aber mit Einschränkungen. Es wird CSS genutzt, was funktioniert. Also son bisschen wie bei OpenAI und anderen. Definitiv cool, wenn man halt irgendwie was Kleines kurz testen möchte oder irgend eine Idee hat oder irgendwelche SVG Charts, Grafiken oder irgendwie so was. Das fand ich dann immer ganz cool. Und dann noch im selben Horizont wurde, wurden Audiooverviews eingeführt, also bekannt gemacht durch Notebook AlM hat man jetzt auch die Möglichkeit sozusagen, 'n Audiooverview direkt aus Gemini zu erstellen, wo man dann mehr oder weniger son Art Podcast beziehungsweise eine Summary über irgendein Thema bekommt. Und man kann das auch mit Deep search verbinden, was ganz, ganz cool ist. Und zusätzlich, ich weiß echt nicht, was die gemacht haben in derselben Woche, kam 'n weiteres Update zu Gemini App, also und dort ging es mehr Research, würd ich jetzt mal behaupten. Also man hat 'n neues Flash Thinking Modell, das ist das Deep, also das Resending Modell sozusagen von Gemini. Deep search hat 'n Update bekommen, also Google hat letztes Jahr im Oktober war's, glaub ich, das erste Mal Deep search vorgestellt, so ähnlich wie bei OpenAI. Damals hat das Gemini One Point 5 genutzt. Jetzt wurde das Update auf 2 Punkt o Flash Thinking, also dieses neue Resing im Modell, kann Tasks in 45 Sprachen durchführen, kann längere Tasks durchführen und was, wie man's halt kennt. Ich hab irgend eine eine Frage und Germani geht los, sucht über 50, 100 verschiedene Webseiten und am am Ende wird ein Canvas erstellt. Das heißt, am Ende kriegt man in Google Docs, was auch ganz praktisch ist, was man wieder exportieren kann. Genau und man kann jetzt noch eher mit Google Kalender, Notes und Fotos kommunizieren. Das heißt, man kann irgendwie sagen, hey, kannst Du meinen Kalender checken, ob ich irgendwann 'n Termin mit Dennis oder so was hab? Also passiert viel, viel Kleines, viel, was man wahrscheinlich schon von anderen Anwendungen kennt, aber vielleicht, wenn ihr das irgendwie Jaminar mal vor 'n paar Wochen oder Monaten getestet hattet, jetzt einfach noch mal reinschauen.
Dennis
Ja. Ja, 'n bisschen, glaub ich, da war immer noch so Englisch, also ne, bei den Audiofeatures ist glaub ich Englisch only und diese Kalender Sachen sind glaub ich auch noch nicht hier verfügbar, wenn ich das richtig überblickt habe. Aber ja, trotzdem glaub ich einige der der Updates drin. Gestern zum zum Canvas bei Open AI, also das stand zumindest new, ich hab's das erst mal gesehen als ChatGPT Python Code generiert hat, kann der jetzt auch innerhalb dieses Canvas Elements ausgeführt werden. Das heißt, man kann direkt selbst breiten Code ausführen.
Philipp
Das gibt's, glaub ich, bei dem Germani Canvas noch nicht. Das ist bisher Webcode, würd ich mal nennen, sagen.
Dennis
Wird wahrscheinlich bald auch noch nachgezogen dort. Gut, dann vielleicht auch noch ein weiteres Update aus dem Google Space. Wir hatten, also hat's eben schon gesagt, diese Podcastgenerierung ist was von Notebook l m, was daraus entstanden ist und eine Neuigkeit, ein neues Feature, was da jetzt sind sogenannte Interactive Mindmaps. Genau und das eigentlich auch ganz ganz cooles Feature, weil es einfach das, was man da alles an an Dokumenten, über die man sprechen möchte oder über die man sich informiert über die man was lernen möchte, dass daraus eben eine interaktive Mindmap erstellt wird und man sich darüber dann reinklicken kann, dazu Fragen stellen kann und das einfach ja, sehr schön aufbereitet wird. Und ich mein, Mindmap hat man ja häufig im Research und Lern Lernprozess so genutzt. Von daher eine coole Edition auf Deutsch. Gott, ein gutes neues Feature, was wir da noch haben. So, ich weiß gar nicht, wo, Du hattest noch 'n Link gepostet zu 'nem Quickstart Cookbook Notebook.
Philipp
Ja, ich kann ich kann gerne 'n bisschen mehr erzählen. Also ich ich weiß nicht, also Google ist wirklich, also aktuell ist viel am Schippen und viele Features auch jetzt zur Verfügung machen. Man hat ja im Dezember mit dem Gemini TYPOo Flash angeteasert, dass das Modell auch Bilder generieren kann. Das ist jetzt verfügbar in AI Studio und wir, der API, unter 'nem Experimental Modell. Das Modell heißt Gemini 2 Punkt o Flash, Dash, XP, Dash, Imagegeneration. Kann bei jedem getestet werden, auch Free. Und was es kann, ist mehr oder weniger Bilder erstellen. Aber das kennen wir ja, sag ich mal, alle schon 'n bisschen von Sable Diffusion und alle anderen möglichen Modellen. Und wo Jaminei wirklich Aufruhr erregt hat oder viel, viel Social Media Content erstellt würde, ist, ist es extrem gut im Image Editing. Das heißt, man kann sich das so vorstellen, ich hab 'n Bild und ich schreib 'n prompt dazu, wie ich hab 'n Porträt von Dennis und sag, okay, er soll jetzt 'n Cowboyoutfit anhaben. Und Germany generiert dann ein neues Bild, das das die Editierung hat. Und das funktioniert so gut, dass alle, glaub ich, komplett überrascht waren auf Twitter und überall. Und dazu gibt's oder haben wir halt son Python veröffentlicht und auch mittlerweile in den XJS App. Ich kann's definitiv nur empfehlen, einfach mal auf AI Studio dot Google dot com oder jetzt auch AI dot Dev zu gehen und dann einfach mal das Modell rechts auswählen und dann irgendwie vielleicht 'n Bild von euch rein tracken droppen und sagen irgendwie, gebt mir längere Haare. Oder 'n Bild von 'nem Auto und sagt, ihr färbt das Auto anstatt, also oder so was. Und es funktioniert wirklich so gut und ich hab echt schon, also es gibt auch viele kleine Ideen und Start up Ideen gefühlt schon. Man hat 'n Bild von 'nem von sich selber und stellt dann Bilder von Kleid Kleidungsstücken rein oder Taschen und sagt dann, kombinier das und zieh mir das an. Und das ist halt nicht wie früher, dass man so das krass gesehen hat, sondern wir haben jetzt langsam 'n Level erreicht, wo Photoshop mehrere Stunden dafür braucht, dasselbe Ergebnis zu kommen. Ja.
Dennis
Nee, mega cool. Hat sie auch ein paar Beispiele in unserem Slack Journal Geschichte zu. Ja, und was ich auch tatsächlich cool fand, weil ich weiß gar nicht, also ist wahrscheinlich auch einfach, klar hätte man es vorher auch mit mehreren Prompts machen können, aber dass praktisch auch mehrere Bilder Ah ja. In einem erstellt werden können, das finde ich auch mega cool. Also ein ein Beispiel, was sie, ist glaub ich auch an den Kuckuck drin, ne, wo es eben ein Rezept geht, was man erstellt und das soll mit Bildern erstellt werden und da wird halt einfach für die unterschiedlichen Schritte, wie es man eben aus aus Kochwebsite oder Kochbüchern kennt, kriegt man ein einzelnes Bild für, wie der wie der Schritt dann aussieht. Ja. Ja.
Philipp
Und und also was was man oder wie man das, glaub ich, auch noch nennt, Du hast halt sone Image Continuity oder Character Continuity, dass, also man kann zum einen dieses Text Image Text Image machen, aber man kann auch über mehrere, also über 'n einen Chat über mehrere Nachrichten sozusagen den Charakter erhalten. Und das war bisher immer ganz, ganz schwierig für so KI Modelle, wenn Du halt irgendwie 'n 'n Bild oder 'n Videospielfigur erstellst und dann sagst, okay, jetzt die Videospielfigur vor 'nem Haus, jetzt die Videospielfigur vor irgendwas anderes. Da war die Videospielfigur immer anders. Und jetzt hat man sozusagen dieses diese. Und Leute haben angefangen, wie so Art kleine Geschichten aufzuschreiben. Also theoretisch kann ich jetzt hergehen und irgendwelche Bücher oder Geschichten generieren, wo ich den Text generier und immer passende Bilder dazu. Und zum Beispiel, dass der Hund immer genau gleich aussieht, der irgendwie rausgeht und den Wald erkundet oder irgendwie so was. Also es ist, ich bin mal gespannt, wo das hingeht. Es ist, weil ich kann mir vorstellen, Amazon wird voller Bücher schnell sein. Aber ja, es geht alles, wird alles einfacher und alles besser und ja, einfach mal testen und wirklich cool.
Dennis
Sehr cool. So, kurz auf unseren Spickzettel gucken. Was haben wir noch? Ah ja, Open Eye Eye hat auch noch mal ein paar neue Modelle tatsächlich rausgebracht und zwar alle im Voiceegment. Das heißt, wir haben 2 neue Modelle, die zur Spracherkennung sind und ein neues Modell, was zur Sprachgenerierung ist. Und das heißt, Whisper war ja ziemlich lange irgendwie ein Modell, was man so kannte, was einfach ziemlich groß war, was gemacht hat. Und das sind jetzt die Nachfolgemodelle und die heißen, oder, nee, und es gibt noch einen mini Transcribe. Genau. Und die beiden sind eben auf wieder vielen Benchmarks, die sie oder zumindest einmal, wo sie's vergleichen mit den Whisper Modellen, die es vorher gab, sind die Fehler, die passieren, deutlich geringer und das über viele, viele, viele Sprachen hinweg. Und grade in den bekannten, häufigen Sprachen ist halt die die errorrate wirklich sehr, sehr klein geworden. Und genau das andere, dass Text to speech, immer kurz nachdenken, in welche Richtung es gerade geht, ja, ist praktisch ihr neuestes, ihr neuestester take Texte zu machen und sie haben extra dafür eine eigene Webseite gebaut, son bisschen die Capabilities zu machen. Und das große Ding, was neu ist, dass man eben nicht nur sagen, also nicht nur den Text hat, der gesprochen wird, sondern auch noch mehr die Stimme verändern kann und zwar die Stimme verändern kann durch Prompts. Also es ist nicht irgendwie vorgefertigt, dass man sagt, es gibt nur eine Emotion oder eine Art oder wie auch immer, sondern das ist 'n, ja, ist 'n komplett freier Prompt, den man beschreiben kann, wie genau die Stimme sein soll, wie die Stimmung der Stimme ist, wie der Akzent ist, wie die Pausen sind und so weiter. Also alles, was man möchte. Genau, und wer das einfach mal 'n bisschen austesten möchte, Sie haben dafür eine Webseite gebaut, Open AI Punkt f m, wo es son paar Zufallsgenerierte oder nee, ich glaub nicht Zufallsgenerierte, wo es ein paar Previews gibt für unterschiedliche Stimmen, die man aber dann direkt ändern kann. Und ist einfach ein sehr, ja ein Modell, was was viele Möglichkeiten bildet bietet, da die Stimmen entsprechend anzupassen. So, dann haben wir, wir hatten eben schon ganz kurz gesagt, wenn wir jetzt über was teureres reden wollen, Du warst eben irgendwie bei, vielleicht das noch mal zum Vergleich bei 0.1 Ja. Dollar pro 1000000 Tokens und wenn wir uns OpenAI o one Pro angucken, das ist also eine o one Version mit mehr Computressourcen, dann sprechen wir da von 150 Dollar für die Input Tokens und 600 Dollar pro 1000000 Output Tokens. Boah, ist das fürn Faktor?
Philipp
Ich weiß es nicht. Das Einzige, was ich hier interessant find, also man hatte ja o one schon als API zu verfügbar, man hat ja o 3 mini als API zu verfügbar und jetzt o one Pro. Und o one Pro ist zehnmal teurer als o one. Und ich hab Spekulationen gesehen, so von wegen, okay, die machen nicht einfach sozusagen Best of 10 Sampling, das heißt denselben zehnmal durch o one und dann sozusagen das beste Ergebnis picken. Aber ja, ich mein, ich mich frag mich auch, warum Sie's released haben. Ich kann's mir nicht vorstellen, dass Leute es wirklich nutzen wollen, weil o 3 Mini ist, glaub, fast genauso gut und kostet hundertfünfzigmal weniger im oder hundertmal weniger. Das heißt, vielleicht wollten Sie's einfach shippen, dass Sie's geshippt haben und jetzt weiter iterieren. Und vielleicht mein, ich geh mal stark davon aus, dass Sie nicht erwarten, dass es irgendjemand nutzen möchte oder damit sie Geld verdienen.
Dennis
Ja, ich weiß halt nicht, ob Du so, ich glaube halt 'n Produkt damit willst Du nicht bauen, weil's dann schwer kontrollierbar ist, aber weiß ich nicht, wenn Du irgendwie 'n sehr speziellen Use Case hast und Du mal testen willst, so was, was ist irgendwie noch, ist noch irgendwas anderes möglich, wenn das Modell anders ist? Also son bisschen research mäßig einfach, ne, was was kann ein besseres Modell vielleicht aktuell schon besser, was dann in der Zukunft günstiger wird. Ja, das ist dann immer besser.
Philipp
Also o 3 mini dürfte besser sein als o 1 pro. Also es gibt ja o 3 mini I auch dann wieder, weil's dann auch wieder 'n bisschen mehr Thinking oder hat. Ich mein, ich kann's mir vorstellen, dass sie's halt vielleicht intern schon verfügbar hatten, halt irgendwelche E-Mails laufen zu lassen oder andere Tests, sondern haben sie gesagt, okay, wir shiptens halt, weil 'n paar Nutzer nachgefragt haben. Sie haben in den letzten 2 Wochen nichts released, dann lass halt das Modell irgendwie releasen. Also ich mein, ich bleib iPad zu warten.
Dennis
Ja. Genau und ich weiß nicht, wie lange es das schon gibt, ist mir nur dabei aufgefallen, auf der Plattform Punkt OpenAI Punkt com Seite gibt's mittlerweile eine relativ schöne Übersicht über Models, also dass man einfach mal sieht, okay, was sind die Reasing Models, was sind die Flagship Chat Models und jetzt eben auch die neuen Text to Speech Models mit jeweils dem Pricing, was dazugehört und so. Also haben sie ein bisschen übersichtlicher und schöner gemacht, sich mal wirklich anzugucken, was gibt's denn da im Moment alles aus?
Philipp
Gibt's, glaub ich seit ein paar Wochen.
Dennis
Okay. Ja. Hast Du noch relativ neu. Genau. So, aber jetzt haben wir ja noch 'n paar andere Modelle, die noch rausgekommen sind. Fangen wir vielleicht mal mit den Google Modellen an und den großen Open Source Jamma 3. Was gibt's da Neues?
Philipp
Es ist nicht Open Source, da muss man 'n bisschen aufpassen. Die, ja. Ja, das ist das ist wichtig mittlerweile heutzutage. Es gibt 'n neues Jamma Modell und Jamma ist sozusagen die Open Waits Variante zu Gemini. Jamma 3 haben wir released vor 2 Wochen in Paris. Ich glaub da, also das war auch der Grund, warum ich in Paris war damals. Und Jamma 3 kommt in 4 Größen, ein b, 4 b, 12 b und 27 b. Ein b ist text, aber 4, 12 und 27 sind jetzt multimodal. Sie verstehen Text- und Image Inputs und Text Outputs. Und relativ ähnlich zu Jamma 2, nur sehr, sehr viel besser. Und sehr, sehr, sehr viel besser, würde ich sagen. Man hat, also wir haben's getestet auf dem LMSYS Arena Leaderboard, da war's davor verfügbar, unterhalten 'nem falschen Name. Und Jamma 3 twenty 7 b ist jetzt das beste Model GPU Non Resending Modell auf LM Cis mit 'nem Score von 1338 ist besser als also overall das neunbeste Modell, besser als o-1-Mini, besser als alle Lama Modelle, die's irgendwie gab, besser als die älteren Mystery Modelle und es läuft halt auf 'nem einzelnen GPU. Das heißt, wenn ihr irgendwie eine l 4 NVIDIA GPU Grafikkarte habt, könnt ihr das in 'ner quantisierten Variante hosten und es kostet irgendwie weniger als 1000 Euro im Monat. Es geht auf 1 AHA einhundert, also das ist wirklich, wirklich richtig gut und wir haben auch sehr, sehr positives Feedback bekommen in den letzten Wochen, dass es 'n großer, große Verbesserung zu Jamma 2 ist. Das heißt, wenn ihr euch irgendwie mit Open Modelle beschäftigt, Feintuning, lokal ausführen möchtet. Wir haben mit Olama zusammengearbeitet, mit und ganz vielen anderen, sicherzustellen, dass es auch funktioniert. Das heißt, ihr könnt jetzt einfach Olama machen. Das sollte die Variante sein. Die funktioniert auch mit Image Inputs. Ihr könnt's auf AI Studio auch testen, wenn ihr's irgendwie im Browser testen wollt. Und zusätzlich, weil Modelle ja immer besser werden und man muss ja trotzdem aufpassen, dass man kein Humbug damit macht, hat man noch oder hat 'n Researchteam noch Shield Jamma 2 mit released. Shield Jamma 2 ist eine Image- und Text Classifier of Jamma 3 4 b, der so ähnlich funktioniert wie Lamagu. Das heißt, man kann sozusagen seinen von 'nem User dorthin schicken und das Modell klassifiziert dann, ob dieser ist oder nicht. Das Gleiche funktioniert auch mitm Output, dass der dann noch mal klassifiziert werden kann. Und vielleicht kein Open Modell, aber definitiv interessant und vor allem für die Zukunft. Man hat noch ein Gemini 2 Punkt 0 Robotics angekündigt und auch mittrainiert. Und wie der Name schon indiziert, es ist dafür da, auf oder mit Robotern zusammenzuarbeiten. Es gibt sehr coole Videos, die wir vielleicht irgendwie anhängen können, wo ein Roboter dann sozusagen zwischen Trauben, die schwarz und rot sind, die richtige Traube rausholt und soll das ganze Robotics Thema 'n bisschen vorantreiben und sind echt schon beeindruckende Fortschritte, vor allem als halt auch wieder sehr, sehr schnelles im Verhältnis zu anderen Modellen und da passiert auch ganz viel.
Dennis
Was würdest Du sagen, ist der Haupt Use Case für einen Open Modell? Also Du hast eben 'n paar Genannter, was wofür wird's im Moment am meisten benutzt?
Philipp
Also ich find, es kommt darauf an, Haupt Use Case würde ich halt auf jeden Fall sagen, wenn ich mehr Kontrolle möchte. Also man hat ja immer das Problem bei API Hostd Modellen, dass die halt irgendwann abgeschaltet werden werden. Also irgendwie, ich mein, gilt für OpenAI, ein Dropic oder auch Gemini Modelle. Das heißt, wenn ich irgendwas entwickle, wo ich sicherstellen muss, dass ich volle Kontrolle darüber hab und das Modell sich nicht verändert über 'n gewissen Zeitraum, wenn ich generell nicht möchte, dass ich Daten irgendwohin schicke oder auch gar nicht die Möglichkeit hab, Daten irgendwohin schicken zu können wegen Compliance und anderen Use Cases. Ich mein, ich würd sagen, das ganze Feintuning hat sich 'n bisschen weiter nach hinten den Lebenszyklus von 'ner AI Anwendung geschickt, weil die Modelle immer besser werden. Mhm. Und es ist halt irgendwie nichts einfacher als mit 'nem API Call anzufangen, wo ich nur zahl für meine Tokens. Aber wenn ich halt wirklich irgendwann mal in Produktion gehen möchte oder halt meine Anwendung skalieren möchte oder gewisse Kleinigkeiten mir auffallen, kann ich die ja oftmals nicht bei diesen Hostet Modellen verbessern, weil ich die nicht füreintunen kann oder Einschränkungen hab. Bei Open Modellen kann ich das natürlich dann machen. Und ganz speziell würd ich sagen für alle local use Cases. Also ich weiß nicht, ich kann's mir sehr gut vorstellen, dass in Häusern irgendwann mal wir diese Modelle haben oder vor allem in Fabriken oder generellen Unternehmen. Also man kann jetzt Jämmer free twenty 7 b, welches besser oder so gut wie GPT 4 o für die meisten Use Cases ist, auf 'nem normalen MacBook Pro ausführt.
Dennis
Mhm.
Philipp
Also wird es auch extrem günstig auf der der Sicht.
Dennis
Gut, 3 Modelle haben wir, glaub ich, 3, 2. Die Nummer, die Versionierung ist 3. Mysteral.
Philipp
Genau. Also, selben, selbe Woche war's, glaub ich, hat dir neues, vorgestellt. Ist 'n 24000000000 Parameter Modell, also auch so wie wie Jamma free sag ich mal. Kommt unter Apegge 2 Punkt 0 Lizenz und ist auch besser als die bisherigen small Modelle und hat auch Vision Input. Also dasselbe, was son bisschen im Foundation Model oder Close Source Model oder Chatanwendungenbereich passiert, passiert auch auf der Open Source Seite. Alle passen sich son bisschen an. Definitiv interessant, wenn ihr irgendwie aktuell nutzt oder gerade im Evaluieren seid, will ich das neue Jammal Modell testen, will ich das neue Model testen, hab ich jetzt auf jeden Fall 2 Möglichkeiten, die ich auch relativ einfach lokal oder auf kleinen GPUs ausführen kann zum Testen.
Dennis
Mhm. Genau und
Philipp
dann noch das Letzte von gestern Abend mehr oder weniger, Deep SEEK hat 'n Update veröffentlicht. Deep SEEK B3 0 3 24, also keine neue Modellarchitektur, nur 'n Update zu Ihrem Base Modell Deep SEK B3, aber 'n großes Update. Also Sie haben 4 Benchmarks mit veröffentlicht, wo Sie 5 Prozent, 9 Prozent, 19 Prozent und 10 Prozent sich verbessert haben zu der bisherigen V-Free Variante. Und sie schreiben, dass der Striping Style sich mehr von a one ähnelt. Ansonsten gibt's wenig Informationen dazu. Man kann es testen auf auf ihrem Chat Chatplattform oder es wird auch mittlerweile gehostet bei Firewworks oder Hyperbollic. Wenig Informationen, wie sie's trainiert haben oder was sich's geändert hat. Ich kann mir aufgrund der Benchmarkverbesserungen und diesem styding Style gut vorstellen, dass sie wahrscheinlich synthetische Daten generiert haben mit a one und dann sozusagen jetzt darauf trainiert, weil vor allem der neunzehnprozentige Performance improvements auf basiert. Und steht für AI, Mafia, irgendwas, also auf 'nem Mathe Benchmarks. Und wir wissen ja, dass diese Modelle sehr, sehr gut im Mathebereich sind. Mhm. Und dann wahrscheinlich einfach ihr ihre Datapipeline skaliert und festgestellt, okay, das normale Modell ist auch schon viel besser geworden und haben's halt jetzt released. Seine Größe, das heißt, 671000000000 Parameter und man braucht viel, viel Gpu, das zu hosten.
Dennis
Okay. Cool. Ich glaube, dann können wir noch gucken, was dein was dein Tool im Hintergrund gemacht hat.
Philipp
Ja, ach so, es ist erfolgreich fertig geworden. Ich konnte auch meine To do Liste noch mal aufmachen. Es hat erfolgreichen Flug nach von Frankfurt nach Bangkok gefunden am achten Dezember ohne von München. Es hat sie alle verglichen und hat mir eine Antwort geliefert und die ist falsch. Also, passieren auf seinen Research. München opfert 'n besseren Preis mit nur 520 Euro oder Dollar. Frankfurt, der günstige Flug ist 1400 Dollar. Ich muss leider sagen, ich hab auch schon gebucht, Frankfurt, Bangkok und wir haben 800 Euro bezahlt. Das heißt, ja, es hat funktioniert, das Ergebnis war leider nicht so gut und hat die 20 Minuten gedauert.
Dennis
Okay. Na ja, spannend. Ja. Und weiterhin Raum für zukünftige Weiterentwicklung. Philipp, vielen Dank, wie immer, dass Du hier bist an unsere Hörer*innen da draußen. Gebt uns Feedback, wenn wir irgendwo mehr oder weniger drauf eingehen wollen sollen. Und sonst habt ihr eine ganz gute Zeit und bis bald, Macht es gut. Tschau.
Feedback