News AI #34 –

ChatGPT Search // Anthropic Computer Use

06.11.2024

Shownotes

OpenAI macht Google Konkurrenz und hat ein neues Feature namens ChatGPT Search eingeführt. Entweder über die OpenAI-WebUI oder die Chrome-Extension könnt ihr nun Suchanfragen direkt an ChatGPT schicken und eine Antwort mit passenden Quellenangaben aus dem Netz bekommen. Auch Meta arbeitet an einer eigenen Search Engine, um diese in ihre Meta AI zu integrieren. Google wiederum hat das Grounding Feature in ihre Gemini API und AI Studio integriert. Zu guter Letzt kommt auch Copilot mit einer Search Engine Integration – ihr könnt dort nun direkt mit Perplexity interagieren.

Anthropic hat Computer Use vorgestellt, eine Möglichkeit für die Sprachmodelle, euren Computer direkt zu steuern. Aktuell nur in einem Linux-Docker-Container, aber es zeigt, was in Zukunft alles möglich sein könnte.

Es gibt einen neuen Platzhirsch im Benchmark der Text-To-Image-Modelle: Recraft führt mit ihrem V3-Modell das HuggingFace-Leaderboard an.

Runway hat mit Act One eine Möglichkeit geschaffen, dass ihr Text-to-Video-Modell mit einem Bild und Video einen Charakter zum Leben erweckt. Mal schauen, wie lange es dauert, bis die ersten Disney-Filme auf diese Art animiert werden.

Weitere Themen:

  • Klage an Character.AI (Content-Notiz: Suizid) (Link)
  • Grok API (Link)
  • Minecraft spielbar in einem Transformer-Modell (Link
  • Cohere Aya Expanse (Link)
  • Mochi 1 Preview (Link)
  • Source Plus PD12


/transkript/programmierbar/news-ai-34-chatgpt-search-anthropic-computer-use
Fabi
Hallo und herzlich willkommen zu einer neuen Folge der programmier.bar AI News, der Nummer vierunddreißig. Ich bin der Fabi und mit mir dabei ist wie immer der Philipp. Hi Philipp.
Philipp
Hallo.
Fabi
Wir haben ein paar Themen dabei und vorher vielleicht eine ganz ganz kurzen Disclaimer. Und zwar ist es so, dass in der Folge uns auch unter anderem einen über einen Suizid werden, also das nur als Disclaimer vorneweg, damit ihr einfach Bescheid wisst. Und ansonsten haben wir natürlich auch sehr viele weitere inhaltliche Themen. Und zwar alles rund Search, ChatGPT search ist rausgekommen und viele andere Competitas ziehen teilweise nach oder haben ähnliche Dinge rausgebracht. Es gibt mal wieder 'n neues Game, was wir in einem AI Modell spielen können. Diesmal ist es Minecraft. Ein neues Text to Image Modell mit Recraft v drei, Act 1 von Runway und Antropic hat Computer Use rausgebracht, auch sehr spannend, Hacking Face Hacks und neue Modelle, Khoia Air Expens, wir haben ein neues Dattenset für Bilder Source plus PT zwölf M und es gibt ein Preview von MOTI erste Lass uns doch mal einsteigen mit Antropic und diesem Computer Use. Was hat's da mit auf sich? Antropic kann mein Computer steuern.
Philipp
Ja, so ungefähr. Also Antropic hat vor zwei Wochen am zweiundzwanzigsten Oktober 'n neuen Blogpost released, in dem sie einen eine neue Version von Cloud drei Punkt fünf vorgestellt haben und Cloud drei Punkt fünf angekündigt haben. Die neue Version von ist besser als die alte Version von Sonet drei Punkt fünf Korrekt. Ja. Und clayq drei Punkt fünf Haku ist ungefähr anhand von den Benchmarks so gut wie Mini oder ja. Und Haikus soll später noch kommen, wahrscheinlich bedeutet das Ende des Monats November, würd ich jetzt einfach mal sagen. Aber Großteil des Blogpost hat sich auf etwas anderem fokussiert und zwar unter auf dem Computer Use. Und Computer Use ist aktuell im und verfügbar über die API, aber sehr experimentell. Und es gibt auch sehr, sag ich mal, Restriktionen, was man damit machen kann. Und Computer Use ist wirklich, wie der Name verrät, eine Möglichkeit, zu nutzen, den Computer oder einen Computer oder UI Interfaces zu steuern. Und das Ganze funktioniert so, indem Cloud einen Screenshot bekommt von deinem aktuellen Display. Natürlich hier ist auch wichtig, es ist nicht so irgendwie, man kann jetzt 'n vier k Display da irgendwie reinbekommen, sondern es ist bisschen kleiner. In der Demo nutzen die Docker und Ubuntu, wo 'n bisschen runterskaliert ist. Ich weiß gar nicht genau, glaub auf achthundert, auf sechshundert Pixel oder so was. Und das Ganze funktioniert so, indem man mehr oder weniger den Screenshot deines UI plus eine Fragestellung mit hinzufügt und dann mit verschiedenen Actions. Und die Actions können in dem Fall zum Beispiel sein, bewege die Maus zu bestimmten Pixels von dem Bild, was man damit hochgeladen hat. Deshalb ist es auch wichtig, dass es halt kein, sag ich mal, vier k Bild ist, weil man hat ja nur 'n gewissen Space. Und wenn Du jeden Pixel genau bestimmen musst, dann ist das schwierig. Und sie haben auch eine coole Demo veröffentlicht oder mehrere Demos gibt's jetzt mittlerweile schon, worüber dann sozusagen deinen Computer steuern kann. Und man kann sich das wirklich so vorstellen, dass das wie eine Art ist, der läuft. Das heißt, es wird immer 'n Screenshot gemacht. Man hat diesen anfänglichen Prompt wie zum Beispiel, ich weiß nicht, öffne Google Chrome oder öffne den Browser und bestelle auf Amazon ein Shampoo. Und Cloud würde dann wirklich da gehen, okay, es sieht unten in deiner Dog vielleicht Firefox, dann ist die erste Aktion, okay, fahren wir der Maus dorthin. Okay, dann zieht es beim zweiten Screenshot die Maus über dem Firefox Icon, dann generiert es die Aktion Klick und dann öffnet sich der Browser, dann hat es das Fenster von dem Browser, dann bewegt er die Maus sozusagen zu dem Suchinput Feld, dann gibt man ein, okay, oder geht auf Amazon Punkt com, dann ist man auf Amazon Punkt com, bewegt also so, dass sozusagen Schritt für Schritt klaut mehr oder weniger anhand von Screenshots Aktionen oder Tool Calls mehr oder weniger durchführt, die dann immer deinen Computer, also deine Maus, deine Tastatur steuern können. Sie sind sehr restriktiv, was das angeht, weil es gibt große Limitierungen im Sinne von, man kann jetzt nicht sagen, okay, geh auf Lieferando und bestell mir eine Pizza. Also alles, was so mit Kosten oder Kaufen verbunden ist, da sind sich sehr restriktierend und auch am besten mal die Doku anschauen. Also sie haben sehr viel, sag ich mal, RF dafür verwendet oder Mechanismen Mechanismen innen drin, was die Benutzung sehr einschränkt, aber auf jeden Fall 'n sehr gut, sehr coole Vorschau aus, sag ich mal, was eventuell in der Zukunft kommen wird. Und auch das Beispiel, das sie mit gebaut haben oder mit zur Verfügung steht, da passiert auf Docker. Das heißt, hier lasst 'n Docker Container laufen mit 'nem, ich glaub, Ubuntu Betriebssystem mit Desktopzugang und hat dann sozusagen nur Zugriff auf diese Sandbox. Das heißt, es passiert nicht plötzlich nicht plötzlich so, dass Claude euer Banking öffnet und dann irgendwie Geld überweist, dann dann Tropic oder so. Aber ich mein, das ist der die die Folge daraus, weil es ist 'n why Loop, man hat immer Bilder. Das heißt, die ganze Zeit schickt man Bilder plus Text zu Claude, was dann eine Aktion generiert. Das heißt, der Token Bedarf, euren Computer zu steuern, ist aktuell noch sehr, sehr hoch.
Fabi
Ja, sehen wir auf jeden Fall auch 'n bisschen an die Computer von Microsoft, ne? Da die auch Haben wir seitdem nix mehr von gehört, oder? Die die die releasten. Nee. Aber das heißt aber, weißt Du, ob das dann sozusagen auch aktuell nur auf Linux überhaupt funktioniert so? Ich meine, für 'nem Docker Image hab ich mich grad gefragt, was genau installiert man denn da eigentlich auf seinem Betriebssystem, damit dann diese Koordinaten gesteuert werden können und so? Ist das, Du hättest irgendwas geteilt, ob das aktuell nur Linux only ist?
Philipp
Nee, so genau hab ich's mir nicht angeschaut, aber es war auf jeden Fall die Demos, die ich gesehen hab, dass Du führst sozusagen aus, dass Du dieses Interface hast und dann platzierst Du das so. Und dann startest Du sozusagen das Cloud Python Tool und das weiß dann, in welchem Bereich auf deinem Desktop das mehr oder weniger ist oder worauf Du Zugriff hat hast.
Fabi
Und das Cloud Python Tool startest Du aber innerhalb des Docker Containers oder ist das was, was Du auf deinem Status?
Philipp
Das weiß ich jetzt nicht genau. Das müsste man sich anschauen.
Fabi
Ja, ich meine, ich glaub, Sie haben ja auch geschrieben, sind so einige, ich glaub GitLab haben ja auch einige so Devopst Task dadurch probiert zu automatisieren und so und so zumindest dann zu zu steuern. Und ich glaub, also es sind wahrscheinlich, ich kann mir schon vorstellen, dass es jetzt auch schon 'n Use Case gibt für die, das auch jetzt schon produktiv Sinn macht so. Ansonsten hat sich's mir irgendwie angeschaut, da denk ich auch so für jetzt so die der tagtäglichen Tasks ist es noch Also es ist sehr ein, also einfach ein Preview davon, was mal kommen kann. Interessant, dass es Ja,
Philipp
ich glaub, das ist halt dieses Typische, was man vielleicht auch bei Self Driving Car hat. Man hat zum einen diese, sag ich mal, Waymo Cars, die nur dafür gebaut werden, dass sie irgendwann von alleine fahren. Und dann hast Du ja auf der anderen Seite irgendwie Tesla, was ja seit Jahren oder Jahrzehnten sagt, okay, selbst die älteren Tesla Modelle sollen irgendwann dieses bekommen. Und wir haben ja Milliarden an Computer, das heißt, wir können plötzlich nicht neue irgendwie Interfaces oder APIs bauen, nur weil jetzt AI da ist. Und ich glaub, der Gedanke ist hier, okay, man kann alles nutzen, was man bisher hat von irgendwelchen Webseiten oder von, ich geh mal einfach davon aus, den schlechtesten Interfaces, die eventuell, ich weiß nicht, bei 'ner Behörde aktuell benutzt werden, die man nicht so einfach ersetzen kann. Und dann, wenn man solche Möglichkeiten hat auf solche Modelle, könnte man vielleicht wahrscheinlich viel eher Prozesse automatisieren. Klar bräuchte ich dann irgendwie eine per VM oder 'n PC, aber der wird nicht mehr von 'nem Mensch gesteuert, sondern eher von der KI und dann müsst ich meine Software nicht updaten, sondern kann einfach von besseren Modellen profitieren.
Fabi
Ja. Das heißt, ihr braucht kein Copal plus PC, sondern könnt einen Townshop für Computer Use benutzen. Interessant auf jeden Fall. Lass uns doch mal direkt über die die nächst größeren Themen einsteigen, was denn ja ChatGPT Search ist. Ich glaub, wir hatten uns schon 'n paarmal drüber unterhalten. Ich hatte ja auch immer mal wieder den Glitch, wenn ich auf die OpenAI Seite gegangen bin, dass mir immer mal links oben irgendwie son Tooltipp angezeigt wurde, dass ich jetzt Search ausprobieren kann, aber es ging nie. Also sozusagen den Teaser habe ich schon häufiger mal in der in der UI gesehen und im Endeffekt ist das Feature ja ziemlich einfach erklärt. Im Endeffekt wird ChatGPT die Funktionalität erweitert, dass bei einer Anfrage schon direkt das Web dafür durchsucht werden kann und die Antwort im Endeffekt gespickt ist mit aktuellen Beiträgen aus dem aus dem Netz. Also da ist einerseits, man weiß nicht genau, also zumindest haben Sie's in den Blogbeitrags direkt nicht geteilt. Das ist höchstwahrscheinlich, was ich in anderen Artikeln gelesen hab, dann Bing als search Engine, allein weil sie mit Microsoft zu eng zusammenarbeiten. Sie haben aber auch verschiedene Datenprovider direkt angebunden für bestimmte Use Cases, wie zum Beispiel Wetter, Aktien, Sport oder News. Aber auch Maps gibt's dann direkte APIs, sodass das da auch 'n bisschen besser integriert wird und nicht nur einfach eine Textantwort ist, aber grundsätzlich könnt ihr's euch vorstellen, es gibt eine Antwort auf Basis dieser Daten, gleich strukturiert und bei jedem Part der Antwort wird auch die Quelle dann mitgegeben. Man sieht am Ende eine Zusammenfassung aller Quellen, die genutzt wurden, beziehungsweise die Quellen selbst an dem Part, woraus die Informationen gezogen wurde. Und Sie haben auch gleichzeitig noch eine Chrome Extension dafür rausgebracht, sodass man damit, wenn man die Extension installiert sein, Default Suche des Browsers sozusagen direkt auf ChatGPT Search umstellen kann. Sehr bowder Move, dass man sagt, Sie wollen wirklich, dass man jegliche Anfrage da direkt an ChatGPT macht. Ich glaub, dass das man da nicht umstellen kann zwischen wann wird mal Google, wann wird mal ChatGPT genommen. Interessante Extension. Ich hab sie sehr schnell wieder deaktiviert, aber super superinteressantes Feature auf jeden Fall und auf jeden Fall auch einen sehr schnelle Response an der Stelle. Also erst mal sehr interessant, dass ChatGPT jetzt mit Search draußen ist. Macht bestimmt Google ein bisschen nervöser.
Philipp
Ich hab das getestet und dachte mir so, okay, wir haben ja vor ein paar Wochen das neue Canvas Feature bekommen. Vielleicht kann ich das kombinieren und bekomm 'n schönes Dokument. Hat nicht geklappt. Also man kann zwar die Websuche nutzen bei GPTv o mit Canvas, aber es nützt noch die alte Websuche, die war sehr, sehr viel schlechter. Das heißt, mein erster Eindruck mit der Websearch war erst mal direkt nicht so gut. Und was ich auch gesehen hab oder auch selber getestet, ist Event, also Dinge oder Informationen auf relativen Zeitangaben, also was ist die aktuelle irgendwie, also
Fabi
wann
Philipp
ist das letzte Buch erschienen von Fabi oder irgendwie so was. Mhm.
Fabi
Wenn man
Philipp
nicht genau sagt, zweitausendvierzehn oder Dezember oder sonst was, bekommt man halt wie bei allen Suchen noch fehlerhafte Angaben. Ach so, ist halt das gleiche Thema, was Peplexity halt auch irgendwie schon hat. Und ich bin echt gespannt, ob ja, was da raus wird. Weil ich glaub, Perplexity mit ihrer Pro search und verschiedenen Dingen ist doch besser aufgestellt, aber ChatGPT hat halt hundert Millionen Nutzer, die das jetzt nutzen können. Dazu bleibt echt spannend, ob sie da wirklich reingehen oder ob das halt son Feature ist, was jetzt gelauncht wurde und keine Verbesserungen oder im nächsten Jahr bekommt.
Fabi
Ja, bin ich auf jeden Fall auch gespannt. Vor allem auch wirklich, ist es ein Produkt, was die manuelle Search entdeckt wird, wenn Sie Also dafür muss es auf jeden Fall noch, ich sag mal, eine ganze Ecke zulegen. So, ist natürlich schon so dieses explorative Suchen und so was ist gar nicht so. Also ich hab dann auch teilweise einfach mal probiert, ist als mein News Kanal für so, was gibt's denn eigentlich Neues, hab ich geschaut, wie groß ist die Gefahr für unseren programmier.bar Podcast so, zu fragen, was gibt's denn 'n neues Development Bereich, auch Web Development Bereichen. Irgendwie waren dann schon die Antworten, ich war erst mal war ich überrascht, wie schnell die Antwort mit jeglichen mit jeglichen Quellen kam. Also ich hab durchaus immer Antworten bekommen mit irgendwie acht verschiedenen Quellen und es war eigentlich so gut wie instant irgendwie da. Und ich hab immer so teilweise war mein erstes Gefühl son bisschen die Themen, die da indiziert sind und sowas wirkte irgendwie 'n bisschen wie vorausgewählt an der Stelle. Keine Ahnung, wie's genau technisch am Ende funktioniert und so, aber ich hab schon das Gefühl gehabt, dass es so sehr oberflächlich blieb so. Es war noch die Antworten waren häufig sehr stark mit, was gibt's Neues im AI Space und nicht so wirklich, was gab's im Development Space? Aber so, dass ich irgendwie dachte, ich hab eigentlich immer den Need noch selbst nebenbei zu suchen, so. Aber ich bin mal gespannt, welche Use Cases es am Ende wirklich gibt. Erst mal interessantes Feature und der Use Case dafür muss dann, glaube ich, noch noch son bisschen gefunden werden, wenn's am Ende so ist, dass ich immer händisch nach googeln muss oder wenn dann eine andere search Engine benutzen muss, dann müssen die noch einen gewissen Weg gehen. Aber sehr interessant, weil ja viele in ähnliche Richtung gehen. Also dazu gab's auch noch einen Artikel von The Information, das Meta wohl daran ist, auch eine eigene Search Engine zu bauen, eben weil sie aktuell für ihre Meta AI Produkte Google als auch Microsoft als Quellen, sowohl Bing als auch Google nutzen, aktuelle Daten sozusagen zu bekommen für Ihre Meta AI und einfach diese Abhängigkeit, weil das ja alles Konkurrenten im Endeffekt für Sie sind im AI Race, die Abhängigkeiten und diese Konkurrenz zu verringern, arbeiten Sie wohl dran, auch eine eigene Search Engine zu bauen, die dann für Ihre Meta AI Produkte genutzt werden kann. Was natürlich superinteressant ist, wenn man sich das Ganze auch mal anschaut in derselben Woche, also wir haben uns ja schon mal häufiger drüber unterhalten, die AI Overviews von Google Search, was ja sozusagen das das Pendant dann zu ChatGPT Search wäre, allerdings nicht in der in ihrer in irgendeiner der Geminar UI, sondern in Google Search, dass da Geminar sozusagen eher in die integriert wird. Das wäre der Ansatz mit AI Overviews. Aber dazu gab's eigentlich nichts Neues, außer dass sie's immer in immer mal weitere Länder ausrollen. Zuletzt haben sie's, glaube ich, jetzt gerade vor sieben Tagen in hundert weitere Länder ausgerollt. Aber es gibt auch die in der Google Grounding API haben Sie das jetzt, also der es gibt jetzt die Grounding API für Ihre Gemini Produkte, und zwar ist es einerseits in AI Studio, was weiß nicht, wie viele von euch das benutzen, gibt's jetzt die Möglichkeit des Groundings? Und das ist dann wirklich der Vergleich mit ChatGPT search, dass man sagen kann, man stellt eine Anfrage an Gemini, fügt Grounding hinzu, sodass im Endeffekt der Output sehr sehr vergleichbar ist mit dem, was ChatGPT search da macht. Also wir kriegen eine AI Antwort, die die im Endeffekt Verlinkungen zu bestehenden Artikeln hat und das Wissen sich sozusagen aus dem Netz geholt hat. Aber das ist eher in ihrem AI Studio als auch in der in der Gemini API, wo man dieses Grounding Feature nutzen kann, ansonsten ist Googles Ansatz eher AI Overviews. Und zuletzt noch in dem Space ist es so, dass es noch eine Nachricht von Perplexity gab und zwar, dass man jetzt für alle Entwickler draußen innerhalb von GitHub Co Pilot direkt Perplexity nutzen kann. Also man kann in Visual Studio Code dann einfach in dem Chatwindow mit GitHub Co Pilot einfach perplexity AI schreiben und damit dann sich auch aktuelle News aus dem Netz holen und hat somit auch eine Möglichkeit der Search direkt aus dem Co Pilot heraus. Das heißt, eigentlich in den letzten Wochen sehr viele Updates in Richtung AI, wird cleverer und nutzt die nutzen Search Engines und alle da draußen arbeiten irgendwie da dran und machen 'n bisschen unterschiedliche Ansätze. Alright, kommen wir nach Enshapic und den ganzen Search Themen doch mal zu Vielleicht passt an der Stelle ganz gut, wenn wir uns über Grok unterhalten und die Grok API.
Philipp
Genau, also Grok, das Model von XAI beziehungsweise von Elon, hat jetzt eine oder seine veröffentlicht, also zugänglich für jeden. Und wenn ihr euch jetzt anmeldet, bekommt ihr noch fünfundzwanzig Dollar pro Monat bis zum Ende vom Jahr. Das heißt, mal auf x dot a I und dann beim Blog oder direkt auf Console dot x dot e I zu gehen. Einfach mal anmelden, bekommt ihr zum Testen auf jeden Fall. Gibt eine neue coole Dokumentation dazu. Und man kann einfach jetzt auch einfach mal testen, wenn man halt mit arbeitet. Wenn die Credits euch nicht ausreichen, kostet oder eine Million Token sind fünf Dollar und eine Million Token sind fünfzehn Dollar. Also so, sag ich mal.
Fabi
Ja, sehr cool, dass wir da jetzt auch die API haben von Grok. Ich weiß gar nicht, ja, Du Du hast ja, dadurch hast Du auch, Du bist, glaub ich, pay Twitter User, ne? Hast Du, nutzt Du Grok ab und zu mal? Ist das was, was Du, was in deinem Alltag drin ist?
Philipp
Ja, ich nutz es, mit Flachs Bilder zu uns.
Fabi
Ist das auch, weil die eine Integration haben oder was?
Philipp
Genau, ja. Also Twitter, wenn Du Twitter Premium oder Blu oder wie auch immer das heißt hast, hast Du ja Zugang zu. Und die haben auch sozusagen integriert. Das heißt, wenn man in dem Interface ist, kann man auch schreiben, hey, auf irgendwas und dann wird im Hintergrund genutzt. Das hat für mich drei, sag ich mal, komplett ersetzt. Aber so Crock an sich jetzt modeltechnisch genutzt, ich weiß nicht. Also ist halt dasselbe Model wie alle anderen. Also ich weiß nicht, wahrscheinlich so ähnlich wie, Open AI. Ich mein, das ist aktuell free. Das heißt, wenn ihr irgendwelche LLM Produkte oder habt und wollt einfach mal 'n neues Modell testen, schauen, wie das performt. Sie supporten auch Function Calling. So alles sag ich mal im Groben und Ganzen, was wir schon kennen, nur halt jetzt mit Croc, mit dem Croc Modell. Und ich glaub, das Spezielle, was es so damals ausgemacht hat, ist dieses mehr unzensort, also dass es auch mal dich rosten kann oder irgendwie sonst was. Das heißt, wenn man irgendwie da eine coole Idee dafür hat, dann einfach mal testen. Und auch wenn ich, sag ich mal, die API man sich anschaue, das ist wirklich, also sie ist auch open e I compatible. Das heißt einfach API key tauschen, URL tauschen, euch anmelden, fünfundzwanzig Dollar Credits bekommen und 'n bisschen rumtesten.
Fabi
Ja, cool. Und weil Du auch grade sagst, Du nutzt es, mit zu interagieren, was ja so aktuell beste Image Text-upimgemodell ist. Passt vielleicht ganz gut, wenn wir uns dann mal an der Stelle über V3 unterhalten, nämlich ein neues Text-upimgemodell von. Das sind die, die früher Red Panda waren, die in dem Zuge auch umbenannt haben. Und seit nämlich selbst in ihrem Blogbeitrag, dass sie aktuell den euren Text zu Image Benchmark anführen und da die beiden Black Forest Labs Produkte Flux eins Punkt eins in eins überholt haben mit 'nem E-Loscore von tausendeinhundertsiebzig, bisschen mehr als Flachs sozusagen da gerade auf Platz eins steht. Und sie sagen, sie haben ein neues Modell mit v drei, was eigentlich Verbesserung in allen Bereichen mit sich bringt. Also sie sagen gerade so was wie, dass so Körperproportionen und was dann auch mit Fingern und Händen und so was angeht, so. Sie können wohl sehr gut die richtige Anzahl von Finger an einen Mensch packen und aber grundsätzlich, sie sagen eigentlich in allen Bereichen, also auch was jetzt irgendwie Ästhetik und so was angeht, Sie eine Verbesserung haben und im Besonderen, und das ist glaube ich schon 'n bisschen besonders für dieses Tool, im Bereich Textgenerierung, weil Sie nämlich, also wenn man benutzt, Sie haben verschiedene Arten, wie man mit dem Modell interagieren kann, so, wenn Ihr es einfach mal so nutzen wollt, sind zwei entweder über ihre App oder über ihr Webtool, das sie nennen. Und das ist ganz interessant, weil man da wirklich eine Möglichkeit hat, 'n freies Canvas, in dem man zeichnen kann und damit mit dem Modell interagiert. Man kann entweder 'n freies Canvas Zeichen, wo man einfach per Prompt und 'n paar Parameter, die man einstellen kann, ein Bild generieren kann. Oder man kann ein Frame erzeugen, indem man verschiedene Dinge packt. Dinge können sein, ein bestehendes Bild, was integriert werden soll, aber auch Text. Man kann wirklich in diesem Frame Text an jegliche Stellen positionieren, irgendetwas hinschreiben, auch sehr lange Texte dahin schreiben und man kann daraus dann ein weiteres Bild generieren. Und das Modell von ist sehr gut darin, diesen Text mit der Positionierung genau an diese Stelle zu packen und eben keine Fehler in diesen Texten zu haben. Ich weiß gar nicht, ich hab zumindest mal wieder ein AI News Cover damit erstellt so. Es ist jetzt qualitativ so der Text so vom Stil her. Man kann natürlich auch probieren, den Stil 'n bisschen des Textes anzupassen. Waren jetzt nicht viele Versuche, aber was wirklich krass war, es war immer, zumindest halt von Positionierung wirklich den Text irgendwie behalten und irgendwie dann, dass da der richtige Text und so was steht, war's sehr cool. Und auch der Arbeitsflow von diesem Canvas, ich mein, ob Du's selbst mal benutzt hast von Recraft, Ist echt ganz cool. So, wenn ich mir vorstelle, mach Beispiele von Postern zum Beispiel gezeigt, wo man verschiedene Einzelbilder positioniert hat und dann relativ viel Text da drauf hatte. So, der Flow fühlt sich schon sehr cool an. Also ich würd echt einmal empfehlen, dieses Canvas von zu benutzen. Macht echt Spaß, so mit dem Modell zu interagieren so. Es ist schon cool, sowohl den Prompt als auch die Positionierung von verschiedenen Elementen da drin zu haben. Und dazu ist auch noch, dass sie noch dass sie Vektorart erzeugen können, also ihr könnt Vektoren wirklich an Bildern erzeugen, als auch gibt's Möglichkeiten für Style Controller. Man kann eine Art bestimmte Anzahl von Images definieren, die sozusagen den Style der Output Images definieren sollen. So, wenn man sagt, man hat irgend 'nem Branding, was man wirklich konsistent probieren will, durchzuziehen, was, glaub ich, von der Benutzbarkeit in diesem Canvas Webpool echt ganz cool ist. Also ich ausprobiere nur den Part mit dem mit dem Text und Positionierung und der Flower hat sich echt ganz cool angefühlt und die Ergebnisse waren für meine kurzen Tests auch echt ganz cool. Also v drei mit ihrem Canvas klingt nach 'ner coolen neuen Option im Text to Image Space. Nee, ich
Philipp
find's halt so zugänglich. Also wenn man sich den Blogpost anschaut, da gibt's ja diese, wo man wo jemand 'n Flyer erstellt für eine Cocktail Knight. Ja. Und dann hat man wirklich so supersimpel, langweilige Schrift, langweiliges Bild, aber halt so die Zeiten, die Uhrzeiten. Und dann generiert das ja wirklich 'n 'n Flyer oder 'n Poster, was ja wirklich gut ist, was Du Ausdruck könntest und verteilen. Und ich mein, so Illustrationen, wie viele braucht man da und wie sehr ist man da aktuell, sag ich mal, auf so Designer angewiesen? Wenn jetzt jeder daheim einfach das 'n bisschen machen kann für die kleinsten Dinge, dann ist das schon sehr cool, find ich.
Fabi
Ja. Ja, und vor allem war auch der Arbeitsfloor wirklich cool. Ist ja, Du lässt erst irgendwie in dem Canvas irgendwie zwei, drei Bilder generieren, kannst Du dir irgendwie so zusammenziehen, positionieren, dann mal hier 'n bisschen Text drüber schreiben, lässt dir das Nächste erzeugen, kannst es wieder als Input, das Nächste nehmen. Also es ist es fühlt sich, ich glaub, da sind wir schon was da und es fühlt sich echt ganz ganz cool an, damit zu interagieren. Also früher, zu meinen früheren Bandzeiten, wenn ich sowas gehabt hätte, es wär der Hammer gewesen, dass da wenn ich wenn Ich müsste heut noch mal Musik machen.
Philipp
Bis dann Adobe wiederkommt und
Fabi
das gucken. Genau, also ich würde auch sagen, es ist, ich sag mal so, es ist ein, wenn der wirklich gut funktioniert, der Sie werden nicht alleine bleiben in dem Space, so der der Flower war gerade so mit diesem, ich glaub so Text hab ich wirklich gefühlt, da sind Sie gerade auf jeden Fall sehr klarer Vorreiter bei dem Rest. Klar, eben warum Leaderboard kann man glauben. Und aber Text habe ich zumindest noch keinen gesehen, der es so gut kann wie sie hier an der Stelle. Cool, lass uns doch Was Neues bei Hugingface? Hugingface, Hugingface, Wen umarmt ihr?
Philipp
Ja, Hacks steht eigentlich für Huggingface ai Services. Ah. Und ich mein, wir haben arbeiten viel mit Unternehmen zusammen und viel auch mit Enterprises zusammen. Und was wir einfach gemerkt haben über die letzten Jahre, dass es ist nichts einfacher, als eine API zu nutzen, wenn man was mit AI bauen möchte. Ich mein Open Air hat's wunderbar vorgemacht, ich brauch 'n API Key und kann anfangen. Das funktioniert aber nicht für jedes Unternehmen oder für jeden Use Case, weil manchmal möchte man ja mehr Kontrolle darüber haben, ob ich im Modell bei mir inhouse deployen möchte. Ich möchte sicherstellen, dass sich die Version nicht ändert. Ich möcht's vielleicht fine tunen. Ich brauch einfach mehr Kontrolle über mein Deployment. Und wir hatten da bereits Lösungen, wo Du halt, sag ich mal, managt Open Source Modelle oder open LLMs deployen kannst. Und was wir einfach gelernt haben, ist, Unternehmen, vor allem Enterprises brauchen doch mehr Kontrolle. Und es gibt zwar sehr gute Open Source Tools, wie auch von uns mit oder wie LLM, die supereinfach machen, Modelle zu deployen. Aber man braucht immer eine Konfiguration und diese Konfiguration unterscheidet sich per Modell, per Hardware, wo ich's nutze und man ist trotzdem sehr, sehr, sehr viel Aufwand verbunden, bis ich wirklich mal 'n Endpunkt hab, den ich nutzen kann. Und vor allem, wenn ich irgendwie in Produktion gehen möchte, gibt's noch sehr viele mehr Faktoren zu beachten wie Logging Metriken. Wie kann ich's skalieren? Wie kann ich's irgendwie meinem Team beibringen, dass das jetzt auf Cubenetes läuft und so. Und deshalb haben wir Hacks gebaut. Es ist eine, sag ich mal, Solution, die ist verfügbar über Cloud Marketplaces. Das heißt, man kann direkt seinen Cloud Account nutzen und an sich sind es wirklich optimierte Container für spezielle Modelle. Wir starten mit dreizehn verschiedenen OpenLMs, unter anderem auch Mysteryal und Lama. Und es ist wirklich so einfach wie, ich definier nur den Container und der Container versteht von alleine, wo er läuft und welche Konfiguration dann am besten funktionieren. Und man kann es zum Beispiel auf AMD CPUs nutzen, auf NVIDIA GPUs. Wir sind aktuell dabei, die In Forencia Support zu releasen. Das heißt, ich kann supereinfach zwischen verschiedenen Hardware hin- und her switchen. Ich kann von irgendwie Nvidia a zehn GPUs zu H-einhundert GPUs gehen und muss nie die Konfiguration ändern. Und zusätzlich haben wir noch Helm Charts sozusagen zur Verfügung gestellt und Beispiele für EKG, GKI und alles Mögliche, dass es wirklich supereinfach ist, dass, was bisher schon einfach war, halt jetzt noch einfacher ist und dann Unternehmen halt schneller zu ihrer eigenen kommen, wenn sie Modelle inhouse deployen möchten und sicherstellen, dass irgendwie die oder responses nicht irgendwie übers Internet verschickt werden.
Fabi
Ja, sehr cool. Klingt auf jeden Fall, als Gipester oder sagen wir mal so, ich hab auch bei Firmen gearbeitet, wo ich weiß, dass da ist da ist der Markt für so was da. Cool. Hackingface Hacks. Packen wir mal die Shownotes, wenns wenn's wenn's euch interessiert. Wir haben 'n paar Themen haben wir noch vielleicht einen, ich hab ja ganz am Anfang in unserer Folge den kurzen Disclaimer gemacht, dass wir uns heute auch mal über Suizid unterhalten und den, in zwei gab's einen Fall im Februar, junger Mann aus den USA, Soul Setzer, Garcia hat Selbstmord begangen. Und warum unterhalten wir uns jetzt hier darüber so? Weil es jetzt aktuell eine Klage seiner Mutter gibt und diese Klage richtet sich gegen 'n Unternehmen oder 'nem Produkt geben, das wir uns, das uns ja auch schon häufiger unterhalten haben, Character AI. Und Setzer hat nämlich seit April dreiundzwanzig dazu genutzt und hat sich dann jetzt im Februar umgebracht. Und in der Klage seiner Mutter ist sozusagen der Grund laut ihrer Ansicht für diesen Suizid in der Nutzung von Character AI zu sehen, so. Und dass sie im Endeffekt sagt, seitdem sie dann rauskundet, dass der Sohn dieses Tool nutzt, von dem sie jetzt im Nachgang im Bückiär erst erfahren hat, dass sich der Sohn immer weiter zurückgezogen hat. Und interessant ist es dadurch, dass halt durch diesen durch dieses durch diese Anklage natürlich einige dieser Chatverläufe, die die es da gab zwischen dem Jungen und dem dem AI Chatbot, also für die die Character Eye jetzt nicht kennen, ist im Endeffekt die Möglichkeit, dass man da mit konsistenten AI Charakteren, die bestimmte auf bestimmte Rollen sozusagen dann trainiert oder sind, interagieren kann so was, womit eine Beziehung zu bestimmten Charakteren von CharacterAI aufbauen kann, so. Und das, ich glaub, interessant ist es deswegen, einerseits kann man sich diese ganzen Dialoge mal anschauen. Ich glaube, man, es liegt auf jeden Fall nahe, dass dieser, dass diese Chatverläufe einen gewissen Beitrag dazu geleistet haben. Ich glaube, es ist schwierig für uns zu bewerten, so war das der Grund? War es etwas Verstärkendes oder wäre es auch passiert, wenn dieser Junge nicht mit Characterei interagiert hätte so? Aber so die letzte Nachricht vor seinem Tod ging auf jeden Fall genau darum, mit mit dem mit Character AI, mit dem Charakteren, mit dem er interagiert hat. Und ich glaube, es ist einfach 'n superinteressanter Fall. Also erst mal ist einfach 'n supertrauriger, also interessant ist 'n sehr falsch gewähltes Wort, 'n supertrauriger Fall, aber es ist etwas, was wahrscheinlich, wenn wir uns weiter über AR unterhalten, nicht die letzte Fälle sein werden, über die man dort irgendwie diskutieren wird, so grad was Safety auch angeht. Also Character AR hat darauf natürlich einige Statements auch gebracht und dass sie's sehr ernst nehmen. Haben seitdem auch einige Dinge getan, wie zum Beispiel jetzt ein Pop-up anzuzeigen, was die was den Leuten im Endeffekt die National Suicide prevention Lifeline nahelegt, falls über solche Fälle sich unterhalten wird. Und sie haben aber auch mit Einreichung der Klage auch einige weitere Security Features dann aber erst mit Einreichung der Klage hinzugefügt, wie zum Beispiel, dass die Modelle angepasst sind für Leute unter achtzehn und einige andere Dinge. Aber ich glaub, ich mein, es wird etwas sein, was was wahrscheinlich in Zukunft nicht das letzte Mal sein wird, was dass dass so etwas passiert oder so darüber diskutiert wird. Ich bin mal gespannt, was bei dieser Klage rauskommt, ob der Schuldspruch gegen Character A ja an der Stelle getroffen wird oder nicht. Aber dass natürlich im, und das ist ja das wovor dann auch viele, glaub ich, den Respekt haben, dass bei der Entwicklung von AI und Tools wie Character a I bestimmte Dinge passieren, die wir an der Stelle nicht kontrollieren können und wir wahrscheinlich jüngere Menschen da größer Form schützen müssen, aber auch irgendwie wahrscheinlich auch offener mit ihnen drüber sprechen müssen und sie dazu erziehen müssen oder ihnen beibringen müssen, wie man mit diesen E-Is interagiert. Bleibt nicht aus. Auf jeden Fall sehr, sehr krasser Fall und ein, glaube ich, sehr spannend, was die Rechtsprechung da am Ende sagen wird. Packen auch da die die die Links mal in die Shownotes, wo ihr euch dann die Teil der Konversation mal selbst durchlesen könnt. Aber ich glaub, definitiv ein krasser und einschneidender Fall, der da jetzt grade diskutiert wird in dieser Klage. Genau, so viel dazu gehen die Gedanken auf jeden Fall raus an die Familie und hoffen wir, es bleibt bei einem dieser seltenen Fälle. Trotzdem haben wir nebenbei noch ein paar weitere Themen und zwar eins wäre. Ich weiß nicht, ob Du's gesehen hast, dieses das Preview von dem Text to Video Modell und zwar haben sie eine neue Möglichkeit released, wie man mit ihrem Gen drei Alpha Modell interagieren kann. Und zwar kann man damit Charaktere mit starkem Ausdruck, sag ich mal, erzeugen. Grundsätzlich könnt ihr das so vorstellen, es gibt zwei Inputs. Das eine ist 'n Driving Video und das andere ist 'n Characterimage. Also ich könnte jetzt, der Philipp könnte sich jetzt vor eine Kamera stellen und irgendwie ganz mit ganz viel Mimik einen netten Satz einsprechen. Und dieses, sagen wir mal, Zehn Sekunden Video könnte als Input gewählt werden und kann dazu irgendein Image von einem Charakter. Das könnte ein als bestes Beispiel irgendein Comiccharakter sein, obwohl es ein paar paar ein paar Bedingungen gibt. Also es müssen menschliche Charaktere sein. Man sieht zwar auch 'n Hund in ihren Beispielvideos, aber ich glaub, der hat sehr viele so menschliche Artefakte sozusagen, also ein sehr menschlicher Cartoon Hund. Und man kann dann sozusagen dieses diesen dieses ein Video erzeugen mit diesem Character aus dem Image, der sich aber genauso verhält und das sagt, was im Driving Video passiert. So, es ist super, also dieses dieses anderthalbminütige Promo Video von Ihnen ist krass, obwohl Sie echt immer so kurz das Gesicht zeigen, dann rüber switchen zu dem animierten Charakter, wo man wirklich dachte, wow, das glaube ich, im ganzen im Filmbereich und im Animationsbereich ist das glaube ich schon krass, wenn man sich überlegt, was man da heute für tun muss, wie man Leute irgendwie aufnehmen muss, wie man sie im Endeffekt in den Rick packt, irgendwie die die die die die Emotionen und die Mimik und Gestik von Charakteren in einen animierten Charakter zu übersetzen. Wirklich super-, superbeeindruckend. Mhm.
Philipp
Fühlt sich son bisschen an wie synchron sprechen zwei Punkt null für Animationsfilme. Also ich mein, bisher hat man ja auch immer Menschen gebraucht, die, sag ich mal, die Cartoonfiguren vertonen. Und jetzt kannst Du halt noch Emotionen, Geschichte und alles mit reinbekommen. Ich denk, gibt's, wird nicht mehr lang dauern, bis keine Ahnung, Disney, Pixar oder wie auch immer das wahrscheinlich mal mit einbringt.
Fabi
Ja. Ja, und vor allem ich mein, dann kann's haben sie auch gibt's auch Beispiele, könnt ihr euch Youtube auf auch einige zeigen. Ich mein, sie ist mittlerweile nutzbar für alle Leute, die von Runway einen eine Lizenz haben. Und die Beispiele sind wirklich beeindruckend auch so wirklich, wo dann so so ganze Filmszenen damit im Endeffekt son bisschen gemacht werden und wo ein Synchronsprecher im Endeffekt beide Rollen am Ende dann spielen kann, so. Ja, ist son ist sehr beeindruckend. Apropos beeindruckend, da können wir uns auch noch kurz über das neue Minecraft Open World Modell unterhalten. Wir hatten's ja jetzt schon 'n paar Mal. Es war ja so, weil sowohl Doom von Google, was wir in den normalen News hatten. Wir hatten Counter Strike in der letzten Folge, über die wir uns unterhalten haben.
Philipp
Doom gab's, glaub ich, noch? Zum Glück.
Fabi
Doom hatten, genau Doom hatten wir in den in den in der normalen News, glaub ich, besprochen. Und jetzt gibt's Oasis, ein interaktives, explorierbares Open World Modell am Beispiel Minecraft, was zusammen von Edge, das das sind diese Chiphersteller, die wir uns schon unterhalten haben, die haben diesen Sohou Chip, der sozusagen dafür designt ist, Transformer Modelle auszuführen und darauf spezialisiert ist, zusammen mit Decart, das ist 'n israelisches Start-up, von dem ich vorher noch nicht was gehört hab. Die gab's wohl jetzt schon seit einem Jahr, haben son bisschen son bisschen mäßig agiert. Man hat nicht viel von ihnen gesehen und jetzt auf jeden Fall mit diesem Modell, liest man was dazu. Sie haben auch direkt sechs Blogbeiträge auf ihrer Homepage und so. Und bei denen ist ganz interessant, die sind im Endeffekt, also edged ist in dem Chipbereich für die Transformer Modelle. Die Card ist im Endeffekt auch in in diesem Bereich. Sie machen ihr Geld, sind einer der wenigen AI Start ups, die schon jetzt positiven Cashflow haben. Und zwar machen sie das, indem sie 'n Business haben, wo sie Software an AI Firmen verkaufen, Modelle auf NVIDIA Grafikkarten sehr viel performanter laufen und trainieren lassen zu können. Und genau Sie wollen sozusagen, das ist einerseits Ihr Businessmodell, überhaupt Sie Sie haben wohl 'n sehr großes Chip Know how und wie man wie man Modelle darauf ausführt, Aber dazu wollen sie dieses Know how einerseits dafür nutzen, diese Optimierung zu verkaufen. Andererseits wollen sie auch ein ein Video, ein generatives Videomodell rausbringen, was es auch bald rauskommen soll und im Endeffekt Konkurrenz für Open AI SORA ist und wohl sehr viel effizienter und das wohl das, mit dem Sie punkten wollen, sein soll als SORA. Und das haben die jetzt im Endeffekt genutzt und haben ein Transformer Modell gebaut und das ist zumindest, was die Architektur angeht, besonders im Vergleich zum Beispiel diesem Unit Modell, was Google für Doom genutzt hat. Und zwar, dass man Minecraft, und das könnt ihr jetzt auch direkt ausfüllen, müsst ihr nicht lokal irgendwie auswählen, ihr könnt auf die Homepage gehen, müsst ihr kurz in eine Warteschlange kommen. Es wird aktuell, wenn ich's richtig verstanden hab, noch auf H-einhunderts ausgeführt, weshalb auch die FPS und son bisschen die, verstanden hab, noch auf H-einhunderts ausgeführt, weshalb auch die FPS und son bisschen die die die Pixeldichte geringer ist. Angeblich sollte auf diesen neuen Sohou Chips dann auch in vier k funktionieren. Könnt ihr im Endeffekt Minecraft in einem Open World Transformer Modell, was Frame für Frame generiert Minecraft spielen. Ich mein, dass ihr sehr schnell auf komische Erlebnisse kommt, ist steht, glaube ich, außer Frage, guckt nach vorne, dreht euch dreht euch noch mal Auf einmal war hinter euch was ist hinter euch was ganz anderes und es hat auch son bisschen, man wird ein bisschen Motion sick, wenn man wenn man das spielt. Aber also einfach wieder super beeindruckend, was da wie schnell sich der Bereich dann jetzt auch entwickelt und auf jeden Fall spannend, wenn es dann auch mal auf diesen Sohou Chips laufen soll.
Philipp
Ja, das Beste, was ich bisher gesehen hab, war, dass Du läufst und dann schaust Du in den Himmel und dann schaust Du nach unten und dann ist es eine ganz andere Welt, weil Du sozusagen in der Zeit, wo Du in den Himmel schaust, sozusagen mehrere Schritte die aktuelle Welt vergisst, wo Du warst. Und wenn Du wieder nach unten schaust, generierst halt eine neue Welt, also so Art Teleportion mäßig. Und ich glaub, was am ehesten bei dem Blogpost rausgeht, Du hast ja gesagt, die laufen aktuell auf den AH einhundert. Und sie sagen halt, okay, mit h-einhundert kann man halt 'n fünfhundert Millionen Parametermodell, was auch dafür genutzt wird, bei zwanzig FPS 'n siebenhundertzwanzig p laufen lassen. Mhm. Was halt sehr limitierend ist und mit ihrem Suhu Chip oder Suho Modell, ich weiß jetzt genau, also mit dem neuen sollst Du sozusagen auf diesen neuen Chips, die sie bauen, in vier k mit dreißig FPS bis zu 'n Hundert Milliarden Parametermodell sozusagen skalieren können. Und dass das, also dass ihre Chips dann die Zukunft von Videospielen mehr oder weniger damit auch powern können und Du in Echtzeit spielen kannst. Und das ja das, was wir bei Counter Strike oder jetzt auch bei diesem Minecraft Beispiel sehen, ist, okay, wir brauchen 'n besseres Computing, wirklich den Ansprüchen von aktuellen Games irgendwie näherzukommen. Und ist definitiv sehr vielversprechend. Also ich hab's grad noch mal getestet, ich bin noch mal in die Q rein, gedauert dort zwei Sekunden und dann
Fabi
Ja, ganz extra schnell.
Philipp
In Minecraft und kann 'n paar Blöcke abbauen oder in den Himmel schauen, bisschen laufen und die neue Welt bekommen.
Fabi
Ja, geht's mal aus. Zwei Sachen haben wir noch vor dem Ende dieser Folge. Das eine wäre Qhierar Ia Expance. Was was hat's damit auf sich erlebt?
Philipp
Genau, also die AREA Modell Family von Qhier beziehungsweise Qhier for AI, also das Qhier for AI ist die die Research Organisation innerhalb Qhier. Und ARIA ist 'n Research Projekt innerhalb der Organisation, was über Qhier hinausgeht. Also Sie schreiben auf Ihrer Seite, dass es unterstützt wird von über dreitausend Researchers, über zweihundertfünfzig besitzt und über in über hundertneunzehn unterstützt wird. Und ARIA ist auch eine Modell Family, also es gibt gab zwei Modelle, a-8-b und dreizehn-b und Sie haben jetzt Updates zu diesen Modellen rausgebracht, zu ARIA acht b und 'n neues zweiunddreißig Milliarden Parametermodell. Und diese Modelle sind sehr viel besser als die bisherigen Modelle. Also Sie haben auch 'n coolen Blogpost dazu veröffentlicht auf Higgenface, wie sie das verbessert haben. Und vieles geht darauf zurück, dass sie verschiedene synthetischen Daten genutzt haben von verschiedenen Modellen, die dann wieder gegenseitig gerankt haben und so die ursprünglichen Modelle verbessert. Einziger Nachteil hier wirklich, also das ist wirklich 'n Research Projekt, bedeutet, die Modelle sind auch unter einer nicht kommerziellen Lizenz zur Verfügung gemacht worden. Aber definitiv werd's mal anzuschauen, weil der Fokus von ARIA liegt wirklich auf Multilinguality. Und ich mein, Modelle sind mittlerweile echt sehr gut, auch was Deutsch angeht, aber sie haben wirklich 'n großen Fokus darauf gelegt von Tschechisch, dieserländisch, also wirklich alle europäischen Sprachen hin zu asiatischen Sprachen oder auch Hebräisch, hinduistisch, indonesisch, also wirklich sehr, sehr viel. Und wenn man in dem Bereich gerade halt aktiv ist, dann lohnt sich's definitiv mal reinzuschauen, vielleicht eine Bassline zu bekommen,
Fabi
zu sehen, okay, wie können mein aktuelles
Philipp
Modell verbessern? Und definitiv mal interessant.
Fabi
Ja, sehr cool. Dann lass doch auch mit beim Modellensender aufhören mit Moschi eins Preview.
Philipp
Genau, also wir hatten ja grad schon 'n bisschen was über Text to Video und ist 'n neues Modell, released unter Apache zwei Punkt null. Sehr beeindruckend, aber kann halt immer noch sehr kurze Videos aktuell generieren. Die Architektur sind zehn Milliarden Parameter Diffusion Transformer Modell, also alles, was wir in den letzten Monaten, sag ich mal, gesehen haben, von Flachs über das neue Model Diffusion Modell, basiert auf dieser Diffusion Transformer Architektur verfügbar auf Heigeneface, haben auch eine Demo, die man einfach ausführen kann. Genau. Von Blackground auch. Also wirklich sehr cool und es, wie die Nenndername sagt, das ist eine Preview, also wird noch mehr kommen. Und gibt sehr, sehr viele coole Beispiele von, sag ich, sag ich mal, sehr kurz Videos. Und so ähnlich wie bei den anderen eher Videos, man kann auch coole Memes generieren.
Fabi
Ja, gibt's so, würde ich sagen, für euch da draußen einiges auszuprobieren in den nächsten zwei Wochen bis zur nächsten A1. Spielt mal probiert mal Muschi aus, probiert mal Minecraft aus im Transformo Modell zu spielen. Und ansonsten hören wir uns wieder in zwei Wochen. Philipp, dir vielen Dank für die Zeit.
Philipp
Bis in
Fabi
zwei Wochen. Tschau. Tschau.
Feedback