News AI #6 –

Stable Audio // DallE 3 // ChatGPT See, Listen, Hear // Reversal Curse

27.09.2023

Shownotes

Der Talk über die spannendsten AI News der letzten zwei Wochen ist wieder da. Heute haben sich Philipp und Fabi über Stable Audio unterhalten, das Generative Audio Model von Stability AI, mit dem das heutige Intro erstellt wurde.

Auch OpenAI hat mal wieder für viel Gesprächsstoff gesorgt und ihr Generative Image Model DallE in der Version 3 rausgebracht. ChatGPT kann jetzt hören, sehen und sprechen. Mit "sehen" ist hier die lang angekündigte Multimodalität von ChatGPT gemeint, bei welcher Bilder nun als Input genutzt werden können. Wir haben uns dazu die System Card angeschaut, um herauszufinden, welche Schritte getan wurden, um die Multimodalität möglichst unschädlich zu gestalten.

Es gibt ein neues Paper zum Thema Reversal Curse - A is B, but B is not A. Dabei klären wir, warum ChatGPT weiß, dass Mary Lee Pfeiffer die Mutter von Tom Cruise ist, aber nicht, wer der Sohn von Mary Lee Pfeiffer ist 🤯

Und hier noch der Link zu unserem Side Talk über das Reverse Engineering des ML Models für die Text Suggestions in iOS 17.

/transkript/programmierbar/news-ai-6-stable-audio-dalle-3-chatgpt-see-listen-hear-reversal-curse
Hallo und herzlich willkommen zur sechsten Folge der Programmierbar AI News mit mir mal wieder am Start der Philipp. Hi Philipp. Hi. Und ich bin der Fabi. Was ihr da gerade gehört habt, war mal wieder ein neues Intro und wir sind ja hier in der AI News und am Zahn der Zeit. Es gibt nämlich ein neues Audio Generation Model von Stabilität AI. Ich glaube, die meisten Stabilty AI kennen es über ihr Image Diffusion Model. Stabil Diffusion XL haben wir auch schon ein paar Mal hier in der Podcastfolge drüber erzählt. Und Stabilty AI hat eben ein Audio Model rausgebracht und zwar Stable Audio. Könnt ihr selbst auch ausprobieren auf Stabil Audio. Com. Und genau es ist wieder ein oder es ist ein Diffusion-based Model und ich glaube, so ein bisschen die Besonderheit im Vergleich zu allem anderen, was es aktuell da draußen so gibt, ist, dass man jetzt Tracks erstellen kann mit variierender Länge. Also es ist basierend Textinput, Text to Audio. Und was man eben noch einstellen kann als Parameter, ist die Länge des generierten Audios. Was ihr hier jetzt gehört habt, war Creschendo Music-Introduction for a Tech Podcast that end in a big Drop. Den Big Drop hat man, glaube ich, gemerkt, dass es sehr abprobt aufgehört hat, am Ende verschiedene Varianten ausprobiert und mit den Zeiten rum gespielt. Das war das Beste, was ich rausbekommen habe. Genau. Und was sie eben jetzt da so ein bisschen anders gemacht haben und wie sie das hinbekommen haben, dass sie jetzt hier, ich glaube aktuell ist es bis zu 95 Sekunden an Audio erzeugen können und das auch über die UI komplett einstellbar ist, wie lange das, also in Sekundenlänge einstellbar ist, dass sie in dem Modell, also das bisher so war, dass es sehr, alsoes immer auf 30 Sekunden Snipplets trainiert das Modell. Allerdings werden sowohl Startsekunden als auch Totalsekunden mitgegeben. Es werden verschiedene Snipplets aus einer Audiodatei genutzt und trainiert und dann wird gesagt okay, hier ist ein 30 Sekunden Audio Snippet, was in dem overall Song beispielsweise bei 14 Sekunden begonnen hat und der Track geht insgesamt 80 Sekunden und mehr als nur mehr als nur dieses eine 30 Sekunden Beispiel aus einem Track gehen rein in das Modell, sodass hier am Ende eben auf die maximale Länge von dem Trainingsdaten an Gesamtlänge kommen, was dann 95 Sekunden sind und aber eben da die Möglichkeit haben, am Ende das einstellbar zu machen per Parameter, was das herauskommende Audiofile wie lang sein soll. Genau was man vielleicht dazu sagen kann. Es dauert für 95 Sekunden Audio in 44 Kilo Hertz zu generieren, dauert es weniger als eine Sekunde auf einer A100 NVDA CPU. Also relativ schnell, sag ich mal, im Vergleich zu Image Generation mit Stabil Diffusion XL, welches ja mehrere Sekunden dauert, bis man sein Bild generiert hat. Hast du aber einen Grund dafür, warum das so ist? Nee, ich sehe es halt in dem Blogpost. Das ist ja zu der Website, die du schon genannt hast, mit Stabil Audio. Com gibt es auch auf Stability AI ein Research Blogpost, wo sie ein bisschen genauer eingehen in die Architektur, wie sie es trainiert haben, welche Daten sie verwendet hat. Also ich meine, sie sagen jetzt nicht genau, welche Daten sie verwendet haben, aber wie groß es war und wie viele Total Stunden es waren, wie die Architektur aussieht. Und da ist auch im Intro sozusagen, es dauert nur oder es dauert weniger als eine Sekunde, 95 Sekunden auf Stereo Audio zu generieren, was ich sage mal für eine Skalierung sehr, sehr viel besser ist als was wir von Stable Diffusion kennen. Auf jeden Fall. Ich finde es interessant, weil du gerade Datenzeit angesprochen hast. Sie haben ja gesagt, es sind 800.000 Audiofiles und die sind alle von Audio Sparks geholt. Das ist eine Musik-Lizensierungsplattform, Audio Sparks. Com und alle Audiofiles, die da reingehen, sind von Audio Sparks. Com. Was ich insofern interessant finde, ist, dass ja die Modelle von Stability AI, Stability Fusion beispielsweise Open Source ist und auch in den Kommentaren man direkt liest, wann wird die Open Source Variante erweilabel sein? Bin ich mal gespannt. Insofern, dass es ja zumindest lizenzierte Musik ist und es zumindest irgendein, wahrscheinlich Lizenzabkommen zwischen Audio Sparks und Stability AI gibt. Also zumindest wenn es Open Source wird, dann auf jeden Fall nur für Non-Commercial Use. Bin ich auf jeden Fall mal gespannt, was da rauskommt. Ja, das ist ja auch bei den Pricing Tiers aktuell so, du hast ja schon gesagt, man kann es kostenlos testen und es gibt auch ein Free Tier und das Free Tier, mit dem kann man Audio Tracks bis zu 45 Sekunden generieren und auch nur für nicht kommerzielle Zwecke. Und dann gibt es ein Professional Tier für 12 € oder 12 Dollar im Monat. Die kann man dann für kommerzielle Zwecke nutzen. Und dann gibt es noch ein Enterprise Tier, sage ich mal, wo alles Custom mäßig ist. Genau. Also auch generell, ich glaube sie haben eine separate Firma, Hermann AI, die das Modell erzeugt hat und wo sie auf jeden Fall sagen, dass da noch einiges kommen wird. Mal schauen. Auf jeden Fall spannend. Keine keine schlechten Outputs. Der Blogbeitrag lohnt sich auf jeden Fall, packen wir die Shownotes auch, dass man generell auch so gerade für Musiker, für den kreativen Prozess auch einzelne Instrumente beispielsweise einfach sich generieren lassenkann, also irgendwie ein Rock-Drum-Loop oder irgendwas, dass man sie einfach Loops auch erzeugen kann und die Base für den kreativen Prozess hat. Man muss nicht gesamte Songs, sondern auch einzelne Instrumente, paramierbar auch über BPM oder ähnliches. Also sehr cool auf jeden Fall. Genau so viel aus dem Audio Space. Wir haben lange nicht mehr so, also immer mal wieder über neue Features bei Open AI, aber eher kleinerer nicht so viel über neue Modelle oder große neue Features geredet. Heute haben wir gleich zwei dabei. Wir fangen mal mit dem allseits bekannten Chat-GPT an. Und zwar hat Open AI enabled vor zwei Tagen, heute ist er 27. September, also am 25. Am Montag, das Chat-GPT jetzt sprechen, sehen und hören kann. Leider noch nicht testbar, aber in den Blogbeiträgen einsehbar über die Videos, die sie dort zeigen. Was im Endeffekt bedeutet das einerseits? Was bedeutet hören? Man kann per Sprachinput beispielsweise über die App, was man, wenn man Pro User ist, wird innerhalb der nächsten zwei Wochen die Features in der App freigeschaltet. Bei unserem Pro Account ist es leider noch nicht, sodass man per Sprachinput mit, also obwohl doch der Sprachinput geht auch mittlerweile schon, den habe ich schon getestet. Aber den, also hören heißt reinsprechen, Speed to Text, wo sie wahrscheinlich, haben wir uns vorhin gerade in der Post schon drüber, in der Pre-Production schon drüber unterhalten, dass wir wahrscheinlich irgendwie ein Whistleblower Modell, also einfach ein separates Modell, was einfach nur Speed to Text macht, Text dann als Input für Chat-GPT und aber man jetzt eben auch die Multimodalität ausgerollt wird. Also man kann einen Imageinput mitgeben und ein Bild mit rein geben als Input, als auch die Voice Capability, also dann Speaker. Das heißt, es gibt irgendein Text to Speaker Modell, was die GBT auch zur Verfügung hat, die Antwort eben nicht nur in Text, sondern auch in Sprache zu formulieren. Was, wozu bisher noch nicht wirklich viel mehr bekannt ist, außer dass es eben ein neues Text to Speaker Modell ist und Spotify es beispielsweise auch schon genutzt hat für Voice Translation. Also sie haben bestimmte Podcasts. Ich glaube, es gibt drei verschiedene Folgen. Also Lex Friedman Podcast, Dariore CIO und Armchair Expert, wo sie bestehende Folgen in Spanisch übersetzt haben und Französisch und Deutsch in den nächsten Tagen und Wochen ausrollen werden, also dass sie im Endeffekt einen bestehenden Podcast nehmen, Speech to Text machen, den übersetzen und dann von dem Modell von Open AI übersetzen lassen, wo sie irgendwie ich glaube, sie haben geschrieben in dem Blogbeitrag, dass man, wenn man es in der App später nutzt, aus fünf verschiedenen Stimmen auswählen kann. Und sie haben da wohl mit professionellen Sprechern zusammengearbeitet, Voice Actors, diese zu erzeugen. Und ich bin auf jeden Fall mal gespannt auf mehr Informationen zu dem Modell selbst als auch zum Nutzen innerhalb der App. Weißt du, ob die bei Spotify sozusagen Speech to Speech Translation machen oder ob es erst sozusagen transkribiert wird oder transkribiert und übersetzt wird und dann wieder synthetisiert? Ich glaube, sie haben es nicht wirklich geschrieben, weil sie gesagt haben nur Voice Translate Episodes und dass sie das neue Modell von Open AI, also das Voice Generation Technologie nutzen. Aber sie haben auch nur, ist inAnder Language is environment. Ich bin jetzt mal davon ausgegangen, dass es in die Richtung funktioniert, also dass sie es erst mal wahrscheinlich, dass sie erst mal wahrscheinlich Speech to Text machen, dann übersetzt und den Text wieder ausgeben lassen. Aber sie sagen nur, sie sagen nur, sie generieren AI-Powert Voice Translations in andere Languageist. Aber ja. Ich meine, was wir ja wissen von Wizzpen ist, dass Wizzpen nativ schon nicht nur Speech to Text kann, sondern Speech to Text Translation. Also ich kann ein englisches Audio sozusagen direkt transkribieren in Deutsch. Also könnte es sein, dass sie vielleicht eventuell das nutzen, dass sie dann direkt die Übersetzung aus dem Audio bekommen und nicht erst transkribieren, dann übersetzen und dann sozusagen wieder in Stimme synthetisieren. Aber definitiv interessant. Vor allem ich glaube bei bei Podcasts, gerade wenn man mehrere Sprecher hat, ist es nicht einfach sozusagen die Transkription sozusagen dem Sprecher zuweisen. Also das war am Anfang von Wizzbrinck ein großes Problem, dass man halt einen Chatverlauf sozusagen erstellt von dem Podcast. Wann spricht Philipp, wann spricht Fabi, wann spricht jemand anderes? Es war nicht so einfach. Bin ich mal gespannt, wie die das lösen. Ja, bin ich auch mal auf die Qualität gespannt. Ich habe, wir haben beide noch in keine der Folgen reingehört. Ich meine, wir sind ja auf unserer Homepage. Wir haben zwar aktuell da Whisper noch nicht angebunden, weil unsere, weiß ich gar nicht mittlerweile, ob das Kontext-Window größer ist, aber zumindest waren damals unsere Audio Samples zu groß dafür. Wir haben einen anderen Service und Whistleblower war auf jeden Fall schon sehr gut, als wir es händisch getestet haben. Aber auch da war noch Verbesserungspotenzial. Wenn man das jetzt automatisch übersetzen, also transkribieren, übersetzen und wieder zu Voice ausgeben lässt, ich bin mal gespannt. Also ich werde mir auf jeden Fall im Nachgang noch mal eine der Folgen anhören. Ich glaube, es wird auf jeden Fall interessant, wenn man nicht englische Podcasts übersetzen kann, weil das Problem, was ich immer sehe, ist halt, wenn man dieses vor allem in Europa, das Englische hat wie bei uns, dass du Begriffe in Englisch und in Deutsch hast, da Strugglen die Modelle halt, weil wenn man sagt okay, das Audio, das reinkommt, ist Deutsch, dann gibt's halt sag ich mal Hello. Okay, geht vielleicht noch mit Hallo. Aber wenn man irgendwelche englische Begriffe nutzt, versucht es mehr oder weniger das deutsche passende Wort da zu finden. Und eventuell kommt dann halt was ganz anderes raus. Das stimmt ja, dass man natürlich auch alle unsere Tests waren auf Deutsch wiederum von daher auch nur begrenzt signifikant. Cool. Ich glaube, du hast ja auch die System Card durchgelesen dazu, oder? Genau. Also im Zusatz zu dem Chat-GPT, kann jetzt hören, sprechen, sehen, hat, ob Miai, Miai, mehr oder weniger leise GDP4 Vision releast. Also im Februar, als GDP4 schon angezeigt wurde, hat ja auch Miai schon kräftig geteasert, dass es auch ein Multimodal Modell gibt, welches sie jetzt mehr oder weniger veröffentlicht haben durch die hoffentlich bald kommende Integration in ChatGPT. Das heißt, es gibt noch kein API Announcment und es ist auch sehr limitiert, wer bisher Zugang zu GPS4V, wie sie es nennen, hat. Und GPT4V ist ein weiter trainierendes GPT4 Modell auf einem sehr großen Datenset von Text und Image. Also es ist ein Multimodal trainiert sozusagen. Und wurde auch gefinetunt mit Reinforcement Learning from Human Feedback. Und OpenAI hat zusammen mit Be My Eins sozusagen mehrere Studies und Use Cases durchgeführt, einfach festzustellen, welche Risiken können dadurch entstehen? Welcher Harm kann mehr oder weniger erzeugt werden? Und haben anhand von den denauch Aussagen oder dem unsensert Modell, das dann mit Reinforcement Learning von Human Feedback versucht zu alleine. Und was definitiv interessant ist, dass sie selber noch sagen jetzt, dass es eventuell Probleme mit Halluzinierung und Limitierung geben kann. Und ich glaube, wenn man ein Bild hat, ist es oftmals noch schwieriger, weil du hast einfach mehr, viel mehr, sag ich mal, Sinne oder Wahrnehmungen, die mit dazukommen. Und du kannst viel mehr konkreter fragen über irgendwelche Personen oder halt Dinge, die du siehst. Und ich kann mir vorstellen, dass es dadurch schwieriger wird, das Modell möglichst, sage ich mal, harmlos zu halten, also dass man nicht irgendwie fragen kann: „Hey, was sieht denn der Person merkwürdig aus? Und bekommt dann eine Antwort. Ich denke, das ist nicht die Intention von von OAP mehr. Ja, definitiv nicht. Aber ich glaube, was man nun wieder sagen kann, also sie nennen es auch nicht mehr Paper, sondern System Card, relativ kurz, keinerlei genaue Informationen zu Model Architektur, Trainingsdaten, Trainings Beispiele, welche Evaluierungen sie durchgeführt haben. Also wie wir es mittlerweile eigentlich fast können, teilen halt gar nichts, was, sage ich mal, der allgemeinen Research Community nicht wirklich hilft oder auch Unternehmen, wenn du das Modell nutzen möchtest, später auch nicht gerade einfach ist, wenn du nicht weißt, auf welchen Trainingsdaten es trainiert wurde, ob es für deinen Use Case sinnvoll ist oder nicht oder wenn sie es dann wieder weiter verbessern. Ja, noch könntest du es irgendwie leisten, weil sie qualitativ auf jeden Fall noch einen Vorsprung haben. Mal schauen, mal schauen wie lange und wie lange. Sie damit durchkommen. Ja, ich finde es ganz interessant, weil man hat ja gar nichts so mitbekommen, ob GDP4 und wann GDP4 wie kommt. Aber Google hat ja vor ein paar Wochen ganz stark GEMINI geteasert, welches das Multimodal Modell von Google und DeepMind ist, welches auch Multimodal sein soll und was ich glaube entweder auch innerhalb der nächsten zwei, drei Wochen kommt oder dann Anfang Dezember. Und man hört, dass Open AI eventuell dadurch sozusagen den ganzen Multimodal Push oder Release noch ein bisschen beschleunigt haben, einfach dass sie wieder die ersten sind und zeigen können okay, das kann das Modell jetzt und GEMENY muss dann natürlich wieder nachholen oder aufholen. Und das ganze Interesse ist erst mal wieder bei bei Open AI. Und ich meine, wenn wir uns noch mal auf Multimodalität beziehen, beziehen wir uns ja immer auf den Input ins Modell. Wir haben ja gerade jetzt gehört, GBT mit kann jetzt reden, wo dann die Annahme ist, wir haben ein Text to Speech Model, das dann einfach das Ganze in Speech umwandelt, aber Text immer das Output Format ist. Das, was man jetzt als nächstes ja noch gesehen hat, ist, dass OpenAI auch Doli drei announct hat. Auch das ist ja zumindest für mich bisher noch nicht noch nicht testbar. Aber war ja auch ein bisschen nur Frage der Zeit, dass sie da jetzt endlich mal nachziehen. Dollie 2 hat am Anfang für sehr viel Aufsehen, Aufruhr gesorgt. Aber wenn man, wenn man da gerade wieder Stability AI mit Stability Fusion, XL als auch mit Journey sind ja wirklich meilenweit daran vorbeigezogen, dass eigentlich Dollie 2 also eigentlich unnütz war für jeglichen, für jeglichen Use Case, so was zumindest was sehr realistische Bilder angeht, irgendwie gezeichnete Bilder gab es bestimmt noch Use Cases dafür, obwohl die anderen meistens auch besser waren. Aber deswegen Dalli 3 jetzt in der Hand. Du hast gemeint, du hast auch schon einiges in X Twitter gesehen, wie nennt man es jetzt eigentlich wirklich? Ich sage mal weiter in Twitter. In Twitter gesehen einige Bilder von Mitarbeitern von Open AI, die irgendwas erzeugt haben. Und warst du überzeugt zumindest oder hast gute Ergebnisse gesehen? Ja, ich meine auch wenn man auf die Landingpage von Dali3 geht auf Open AI, sieht man auch ein paar Beispiele und auch die Prompts dazu, was definitiv eine Qualitätsverbesserung ist. Und sie schreiben auch selber, dass man jetzt viel mehr Möglichkeiten hat, Nuancen zu erstellen, also dass man wirklich gerade kleinere Details beschreiben kann bei der Bildgenerierung, die dann wirklich Einfluss haben. Und ich glaube, das ist das, was wir gesehen haben in den letzten eineinhalb Jahren mit allen Image-Generation-Modelle, dass man einfach okay, am Anfang hat man irgendwie einen Mann auf einem Pferd auf dem Mars. Okay, das hat irgendwie funktioniert und qualitativ wird es auch echt besser und viel hochauflösender. Aber wirklich jetzt auch mit mit mit Churni oder Stabil Diffusion XL und da die drei, dass man wirklich in diese Nuancen reingehen kann und auch beschreiben kann okay, mach mir ein Poster, wo der Titel Benus mit draufsteht und am Ende du wirklich einen Poster bekommst mit dem mit dem Aufdruck und der Schrift darauf ist schon sag ich mal ein Fortschritt oder halt etwas neues, was wir von Dali zwei zum Beispiel jetzt nicht kennen. Und was sie, was sie auch noch sagen, was ganz interessant ist, ist Dali3 ist building native on ChatGPT, which let's you Use ChatGPT as a brainstorm partner and refiner of your Promps. Also sie wollen nicht mehr scheinbar eine separate UI für Dali 3 zur Verfügung stellen, sondern dass es auch wie in JGPT genutzt werden kann und du gemeinsam mehr oder weniger bessere Promps, so verstehe ich zumindest, erzeugen kannst und dann auch immer weiter iterieren. Also das, was wir von Mitschöne ja kennen, dass du, wenn du ein Bild generierst, bekommst du ja vier oder fünf Bilder und dann kannst du ja eins davon auswählen und das halt weiter refinen oder verbessern und anpassen. Und das soll scheinbar jetzt mit Dollie 3 in JGPT auch gehen, dass man sozusagen einen Initial Prompt hat, wo man sagt okay, ein Mann auf einem Pferd auf dem Mars, da werden Bilder generiert und dann kann ich sozusagen weitergehen von okay, der Mann soll einen roten Hut tragen oder irgendwie sowas, dass sozusagen das letzte Bild genommen wird und dann einfach weiter verbessert anhand von den Beispielen, die man möchte. Ja, genau das war auch das mit dem, wo ich vorhin darauf hinaus... Also ich meine, die JGPT kann jetzt sprechen, aber damit dann ja auch als Modalität im Outputformat jetzt auch Bilder erzeugen, dadurch dass es Dolley rein ist. Aber ich bin mal gespannt. Also ich habe es nicht ganz so wie ich es gelesen habe, dachte ich auch. Also sie planen, dass die meisten Leute es über JGPT nutzen, aber es soll schon auch weiterhin noch die Doli UI geben, weil sie irgendwo geschrieben haben, du kannst natürlich auch deine eigenen Promps erzeugen. Weil so ein bisschen der Vorteil gerade bei ChatGPT ist ja auch noch, ich meine, ich weiß nicht wie viel du mit MID-Journey in deinem Flow drin hast, aber wahrscheinlich gerade auch viel bei deinen LinkedIn Posts bestimmt oder ich weiß nicht genau was du nutzt, ob du dann Stabil Diffusion nutzt. Aber da ist zumindest bei uns, bei LOTRAM, bei den Flows so oft so, dass wir ChatGPT nutzen, einen Prompt für beispielsweise mit MID-Journey zu generieren. Also wir haben dann meistens eine eine raffe Idee und geben den dann in ChatGPT rein, wo wir je nach Game und sowas auch einen vordefinierten Prompt haben, Vorschläge für Mitjourney, einen besseren Mitjourney Prompt zu generieren. Ich glaube, das ist genau das, was. Also scheinbar soll beides verknüpft werden. Weil wenn ich, also man hat ein Video von OpenAI veröffentlicht, wo man sieht, wie so eine Art Kindergeschichte erstellt wird mit einem Eagel. Und wenn man sich das Video anschaut, der erste Prompt ist My Five-Your-Ald, keep talking about a superduper Sonnenflower Hedglock, what has it look like? Und dann sieht man vier so kleine Kacheln in der ChatGPT Antwort. Und in diesen Kacheln sind neue Promps. Also es nimmt dann nicht diesen superduper Sonnenflower Hedglock, sondern man sieht zum Beispiel A toifoll Superduper-Sandflower-Hedstock, Flockling in a Vibrant Garten, Surrounded by blooming, Flows and a Butterflake. Das ist sozusagen ein Prompt, was JGPT dann erstellt und dann wird dieses Image generiert. Ich glaube einfach der Einstieg oder der Ease of Use, also wie einfach ich es nutzen kann, soll noch mal im Proofed werden. Und klar, definitiv wird OpenAI auch eine API zur Verfügung stellen. Ich meine, wenn ich das Modell in meine Anwendung integrieren möchte, dann brauche ich ja mehr oder weniger einen programmierbaren Zugang. Aber klar, also schon sehr cool, wenn man einfach anfängt okay, man auf dem Pferd, ChatGPT generiert vier interessante Promps oder Prompt Möglichkeiten. Ich wähle ein Bild davon aus, refine es dann weiter. Ist schon ein sehr angenehmer Flow, sage ich mal, Bilder zu generieren für, sage ich mal, jetzt keine. Photoshop Experten. Musst du auch nicht wieder jetzt Prompting für ein Generated Image Modell irgendwie lernen, sondern wenn du ein Promiting von ChatGPT gut bist, dann musst du halt nur den Skill optimieren und kriegst gleichzeitig das Image Modell auch noch mit und brauchst eben diese zwei Steps, die wir ja auch zum Beispiel in unserem Flow drin haben, auch gar nicht mehr. Also wenn Doli3 wirklich jetzt vergleichbar von der Qualität wird wie Mid-Journey oder Stabil Diffusion, dann wird es glaube ich noch viele der Prozesse vereinfachen und optimieren. Weil ich meine auch gerade der Flow bei Mit-Journey mit Discord und so weiter. Also wenn du da jetzt die API auch zur Verfügung bekommst, bin ich mal gespannt, ob Image Output dann auch in der API zur Verfügung steht, aber ich denke mal schon, kann es schon auch nochmal einen Push geben für Open AI, denke ich. Ja, ich meine den Vorteil, den halt Open AI jetzt hat gegenüber mit Churnier oder Stabil Diffusion, ist halt einfach den Zugang zu Kunden. Also wie viele Kunden hat ChatGPT jetzt? Kostenlose über 100 Millionen? Ich weiß nicht wie viele Pro User. Ich habe mir überlegt, ich meine sie gehen auf eine Milliarde Revenue mittlerweile. Also schon allein einfach der Zugang. Und wenn du dann sag ich mal eine gute Customer Experience und UX hast in der ChatGPT App und keine Ahnung so ein Pop up Displays zu leuten, hey, wollt ihr Dali testen? Und dann testest du, dann kommst du halt viel schneller an die Kunden und da musst du halt mit Journey halt, sage ich mal, mithalten. Ich meine, Discord ist jetzt nicht die benutzerfreundlichste. Das ist nicht. Dieser Use. Nee, also nachdem wir uns mal eingerichtet hat, ist es vollkommen okay. Aber es ist schon, ja, deswegen, also ich glaube da, wenn sie jetzt den Inhalt da wirklich gut machen, dann kann das schon schwierig dann werden für die für die anderen an mancher Stelle. Hätte daKonkurrenz. Aber ich muss noch eine Sache einwerfen, was wir am Anfang überhaupt nicht gemacht haben. Wir haben unsere Wette noch gar nicht abgeschlossen. Wir haben es nur geschrieben, aber wir hatten noch unsere Wette eigentlich mit der Keynote von Apple, wenn das neue iPhone vorgestellt wird, ob der Begriff AI fällt. Also ich weiß ja nicht, ob du was gehört hast. Also ich glaube, es war Generative AI. Aber. Ich. Glaube noch nicht mal, wir können es gerne noch weiter fassen und den. Begriff AI nehmen. Ja, nee, es war also für die, die es nicht mitbekommen haben. Die letzte Newsfolge war kurz bevor dem Apple Wunderlust Event und ich war der Meinung oder der Hoffnung, dass Apple sozusagen auf Passworts mit eingeht. Aber es würde kein Begriff Generative AIEs wurde nicht mal AI ganz viel. Es wird immer weiterhin Maschine Learning genutzt. Transformer kam einmal vor, aber ansonsten war es relativ rar. Aber ich meine, das Event war generell. Also es gab schon interessantere Apple Events, sag ich mal. Findest du nicht interessant, dass es USB C jetzt im iPhone gibt? Ich habe mir echt überlegt, eventuell das neue iPhone zu holen, aber ich habe halt absolut keinen Anreiz dazu. Ich meine, ich habe 15 Lightning Cables daheim rumliegen. Ich habe Airports, die auch ein Lightning-Kabel brauchen. Die Codocau die Airpods mit USB-C dann jetzt halt auch. Klar. Und ein kleines Upgrade gemacht. Ja, kleines. Günstiges Upgrade. Und ansonsten das ja, Titanium oder die Kamera ist jetzt ja. Ja, ne, auf jeden Fall nicht in den Markt, nicht in den Bockfeld. Aber ich meine, wenn es jetzt USB-C hat, ich meine irgendwann werde ich Upgraden und dann ist es schön, es zu haben. Von daher ganz nett. Und das war ja die ganze Zeit gemunkelt. Es hieß ja, es gab ja vorher auch, also war ja klar. Also ich meine, sie haben es glaube ich nicht aus eigener Intention gemacht, sondern weil es ja die EU Regulation dafür gab, dass es alle Geräte haben müssen. Aber da gab es ja die ganze Zeit die Spekulation. Apple hat ja nur gesagt, sie werden sich auch an diese Regeln halten. Da war ja die ganze Zeit die Spekulation. Okay, was heißt Regeln halten? Sie werden gar keinen Kabel mehr machen oder sie machen wirklich USB C. Jetzt wo es doch so einfach ist, wurde ja irgendwie gemunkelt mit der Größe, damit sie das iPhone so schmal halten können. So was hat auch noch den Grund, dass sie USB C nicht nehmen. Aber ging jetzt scheinbar doch. Von daher danke EU. Was vielleicht da dazu passt, gerade zu dem Apple Thema, iOS 17 soll ja auch mitkommen und man hat ja auf der WWDC, ich weiß nicht, Mai oder wann auch immer die war, angekündigt, dass man mehr Maschine Learning in die Tastatur mit rein bekommt. Und es gab einen Blogpost, das ist leider schon vom 8. September. Da hat jemand Reverse Engineering mehr oder weniger versucht herauszufinden. Zum einen ist das Modell on device, das Scrum Modell und zum anderen was für ein Modell, wie groß, wie schnell und was es tut. Und er hat dann sozusagen den Betabild runtergeladen und versucht mehr oder weniger, wann das genutzt wird, zurückzuverfolgen, wo es aufgerufen wird. Und Apple verwendet für ihr neues Autosuggestion oder Textgenerierungs-Feature in der Tastatur oder auch am Mac in den Nodes eine GPS2-Architektur. Und das Modell ist sehr, sehr klein. Es hat nur 64 Millionen Parameter. Zum Vergleich, das erste GPS2-Modell von Open AI 2019 hat 117 Millionen Parameter und aktuelle gängige Modelle, also LLMs, sage ich mal, haben ja von 7 Milliarden bis 70 Milliarden Parameter. Heißt, dass es wirklich zum einen interessant ist, weil es sehr klein ist, man weiß leider nicht, wie gut trainiert oder genau wie wie wie wie Capable es ist. Aber es sollte auf jeden Fall schnell laufen auf den iPhones. Und bisher, was man sieht, ist einfach nur ein bis zwei Tokens für Vollständigung. Also einfach das typische Retraining. Okay, ich schreibe einen Satz, welches Token oder Wort kommt als nächstes? Und das schlage ich dann vor. Gut, ich meine die UI selbst gibt ja nicht so viel mehr her als eins bis zwei Tokens die nächsten vorzuschlagen. Ja, und dann ja, aber cool. Von mir kann man den Blogpost, ich packe die mal rüber, packe ich mal in die Shownotes. Aber so sind wir ein bisschen abgeschweift. Von daher, ich weiß gar nicht, hatten wir irgendwas gewertet? Ich weiß es gar nicht mehr. Überweiß mir das Geld einfach. Ja. Cool. Aber wir haben noch ein paar andere Themen dabei. Es gibt ein neues Paper, Reverse Kurs, A ist B, aber B ist not A. Ja, warum ist A erst mal B? Ist die erste Frage wahrscheinlich. Aber warum B dann auch noch A ist? Was hat es damit auf sich? Geht es hier Buchstaben? Nicht nur. Also The Versal Curse ist sozusagen ein Paper, bei dem Researchers sich angeschaut haben, wie gut Modelle Wissen generalisieren. Also wir Menschen haben ja ein gutes Verständnis dafür, wenn A B ist, bedeutet auch B ist mehr oder weniger A. Wenn wir das jetzt in einem einfachen Beispiel versuchen zu übersetzen, ist meine Mutter hat einen Sohn, der heißt Philipp und Philipp hat eine Mutter zum Beispiel. Das wäre super einfach. Von dem einen kann ich auf das andere schließen. Oder Fabi hat einen Sohn. Das bedeutet, Fabi ist auch automatisch Vater. Alsowissen. Und sage ich mal, Researcher haben dann versucht, über zwei Methoden zum einen freie erfundene, sage ich mal, Zusammenhänge das Modell feinzutunen und dann zu sehen, ob das Modell versteht: Kann ich wieder, das sage ich mal, das Umgedrehte wissen? Also ist der Sohn von Frau 1, bedeutet das, dass Frau 1 auch die Mutter von dem Sohn ist? Sie haben festgestellt, dass aktuelle LLMs das gar nicht können. Also diedieses die die Reverseed Evaluierung droppt auf 0 Prozent. Also vorher konnte das Modell oder hat das Modell gewusst, wenn du gefragt hast okay, wer ist die, die wer ist der Sohn von Maria?, Hat es die richtige Antwort gegeben? Ich glaube, es war hier / Also es war Tom Kruse war das Beispiel. So, wer ist der Sohn von Marley? Und dann war die Antwort Tom Kruse. Und dann hat man gefragt okay, wer ist die Mutter von Tom Kruse? Und dann hat man das Modell irgendwas erfunden, weil es sozusagen nicht auf dieser Reihenfolge trainiert wurde. Und zum anderen haben sie es auch noch ausprobiert mit nicht finetuneten Modellen wie GPS4. Und das ist das selbe Problem und das zieht sich durch von allen Größen. Also kleine, kleinere LLMs wie Lama 7B bis hin zu GPS4 und den größten Open Source Modellen haben das Problem, dass man einfach nicht dieses, ja dieses, dieses Resining oder die logischen Zusammenhänge, die wir Menschen gut verstehen, abbilden können. Es müsste sozusagen einfach beide Fakten müssten im Trainingsnetz so ein bisschen mit drin sein. Also dass Marry L. Die Mutter von Tom Crew ist, wird wahrscheinlich häufiger mal irgendwo in den Trainingssitzung drin sein, weil Tom Crew sehr bekannt ist und irgendwie die Information irgendwo steht. Aber es wird weniger Artikel darüber über Marry L. Geben und wer ihr Sohn ist sozusagen. Genau. Ja, ich finde es auf jeden Fall sehr interessant. Viele meinen, man kann es natürlich auf den Zusammenhang schließen, dass diese LLMs immer von links nach rechts lernen. Also ich versuche ja immer das nächste Wort zu prädikten. Das heißt. Ich. Lerne nicht das Umgedrehte. Also ich gehe nicht sozusagen von rechts nach links und weiß dann okay, der Sohn Tom Kruse, die Mutter ist Marie-Lee oder halt umgedreht. Ist auf jeden Fall ein sehr, sehr interessantes Paper und zeigt auch relativ deutlich, dass wir noch nicht, sage ich mal, bei AGE sind und unsere LLMs halt einfach sehr, sehr große Wissensdatenbanken gefühlt sind, die halt gut Pattern wiedergeben können, wenn sie darauf gefeintuert wurden, aber man nicht zu viel erwarten sollte. Wahrscheinlich könnte man überUse of View Short Prompting und Step by Step Erklärungen definitiv auf die Antwort kommen. Aber man hat ja wirklich explizit versucht okay, ist das Wissen Reverseable sozusagen? Ja, schonDas ist ja auch nur mit deiner Aussage zu hören, merkt man, dass man von ADI noch ein bisschen weiter entfernt ist. Also irgendwie gefühlt, also vor diesem Paper hätte ich fast so ein bisschen erwartet, dass die Modelle das hinbekommen. Wenn mich vorher gefragt hätte, wenn sie die eine Richtung, dann können sie auch die anderen. War für mich schon so ein bisschen neu. Man macht es wahrscheinlich selten so, aber witzig ist, dass dann meistens irgendwelche Halluzination-Cases dann auch sind, dass sie dann irgendwas frei erfinden. Deswegen ja sehr, sehr interessantes Paper. Ja, es ist halt so, ich sage mal, was daran wieder schön ist. Also zum einen ist es schön, dass die Forscher, sage ich mal, gerade diese Dinge untersuchen und dass auch die Ergebnisse geteilt werden. Und was halt so ein bisschen, sage ich mal, ein Dilemm ist, jetzt mehr oder weniger hat jetzt ein unabhängiges Forschungsteam herausgefunden, wo sage ich mal eine Schwäche von GDPT4 ist und OpenAI bekommt die Informationen, sage ich mal umsonst durch das Paper und die Daten und was sie getestet haben. Klar, man weiß nicht, ob OpenAI so was ähnliches... Was sie vielleicht bereits selber herausgefunden hat, aber die können halt, sage ich mal, jetzt wieder das Wissen nutzen, ihr Modell verbessern, vielleicht Zeit und Geld investieren, zu schauen okay, wie kann ich dieses Problem lösen, neues Modell trainieren und halt ihr Wissen nicht teilen? Das ist, sage ich mal, halt so ein bisschen schade. Ja, das stimmt allerdings. Und im Nachgang, das lässt sich mal leicht sagen, sie wussten es auch vorher schon. Aber auch das werden sie wahrscheinlich nicht sagen. Von daher. Ja, cool. Ein kleines Thema noch. Wir haben ein bisschen wieder, es wäre keine AI News, wenn wir uns nicht über Investmentrunden unterhalten würden. Ich glaube Amazon hat ein bisschen Geld ausgegeben, oder? Genau. Amazon investiert bis zu vier Milliarden US Dollar in Anthropic. Anthropic ist für die, die es nicht wissen, sozusagen der größte oder der ambitionierte, ambitionierteste Konkurrent zu Open AI Anthropic. Es baut auch ein LLM namens Cloud und auch fokussiert sich auf Conversational AI, kommt aus dem Silicon Valley. Und Amazon investiert sehr viel Geld dafür, dass Anthropic ihre produktionskritische Infrastruktur auf AWS hostet und dass sie sozusagen ihre Modelle in AWS Services sozusagen zur Verfügung stellen. Also Amazon hat ja Badrock angekündigt, so ein als LLM Service so ähnlich wie zu Open AI auf Azure und Cloud soll sehr tief darin integriert werden und Kunden auch die Möglichkeit geben, Cloud dann zu findunen auf ihren Daten und eventuell noch in anderen AWS Services zu Hause finden. Und sobald ich, also wenn ich es richtig gelesen habe, ist der initiale Invest 1,5 Milliarden und dann kann sich das sozusagen wahrscheinlich abhängig von Metriken, Use Cases, Zeit auf bis zu 4 Milliarden erhöhen. Aber am Ende ist es eigentlich mehr wahrscheinlich Geld und CPUs oder andere Compute, sage ich mal, die ein Tropic jetzt hat dadurch, dass sie das Geld von AWS bekommen. Das, was ja natürlich auch benötigt wird auf Ihrer Seite. Genau. Sehr cool. Dann kommen wir doch jetzt schon mal zum Ende für unsere AI News, oder? Wir hatten zwar noch, also es gibt ja immer viel auf jeden Fall, unsere Brainstorming Liste hält durchaus noch ein paar andere Stichpunkte bereit, aber die halbe Stunde haben wir voll. Ich würde sagen, wir rappen es ab für heute oder Philipp? Perfekt. Ja. Vielen Dank euch. Vielen Dank fürs Zuhören. Gebt uns wie immer gerne Feedback. Ein Podcast at Programmier. Bar oder schreibt uns auf X Twitter oder wie auch immer diese Plattform heißt. Und genau ansonsten Spotify Feature zum Feedback da lassen. Natürlich auch gern gesehen. Habt einen schönen Tag und bis zum nächsten Mal. Ciao. Danke, Philipp. Tschüss.

Speaker Info

  • Philipp Schmid Profile

    Philipp Schmid

    Philipp Schmid ist Technical Lead und Machine Learning Engineer bei Hugging Face, einer Firma, die gutes Machine Learning durch Open Source und Open Science demokratisieren möchte. Der junge Nürnberger und AWS Machine Learning Hero hat sozusagen die deutsche Variante von ChatGPT entwickelt und darüber auf seinem Blog geschrieben. Checkt sie im Playground aus!

    Mehr Infos
Feedback