News AI #3 –

GPT4 Leak // Inflection AI // MPT 30B & Mosaic.ai Acquisition // Salesforce XGen 7B

05.07.2023

Shownotes

In der dritten AI News unterhalten wir uns über das neue LLM von inflection.ai, welche im Mai ihren persönlichen AI-Assistenten Pi released haben. Wie es dazu kommt, dass ein einjähriges Startup ein Funding von 1,3 Milliarden Dollar von großen Namen wie Bill Gates etc. bekommt, beleuchten wir ein wenig genauer.

George Hotz hat ein wenig Licht ins Dunkle rund um die GPT-4 Architektur gebracht. Scheinbar steckt hinter GPT-4 doch nicht das >1T Token-dense Model, was viele gedacht haben.

Salesforce hat ebenfalls ihr erstes Open Source LLM auf der Architektur von Llama released: XGen 7B.

1,3 Milliarden Dollar scheint ein Betrag zu sein, den es häufiger im AI-Umfeld gibt. Databricks hat Mosaic.AI für 1.3 Milliarden Dollar gekauft, kurz nachdem sie ihr neues LLM MPT-30b released haben.

Soundtrack composed by AIVA (Artificial Intelligence Virtual Artist)

/transkript/programmierbar/news-ai-3-gpt4-leak-inflection-ai-mpt-30b-mosaic-ai-acquisition-salesforce-xgen-7b
Hallo und herzlich willkommen zu einer weiteren Folge der Programmier bei AI News. Mittlerweile schon die Folge drei und neben mir dem Fabi ist wie immer dabei der liebe Philipp. Hi Philipp. Hallo. Wir haben jetzt wie die letzte Male auch vier Themen für euch dabei rund das Umfeld der AI. Und zwar hat Mosaik ein neues Modell rausgebracht, MPT und wurde auch gleichzeitig aufgekauft, auch zu uns gleich mal drüber unterhalten. Salesforce hat ebenfalls neues Modell rausgebracht, X-Gen. Wir unterhalten uns über Inflation AI und was die für ein Lerche Language Model rausgebracht haben bzw. Über das Funding, die sie erhalten haben. Und es gibt wohl ein paar Daten zu GPT vor. Bisher war ja ein großes Geheimnis darum, wie groß dieses Modell eigentlich ist. Und vielleicht gibt es etwas genaueres dazu. Philipp, lass uns mal einsteigen mit Mosaik und dem Modell, was sie herausgebracht haben. Was gibt es. Da Neues? Mosaik hat vor ein paar Monaten schon ihre MPT Model Family vorgestellt, welches einfach ein Decoder Modell ist, ähnlich wie JET-GPT, GPT4 und alle anderen, sag ich mal, NLMs aktuell. Und damals haben sie einen 7-Milliarden Checkpoint releast und seitdem haben sie ein größeres Modell trainiert, welches jetzt 30 Milliarden Parameter hat. Das hat dann somit die Parameteranzahl von dem zweitgrößten Lama Modell. Also es gibt auch ein Lama Modell mit 30 Milliarden Parameter. Das ist sozusagen die Idee dahinter gewesen von MPT 30b. Das Modell ist releast unter Apache 2.0 heißt, man kann es für kommerzielle Zwecke nutzen. Es wurde ebenfalls wie die Lama Modelle und auch MPT 7b auf einer Milliarde Token trainiert. Und was sehr interessant ist, ist es das erste oder der erste Model Release, den wir sehen, welcher teilweise auf den neuen NVDH 100 trainiert wurde. Also NVDH hat ja letztes Jahr den Nachfolger zu A100 CPUs vorgestellt, welche H100 genannt werden. Und das ist das erste LLM, was wir sehen, was wirklich releast wurde und teilweise auf den neuen CPUs trainiert wurde. Von technischer Seite aus, was vielleicht eventuell interessant ist, sie nutzen LAPI Embeddings, welches es ermöglicht hat Mosaik das Modell nach dem Pre-Training auf einer größeren Sequenz Länge fein zu tun. Das heißt, das Modell wurde am Anfang auf, ich glaube 2048, ja 2000 Tokens trainiert, auf den ein Milliarden, eine Trillion oder Milliarden Tokens sozusagen und wurde dann nachschließend auf einem Kontext von 8000 Tokens, also viermal so groß, weiter trainiert. Und da sie sozusagen LLB genutzt haben, war das möglich, die Sequenz Länge von 2.000 auf 8000 Token zu erweitern und somit hat man halt Input von 8000 Token und nicht 2.000 Token, welches zum Beispiel Lama hat nun eine Sequenz Länge von 2.000 Token oder Falken hat auch nur eine Sequenz Länge von 2.000 Token. Dasdas ist sehr, sehr cool. Modelle natürlich, ähm, Available on Hacking Phase. Neben dem Pre-Train Modell hat Mosaik noch einen Instruktion und ein Chat Modell releast, welches man auch direkt testen kann. Aber das Chat Modell kann man nicht für kommerzielle Zwecke nutzen, da es halt wieder auf mehr GPS Synthetik generierten Daten trainiert wurde. Genau. Und ich glaube nur ein oder zwei Tage später kam eine sehr interessante Nachricht anhand von zwei Blogposts, dass Mosaik sich DataPrick anschließt oder eher gesagt DataPrickx hat Mosaik gekauft für eine stolze Summe von 1,3 Milliarden US Dollar oder 1,3 Billion. Das ist eine Größe, glaube ichDas ist ja auch ein Geld, die sich noch durchzieht durch diesen Podcast. 1,3 Milliarden, wenn wir später doch mal in einem anderen Kontext. Ja, was vielleicht ganz interessant ist Mosaik wurde 2021 gegründet, also es ist gerade mal zwei Jahre alt und hatte oder hat nur 62 Mitarbeiter. Das heißt, das durchschnittliche Geld, in welcher Form auch immer das von Databricks zu Mosaik übergetragen wurde, bewegt sich im zweistelligen Millionenbereich pro Mitarbeiter, was dann, ich sage mal ein ganz interessanter Return of Invest war für alle, die bei Mosaik angefangen haben oder gearbeitet haben. Und es kommt auch ein bisschen unerwartet bzw. Es ist die erste Acquisition von einem Startup im Open Source Bereich. In der Höhe. Und weißt du, ist eigentlich Mosaik, wo die sitzen, sitzen die im Valley oder sind die verteilt? Also der Großteil sitzt in San Francisco. Okay. Ja, 1,3 Milliarden ist auf jeden Fall eine stolze Summe. Und wie du sagst, weiß man denn, ob alle der Mitarbeiter beteiligt waren am Unternehmen, oder? Also normalerweise ist es typisch, dass wenn du bei einem Startup anfängst, was in einer Early Stage ist, dass du Stock Options oder sag ich mal irgendwelche Anteile bekommst. Und da Mosaik Teil von Data Bricks wurde, wurden diese Stock Options höchstwahrscheinlich entweder umgewandelt zu Data Bricks Stock Options oder auch entgeldisiert. Aber bei den 1,3 Milliarden ist wahrscheinlich das wenigste Geld, was von A nach B geflossen ist wirklich Cash, sondern Unternehmensanteile oder irgendwelche Shares, sag ich mal so. Ja, auf jeden Fall interessant. Direkt mit dem mit dem Release des Modells dann erquiert worden. Und zwei Jahre ist auf jeden Fall auch keine lange Zeit. Ich fand noch mal interessant, was du gerade gesagt hast bei dem Modell, dass es auf 2.000 Tokens trainiert wurde und dann später jetzt nach dem Feintuning noch mal mit 8000 Tokens funktioniert. Ist es denn grundsätzlich so, dass so wie ich die Modelle trainiere, am Ende auch entscheidend ist, mit wie viel Token ich es benutzen kann? Jein. Also in. Dem Fall ja schon mal nicht. Aber ist es was? Genau. Also ja, man hat es so, also nicht jedes Transformer Modell ist dasselbe. Ich meine alle haben irgendwie den Intention Mechanismus als Teil ihrer Architektur, aber sozusagen der erste Layer ist ein Embedding Layer normalerweise und der normale Embedding Layer oder auch was wir kennen von BERT hat immer noch ein Positional Enkoding Layer dazu, welches mehr oder weniger zusätzliche Informationen liefert, an welcher Stelle welches Wort im Satz oder im Text steht, was unglaublich hilfreich ist, weil das Modell hätte man das nicht, würde es nicht wissen, wie die Sätze zusammenhängen oder welches Wort an welcher Stelle steht. Und es gibt verschiedene Arten von Embeddings oder Encoding, die man benutzen kann. Das, welches, was bei BERT oder Ruberta und bei den Enkoder genutzt wurde, ganz viel ist, ist das positionelle Enkoding, welches wirklich nur die Range versteht, auf der es trainiert wurde. Und andere Beispiele sind Alaba, welches, sage ich mal, dieses nicht mehr hartcoding die ID hat, sondern mehr über Sinus Kurven geht. Umso kleiner du wirst, umso weiter weg bist du. Und dann gibt es auch noch Rotary Embeddings, welche so ähnlich funktionieren wie Alaba, welche ich auch extenden kann. Das ist auch, was wir in den letzten zwei Wochen ein bisschen gesehen habe, dass da aktuell sehr viel Forschung passiert, wie man die Kontextlänge von Modellen nachträglich noch erweitern kann. Und eine Methode oder was Mosaik schon eh und je genutzt hat, war LRBI, weil ich das einfach trainieren kann und dann nachträglich sozusagen vergrößern kann. Interessant. Ja, cool. Ich glaube in dem Anschluss passt es eigentlich immer ein bisschen über Inflation zu unterhalten, weil da glaube ich viele Punkte, die du gerade angesprochen hast, zumindestens Schnittmengen gibt. Und zwar Inflation AI ist jetzt ein Unternehmen, was es seit einem Jahr gibt, die vor einem Monat PI AI rausgebracht haben. Inflation AI hat so ein bisschen die Vision, den persönlichen AI Assistenten zu bauen und gegründet von drei Leuten, von Sileman, der vorher ich glaube Deep Mind mitgegründet hat, was dann später aufgekauft wurde und jetzt mittlerweile die zweite Funding Runde gemacht hat. Und da haben wir jetzt nämlich wieder das gleiche, wie wir es gerade vorhin gesagt haben. Sie haben 1,3 Milliarden eingesammelt. Das letzte Funding, was sie glaube ich hatten, war im Januar mit 225 Millionen, wo auch schon große Namen investiert haben. Witzigerweise auch Will I am, der Rapper, aber auch schon damals Bill Gates und Microsoft. Und jetzt haben sie 1,3 Milliarden eingesammelt, hauptsächlich von den Corporates von Microsoft und Nvidia, haben aber auch wieder drei große Privatinvestoren, Read Hoffman Co-Founder von LinkedIn, der auch selbst Gründungsmitglied von Inflation AI ist, aber auch Bill Gates und Eric Schmidt, der früher mal CEO von Google gewesen ist. Also auch hier eine stolze Summe. Ich weiß es nicht, korrigiere mich gerne mal, Philipp, aber ich habe noch von keinem größeren Funding gehört als jetzt von Inflation AI im gesamten AI Umfeld. Und da auf jeden Fall auch interessant, dass sie, also ein Großteil, sie haben jetzt keine besonderen Details dazu gegeben, in welcher Form dieses Funding stattgefunden hat, aber ein Großteil auf jeden Fall auch in Dollar, sodass sie auf jeden Fall viel monetäre Mittel haben, jetzt große Language Model zu trainieren bzw. Sich ein großes AI Cluster überhaupt aufzubauen, die Modelle zu trainieren. Sie haben jetzt nämlich gerade ihr LLM rausgebracht in Flexion One, das erste, auf dem auch PIAI basiert. Und das haben Sie jetzt schon auf mehreren Tausend, hatten wir ja vorhin auch schon mit NVDH 100 Grafikkarten trainiert und mit diesem neuen Funding von 1,3 Milliarden, wo jetzt auch NVDH mit drin steckt, bauen sie, ich würde sagen, aktuell das größte AI Cluster auf, das es so gibt mit 22000 CPUs von NVDH 100 auch hier wieder. Und auf jeden Fall sehr interessant. Also Ihre eigenen Benchmarks, die Sie in Ihrem Paper veröffentlicht haben zu Inflation AI, da vergleichen Sie sich mit allen in derselben Compute Klasse, wobei sie gesagt hat Compute Klasse bedeutet alle, die eine bestimmte Flop Menge, ich glaube das maximale, was sie drin haben, war Google's PAM 540 B, also 540 Milliarden Parameter Modell, wo sie gesagt haben, mit dem vergleichen sie sich und da out performen sie eigentlich jedes der Modelle in den verschiedenen bekannten Tests wie MMLU, als auch da, was sie besonders hervorheben, weil sie da besonders gut sind, ist Trivia QA und sagen, dass eigentlich von der Performance her nur noch besser dann wäre PAM 2 oder auch GPT4, wobei sie sagen, dass sie da nicht in derselben Computerklasse sind, aber wohl auch vorhaben, in der nahen Zukunft ein Modell in der ähnlichen Compute-Klasse zu releasen. Ich meine, wenn Sie dann das Cluster haben und mit dem Investment wäre es ja auch strange, wenn nicht. Wobei, werden es bestimmt auch gleich noch darüber unterhalten, was jetzt eigentlich genau die Compute-Klasse von GDP4 ist, nach den letzten Informationen, die es dazu gibt. Genau. Ich glaube, was halt interessant ist oder wo man auch ein bisschen vorsichtig sein sollte, ist, Sie reden ja jetzt von 1,5 Milliarden US-Dollars, aber im selben Zug erwähnen sie ja den Cluster. Das heißt, es muss nicht unbedingt sein, dass Sie sozusagen jetzt auf Ihrem Konto 1,5 Milliarden haben, sondern es kann auch sein, dass es sozusagen so direkt ein Trade-off war mit Compute, dass Sie halt mehr oder weniger diese Credits oder diese CPUs bekommen und die dann vielleicht schon 70 Prozent des ganzen Fundings ausmachen und nie wirklich Cash von A nach B geht. Ich meine, so wie es sich liest, ist NVD ein sehr stark vertreten in der Investitionsrunde und ich meine, das Geld fließt von der einen Tasche in die andere Tasche, wenn NVD da irgendwie 700 Millionen oder sowas bereitstellt und dann sie davon 22000 CPUs kauft und dann ist es so linke Tasche, rechte Tasche mehr oder weniger. Ja, definitiv. Also wir haben ja deswegen auch nicht genau gesagt, was das jetzt bedeutet. Es hieß nur ein Großteil in Dollar, was auch immer das jetzt irgendwie bedeutet, ob das jetzt heißt 70, 30 oder ob die 30%, die du gerade aufgemacht hast, überhaupt dann in Dollar sind oder noch weniger. Was noch ganz interessant ist, also man kann PIE testen. Man kann einfach auf PIE. Ai/talk gehen und dann kann man anfangen mit dem zu schreiben. Ich habe es mal getestet und ich habe, sage ich mal, immer so ein bisschen eine unfaire Frage, die ich immer versuche Modelle zu fragen, weil es ist immer schwierig. Okay, was ist eine Zahl und was ist keine Zahl? Und ich habe gefragt What is a number, ending with an E? Und für uns ist es eigentlich ganz logisch. One endet ja auch mit einer E, aber ganz, ganz oft wissen oder es ist schwierig für Modelle zu verstehen, dass die Ziffer eins auch gleich der Zahl One ist. Und Pia hat dann geantwortet You mean a number,ending with an E? That's an important question. The are no number in the usual Sense that end with an E. But there are mathematical constante that do end with an E. And then I said Okay, What about one? You are funE. One knows't end with an E. Hast du Beispiele von anderen LLMs, die darauf antworten? Ja, ich habe auch schon. Ich habe Lama getestet und JGPT und alle tun sich so ein bisschen schwierig. Was man dann noch machen kann oder was ich auch immer versuche, ist dann sozusagen zu fragen: „Kann you Count to 10?, But skipp all numberending with an E. Und das ist auch keine Chance, dass sie das bisher richtig hinbekommen. Da wird einfach eins mit aufgezählt. Und ja, Interessant. Gute Frage. Aber auf jeden Fall ist es eine gute Testfrage, die man in sein Portfolio mit aufnehmen kann. Aber es ist definitiv interessant und was man merkt, wenn man mit PIE spricht, sag ich mal, es ist sehr, sehr mehr an Umgangssprache orientiert und es verwendet auch echt viele Emojis von dem, was ich bisher sozusagen getestet habe. Und es ist bisher nur Englisch. Also ich habe bisher nur die App getestet. Ich glaube, es gibt ja sowohl die Website als auch eine PIE App als auch als WhatsApp Chatbot glaube ich, den man benutzen kann. Interessant. Ich meine, das ist halt so ein bisschen die Frage, was hebt jetzt Inflation AI so besonders hervor? Ich glaube die Inflation wird ja jetzt als API zur Verfügung gestellt. Aber ihr absolutes Ziel ist ja wirklich diesen Personal Assistant zu bauen und End-User Produkte zu bauen. Das ist ja schon so ein bisschen ein Unterschied von manch anderen Ausrichtungen der, den AI Companies, über die wir uns bisher so unterhalten haben. Und auch irgendwie interessant, dass sie sich ja als Public Benefit Corporation eingetragen haben. Das ist ja so ein bisschen ein Vergleich irgendwie. Andere amerikanische Unternehmen, die sind ja irgendwie Patagonia als auch irgendwie, ich glaube, was war es noch, Ben & Jeries und sowas. Also so ein paar der größeren Unternehmen, wo sie sich ja am Anfang, die Besonderheit von Public Benefit Corporation ist ja, dass sie am Anfang sich eigentlich an ein Statement halten müssen, was genau dieser Public Benefit ist und dann sich auch Assessments vom Staat unterziehen müssen, zu beweisen, dass sie diesem Claim sozusagen folgen. Und grundsätzlich müssen sie dann immer den Wunsch der Stakeholder oder Benefit der Stakeholder mit diesem Public Benefit abwägen. Und der Public Benefit bei ihnen ist in dem Fall, dass sie eine AI bauen wollen, die sozusagen zukünftigen Generationen als auch jetzigen Generationen Gutes tut und sozusagen immer denen ja im Endeffekt eine Unterstützung für den Nutzer ist und eben keinen negativen Bias irgendwie hat. Ist so ein bisschen ihr Claim. Da bin ich mal gespannt, inwiefern sie das wirklich tun bzw. Inwiefern sie man Accountable dafür halten kann, wenn sie es mal nicht schaffen. Ich glaube, was noch ganz interessant ist für die Zuhöre ist, PIE hat kein Coding Support. Also ich kann es nicht fragen, wie ich irgendwie in JavaScript Array filter, was doch schon ganz interessant ist, weil ich meine, wie viele nutzen JGPT, besser zu coden oder effizienter zu koden oder halt einfach diesen Boiler Plate zu vermeiden? Ja, definitiv interessant. Man hat direkt so ein bisschen die Vibes von dem Film her, so ein bisschen das, mit dem man es direkt vergleicht. Ich glaube, was noch so oder ein Startup, das in dieselbe Richtung geht, ist Character AI, welches wirklich auch mehr oder weniger Personal Assistant baut, aber anhand von Public Figures, also dass ich, da kann ich zum Beispiel mit Elon Musk chatten, wenn ich möchte. Und da ist der Fokus mehr Entertainment und Unterhaltung als meine Produktivität zu steigern. Also der Gedanke hinter Characters und vielleicht auch hinter PIE ist okay. Anstelle von, dass ich am Abend YouTube schaue oder auf Instagram durch Reelscroll schreibe ich halt mit Elon Musk oder mit Super Mario oder irgendwie sowas. Also es ist echt sehr interessant. Und PIE geht ja dann eher noch so ein bisschen in die Richtung, so was wie soll Tag organisieren helfen, aber generell auch Zukunftspläne, also dass man eigentlich alles mit PIE bespricht und PIE sozusagen ja der Assistent wird, mit dem man auch keine Ahnung hier Beispiel, Living a Slow Day und irgendwie willst du einfach nur ein bisschen Entertainment werden, aber auch time to make it change. Also du bist irgendwie unsicher, was sind meine nächsten Steps, so im Kleinen als auch im Großen? Und da soll PIE einem dann helfen. Bin ich mal gespannt, ob diese Vorstellung Wirklichkeit wird. Also meine ersten Versuche so ein bisschen mit PIE waren dann eher naja, wollte sich viel über die Arbeit unterhalten, ob das jetzt nicht so Lust hatte, mich mit PIE drüber zu unterhalten. Schwierig vom. Arbeitsklima weg. Weißt du, ob sie die Daten speichern? Das war ehrlich gesagt einer der ersten Gedanken, die ich hatte, als ich dann direkt die Frage war: Was ist dein Job? Was machst du? Was tust du denn da eigentlich so an einem lieben langen Tag, wo ich auch dachte, irgendwie hat es sich schon mal direkt irgendwie angefühlt, ohne zu wissen, was sie eigentlich jetzt genau mit diesen Daten tun. Aber hat man irgendwas, wenn man die App sich runterlädt und installiert, kommt da irgendein Prompt, so von wegen „Hey, deine Daten werden aufgezeichnet, das Modell zu verbessern? Nein, es gab keinen Prompt, als ich es installiert habe. Interessant. Ja, man steigt direkt in die Unterhaltung ein. Lass uns doch mal uns, weil es im Anschluss glaube ich ganz gut passt, über GPT4 unterhalten und so ein bisschen die Rumors, die hier geleakt wurden, von oder die Rumors, die vielleicht bestätigt wurden oder die Rumors, die vielleicht bestätigtoder auch nicht von George Hots, den wir auch schon in früheren Podcastfolgen haben, man kennt ihn als Founder von Koma AI, dem Self-Driving Startup, aber ich glaube eher noch auf seinen Hacking-Zeiten, dass einer der ersten war, der das iPhone gehackt hat als auch, ich glaube, Playstation 3 war es damals, was er gehackt hat. Und er hat in einem Podcast darüber gesprochen, wie eigentlich die Architektur bzw. Das Modell hinter GPT 4 ist. Und er gab es ja die ganze Zeit die Rumors. Wir sind jetzt ein monolithisches Modell, was über eine Trillion Parameter hat, gab aber auch ein paar andere Thesen. Und die These, die Gerd Schatz jetzt sozusagen in den Raum gestellt hat und auch von anderen bestätigt wurde, wie Sumit Chintala, der Co-Founder von Py Torsch, aber auch nicht ganz direkt. Aber der Microsoft BING AI Lead Michael Parakin hat es auch zumindestens wenn man es mit den Informationen von George Hots verbindet, im Grunde genommen bestätigt. Aber take it. With a brain of Salt sind auch wie gesagt keine offiziellen Statements von Open AI. Aber was George Hots sagt ist, DPD4 ist gar nicht, wie man es denkt, ein singuläres monolithches Modell, sondern es ist ein Mixer aus vielen verschiedenen bzw. In dem Fall aus acht, die jeweils 220 Milliarden Parameter haben. Man kennt das Modell als das Mixer of Experts Modell. Das heißt, man hat verschiedene Modelle, die alle auf verschiedene oder Experten in verschiedenen Feldern sind, sozusagen acht Mal trainiert wurden und einfach acht Modelle hat, die dann zusammen mit einem orchestrierenden Layer, der dann darüber noch mal bewertet, je nach Anfrage, welches Modell stärker bewertet wird oder nicht, dann im Endeffekt das Gesamtmodell ergeben. Das heißt in Summe haben wir zwar über die 1,6 Trillionen Parameter, aber eben nicht wie erwartet diesen Breaktho, das eine monolithische Modell, was so viele Parameter hat und so ein bisschen unterstützend kann es auch gut sein, dass es dieses Mix of Experts ist schon ein bisschen älter, glaube ich, von 2021 auch von Mitarbeitern bei Google entwickelt. Und wer hätte es gedacht? Zwei dieser Mitarbeiter sind auch mittlerweile von Open AIher schon seit einer ganzen Weile lang, was natürlich auch diese These noch so ein bisschen ein bisschen unterstützt. Aber ja, jetzt so ein bisschen halt die Frage ist jetzt GDP4 wirklich der Breaktho, den man da so reininterpretiert hat? Oder ist es eigentlich nur ein guter Marketing Trick, den Sie da gemacht haben, indem Sie einfach nichts darüber erzählt haben? Also man sich jetzt so ein bisschen fragt, haben Sie nichts darüber erzählt, wie es eigentlich die Rumors waren, weil sie sozusagen einfach einen Vorsprung gegenüber den anderen Unternehmen als auch Open Source haben und sozusagen diesen Wettbewerbsvorsprung beibehalten wollten oder einfach eher, weil der Breakthro gar nicht so groß ist und so mit den ganz das Ganze ein bisschen verschleiern konnten? Ich meine, kann man schon jetzt viel drüber diskutieren, du wirst auch eine Meinung dazu haben. Aber grundsätzlich, was man auf jeden Fall sagen kann, GPT4 funktioniert trotzdem in der Bedienung einfach besser als alles andere, was wir bisher so gesehen haben. Von daher ist es die Frage, ist es denn, auch wenn es jetzt nicht der Breakthrough ist, den man gedacht hat, ist es natürlich trotzdem ein Produkt, was einfach sehr gut funktioniert. Was sagst du, für wie verlässlich hältst du denn die Quellen? Ja, ich finde, ich meine, George Hott ist ja ein bisschen dafür bekannt, dass er doch immer seine Meinung äußert. Das war ja auch derjenige, der kurzzeitig bei Twitter war, die Suche zu fixen mit dem 10X-Engineer. Und. Ich bin mir sicher, dass es, wenn du im Silicon Valley unterwegs bist, dass es schon diese Rume davor gab. Was er jetzt geteilt hat, ist das, was wir am Anfang wussten, was jetzt ja auch, sage ich mal, sechs Monate wieder her ist. Also es kann sein, dass sich seitdem die Architektur geändert hat, dass sie es, ich weiß nicht, destilliert haben, vergrößert haben, angepasst haben, das weiß man ja alles nicht. Ich gehe davon aus, dass OpenAI niemals was dazu sagen wird. Also weder bestätigen noch irgendwie verleugnen. Was aber dann halt doch ganz cool zu sehen war, ist, dass halt Leute auch wie du genannt hast, der Co-Founder von Pythorch kam und gesagt haben Hey, ich habe vielleicht eventuell Ähnliches gehört und es gab noch ein paar mehr. Das heißt, man kann eigentlich dem gewissermaßen ein bisschen mehr vertrauen als alles, was man zuvor auf Social Media gesehen hat, wenn man ein paar Quellen halt doch hat. Was ich ganz interessant finde, also Mixed of Export Modelle sind nicht neu. Google hat Switch Transformer heißt das Modell, welches sie trainiert haben, was auch eine Million Parameter hatte. Microsoft hat da ganz viel mit ihrem Touring Set oder C Projekt gemacht mit einem Mixed of Export Modell, was relativ groß ist. Und der Vorteil, den Mixed of Export Modelle haben, ist, dass sie sozusagen mehr Computer-Effizient sind als Denns Modelle. Das heißt, wenn man annehmen würde, okay, wir hätten jetzt 1,6 Milliarden Billionen, also 1,6 Billionen Parameter, ich weiß jetzt nicht genau, wie die richtige Umrechnung ist, als Denns Modell bräuchte ich Memory X und Compute Y und für ein Mixed of Export Modell brauche ich trotzdem Memory X. Aber mein Compute ist viel geringer, da ich nur sozusagen in den einen Expertenpfad reingehe und nicht durch das komplette Denns Modell alle Operationen durchführen muss. Also das ist sozusagen der Vorteil davon und das ist auch ein Vorteil gerade beim Trainieren. Das heißt wahrscheinlich oder es könnte sein, dass sie für ein Mixed of Export Modell gegangen sind in der Größe, weil es eventuell gar nicht möglich gewesen wäre ein Denns Modell zu trainieren. Und man sieht auch, dass sozusagen Mixed of Export Modelle relativ gut mit skalieren im Sinne von was sie können. Also wenn man gerade diesen Thresh-Rode überkreuzt, wo sich GDP4 bewegt, heißt es nicht unbedingt, dass ein Dense Modell besser gewesen wäre bzw. Wir wissen es halt einfach nicht, weil noch kein Modell in der Größe trainiert wurde. Und was noch ganz interessant ist, ist, dass sie, ich weiß jetzt nicht genau, wie es richtig funktioniert, aber Georg sagt, dass sie nicht nur eine Inference-Request sozusagen machen, sondern 16 und das wieder irgendwie zusammenführen und wie so eine Art Ensembple haben und halt... Ja, iterativ hat es für mich. Genau. Also ich habe es irgendwie so interpretiert, als wäre es wirklich 16 mal hintereinander, sonst wäre es ja nicht unbedingt iterativ, oder? Was vielleicht auch ein bisschen erklären würde, warum GDP4 dann auch gerade bei den Requests eine ganze Ecke länger dauert als GPS 3.5 noch? Ja. Aber zumindest nicht meint, wenn man jetzt davon ausgeht, dass es nicht ein Denns Modell ist, dann doch wiederum die Frage, vorher haben wir gesagt, Open Source ist doch noch ziemlich weit weg von dem, was Open AI da irgendwie geschaffen hat, zusammen mit der Information jetzt, dass es ein Mixed of Experts Modell ist und gar nicht das eine große ist. Ist das Ganze aus deiner Sicht jetzt wieder ein bisschen näher zusammengerückt oder? Ich weiß nicht. Es ist schwierig zu sagen, weil A) wissen wir es nicht und B) ich meine, wir wissen, wie GDPT4 evaluiert wurde aktuell und alle, sage ich mal, Open Source Modelle sind doch noch ganz schön weit weg auf der Generalisierung für was sie können. Ich meine, man sieht immer wieder, dass Open Source Modelle für einzelne spezielle Use Cases ungefähr gleich gut performen. Aber GPST4 ist halt eigentlich nur dieses eine Modell, was halt alles kann. Das heißt, bis wir irgendwie irgendwann ein Open Source Modell haben, was ebenbürtig gut ist, dauert es wahrscheinlich noch ein bisschen. Also auf der breiten Masse an Aufgaben, die es kann. Dann bin ich mal gespannt, wann wir unser erstes haben. Da ist dann wiederum die Frage, wie das überhaupt ist. Also so ein Mix auf Export Modells, aberDas ist dann schon eher wirklich eine Form von Produkt. Also man würde man ein Mixed of Export Modell ist ja jetzt nichts, was man jetzt so bei euch auf Hacking Phase als Open Source Modell releasen würde, oder? Das ist ja dann schon eher so ein Infrastruktur Thema, oder? Oder habe ich da eine falsche Vorstellung davon von dem Mixed of Export Modell? Könnte ich sowas auch als Model bei euch auf der Plattform releasen und mit euren Inference Endpoints starten. Wahrscheinlich ist da schon ein bisschen mehr komplexere Architektur hintendran, oder? Nee, nicht unbedingt. Der Switch Transformer von Google, welches sozusagen das erste große Mixed of Export Modell war, gibt es auch Fugging Faces. Also das kannst du auch ganz normal nutzen. Es ist halt einfach nur, dass du in dem Fall 1001 Checkpoints hast, die jeweils 10 Gigabyte groß sind. Das heißt, du hast Terabyte nur an Modeling Files. Der Vorteil bei den Mixed of Export Modellen kommt wie gesagt dadurch, dass sie mehr Computer-Effizient sind als ein Dense Modell für dieselbe Größe. Aber ja, man lädt es relativ ähnlich wie ein normales Modell. Klar, wenn man in die Skalierung kommt, die ob GPS4 jetzt groß sein sollte, wird es schon mehr komplexer als, sage ich mal, ein kleines Modell, was auf ein oder zwei CPUs passt. Aber vom Prinzip her ja. Okaydas ist so ungefähr gleich. Ja, cool. Dann lass uns doch mit einem Modell das Ganze noch abschließen mit Salesforce und X-Gen. Was gibt es denn da Neues? Genau, Salesforce ist auch ins LLM-Games, sage ich mal, in den Textbereich eingestiegen. Also Salesforce hatte zuvor schon Code-Gen, welches ein Code LLM war und haben jetzt X-Gen releast, welches ein eins zu eins Replacement für Lama ist. Also sie haben ein neues Modell from Scratch trainiert auf der Lama Architektur von Meta. Auch releast unter Apache 2.0, ein Kontext Länge von 8000 Token, also im Vergleich zu dem offiziellen ersten Lama auch viermal größer, trainiert auf 1,5 Milliarden Tokens. Was ganz interessant ist, dass das Modell auf TPUs trainiert wurde, also nicht auf KPUs wie bisher Lama oder MPT oder andere Modelle. Und ja, genau, es ist auch releast unter Apache 2.0. Das heißt alles, was aktuell so im Lama Umfeld gebaut wurde, Feintuning Scripte für Lama können jetzt alle mehr oder weniger mit einem Change der Variable von Lama auf X-Gen migriert werden, was sehr, sehr cool ist. Und was man sagen kann, das X-Gen Modell ist sehr gut im Coden für seine Größe, weil sie es noch zusätzlich auf dem Stack DataSet, also auf dem DataSet, welches genutzt wurde, für Big Code trainiert haben. Und sie haben keinen Tiernamen gegeben. Was ist denn da los? Ja, enttäuschend. Ich kann mir vorstellen, dass das Team hinter X-Gen ist, das Team hinter Code-Gen und X für wahrscheinlich Diversität und nicht nur Code. Und das ist sozusagen ihr/ihrer Brand halt. Ja, die Gen Brand. Hast du X-gen schon die Zahlenfrage gestellt? Nee, also es gibt auch ein Instruction Modell, aber ich bin mir sicher, dass es/ Also ich glaube nicht, dass es es weiß. Lohnt sich noch nicht da, die Frage zu stellen. Ja cool. Dann würde ich sagen, schaffen wir es heute mal fast die halbe Stunde abzurappen, wenn wir aber eine Kleinigkeit haben wir natürlich noch für euch, können es ja nicht dumpen lassen, nur mit vier Themen, wenn wir schon bei einer halben Stunde sind. Wir haben noch ein paar kleine Pick of the Days für euch. Thierry, was hast du dabei? Genau. Also diese Woche hat Amazon gemeinsam mit Deep Learning AI einen neuen Kurs gelauncht, der nennt sich Generative AI with LLMs. Und ich kann stolzer Weise mitteilen, dass ich geholfen habe, den Kurs zu bauen. Und der Kurs beschäftigt sich damit einfach für Anfänger oder Leute, die Interesse haben mit Generative AI, so eine Art End to end Guide zu geben. Okay, wie funktioniert Transformer? Lernt man in den ersten paar Sessions und dann auch okay, wie kann ich Transformer Modelle oder LLMs trainieren für Instruction Following? Reinforcement Learning from Human Feedback ist Teil davon und alles baut sozusagen auf Hacking-Face-Technologien auf. Das heißt, man baut auf die Open Source Modelle auf und trainiert Open Source Modelle und lernt sozusagen, okay, wie kann ich Generated AI Modelle trainieren? Cool. Und wie lang hast du eine Vorstellung davon, wie lang der Kurs geht? Also wie viel Zeit müsste ich mitbringen, den Kurs zu machen? Also insgesamt sind es, soweit ich weiß, 26 Stunden und er ist aufgeteilt auf drei Wochen. Und man hat pro Woche die sechs Stunden Videos plus Material. Oder ja, sie schreiben hier sechs Stunden Zeit zum Abschließen. Cool. Und da hast du mitgeholfen, den zu erstellen. Aber du bist kein Instructor bei dem Kurs, oder? Nee, genau. Als ich war Contributor. Ich habe zusammen mit den Instruktors sozusagen die Praktical Hands on Sachen erstellt und geschaut, dass die Slides die Informationen enthalten, die interessant und relevant sind, sag ich mal. Cool. Packen wir die Show in uns würde ich sagen. Und ich glaube auch bei einen cooleren Pick of the Day als deinem, mit dem kann ich nicht aufwarten. Ich habe bei keinem Kurs mitgemacht. Von daher belassen wir es heute bei dem einen Pick of the Day. Philipp, vielen Dank für deine Zeit. Euch wie immer vielen Dank fürs Zuhören und gebt uns gerne weiterhin Feedback, wie euch die AI News gefallen. Schon ein bisschen Feedback haben wir bekommen, weil wir das einfach einschätzen können. Sollen wir das weitermachen? Findet ihr das cool? Wollt ihr wieder mehr aus dem Umfeld der Web und App Entwicklung? Oder seid ihr genauso heiß auf AI News wie wir das sind? Schickt uns dafür gerne E-Mail an podcast@programmier. Bar oder meldet euch über das Kontaktformular auf unserer Website programmier. Bar. Ansonsten Philipp, wir sehen uns in zwei Wochen und vielen Dank fürs Zuhören. Tschüss. Tschüss.

Speaker Info

  • Philipp Schmid Profile

    Philipp Schmid

    Philipp Schmid ist Technical Lead und Machine Learning Engineer bei Hugging Face, einer Firma, die gutes Machine Learning durch Open Source und Open Science demokratisieren möchte. Der junge Nürnberger und AWS Machine Learning Hero hat sozusagen die deutsche Variante von ChatGPT entwickelt und darüber auf seinem Blog geschrieben. Checkt sie im Playground aus!

    Mehr Infos
Feedback