News AI #1 –

MMS Meta // Falcon // Gorilla // LIMA // QLoRA // Sam Altman Interview & AI Security

07.06.2023

Shownotes

Hier ist sie, die erste Folge unserer neuen Kategorie. Philipp Schmid, Technical Lead bei 🤗 Hugging Face und bereits Podcast-Gast zum Thema AI, wird mit uns alle zwei Wochen die AI News beprechen.

Heute geht es um alle großen neuen Foundation Models der letzten zwei Wochen:

  • MMS von Meta, ein text-to-speech & speech-to-text Model mit Support für ~ 1100 Sprachen
  • Die Large Language Models:
    • Guananco (LLama fine tuned mit QLoRA - bis zu 65B Parameter)
    • Nous-Heres-13b (LLama fine-tuned 13B)
    • Gorilla (LLama Model, dass darauf trainiert ist APIs von anderen Foundation Models aufzurufen, um so verschiedene Modelle über Natrual Language anzusprechen)
    • Falcon - Das neue Powerhouse unter den Open Source Modellen.

Einen guten überblick findet ihr auf dem LLM Leaderboard von 🤗 

Außerdem haben wir darüber geredet, ob neue LLM's überhaupt noch Reinforement Learning by Human Feedback (RLHF) benötigen und uns in diesem Zuge die Paper LIMA: Less Is More for Alignment und Direct Preference Optimization: Your Language Model is Secretly a Reward Model angeschaut.

Zu guter letzt berichtet Jojo vom gelöschten Sam Altman (CEO von OpenAI) Interview und was es aktuell in den USA und Europa zum Thema AI Regulierung gibt.

Hier der versprochene Link zum Machine Learning Street Talk Podcast

Soundtrack composed by AIVA (Artificial Intelligence Virtual Artist)

/transkript/programmierbar/news-ai-1-mms-meta-falcon-gorilla-lima-qlora-sam-altman-interview-ai-security
Hallo und herzlich willkommen zu einem neuen Format der Programmierbar. Wir haben es ja schon ein bisschen angekündigt, hier und da mal waren es immer unsicher. Jetzt sagen wir es jetzt nicht. Ihr habt ja schon mitbekommen, in den letzten programmierbaren News haben wir immer mehr über AI Themen geredet und uns gefragt, wie findet es Platz in unserer Web und App Entwicklung? Sind so viele Themen und irgendwie glauben wir, es wird immer mehr und dabei bleiben, interessiert uns als Entwickler super das Thema. Wir glauben aber, wir sollten dem mehr Raum geben und trennen von den App und Web Entwicklungsthemen. Deswegen gibt es das neue Format und zwar die, wie nennen wir sie, programmierbar AI News. War, glaube ich, der letzte Working Titel, ob dieser Titel so stehen bleibt, mal schauen. Und genau mit mir heute dabei ist einerseits der Jojo Hei. Hallo. Und wir haben jemanden nicht komplett neuen, aber zumindest neu in dieser dann hoffentlich Regelmäßigkeit. Und zwar den Philipp Schmidt. Hi Philipp. Hallo. Den kennt ihr vielleicht von der Deep Dive Folge, den wir schon zum Thema AI aufgenommen haben. Verlinken wir auch noch mal in den Shownotes. Schaut euch auf jeden Fall noch mal ein. So ein bisschen introductionary. Wie funktionieren eigentlich diese ganzen LARG Language Models? Wie funktioniert GPT unter the Hut? Und Philipp, du bist ja Techniker Lead bei Hacking Phase. Das glaube ich, wenn man sich jetzt mittlerweile beschäftigt mit dem ganzen Thema AI und Machine Learning, kommt man an der Plattform auf jeden Fall nicht mehr drum rum. Letzte Woche über Microsoft Bild geredet, über Amazon, Hugging Phase oder euer Smily, den man überall sieht, das Hugging Face, der Emoji, sieht man mittlerweile überall. Genau deswegen haben wir dich dabei als Experten für das Format, weil ihr habt vielleicht gemerkt, also Jojo und ich in dem Fall als Vertreter des Core Teams von der Programmierbar. Wir sind sehr interessiert an dem Thema, probieren es immer da reinzulesen, aber sind natürlich an manchen Dingen immer ein wenig limitiert. Und bisher haben wir in unseren Newsfolgen dann den Philipp auch gebeten: „Bitte korrigier uns mal, schick uns nachträglich eine Mail. Und es wurden einfach zu viele Mails vom Philipp, der uns zu viel korrigiert hat. Deswegen dachten wir, daraus machen wir ein Format. Genau. Und was ihr so ein bisschen erwarten könnt, ist eigentlich wollen wir euch auf die Reise nehmen, die auch, sage ich mal, Juri und ich so ein bisschen durchmachen. Als Entwickler interessiert an dem Thema irgendwie was, wie verändert das unseren Alltag? Wie können wir es anwenden? Wie funktioniert das Ganze? Und was gibt es Neues in dem Umfeld? Das wollen wir eigentlich so ein bisschen rausfinden und hoffen, ihr lernt auf dem Weg genauso viel wie wir und lernt davon auch mit viel vom Philipp. So wie wir es uns vorgestellt haben, wir eigentlich jetzt immer das Format in zwei Bereiche auf. Wir erzählen euch erst so ein bisschen, was gibt es denn für neue Foundation Models? Also welche AI Models könnt ihr nutzen? Open Source oder auch closed Source schauen wir mal und was könnt ihr, wie könnt ihr sie anwenden? Wofür sind sie? Und nicht einfach nur die ChatGPT API nutzen, sondern vielleicht auch die eigenen Modelle irgendwo hosten und für euren Anwendungsfall anpassen. Das heißt, da gibt es super viel. Das heißt, wir werden erst immer nur am Anfang darüber reden, was gibt es für neue Modelle? Und später, so wie es aus den normalen News kennt, drei Deep Dive Themen oder drei Themen, die wir uns einfach angeschaut haben. Und der Zeitraum ist immer die letzten zwei Wochen. Was ist in den letzten zwei Wochen in der Welt von AI passiert? Ja, ich bin schon ganz gespannt, Philipp. Ich bin froh, keine E Mails mehr von dir zu bekommen und dass du mich direkt korrigieren kannst oder uns. Ja, mal schauen. Vielleicht kommen jetzt die E Mails von jemand anderem. Dann machen wir die Runde halt größer. Mal schauen. Ja, cool. So viel sozusagen. Was ist das Format? Was ihr heute so ein bisschen hört ist einerseits wir haben fünf Modelle an der Zahl für euch dabei, was es Neues gibt. Wir haben was von Meta rund Speed to Text und Text to Speech, neues Larch Language Model, Falken und ein paar andere Deep Dev Themen haben wir zwei Paper uns mal im Detail so ein bisschen angeschaut. Das eine Paper Lima und das andere DPO Direct Präferenz Optimization. Und am Ende erzählen wir noch so ein bisschen darüber und unterhalten uns darüber, was denn so rund AI Regulierung und auch gerade Sam Elman, der CEO von Open AI, der viel in den Gremien in den USA darüber spricht, wie AI reguliert werden sollte und auch so seinen Outlook für Open AI die nächsten zwei Jahre. Darüber reden am Ende und philosophieren vielleicht noch mal ein bisschen mehr, wenn es am Anfang technisch wird. Genau. Dann lass uns doch mal starten mit den Foundation Models. Philipp, hast du Lust uns vielleicht mal ein bisschen über. Wir haben, glaube ich, also Falken und MMS sind so die großen, über die wir uns wahrscheinlich unterhalten. Aber es gab auch noch drei weitere, über die wir uns unterhalten wollen. Vielleicht, weiß nicht hast du ein Favorit, mit dem du starten willst, mit dem du uns. Erzählen willst. Gerne. Also wir haben es versucht so ein bisschen high level zu halten. Also innerhalb von zwei Wochen passiert viel aktuell im Open Source und LLM Space. Und wir haben, sage ich mal, die Top Modelle uns rausgepickt und waswas da sehr stark heraussticht, ist das Guanko Model, welches zusammen mit dem Kulora Paper gepublished wurde. Und Guanko, wie der Name vielleicht schon ein bisschen verraten lässt, ist Yadamadda, finetunt Lama Modell. Also es basiert auf dem LLM Modell von MetaEi Lama. Und was Guanko besonders macht ist, dass es mit Hilfe von PEFT, was für Parameter Efficient Fintuning steht, gefintunt wurde und JGPT sozusagen outPerformed. Also Teil des Erstellens von Guanko war, dass sie die Lama Modelle, also von 7 bis 65 Milliarden Parameter, gefinetut haben auf dem Open Assistant DataSet. Das ist das DataSet, was von der Laien Organisation Anfang des Jahres erstellt wurde, zusammen mit der Community, einen öffentlichen ChatGPT Klon, sag ich mal, zu erstellen. Und die Gruppe hinter Guanko hat dann dieses Datenset nochmal gefiltert, sozusagen die möglichst höchste Datenqualität zu erstellen und sind dann am Ende bei 10.000 Chatverläufen oder Chatk onversation rausgekommen. Und die haben sie dann mit Hilfe von QLora, was fürQuant heißt LoRa steht und Lora steht für Low Ranking Adaptation, bedeutet eigentlich nur, dass man nicht das ganze Modell feintunet, sondern nur ein paar Layer innerhalb des Modells austauscht und die dann trainiert. Das hilft dabei, dass ich viel weniger Compute brauche. Und dadurch, dass das diesen Quanten heißt Ansatz hat, ist der Teil, der nicht trainiert wird in einer geringeren Präzision heißt anstatt von Float 32, welches sehr viel Speicherkapazität braucht, haben die mit In4 gearbeitet, was halt viel weniger Kapazität braucht. Und sie haben es dann geschafft, auf einer einzigen Grafikkarte mit 48 Gigabyte CPU Speicher das 65 Milliarden Parameter Lama zu finetun, was normalerweise das zehn bzw. 20 fache an CPU Memory braucht, es überhaupt feinzutunen. Also es ist nicht nur ein viel einfacher Zugang für sag ich mal den normalen Nutzer oder Data Scientist, der vielleicht nur Zugang zu ein oder zwei CPUs hat, sondern es auch sehr, sehr kostengünstiger. Cool. Das heißt, da haben Sie bei diesem QLora, dann tauscht man wirklich Layer aus in dem Modell oder find you the Layer? Weil zumindest, so wie ich es verstanden habe, bei den Reinforcement Learning, bei Human Feedback, da ist es ja eher so, dass man nur bestimmte Parameter natürlich mit einem anderen sozusagen festsetzt und sagt, an dem kann sich nichts mehr verändern. Da würde man als Layer austauschen. Ja, also Reinforced Learning und QLora oder Lora an sich haben jetzt nichts direkt miteinander zu tun. Also Lora an sich oder Kiel LoRa gehört zu der Kategorie von Parameter Efficient Fintuning, welche nicht das komplette Modell feintunen. Beim normalen Trainieren von Deep Learning Netzwerke trainiert man normalerweise alle Parameter in einem Modell und bei PEFT freas ich, also es bedeutet so viel, dass ich Parameter fixiere und die nicht verändert werden, wenn ich es trainiere. Und bei LoRa tausche ich sozusagen gewisse Layer oder Parameter in meinem Modell aus und die werden dann gefinetunt. Und Lora kommt von Microsoft ursprünglich und erreicht nahezu die gleiche Performance, als wenn ich mein Modell komplett finetune. Und diese PEFT Technics aktuell sehr stark im Kommen, vor allem für die Anwendung bei LLM, sind esist halt sehr Compute happy, sage ich mal. Also man kann nicht einfach so ein Milliarden schweres Modell feintunen und da kommen halt diese PEV Technics oder sind ein großer Vorteil. Und KU LORRA geht noch mal einen Schritt weiter und hat nicht nur das gefrorene Modell, sondern sie verringern auch die Präzision, also den Datentyp, in der die Parameter vorgehalten werden zu einem geringeren Datenformat, welches dann weniger Speicher benötigt. Und so kann ich ein größeres Modell auf einer kleineren Grafikkarte mehr oder weniger finetun. Und mit dem Open Assistant gefilterten Datenset plus Lama 65 B haben sie sozusagenJet GBT out performt, was sehr, sehr cool und sehr beeindruckend ist. Interessant. Was du ja eben erklärt hast, du hast eben gesagt, also das eine Modell ist eingefroren, also sozusagen das grundlegende LARCH Language Model wird eigentlich an der Stelle bei so einem LoRa Ansatzgar nicht angefasst, sondern es gibt sozusagen die Layer da oben drüber, die dann irgendwie adaptiert werden und wo auch dann aber diese kleinere Reduktion zum Tragen kommt. Oder ist es so, auch doch irgendwann zu einem Zeitpunkt auch wirklich dieses eingefrorene Modell dann irgendwie angepasst wird? Also bei LoRa ist es so, dass das LLM fast zu 100% eingefroren wird. Also wenn man irgendwie 7 Milliarden Parameter hat, trainiert man vielleicht mehrere 100.000 davon oder vielleicht eine Million. Also sage ich mal, 99% von dem LLM ist geflohen. Und bei LORR tausche ich wirklich Layer in dem Modell aus. Das sind meistens die Linear Layer in dem Attention Mechanismus und die werden dann gefindtunt, aber nur diese und der Rest bleibt sozusagen gefroren. Okay, ja verstanden. Ich glaube, das war ja ein dieser Ansätze, die du ja schon ausgeführt hast, dass sie einmal sozusagen diese Elemente, die diese Matrizen sind, einfach verkleinert haben vom Datentyp her. Aber sie haben ja auch zwei andere Mechanismen noch verwendet. Zum einen, dass sie auch die Konstanten auch noch mal quantifiziert haben. Da wurde sehr viel mit mathematischen Operationen, ja die Sachen verkleinern, einfach eine Abbildung letztendlich von diesem größeren Datenbereich, den jetzt der größere Datentyp bildet auf einen kleineren Datenbereich, den halt dann zum Beispiel der Integer 4 oder ich glaube sie haben auch so einen neuen Datentyp normal float, der auch nur vier Byte einnimmt, dann eben eingeführt. Und zum anderen haben sie aber sich ja Technologie oder Eigenschaften von den CPUs zu eigen gemacht, einfach solche Page Optimizer auch zu nutzen. Also wenn man feststellt, dass irgendwie dann einfach die Page nicht mehr ausreicht, bestimmte Sachen abzubilden, dass man den gesamten Datenbereich innerhalb dieser Page dann Swappen kann. Und diese Kombination von diesen drei Sachen hat ja eben dazu geführt, dass man wirklich ja das eben so klein bekommt, dass es gefühlt irgendwie dann auch nur noch in naher Zukunft so ist, dass man wirklich normale Geräte, also eine gute Grafikkarte mit 48 Gigabyte ist auch nicht normal, aber dass man sich ausmalen kann, dass es wahrscheinlich über die Zeit immer kleiner wird und dass einfach eine Möglichkeit ist, wie man halt solche LARCH LÄNG MUTSCHMALO und dieses FINE TUNING eben dann deutlich weiter ausbreiten kann und man einfach nicht mehr diese enormen Ressourcen braucht, eben ein spezielles Modell für sein Anwendungsfall eben dann zu optimieren. Genau. Und ich glaube, man muss auch nicht unbedingt irgendwie das 65 Milliarden Parameter Modell feintun für, sage ich mal, viele Use Cases, wenn man spezifisch geht, reicht auch sieben Milliarden Parameter und dann kann ich es halt wirklich auf meinem MacBook auch trainieren oder auch in einem Google Colab, welches dann nur 16 Gigabyte CPU hat. Und das Ganze kostet dann halt nicht tausende Euros zum Feintunen, sondern nur ein paar Euro, was halt zum einen die verschiedene Experimente, die ich laufen lassen kann, viel zugänglicher. Ich meine, im Normalfall ist es ja nicht so, dass ich ein Modell trainiere. Das ist perfekt und ich nutze es dann. Oftmals muss ich Dinge anpassen, muss ich mein Datenset vielleicht verbessern. Und gerade mit Hilfe von Kielora habe ich halt viel einen viel größeren Spielraum, sage ich mal, was verschiedene Modelle zum Testen angeht, verschiedene Datentypen und auch die Evaluierung danach, weil ich halt nicht irgendwie 100.000 € pro Experiment zahlen muss, sondern vielleicht nur 50 €. Auch wenn ich am Ende ein, zwei Prozent Einbußen habe, sage ich mal, beim Endergebnis. Aber es wird alles viel zugänglicher. Ja, ja, cool. Und das ist halt so bei, weißt du, so eine Lizenz ist ja komplett Open Source. Also ich könnte es auch für... Ja, das ist ein schwieriges Thema mit Lama, weil alles, was, sag ich mal, auf Lama basiert ist. Ich weiß nicht ganz, ob man das jetzt Open Source nennt, aber es irgendwie öffentlich zugänglich für Research Purpose. Aber man kann es jetzt nicht kommerziell nutzen. Und ist es aber so, dass sie nur diese Lama Modelle irgendwie mit diesem Kulora Ansatz irgendwie verändert wurden? Oder gab es auch alle anderen Modelle? Weil ich hatte so eine Zahl gelesen, dass irgendwie 1000 Modelle irgendwie mit diesem Ansatz irgendwie optimiert wurden und dann ganz, ganz viele Modelle entstanden sind. Aber natürlich dieses Lama Modell mit 55 Milliarden Parameter eigentlich diese sehr gute Performance vergleichbar mit JGPT bietet, oder? Also Kulora an sich ist ein Ansatz, der auch mittlerweile in unsere, also wir haben eine Library, die PEFT heißt, die genau das ermöglicht und dort ist es integriert. Das heißt, ich kann jedes Open Source LLM, welches mit Transformers funktioniert, jetzt feintunen mit Kielora. Das heißt, ich kann Lama Modelle neu nehmen, ich kann GPT New X, ichkann die Open Assistant Modelle nehmen. Ich kann Falken, worüber wir später noch reden, nehmen zum zum Feintunen. Das ist die Technik. Und was sie in dem Paper gemacht haben, ist es nicht nur auf dem Open Assistant Datensatz zu feintunen, sondern sie haben ganz viele verschiedene Experimente mit anderen Datensätzen auch gemacht. Zum Beispiel das Alpaka Datenset von Standford, welches erstellt wurde mit Hilfe von GDPT3. Wurde auch genutzt zum Testen. Okay, wie funktioniert Kiel, Laura in dem Bereich und welche Ergebnisse habe ich am Ende? Und ich kann mir sehr gut vorstellen, dass da ein paar hundert verschiedene Modelle zustande kamen, wenn ich über acht Datensätze habe mit fünf verschiedenen Model Größen. Ja cool. Ich merke schon, wenn wir über jedes der Modelle ungefähr so lange reden wie über Guanko, dann ich weiß gar nicht, wir haben am Anfang nichts von der Zeit gesagt, aber dann halten wir jegliche Zeit nicht ein. Also wir haben ja gesagt, wir haben fünf Modelle für euch, da haben wir noch drei Dutch Language Models, wobei Falken auch eines von den größeren Themen ist. Vielleicht mal gucken. Vielleicht kriegen wir ja, Philipp, die nächsten zwei Dutch Language Models liegen noch auf deiner Seite. Da sind wir gespannt, wie man sie ausspricht. News Air Messe und Gorilla. Vielleicht kriegen wir die ja ein bisschen schneller abgehandelt. Ja, ich versuch's mal in zwei Sätzen. Also News Air Messe ist auch ein finetunt Lama. Was das Research Team dahinter gemacht hat, ist ähnlich wie zu Alpakka, welches auf einem Datensatz trainiert wurde, welches von GPS 3 oder 3.5 erstellt wurde, hat die Research Group hinter Nuus Hermannes GPS4 genutzt und einen Datensatz von 300.000 Exceptples erstellt, zu sehen, was passiert, wenn ich meinen Datensatz mehr skaliere? Und die ersten Ergebnisse, also das Modell kam gestern oder vorgestern glaube ich raus, zeigen, dass mehr Datensätze in dem Fall besser sind, was aber nicht, sage ich mal, zu 100 Prozent bewiesen ist, da es halt immer schwierig ist, was passiert, wenn mit Modellen, die ich auf Outputs von GPS oder 3 trainiere, ist das Modell wirklich besser oder imitiert das bloß, was es zuvor gesehen hat. Und wenn ich dann ein bisschen davon abweiche, ist es doch gar nicht mehr so gut. Und das dritte im Bunde, welches sich Gorilla nennt, ist auch ein gefinetuntes Lama. Also Lama ist immer noch sehr, sehr beliebt, vor allem bei Research Gruppen, die sich nur auf die Forschung fokussieren und nicht okay, wie kann ich es kommerziell nutzen? Und Gorilla hat einen sehr interessanten Ansatz, da es nicht trainiert wurde, irgendwelche Instruktionen zu folgen, sondern es wurde trainiert Code zu erzeugen, welcher ausgeführt werden kann, APIs aufzurufen. Also ich glaube, ihr habt vor ein paar Wochen über das Hacking GPT oder Charvis geredet, welches ChatGPT genutzt hat, Hacking Phase Modelle aufzurufen. Und Gorilla verfolgt einen ähnlichen Ansatz, dass man zum Beispiel beschreibt Okay, ich möchte gern den Hintergrund von meinem Bild entfernen. Und was das Modell dann generiert, ist ein API Call für entweder ein Hacking Phase Modell oder ein Pythorch Modell, welcher dann mit einem Python Interpreter ausgeführt werden kann und der dann dein Hintergrund Bild sozusagen entfernt. Die Idee dahinter ist, dass man mit Hilfe von Natural Language diese Modell oder spezifischen API Calls erzeugt, die ich dann in meinen Agent oder in meine Pipeline integrieren kann. Mit was wurde das dann? Also mit was wurde das dann trainiert? Ist es dann viel von also Hugging Phase wirklich? Also Dokumentation von Hugging Phase auch so, das zu verstehen? Ja, es ist also sie haben den Pythorch Hub und den Tensorflow Hub, welche sag ich mal von Pythorch und Tensorflow auch Modelle hostet und den Hugging Phase Hub gescript und die Modell Karten sozusagen und dann ein Datenset erstellt und mit Hilfe von GPS4 sozusagen diese Instruktions zusammengebaut und dann das Modell trainiert und ein normaler Inference Request funktioniert, dass ich als User meinen die Frage stelle und dann haben sie wie so eine Art Index Datenbank und dort wird sozusagen anhand von meinem Inhalt eine Kategorie oder halt n Modelle ausgesucht. Die werden zu meinem Prompt hinzugefügt und dann generiert Gorilla sozusagen den API Core. Das heißt Gorilla ist nicht einfach nur ein Foundation Model, weil wenn es eine Index Datenbank hat, dann muss es ja irgendwie, also dann ist ja nicht einfach nur ein Foundation Model, was ich mir irgendwie einbeziehe, sonst wahrscheinlich irgendwas. Gorilla an sich ist nur das Modell, aber die, wenn ich das dann nutzen möchte, benötige ich sozusagen dieses Retrieval, den Retrieval Input auch. Ja, okay, alles klar. Ja, cool. Vielleicht gleich gehen wir noch mal auf Föhrke ein. Ich glaube, das ist einer der spannendsten Lerche Language Models hier noch so releast, wurde und dann auch gleich mal, wie ich mich eigentlich da zurechtfinde in diesem Wald von diesen ganzen Data Language Models. Aber vielleicht vorher noch mal haben wir noch ein Speech to Text oder Text to Speech Model von Meta, nennt sich MMS. Und Massivly Multilanguis Speech heißt das Modell und ist eigentlich ein Modell, wie gerade schon gesagt, einerseits aus einer Audiodatei oder Sprache Text zu machen und auch andersrum aus Text Sprache zu machen und ist zum Beispiel zumindest in dem Sprache Text vergleichbar mit Open AIs Wizzper. Und die Besonderheit daran ist, dass bisher die ganzen Modelle auf nur einem limitierten Set von Sprachen funktioniert haben. Also wenn man das Ganze auf Wizzper anschaut, aktuell ungefähr 100 Sprachen, die dafür, die möglich sind und MMS in der großen Variante unterstützt jetzt 117 Sprachen für Speed to Text bzw. Was es auch kann ist Language Detection, also welche Sprache ein bestimmtes Soundfile hat. Und da unterstützt es 4.000 Sprachen. Und ich glaube, die größte Schwierigkeit beim Erstellen von dem Modell war auf jeden Fall an die Daten dafür zu kommen, weil gelabelte Audiofiles oder gelabeltes Trainingset für diese Menge an Sprachen war schwierig zu bekommen. Und was sie dafür dann gemacht haben oder der Großteil der Daten bei vielen Sprachen ist auf Basis der Bibel. Und zwar gab es das, sie haben ein Daten Set kreiert mit denen, wo im Endeffekt das neue Testament in über 1100 Sprachen vorgelesen wurde und somit ungefähr einen durchschnittlich 32 Stunden Audio Daten pro Sprache hatten. Und dann, obwohl es eigentlich pro Sprache nicht ausreicht, so ein Modell zu trainieren für jede Sprache haben sie aber noch mit ihrem Modell, ich weiß gar nicht Philipp Dues genau, kennen Sie das, Wave to back 2.0 auch von Meta, was im Endeffekt ja das möglich macht, dass sie nicht so viele, so ein großes gelabeltes Datenset brauchen, genutzt, jetzt wirklich ein Modell zu haben, was für so viele Sprachen funktioniert und zumindest nach den Benchmarks, die sie hier gemacht haben, also basierend auf Flirrs beispielsweise, ist so, dass die Error Rate jetzt im Vergleich zu mit Whistle, also die Word Error Rate, wie viele Worte sind falsch, doppelt so gut oder halb so schlecht? Ich weiß nicht, wie man es genau sagt sein sollen, obwohl ich ganz interessant finde, ich habe immer so gerade diese Speed to Text Modelle sind ja für uns für einen Podcast auch immer interessant. Wir haben ja die, wir haben ja online unsere Transkription von dem Podcast folgen, die wir aktuell noch von HappyScribe einem Online Service machen lassen, immer mal schauen, welche Modelle können das Ganze ersetzen und sehr interessant auf jeden Fall Wizzper für uns war, was die Qualität des Outputs anging. Und das mache ich immer mit ein paar Modellen. Da habe ich jetzt auch mal das MMS von Meta genutzt und da war es jetzt, also ich sage mal, wenn ich die Word Error Rate auf Basis meines kleinen Text Snipplets von Podcastfolge machen würde, würde ich sagen, da hat MMS noch ein bisschen was aufzuholen im Vergleich zu Wizzper. Aber das ist ja kein offizieller Benchmark, den ich dann hier hier gefahren habe. So gerade so die Domänen spezifischen Dinge, also alles, wenn wir irgendwie darüber sprechen, wie heißen Modelle? Ich glaube, die Beispiele, die wir hatten, da waren jetzt verschiedene, aber gerade so Dinge wie Vertex, Barth, Parm2, wenn so Begriffe fallen, hat MMS überhaupt nichts, auch nur annähernd davon erkannt hat, glaube ich wirklich. Also ich glaube, was wurde da raus? Irgendwie Vertex haben wir mit, Paum war Palm 2, Paum ewie war Bart, doch Bart hat es ja erkannt. Vertex war Vartex, wie ART, CKS, wie auch immer. Ihr kriegt glaube ich mit, was ich damit meine. Also zumindest die Domänen spezifischen Dinge hat es nicht so gut erkannt. Aber auf jeden Fall super cool. Ich meine mit den ganzen Sprachen, die sie jetzt supporten. Ich glaube, so ihr Ansatz ist halt wirklich, dass sie probieren wollen, nach Möglichkeit alle Sprachen der Welt da zu supporten. Zumindest ein Language Model, was irgendwie alles kann, alle Sprachen rein, raus. Klingt auf jeden Fall super, super interessant. Ja, genau. Mms von Meta. Das heißt, wir sind jetzt bei vier von fünf Modellen. Das letzte auch wieder ein Art Language Model. Falken, so mit glaube ich das, was gerade am meisten Wind macht. Philipp, was hat es damit auf sich? Genau. Falken ist sehr, sehr interessant, weil es das erste jetzt offiziell Open Source Modell ist, welches Lama Out performt, sowohl für, sage ich mal, die kleinere Größe, aber auch für die größere Größe. Und Falken kommt in zwei, also die Falken Modell Familie kommt in zwei Größen. Zum einen 7, 7 Milliarden Parameter, welche dieselbe Größe hat wie das kleinste Lama Modell und das große Falken Modell kommt mit 40 Milliarden Parameter, welches genau zwischen die zwei größten Lama Modelle, sag ich mal, kommt. Und das Falken Modell kommt aus, was sehr, ich würde mal sagen untypisch ist oder noch relativ neu aus Abodabi, von dem Technologie Innovative Institute, aber wurde von einer europäischen Research Gruppe sozusagen erstellt. Also das Technologie Innovation Institute hat eine europäische Research Gruppe damit beauftragt, welche dann die die Falken Modelle gemeinsam mit ihnen erstellt hat. Was am Anfang, sag ich mal, also der Release von Falken ist jetzt ungefähr zwei Wochen her, glaube ich. Und am Anfang wurde das Modell mit einer etwas interessanten Lizenz, sag ich mal, veröffentlicht. Also man hat schon von Anfang an Commercial Use erlaubt, aber man hatte eine Klausel in der Lizenz, Okay, wenn man mit dem Modell mehr als eine Million US Dollar erzielt an Gewinn, muss man 10 Prozent sozusagen als Anteile abgeben, welches zu ein paar, sag ich mal, Kontroversen online und in der ganzen Community geführt hat. Aber dann innerhalb von einer Woche hat das Technologie Innovative Institute die Lizenz zu Apache 2 angepasst, welche, sag ich mal jetzt die größtmögliche Nutzungsfreiheit für alle besitzt. Das heißt, man kann Falken jetzt ohne irgendwelche Einschränkungen kommerziell für Forschungsthemen oder im privaten Gebrauch auch nutzen. Und ja. Klingt super spannend. Und ist es dann eine öffentliche Einrichtung, also dieses, wie hieß es nochmal? Technologie Innovative Institute. Also etwas sozusagen, was vom Staat dann finanziert wird und einfach dann im Rahmen dieses Auftrags. Ja, also ich weiß es nicht genau. Ich weiß nur, dass es ein Research Center ist, welches in Abodabi auf jeden Fall beheimatet ist. Ich weiß nicht ganz genau, ob nur in Abodabi oder wie das genau unterstützt wird, aber es hängt dort auf jeden Fall mit zusammen und man muss sagen, dass es. Also ich finde es sehr, sehr cool. Sie hätten ja die Lizenz auch nicht anpassen können oder denselben Weg gehen, welchen Meta gegangen ist mit okay, Research Purpose ist okay, aber kommerzielle Nutzung ist nicht okay. Und das ist also ich sage mal ein sehr, sehr großer Gewinn für die Open Source Community, da wir jetzt endlich Modelle haben, die genauso gut, wenn nicht besser als Lama sind. Das heißt über die Modelle, die wir am Anfang gesprochen haben, wie Guanko oder Gorilla, welche einfach gefinetunete Lama Modelle sind, könnte man jetzt rein theoretisch relativ schnell auf Falken anpassen, wenn der Datensatz zum Feintunen auch kommerziell nutzbar ist. Und dann habe ich meine kompletten öffentlich zugänglichen LLMs für spezielle Use Cases. Vor allem ich meine, es klingt jetzt auch so, als wäre das das Go to Modell jetzt auch gerade für Research. Also ich meine, wenn es vorher Lama war, hat man wahrscheinlich gewählt aufgrund von der Performance, die Lama mit sich bringt oder wie gut das Modell ist, wenn man jetzt eins hat, was sogar kommerziell eine kommerzielle Lizenz hat und sogar besser als Lama ist, klingt es ja so, als wären die nächsten Dinge, über die wir uns unterhalten, vielleicht in zwei Wochen auf Basis von Fakten. Ja, ich glaube, was sehr interessant jetzt ist, dass man Vergleichsmöglichkeiten hat. Also bisher, du hast ja gemeint, die Forschung basierte auf Lama und nur auf Lama sozusagen. Jetzt haben die Researcher natürlich die Möglichkeit, kann ich die zwei Modelle vergleichen und wie schneiden diese ab? Also alles, was wir bisher von Falken wissen, kommt aus dem Paper und von erstens, sage ich mal, Evaluierungen. Aber oftmals muss dieses auch, sage ich mal, noch mehr bestätigt werden. Also das selbe Prinzip wie bei Lama und Meta am Anfang beeindruckende Evaluierungen und Performance veröffentlicht. Und die wurden dann im Nachhinein von individuellen Researchern sozusagen bestätigt. Also muss man noch ein bisschen warten und Daumen drücken, dass auch wirklich der erste Eindruck bestätigt wird. Denn was ein bisschen einzigartig ist zu verfolgen, ist das Datenset, das genutzt wurde. Also das normale Datenset für LLMs ist eine Kombination aus Web Daten, welche normalerweise der größte Anteil ausmacht und dann sage ich mal qualitativ hochwertige Texte wie Wikipedia, ganz viele Bücher, GitHub Code, irgendwelche andere Dokumente, Legal Dokumente. Und Falken wurde nur auf Web Daten trainiert. Also das Research Team dahinter hat ein Daten Set erstellt, das sich Refind Web nennt, welches mehr oder weniger nur Web Daten sind, aber diese sehr strikt gefiltert, dedubliziert und analysiert und dann verwendet wurden. Und da ist auch, weil wir jetzt sprechen von dem Modell, was im Moment am besten ist, was Open Source angeht, ist das der Hauptgrund oder sind da noch andere Dinge, die irgendwie Falken jetzt wirklich besser machen? Oder ist wirklich einfach der Datensatz der große Unterschied? Ja, es ist schwierig zu sagen. Also was wir gesehen haben mit den ganzen anderen, sag ich mal, Open Lama Reproduktionsinitiativen von together, von MosaikML oder auch von Standford mit Open Lama, ist das, was Lama wirklich richtig gut gemacht hat, ist die, die das Datenset, also dass man nicht nur auf ein paar 100 Milliarden Tokens trainiert hat, sondern das erste Mal über diese, sage ich mal, Chinschela Lows hinausgegangen ist und ein Modell trainiert hat mit einem Signifikant, also sehr, sehr größeren Datensatz, als man zuvor gemacht hat. Und dann hat man gesehen anhand von was Meta mit Lama gemacht hat, hey, es macht Sinn, dies zu reproduzieren, da man mehr, sage ich mal, Ressourcen investiert während des Trainings, aber dadurch die Ressourcen, die man benötigt für das Nutzen des Modells geringer werden. Und dasselbe Prinzip trifft bei Falken auch zu. Man hat in dem Fall jetzt nicht 1 Billion Tokens genutzt, sondern für das 7 Parameter Modell 1,5 Billionen Token und für das 40 Milliarden Parameter Modell ungefähr eine Billion Token. Und was noch dazukommt ist für das 40 Billionen Parameter Modell hat man einen multilingualen Korpus genutzt. Das heißt, Deutsch ist zum Beispiel, ich glaube die zweit oder drittgrößte Anteil im Datensatz, was immer noch sehr, sehr, sehr gering ist mit irgendwie fünf oder sechs Prozent. Aber es ist nicht nur ein reiner englischer Datensatz. Und für das sieben Milliarden Parameter Modell ist es nur ein englischer Datensatz. Ich hoffe, dass wir irgendwann mal in die Größe von über Billionen Tokens als auch Parameter hinauskommen. Dann hat man nicht immer die Verwirrung, was ist jetzt Englisch, was ist Deutsch? Weil ich glaube, du hast gerade gesagt, 40 Billionen Parameter. Bei Parametern sind wir im Moment bei Milliarden und bei Tokens sind wir bei Billionen. Aber es ist auch mit 40 B und dann wie auch immer sehr verwirrend. Ja, cool. Ich glaube, so ein bisschen in diesem Dschungel. Also entweder ihr hört einfach immer diesen Podcast und wir sagen euch was gerade das beste Modell ist oder ansonsten habt ihr auch bei Hacking Faces Open LLM Leader Board, wo man wahrscheinlich so ein bisschen schauen kann okay, was ist denn jetzt wirklich grad der heiße Scheiß und was kann ich vielleicht feintunen oder auch einfach so nutzen? Ich meine es gibt ja auch dieses Falken 40 B, also 40 Milliarden Parameter als Instruct gefeintunt ist, also für Chat gefeintunt ist Modell bei euch auf Hacking Faces, was aktuell das Leader Board anführt, was uns Leader Board irgendwie ein Average aus verschiedenen, wie nennt man es, Tests oder Evaluation Tasks, sondern einfach so ein Average Score aus verschiedenen standardisierten Tests, so mit Zero Short Five Short, also a viel Short Promps. Genau, also das, dass unser Research Team. Also ich meine, Anfang des Jahres hatte man nur Lama und dann mit der Zeit sind immer mehr neue Open Source LLMs zustande gekommen. Und man braucht natürlich irgendwie einen Weg festzustellen, okay, welches ist das Beste? Wo stehen wir aktuell? Wie schneidet unser Modell oder unser gefinetetes Modell gegenüber den anderen ab? Und da hat man einfach jetzt ein öffentlich zugängliches Dashboard gebaut, welches auf Hacking Faces zu finden ist. Und das Dashboard nutzt unser Cluster. Also wir haben einen großen Cluster gekauft bei Amazon mit ungefähr 1.000 CPUs zum Trainieren von Modellen. Und wenn da sozusagen Spare Time ist oder IDAL Time, also das heißt, wenn keine großen Scripte laufen, wird der Cluster genutzt, diese Evaluierungen für die verschiedenen Open Source Modelle durchzuführen, sodass man das Leader Board immer wieder erweitert und den Compute, den wir zur Verfügung haben, nutzen und dass man diesen Vergleichswert schafft. Und als Evaluierung nimmt man aktuell das Model Evaluation Harness Benchmark, welcher von Eloofer AI erstellt wurde. Und der evaluiert das Modell auf verschiedenen akademischen Benchmarks. Alles ist im Leader Board zu finden. Also falls es jemand interessiert, kann man da gerne reinschauen. Was ich aber dazu sagen möchte ist, dass es nur ein Ansatz ist. Also die Evaluierung von LLMs ist super schwierig, weil es ist super hart festzustellen, was denn besser ist als Output. Also wie kann ein akademischer oder statischer, statisches Skript herausfinden, ob ein Witz besser oder schlechter war. Das heißt, dieses Leaderboard ist nur ein erster Indikator. Und wenn ich einen speziellen Use Case für mich habe, wo ich mein Modell testen möchte, ist es immer sinnvoll, noch mal eine qualitative Evaluierung durchzuführen, weil es aktuell halt keine vollautomatisierte Möglichkeit gibt, diese LLMs zu evaluieren. Aber ja, Falken hat es wirklich tatsächlich auf Platz eins geschafft und sogar das 65 Milliarden Parameter Lama Modell verdrängt. Ja, krass. Auf jeden Fall. Ich glaube der Average Score irgendwie Lama 65 Milliarden waren 58 hier jetzt, Spitzen mit Falken 40 Milliarden Parameter bei 63, also die Instruct Variante davon. Auf jeden Fall interessant. Spannende Zeiten. Aber cool, packen wir auf jeden Fall auch mal in die Shownotes des Leader Board. Noch eine kurze Frage zum Leader Board. Wenn man ein bisschen weiter runter geht, ist es ja so, dass da noch ganz viele Modelle irgendwie in der Queue sind. Also ist es so, ihr habt noch nicht alle Modelle, die es da draußen gibt, evaluiert, sondern stehen einfach noch manche aus? Also ist sozusagen in dem Leader Board, was man oben sieht, schon alles Verfügbare enthalten? Nee, also das, was man immer oben sieht, ist aktuell, was evaluiert würde. Und jeder Nutzer kann ein Modell sozusagen submiten. Das kann man dann unten in dem Form Input machen. Und die einzige, sage ich mal, Anforderung ist, dass das Modell auf Hacking Phase zu finden sein muss. Und dann kommt es in die Queue und die Queue wird dann immer nach und nach mehr oder weniger entleert, wenn man halt Free Capacity für Computer hat und dann werden die Skripte durchgeführt. Es kann aber natürlich auch sein, dass Leute das selbe Modell mehrmals reinpacken, dann muss man einen manuellen, sage ich mal, Cleaning machen. Aber die Idee ist immer, dass wir das Leader Board immer erweitern mit neuen Modellen oder auch mit Community gefintunten Modellen. Es kann ja zum Beispiel sein, dass jetzt jemand hergeht von der Community und das Thuacking 40b auf einem anderen Datenset oder mit einer anderen Methode finetunt oder vielleicht weiter pre trend auf der deutschen Sprache und dann auch evaluieren möchte. Und dann besteht die Möglichkeit, sozusagen das einfach hier in die Queue einzureihen und dann wird es nach und nach durchgeführt. Okay, cool, danke. Dann sind wir in unserer ersten großen Kategorie der LARDL durch und kommen in unsere drei, wie gesagt, drei Deep Dive Themen haben wir noch für euch dabei. Lima, DPO und die AI Regulierung starten wir doch direkt in der Reihenfolge. Philipp, was ist denn das Lima Paper? Was hat es mit Lima auf sich? Genau. Also Lima steht erst mal für less is more for Alignment und beschäftigt sich mit der Thematik Wie kann ich meinen LLMs mehr oder weniger beibringen, den Text zu erzeugen, den ich möchte? Und das ist gerade bei ChatGPT oder auch bei GPT4 mit Reinforcement Learning from Human Feedback ein ganz großes Thema gewesen, wo Open AI, sage ich mal, das erste Mal geschafft hat, Modelle so zu trainieren, dass sie einen Output generieren, der für uns als Nutzer sehr zugänglich ist. Und dieses Lima Paper analysiert, wie viele Datensätze ich benötige, mein Base Modell, also einfach ein großes Sprachmodell zu alleine, also ihm mehr oder weniger beizubringen, Texte zu generieren, die für mich als Mensch zugänglich sind und welche ich bevorzugen würde. Und bisher war immer der der Gedanke okay, ich brauche auf jeden Fall Reinforcement Learning, dieses Human Feedback mehr oder weniger meinem Modell beizubringen. Und das Lima Paper zeigt oder hat erste Erfolge, sage ich mal, nur mit Hilfe von 1000 Datensätzen und regulärem Feintuning ein Modell sozusagenzu verleinen und einen Output zu generieren, der mit dem Output von JGPT4 konkurrieren kann, also fast genauso oft bevorzugt wird von Testern als der Output von JGPT. Und was das Research Team dahinter gemacht hat, ist, wir haben einen Datensatz von 1000 Samples, das heißt 1000 Instruktions, welche immer aus einem Input und einem Output bestehen, erstellt. Und das Datensatz wurde erstellt mit Hilfe von Stack Exchange, also das Online Forum, wo jeder von uns wahrscheinlich kennt, wo Stac Overflow zum Beispiel auch dazu gezählt wird. Da haben sie sozusagen die die Fragen von Nutzer analysiert und die besten Fragen und Antworten herausgefiltert. Dasselbe haben sie mit mit Reddit, Wiki, How gemacht und zusätzlich haben sie noch eigene Instruktionen mit Input und Output geschrieben und wirklich geschaut, möglichst hohe Qualität möglichst selbsterklärend, also dass es wirklich Konsistenz ist und nicht Quantitat. Also der Ansatz war wirklich Qualität über Quantität. Zum Beispiel wenn man das vergleicht mit dem Alpakka Ansatz von Standford, welche einen ähnlichen Ansatz verfolgt haben. Dort hat Standford einen Datensatz von ich glaube 50 oder 65000 Instruktions erstellt, welches 65 mal mehr ist als was die Researcher jetzt hinter Dima gemacht haben. Und sie haben mehr oder weniger gezeigt, dass es reicht, mit wenig qualitativen Datensätzen ein Modell so zu allein, dass es wirklich weg von diesem Okay, ich imitiere und ich generiere einfach Texte, bis hin zu diesem Okay, ich kann Instruktionen und Fragen folgen geht, was sehr, sehr interessant ist für jedes Unternehmen, sage ich mal, welches gerne Modell feintunen möchte, weil 1000 Samples kann ich innerhalb von Wochens sage ich mal erstellen. Aber wenn ich 50.000 oder 100.000 Samples brauche oder vielleicht erst mal ein geranktes Daten Set, wo ich ein Reward Modell trainiere und dann diesen ganzen Reinforcement Learning Prozess durchführen muss, ist halt sehr sehr zugänglicher als der ganze andere Prozess, der da mit dabei hängt. Was vielleicht noch relativ interessant ist. Normalerweise trainiert man oder finetunen man ein Modell auf einem Datensatz zwischen ein bis drei eParks. Was die Gruppe allerdings gemacht hat, sie haben das Modell für 15 ePOx trainiert, was fast fünfmal so lang ist als der Durchschnitt, den man normalerweise nutzt. Jetzt musst du ganz kurz noch mal ePOx erklären für alle. Ja, also eine ePOx ist sozusagen eine Iteration über das Trainingsdatenset. Das heißt, das Modell hat in dem Fall 15 mal die 1000 Samples gesehen und davon gelernt. Mit welchem Faktor mehr? Wie viele Epochen macht man normalerweise? Was sagst du? Zwischen eins und drei oder vier, sage ich mal, ist der Normalfall, wenn ich ein Transformer Modell trainiere. Jetzt 15, also vielleicht bis zu fünf Mal, mindestens fünf Mal mehr. Heißt das so ein bisschen, ich brauche ähnliches Compute wie jetzt, wenn ich ein größeres Datenset hätte, aber einfach weniger Samples, also es kostet mich das gleiche Geld es zu trainieren, aber ich brauche noch so wenig Arbeit in das Suchen des Datensatzes investieren. Also ich würde, sage ich mal, das noch nicht generalisieren, weil wir haben intern ähnliche Tests durchgeführt und sind nicht zu derselben Schlussfolgerung gekommen. Also wir haben, also normalerweise, wenn man ein Modell zu lange auf einem Datensatz trainiert, overfittet es, was so viel bedeutet wie es wird sehr Biased oder fokussiert sich sehr auf das, was es gesehen hat und generalisiert nicht mehr gut genug. Das ist das, was wir gesehen haben intern nach sechs eBooks. Deswegen ist es sehr interessant. Aber ja, natürlich, wenn ich ein Datensatz mit 1000 Samples habe und es für 15 ebox trainiere, kann ich das ungefähr vergleichen wie ein Datenset mit 15.000 Samples auf einer Epoche. Aber es ist trotzdem noch, sage ich mal, geringer als ein normales Feintuning, da die Datensätze im Normalfall nicht nur 1000 Samples haben, sondern zwischen, sage ich mal, 10 und 100.000. Oder wir haben ja am Anfang gehört von NUES Hermes, welche 300.000 Samples genutzt haben. Interessant. Irgendwie gefühlt auch in unserer DeepDaf Folge, die wir damals hatten, war ja auch immer, dass zumindest bei Human Feedbacks oder auch der Teil, der gerade für Open Source natürlich auch schwierig ist, irgendwie all diese Datensätze zu generieren, überhaupt an die Daten ranzukommen. Und gefühlt jetzt die beiden Paper, die wir jetzt haben, sind beide so Alternativansätze dazu. Also da haben wir es ja sehr gerade gehört, was ich noch habe, ist Direct Preference Optimization Paper, your Language Model is secretly a Reward Model. Und da geht es ja auch darum, im Endeffekt den Step, den man macht am Ende, Reinforcement Learning by Human Feedback zu vereinfachen. Ich glaube, was an dem Teil an dem Paper nicht einfacher ist, man braucht trotzdem noch die Daten, das Human Feedback, aber der Prozess, dieeinfach sagt, ich brauche einen Computer, den man dafür braucht, das Ganze dann zu trainieren, macht es einiges einfacher. Also wenn man sich so den Prozess anschaut, wie er bisher läuft, wie er bei Human Feedback läuft, man braucht grundsätzlich einen Datensatz. Dieser Datensatz ist sozusagen das Human Feedback, also man lässt ein Lerche Language Model, was schon trainiert ist, gibt man Prompt und sagt Mach mir etwas, was wie Warte ein Poem about the History of Jazz und man kriegt zwei verschiedene Antworten und man lässt Nutzer Menschen einfach sagen, welchen der beiden Antworten, welcher der beiden Antworten ist präferiert. Und was man mit diesem Datensatz macht, ist normalerweise ein weiteres Modell, ein Reward Model zu trainieren, was sozusagen wie eine Art, also eine Loss Function im Endeffekt ist, einfach auf Basis der man dann das ursprüngliche Latch Language Model nochmal trainiert, einfach zu sagen okay, dieses Reward Model weiß sozusagen oder kann sagen, wenn das Latch Language Model einen neuen Output macht, ist das präferiert oder nicht präferiert und kann gleichzeitig darauf achten, dass es nicht zu weit von dem ursprünglich trainierten Language Model sozusagen sich entfernt und sozusagen overfittet auf diese Präferenz. Aber man muss eben erst mal dieses Reward Model trainieren, auf der Basis das Language Model feinzutun. Ich weiß immer nicht, ob ich genau die richtigen Fachbegriffe dafür wähle, aber Philipp wird mich bestimmt gleich korrigieren. Und Direct Präferenz Optimization ist im Endeffekt so, dass man diesen Schritt des Reward Models in der Mitte rausklappt. Das heißt, man muss nicht erst mal ein Reward Model auf Basis der Input Daten, dieses Human Feedback trainieren, sondern hier kommen wir dann zu dem mathematischen Teil des Papers, den man sich dann bestimmt im Detail noch mal anschauen kann, sondern dann im Endeffekt es so gemacht hat, dass dieser Reward Model Step komplett entfällt und man auf Basis dieser dieser Präferenz Data, die man hat, dann das Lerche Lengue Model direkt trainieren kann und somit einen Haufen von Compute im Endeffekt wegfällt, weil wirklich ein großer Teil des Schritte dabei wegfällt. Genau. Also sozusagen ist ein zumindest näher daran bringt, diese Optimierung auch in seine Pipeline zu integrieren. Wobei man sagen muss, die Daten müssen halt immer noch gesammelt werden. Aber die Compute wird auf jeden Fall eine ganze Ecke geringer. Ich finde, was halt super interessant daran ist, dass diese Komplexität reduziert wird. Also an sich Human Feedback zu sammeln ist einfacher als Daten zu generieren. Also eine Person, sage ich mal, zwei Outputs zu ranken oder halt zu klassifizieren. Okay, welcher ist besser, welcher ist schlechter? Relativ einfach. Aber der ganze Rattenschwanz, der noch hintendran hängt mit okay, ich muss ein Reward Model trainieren, ich muss sichergehen, dass das Reward Model auch funktioniert. Dann brauche ich für meine Reinforcement Learning Pipeline habe ich ja sozusagen drei Modelle, Simultan in Memory. Also ich brauche eine riesige Menge an Computer, weil ich mein Modell habe, welches ich trainiere. Ich habe ein Reward Modell, welches ich nutze und dann noch das selbe Modell, was eingefroren ist, damit ich halt nicht zu sehr abweiche von meinem normalen Modell. Und das fällt halt alles weg, was sehr, sehrsag ich mal interessant ist und ist ja generell die Frage aktuell im Research sehr groß. Okay, brauche ich Reinforcement Learning, sage ich mal, von diesem Human Feedback zu profitieren? Und bisher, was wir, sage ich mal, in den letzten Jahren gelernt haben, war nur von OpenAI und Anthropic, die es geschafft haben, die gezeigt haben okay, ich kann Modelle mit Hilfe von Human Feedback verbessern. Und ich glaube, die aktuelle große Research Frage, die im Raum steht, ist okay, brauche ich Reinforcement Learning oder gibt es Methoden, die eventuell einfacher sind und zum selben Ergebnis führen? Und ich bin mir sicher, dass da in den nächsten Monaten oder bis zum Ende vom Jahr mehr Klarheit herrscht, weil das ganze Thema von mit Reinforcement Learning from Human Feedback ist, sage ich mal, Cutting Edge Research. So, da gibt es nichts, was man aktuell weiß und sicher ist. Okay. Ja, spannend auf jeden Fall. Das auf jeden Fall glaube ich zwei sehr, sehr interessante Paper. Okay, ja, cool. Dann haben wir noch ein Thema auf der Liste, was ein bisschen zumindest nicht so Paper nah ist wie unsere bisherigen Themen. Jojo, du hast noch ein bisschen mitgebracht, was da rund AI Regulierung und Sam Erdmann wird ja häufig zitiert in Gremien in den USA, in denen er spricht und gab auch glaube ich ein Interview von ihm so ein bisschen über den Outlook von Open AI, was glaube ich auch wieder zurückgenommen wurde. Erleuchte uns mal ein bisschen was da. Genau. Eigentlich möchte ich auch mit diesem Interview irgendwie beginnen, weil ich glaube, er hat da wirklich sehr offen gesprochen und letztendlich war es dann auch zu offen für bestimmte Ebenen von Open AI, die einfach zu sehr, glaube ich, die Pläne von Open AI da ins Lampen nicht korrekt gesehen haben. Also das war ein Interview, was er geben hat für Human Loop. Human Loop ist, glaube ich eine Seite, die einfach so verschiedene Language Language Models irgendwie zugänglich machen will. Ist glaube ich auch eine Seite, die irgendwie nicht Open Source ist. Und der Co Founder eben, Razeah Habib heißt er, hat sich mit 20 Entwicklern aus dem AI Bereich unterhalten, unter anderem eben auch mit Sam Erdman. Und ja, es war dann so, dass die ich weiß nicht wie lange das wirklich vorhanden war, dieses Interview. Ich glaube, irgendwie wenige Tage. Dann wurde es wieder zurückgezogen. Also wenn man jetzt auf die Seite sieht, sieht man eben, es wurde einfach auf Bitten von Open AI wieder rausgenommen. Zum Glück gibt es die Vayback Machine. Habt vielleicht der eine oder andere von euch schon mal gehört. Das ist eigentlich ein Internet Dienst, der eben die Inhalte von allen öffentlichen Webseiten regelmäßig archiviert. Ich glaube, der hat irgendwie lange Zeit diesen Alexa Internet Service genutzt, einfach herauszufinden Was sind die Internetseiten, die er dort archivieren möchte? Und ich weiß nicht, was er aktuell noch nutzt, aber er hat wohl auf jeden Fall diese Seite auch letztendlich in seinem Repertoire und hat einfach dann einen Snapshot dieser Seite angelegt. Und jetzt hat man eben als Leser die Möglichkeit, eben einfach auf den Zustand dieser Seite zurückzugehen und dort halt auch wieder dieses Interview zu finden. Was uns die schöne Situation bringt, dass wir das doch für euch noch mal ein bisschen aufbereiten können, was gerade so vielleicht die Probleme und auch der Ausblick für eure Open AI ist. Zum einen hat er eben ausgeführt, dass momentan Open AI einfach sehr, sehr stark limitiert ist, was sie eben noch machen können, weil sie haben einfach auch eine begrenzte Anzahl von CPUs. Und ich glaube, momentan ist glaube ich auch der gesamte Markt von CPUs sehr abgegrast. Es ist sehr schwierig, neue CPUs zu bekommen, sodass sie sehr viele letztendlich der ihrer naheliegenden Pläne eigentlich gar nicht so umsetzen können, wie sie das eigentlich gerne möchten. Zum einen ist es eben so, dass sie ja ihren Kontext auch für das GPT4 Modell auf 32.000 Tokens erweitert haben und das können sie gar nicht an alle Leute ausrollen. Also so ist es glaube ich auch so, dass über die API das gar nicht zur Verfügung steht und eigentlich es so ist, dass sie gesagt haben, also bis zum Ende des Jahres erwarten sie eigentlich, dass 100.000 bis 1 Million Tokens irgendwie möglich sein sollten, so von den Optionen, die sie haben. Und ja, wahrscheinlich werden sie das auch erreichen. Es ist halt eben nicht ganz sichergestellt, weil momentan es einfach noch so ist, dass einfach die Nutzung von ChatGPT auch noch glaube ich exponentiell wächst, also sie einfach so viel neue Nutzer auf der Seite bekommen haben bekommen, dass das eben nicht abzubilden ist. Und was momentan noch eben noch problematisch ist, sie haben auch gar keine Feintuning API, die zum Beispiel auf diesen modernen Ansätzen wie Laura funktioniert, sondern so wie ich es verstehe, trainieren sie wirklichbeim Feintuning immer das gesamte Modell, was es einfach sehr kostenintensiv macht, eben dann so Feintuning Operationen zu machen. Da ist auf jeden Fall so, dass sie sagen, im Laufe des Jahres wird es da eine Anpassung geben. Also werden sie wahrscheinlich auch einer der etablierteren oder jetzt vorhin besprochenen Ansätze dann für sich integriert haben, das auch einfach kostengünstiger anbieten zu können. Das ist so eine grobe Hausnummer. Also bis zum Ende des Jahres soll es auf jeden Fall die Möglichkeit geben, da eben besser das zu finetun. Und was man eben auch eben gerade noch nicht in dem Maße anbieten kann, wie man es gerne möchte. Es gibt ja auch so eine dedicated capacity. Das ist so, dass man als Kunde sozusagen auch zu Open AI hingehen kann und sagen Ich möchte eigentlich einen Klon des gesamten Modells haben, wo ich dann letztendlich alleine drauf Zugriff habe und damit einfach eine dedizierte Performance für meine Abfragen bekomme. Und das können sie einfach nicht so in dem Maße anbieten, wie ich es gerne möchte. Man muss da auch ein bisschen was ausgeben. Das heißt, allein was nutzen können, müsste man ungefähr 100.000 Dollar in die Hand nehmen, sozusagen in diesen Kreis zu kommen. Aber momentan gibt es wohl mehr Interessenten, als sie wirklich dann abbilden können. Und was wahrscheinlich auch noch kommen wird, also die Contact Windows hatte ich angesprochen, und insgesamt wollen sie natürlich GPT einfach günstiger machen. Das ist ihre höchste Priorität, dass sie in irgendeiner Form schaffen, die Kosten zu reduzieren, was natürlich auch entsprechende Mechanismen oder auch Feintuning dann eben bedeutet. Und was auch kommen soll, ist eben, dass man eine State Full API bekommt, also dass es nicht mehr so wie es aktuell notwendig ist, dass man jeden Request eigentlich im gesamten Kontext der vorherigen Anfragen, die er mit sendet und dadurch natürlich entsprechend wieder Kosten erzeugt, dass diese Tokens wieder erneut interpretiert werden. Also auch bis zum Ende des Jahres soll es eben möglich sein, dass man dort so eine State Full API hat, die man dann über die API ansprechen kann, sodass man eben nicht jedes Mal den Kontext wieder komplett übergeben muss, sondern einfach das Modell, das einfach intern vorhält. Was dann im nächsten Jahr kommt, das wurde ja auch schon mal mit GPS4 als Demokase veröffentlicht, nämlich die Multimodalität, können Sie auch eben aus diesen genannten Gründen, dass sie einfach nicht genug CPU vorhanden haben, allen Benutzern anbieten oder einfach gar nicht ausrollen. Und das ist etwas, was auf jeden Fall dann eben ab nächstes Jahr dann stärker in den Fokus rückt und dann hoffentlich oder wahrscheinlich auch kommen wird. Und den nächsten großen Bereich, den er eben erwähnt hat, das ist, glaube ich, etwas, was sehr viele Leute immer sehr heiß diskutiert haben oder wir auch. Ah ja, es gibt endlich Plugins für ChatGPT. Endlich können wir nicht nur über das Web Scrapen, sondern alles mögliche anbieten. Und da hat er ganz klar gesagt, er sieht da eigentlich kein Product Market Fit für Plugins, so nachdem wie die Plugins momentan verwendet werden. Und er hat es auch so interpretiert, dass eigentlich Leute das falsch verstehen und gesagt haben Ja, ich möchte jetzt mein gesamtes Produkt eigentlich in ChatGPT integrieren und abbilden und dass das eigentlich gar nicht der Use Case ist, den die Nutzer suchen, sondern sie wollen eigentlich ChatGPT in ihre App integrieren und eigentlich nur sozusagen als Quelle, als intelligenten Assistenten, den wir nutzen, aber gar nicht sozusagen diesen anderen Weg gehen, sodass er glaubt, weil das war ja lange die Frage, ab wann wird das wirklich über die API dann verfügbar sein, dass er sagt, also wahrscheinlich wird es nicht in naher Zukunft passieren, dass letztendlich ChatGPT Plugins über die API verfügbar sein wird. Und er sieht da einfach momentan keinen Use Case oder nicht nur er, aber ganz offen, er keinen Use Case drin hat. Ich meine, was vielleicht ganz interessant ist da zu erwähnen, ist so, dass Plugins, also man kann Plugins schon mit der API nutzen, da Plugins an sich nur ein erweiterter Prompt sind, Hey, du bist irgendwie mein Sprachassistenz, du hast die und die Tools zur Verfügung, nutzt die Tools, wenn du denkst, die sind sinnvoller, dann habe ich die Liste von meinen Tools und wann die benutzt werden können. Und zum Beispiel mit Länge Chain kann man Tools schon oder Plugins mehr oder weniger benutzen oder auch eigene Plugins schreiben. Das denke ich, was ich oder wo ein großes Missverständnis entstehen kann, ist halt okay, was der Nutzer, der ChatGPT Nutzer sieht, wie einfach es ist. Ich gebe mein Input rein. Aber was dahinter steckt, man sieht ja mit diesen sage ich mal Dropdowns, die man immer hat, was wirklich an Prompt dahinter zusammengestückt wird und wie oft das auch nicht funktioniert, sehe ich das genauso, dass es halt schwierig ist. Okay, warum möchte ich das als API haben, wenn es schon ein JGPT vorhanden ist? Und was ist der Mehrwert? Also wo siehst du den Mehrwert, wenn ich das als API zur Verfügung stelle? Baut man dann nur eine eigene neue UI darüber oder? Hm, ja. Ist denn halt Länge Chain schon drin, dass man Plugins definieren kann und Länge Chain kümmert sich das Promiting und weiß dann sozusagen, wenn die Antwort von irgendeinem Nudget Modell zurückkommt, dann Call mal hier das Plugin. Genau, also Lankchain hat das Feld unter das Agents and Tools, sag ich mal, die Agents und Tool Domäne. Und es gibt schon viele verschiedene Tools, die vorhanden sind, wie dass ich irgendwie Google Search, Bing Search nutzen kann oder auch andere, also alle ChatGPT Plugins, welche die die OpenAPI Spezifikation haben, die sie nutzen, kann man auch über Lankchain dann sage ich mal mit GPT4 oder was auch immer verknüpfen und nutzen. Was glaubt ihrein bisschen. Was ist alles, was erzählt wurde in dem Artikel der Grund, weshalb es wieder runtergenommen wurde? Was ist das Heikelste, weshalb ihr glaubt, dass der Artikel wieder runtergenommen wurde? Also ich glaube, also es wurde am Anfang erzählt über die Roadmap unddas ist auch das ist sozusagen, was er als Roadmap gesehen hat. Also es ist ja gar nicht klar, ob die ganzen Themen dieses Jahr oder nächstes Jahr kommen. Und ich kann mir vorstellen, dass das eventuell ein bisschen zu viel war, gerade auch wenn man das in einem kompetitiven Gedanken sieht. Okay, Open AI sagt Okay, Anfang oder Ende des Jahres haben wir eine Feintuning API. Okay, wenn das an Tropic hört oder vielleicht Google oder Amazon, dann priorisieren die vielleicht ihre internen Features und kommen mit einer Feintuning API davor. Und dann sage ich mal, ist das marketingtechnisch immer ein bisschen schwierig. Und man muss sagen, OpenAPI ist marketingtechnisch bisher immer top gewesen und alle anderen sind mehr oder weniger ein bisschen hinterher gezogen und waren beeindruckt mit dem, was sie gemacht haben. Und wenn du halt zu viel preisgibst von dem, was du vorhast, ist es halt in einem, sage ich mal, sehr umkämpften Wettbewerb aktuell schwierig. Ja, kann ich mir auch gut vorstellen, dass es so der Hauptgrund war. Sie haben jetzt noch einen weiteren Punkt so ein bisschen ausgeführt, dass Sie gesagt haben, Sie werden wahrscheinlich nicht irgendwie viele eigene Produkte irgendwie auf ChGPT aufbauen, also dass Sie sagen, weil wohl einige Entwickler auch irgendwie so ein bisschen Bedenken geäußert haben, hier ich baue jetzt gewisse Produkte auf ChatGPT, wenn letztendlich ChatGPT das mitbekommt oder OpenAI, könnte es ja sein, dass sie einfach mal ein Produkt imitieren. Und er hat sich da so ein bisschen im limitiert und gesagt eigentlich versucht da Open AI einfach eine sehr gute Plattform anzubieten, aber dass sie nicht versuchen wollen, letztendlich jegliches mögliche Feld, was mit GPS möglich ist, eigentlich abzudecken, sondern dass das wirklich Aufgabe der Kunden sein kann. Und sie möchten eigentlich insgesamt natürlich schon ihre Plattform so erweitern, dass sie da ein sehr smarter Assistent für alle möglichen Arbeiten sind. Aber darüber hinaus wollen sich da nicht in allen Bereichen einig aufstellen. Auch das könnte natürlich etwas sein, was man dann natürlich nutzen kann, so ein bisschen das umzupriorisieren. Also es gab, glaube ich, viele Facetten, die da vielleicht nicht ganz günstig waren oder wo vielleicht andere Unternehmen dann gewisse Erkenntnisse und Repriorisierung, wie du es genannt hast, Philipp, in deinem vornehmen können. Aber was ich interessant finde, also Sam Altmann ist jetzt nicht jemand, der irgendwie auf den Kopf gefallen ist, also er ist super intelligent, vor allem wenn man das sich auch angehört hat, wie er im Kongress gesprochen hat. Das heißt, er wusste, das, was er erzählt, wird viral gehen, wird im Internet stehen. Und es ist sehr interessant, dass er dann das trotzdem, sage ich mal, geteilt hat. Vielleicht möchte Open Air auch, sage ich mal, ein bisschen offener wieder werden. Aber es kann ja auch sein, dass von Investorenseite aus dann direkt dieses No kam und es gar nicht runtergenommen wurde, weil Sam Altmann oder OpenAI das nicht möchte, sondern weil eventuell andere Akteure gesagt haben Hey, das geht gar nicht. Aber das ist natürlich alles ein bisschen unklar. Ja, aber klar, valider Punkt, den du da machst. Eigentlich wird er jemand sein, der sich dem bewusst ist, was er da tut und was es für einen Impact hat. Und vielleicht war es ein erster Versuch. Genau ein erster Versuch, ein bisschen offener zu werden. Also auch etwas, was so in dem Paper so angeklungen oder in dem Interview Sie möchten auf jeden Fall natürlich gerne mehr Open Source werden. Also überlegen natürlich auch schon längere Zeit, irgendwie GPS 3 zu veröffentlichen und zur Verfügung zu stellen. Und da ist Ihre Aussage letztendlich nur, dass Sie glauben, dass es momentan einfach noch nicht genug Unternehmen gibt, die halt die Möglichkeit haben, so ein großes Lerche Language Modell irgendwie zu hosten und anzubieten, dass das eigentlich der Haupthinderungsgrund ist, warum sie es noch nicht machen. Das zweite, was du angesprochen hast, ist auch die Regulierung. Und du hast es eben schon gesagt, Philipp, er hat da eben auch vor dem US Kongress gesprochen und hat sich sehr stark dafür ausgesprochen, dass es eben dann eine Regulierung von AI geben muss. Das ist ja auch etwas, was mit diesem Statement on AI risk, das ist glaube ich vom Center for AI Safety herausgegeben, wo sehr viele namhafte CIOs von AI Firmen unterschrieben haben, dass es da in irgendeiner Form eine Regulierung geben muss. Also momentan glaube ich eher so das Zentiment, dass es da auf jeden Fall entsprechende Probleme geben kann. Ich glaube, da gab es die Hausnummer, dass 10 Prozent dieser Forscher glauben, dass halt wirklich da auch AI eine existenzielle Bedrohung sein kann für die Menschheit und man natürlich klar identifizieren muss, was sind halt eben Bereiche, die besonders schützenswert geben? Und da hat er sich eben in dieser Anhörung klar positioniert. Da waren neben ihm auch noch andere eben dabei. Zum einen war es der Chief von IBMs für Privacy und Trust, eben Christina Madonna und auch noch ein Professor von einer Universität, der Gerry Marcus, die sich da befragt wurden. Und sie haben gesagt, es gibt eben ein paar Bereiche, gerade wie politische Manipulation, irgendwie Informationen zu Gesundheit oder auch eben dieses Hyper Target Advertising, alles halt einfach Dinge sind, die halt sehr problematisch sein können für eine Zivilisation und das einfach Dinge sind, die einfach als hohes Risiko identifiziert werden müssen. Und es gab da verschiedene Vorschläge, die im Raum standen. Zum einen soll es eben so sein, dass in der, das bezieht sich natürlich nur auf Amerika, eben da eine Organisation gebildet wird, die ähnlich wie diese Food und Drug Administration halt die AI Entwicklung überwacht und entsprechend dann Regularien aufstellt und entsprechend Feinstern erzeugt. Und insgesamt sagt er, also es gibt einfach da einen gewissen negativen Impact, den man einfach beachten muss. Aber er hat auf der anderen Seite natürlich auch vor der Europäischen Kommission dann eben noch mal ein Interview gegeben, wo er eben dazu gefragt wurde, weil es ja da gerade darum geht, dass es in Europa diesen European AI Act gibt, wo er gesagt hat, das ist einfach zu regulierend, was da gerade passiert. Also da ist vor allem, glaube ich, die Definition von General Purpose AIs, also AI System, die halt nicht nur für eine Aufgabe eigentlich gebaut wurden, sondern einfach sehr viel eben von ihrer Funktionalität abdecken können. Und dass das einfach zu engmaschig ist, weil es natürlich etwas sein würde, worunter ChatGBT automatisch fallen würde. Und da gibt es eben auch so Klassifizierungen und es gibt eben dann diese High Risk Klassifizierung, also Systeme, die einfach ein großes, potenziell eine große Gefahr darstellen und das eigentlich direkt unter der Kategorie, dass es eben nicht erlaubt ist. Also, und er versucht natürlich so ein bisschen, sagen wir den Ansatz, den Tchetschipi natürlich unterstützt und ausprägt, natürlich dann zu verkleinern und sagen, man sollte halt eben eine bessere Definition finden, was General Purpose sind oder diese Definition ändern. Sonst könnte es nämlich passieren, dass sie sich eben aus dem europäischen Raum eben zurückziehen müssen und ihren Service nicht mehr anbieten können. Und sie versuchen, werden erst mal versuchen, letztendlich diesen Regularien zu entsprechen. Aber wenn es eben nicht möglich sein würde, diesen Regularien, ja, dass dieses Profil zu erfüllen, dass sie sich dann halt eher zurückziehen würden, als versuchen würden, das vollständig zu empfüllen auf jeden Preis. Ich glaube, der Status ist ja gerade, dass dieses Paper zwar veröffentlicht wurde oder sagen wir mal dieser Regelsatz, dieses Regelwerk, also dieses entsprechende Gesetzespaket, was ja erlassen werden sollte, aber immer noch, glaube ich, in diesem ersten Draft dann zwischen Kommission und Parlament und es gibt ja auch noch diesen European Council dann irgendwie diskutiert wird. Und ich glaube, von vielerlei Seite eigentlich gesagt wird, sie erwarten eigentlich, dass diese strenge Definition von General Purpose AI dann noch mal aufgeweicht wird, weil es glaube ich auch aus vielerlei Hinsicht da entsprechend Druck gibt, diese Definition ein bisschen aufzuweichen. Ich würde sagen, ich hoffe mal, dass es noch ein bisschen angepasst wird. Also ich weiß es auch, dass Leon, welche ja auch, sage ich mal, sehr stark im europäischen oder im deutschen Raum auch zu Hause sind, sich da einsetzen, einfach... Also man hat die Befürchtung, dass die Politik zu schnell agieren kann und eventuell zu strikt ist mit Themen, die sie vielleicht nicht ins Detail versteht und dabei halt auch nicht auf Experten hören möchte oder vielleicht nicht sich genügend Meinungen einholt, was eventuell dann nur dazu führen kann, dass halt die großen Player wieder profitieren. Ich glaube, es wird aktuell davon gesprochen, dass man irgendwie ein, zwei Prozent oder ein paar Millionen Strafe zahlen muss und man hat es gesehen bei Meta oder bei Google. Ich glaube, die interessiert es dann nachher am Ende eventuell nicht, ob sie dann einmal im Jahr ein paar Millionen in Europa irgendwie zahlen müssen. Aber dann die ganze Startup und Innovationskultur geht halt von heute auf morgen verloren. Wenn du als Startup immer die Angst haben musst, okay, wenn ich zu gut bin, muss ich mir irgendeine Lizenz holen bei irgendjemand, der eventuell gar nicht versteht, was ich vorhabe und was ich mache, was einen sehr, sehr langen Prozess mit sich ziehen kann. Und als Startup ist man jetzt vielleicht eventuell nicht finanziell so aufgestellt, dass man solche Diskussionen über Monate lang führen kann und eventuell nicht etwas an seine Kunden liefern kann. Das ist ja, glaube ich, das, was im Kern diskutiert wird, dass es halt irgendwie so Art Lizenzmodelle gibt, die dann von diesen Behörden, also Regulierungsbehörden, dann irgendwie ausgegeben wird und du als AI nicht Wissenschaftler, aber Unternehmen, der in diesem Bereich dann unterwegs ist, halt immer deinen entsprechenden Use Case lizenzieren musst. Und ja. Ja, aber ich meine, ich kläre mal, unser CEO hat es jetzt ganz ganz gutGanz gut auf Twitter, glaube ich, getroffen hat gesagt. Ich meine, an sich stehen wir vor einer großen Veränderung, was das ganze Thema AI und Generative AI angeht, aber wir hatten solche Veränderungen schon in der Vergangenheit, sei es ganz allein nur Computer oder das Internet. Und man hat ja bis heute auch nicht irgendwie Lizenzen eingeführt, ob jetzt jemand TypeScript oder JavaScript programmieren darf oder nicht, weil eventuell sein Code harmlos sein kann oder nicht. Ich meine, es gibt genug Schadsoftware im Internet oder Phishing Seiten, Phishing E Mail und sonst was, wo man nicht so krass und strikt reguliert. Und den Ansatz, den wir halt sehen, die Gefahr, dass Missbrauch passiert ist halt viel geringer, wenn man viel öffentlicher damit umgeht, im Sinne von okay, wie ist das Modell trainiert, welche Daten wurden genutzt, wie kann ich es benutzen? Es gibt sehr viel Forschung im Bereich Watermarking. Also man kann wahrscheinlich mehr Zeit und Geld investieren, festzustellen, ob etwas von AI generiert wurde oder nicht. Und nicht einfach sagen Okay, du brauchst eine Lizenz und wenn du die Lizenz nicht hast, darfst du es nicht benutzen. Ja, ich meine, irgendwie schön daran zu sehen, dass du zumindest gefühlt jetzt gerade mal nicht verschlafen wird, sich über diese Themen zu unterhalten. Aber es ist halt sehr bürokratisch natürlich jetzt gedacht und ich verstehe komplett die Kritik irgendwie daran. Natürlich wurde auch von vornherein auch die ganze von der Politik gefordert. Hey, da muss was kommen, da müsst ihr euch anschauen. Das kann nicht verschlafen werden. Da sind viele großen Gefahren da. Jetzt ist erst mal ein bisschen gefühlt der Vorschlag dann wahrscheinlich überreguliert. So wie du sagst. Man kann es nur hoffen, dass irgendwie da etwas gefunden wird, was vielleicht praktikabel ist und trotzdem einen Effekt erzielt. Ich meine der gewünschte Effekt, der Gedanke dahinter ist ja trotzdem gut. In der Umsetzung sehe ich diese im Zweifel, die ihr da gerade schon ausgeführt habt. Ich meine, das Gleiche kann man ein bisschen auch, sage ich mal, über dieses AI oder die Senat Anhörung sagen. Es ist immer von Vorteil, wenn ich als Akteur mit beeinflussen kann, wie diese Regulierung aussehen könnte, meine Bedürfnisse sozusagen zu priorisieren. Und das spielt ein bisschen mit in dieses Okay, warum möchte Open AI, dass so stark Regulierung kommt? Klar, weil sie am Anfang oben sehr, also sie sind wirklich Platz eins unangefochten. Wenn jetzt Regulierung kommt und die Entwicklung eventuell für andere verlangsamt oder verschwierigt, kann es sein, dass sie ihren Platz eins eventuell einfacher halten können oder besser, sage ich mal, sie haben die Verbindungen dann besser gemeinsam daran arbeiten, besser auf die Regulierungen anpassen können und einfach halt weiterhin Vorsprung dadurch bekommen. Das ist auf jeden Fall etwas, was man natürlich sich so fragen kann. Weißt du, ist es letztendlich nur aus dem Grund, ihre momentane Spitzenposition zur Verteidigung und die Entwicklung in allen anderen Bereichen oder von allen anderen zu behindern. Gefühlt auch irgendwie so das größte Credo, was man irgendwie so mitbekommt, wenn man sich irgendwie auf Twitter bewegt, dass es eher so okay, es hat jetzt nicht diesen positiven Effekt für die Menschheit, dass irgendwie sich Sam Erdmann da hinsetzt, sondern eigentlich geht es ja darum, letztendlich Marktdominanz zu behaupten und die Entwicklung für alle anderen irgendwie schwieriger zu machen. Ich denke aber, trotzdem braucht man natürlich gute Definition, die genau das abdecken. Und ich glaube, was du genannt hast, also was ja auch irgendwie Hacking Feld versucht, einfach diese Demokratisierung der Modelle oder die Transparenz der Modelle zu erhöhen, was man ja auch etwas ist, wo man sagen müsste Okay, da ist Open AI jetzt nicht die die offenste, das offenste Unternehmen, die halt komplett preisgibt, wie ihre Daten oder ihre Modelle trainiert wurden, dass das natürlich auch sehr stark dazu beitragen kann, dass man da Vertrauen schafft und auch einfach einen Einblick in die Systeme bekommt, einschätzen zu können, was passiert da gerade? Ja, ich glaube, wenn das Thema jemand interessiert, was ich empfehlen kann. Es gibt einen Podcast, der nennt sich Maschine Learning Street Talk. Der hat die ganze US Senat Anhörung von Sam Altmann und Eric Marquus in 50 Minuten sehr gut zusammengefasst. Das ist definitiv etwas, was man sich anhören kann, wenn man sich damit mehr beschäftigen möchte. Und dann für Europa, sage ich mal, kann man einfach nur hoffen, dass die auch aus dem Research kommen, die die richtigen Parteien sich dafür einsetzen, dass wir uns nicht selbst wegregulieren und konkurrenzfähig bleiben, sage ich mal. Ja, ja, cool. Packen wir auch in die Shownotes den Link. Ich würde sagen, wir wollen auch von Human Feedback lernen, würde ich sagen. Von daher gibt es auch erst mal Feedback dazu. Wie ihr so fandet, dass wir jetzt hier unsere erste AI News Folge releast haben, gibt uns auch, ich glaube, wir sollen noch ein bisschen lernen, optimieren in punkto Zeit, gibt es auch gerne mal dazu Feedback. Also wir sind jetzt auf der Oberweide knapp über einer Stunde, haben natürlich ein bisschen weniger zu haben. Wir unterhalten uns gleich mal, ob wir vielleicht einfach längere Folge ab jetzt machen oder was wir beim nächsten Mal rauskürzen. Aber gebt uns auch gerne mal dazu Feedback. Wie fandet ihr es? Wie ist es mit der Zeit für euch? Und lasst uns von eurem Feedback lernen. Philipp, vielen, vielen Dank für deine Zeit. Gerne. Dann natürlich auch. Und wir hören uns dann höchstwahrscheinlich in zwei Wochen wieder. Bis dann. Macht's gut. Ciao. Ciao.

Speaker Info

  • Philipp Schmid Profile

    Philipp Schmid

    Philipp Schmid ist Technical Lead und Machine Learning Engineer bei Hugging Face, einer Firma, die gutes Machine Learning durch Open Source und Open Science demokratisieren möchte. Der junge Nürnberger und AWS Machine Learning Hero hat sozusagen die deutsche Variante von ChatGPT entwickelt und darüber auf seinem Blog geschrieben. Checkt sie im Playground aus!

    Mehr Infos
Feedback