AI in 2025 // OpenAI o3 // Google Flash Thinking
- // Podcast
- // News AI #38
Shownotes
In der wirklich letzten Folge diesen Jahres sprechen wir über AI in 2025. Welche Neuerungen haben wir in 2025 zu erwarten? Werden wir AGI erreichen oder der AI Boom abflachen?
Darüber hinaus gibt es noch einige handfeste News rund um OpenAI. OpenAI hat nämlich ihr neues Reasoning Model o3 herausgebracht, was es erstmals schafft 87,5% auf dem ARC-AGI Benchmark zu erreichen und damit erste Diskussionen losgetreten haben, ob wir damit schon AGI erreicht haben.
Google holt im Reasoning Model Bereich auf und hat Gemini 2.0 Flash Thinking Experimental rausgebracht. Auch im Open Source Bereich haben wir noch ein Weihnachtgeschenkt bekommen. Deepseek hat mit ihrem V3 Modell ein OpenSource Modell bereitgestellt, dass besser als Claude Sonnet 3.5, also auch GPT 4o in den meisten Benchmarks ist. Und das beste: Es ist dabei auch noch 10x kosteneffizienter.
Elevenlabs hat ein neues TTS Flash Modell rausgebracht, was Sprache aus Text in unglaublichen 75ms+ erzeugen kann. Damit steht Realtime Text to Speech Use Cases nichts mehr im Wege.
Weitere Links:
- Genesis (Link)
- Fabi
- Hallo und herzlich willkommen zu der programmier.bar AI News Nummer achtunddreißig, die letzte und Special Folge diesen Jahres. Wir haben heute den einunddreißig Dezember und wahrscheinlich haben wir's dann auch direkt noch heute raus, damit's auch wirklich stimmt, was ich jetzt erzähle, dass die letzte Folge des Jahres ist. Und zwar ist ja die erste des nächsten Jahres. Ich bin der Fabian mit mir dabei. Ist wie immer der Philipp. Hi Philipp. Hallo. Wir haben heute ein paar Themen dabei. Probiert, die Themen ein bisschen schmaler zu halten. Fünf wir an der Zahl sind's. Wir haben zwei Google Themen. Google kommt mit 'nem neuen Reasoning Modell, dann haben wir Google Genesis, ein neues Open Source Modell D3. 11 Labs hat 'n neues Modell rausgebracht, Flash, was sehr schnell Sprache erzeugt und wie immer haben wir OpenAI dabei, diesmal mit dem letzten Türchen von ihren zwölf Tagen OpenAI und zwar ebenfalls einem neuen Riesen Rieseny Modell, dem Modell O3 und 'ner kleine Strukturveränderung bei OpenAI. Und am Ende wollen wir uns noch 'n bisschen Zeit nehmen, mal probieren, bisschen darüber zu quatschen, was wird denn nächstes Jahr so im AI Space passieren, weil's natürlich nächstes Jahr höchstwahrscheinlich sehr turbulent weitergehen wird. Und wir wagen uns mal ein paar Productions beziehungsweise einfach mal zu schauen, was dann vielleicht auch andere darüber sagen. Philipp, lass noch mal direkt einsteigen mit den Google Themen und vielleicht erst mal Google Genesis. Was was genau ist das für ein Modell? Was hat's damit auf sich?
- Philipp
- Also Google Genesis ist gar nicht von Google, sondern das Projekt Genesis ist 'n eine eine neue Python Library für Physik. Also Sie schreiben, Sie haben eine universelle Physik Engine komplett neu gebaut in Python mit dem Gedanke, sie zu gestalten. Das heißt, man hat wirklich Python Code, indem man definiert, wie zum Beispiel 'n Wassertropfen von einer Flasche herunterläuft. Oder man das vielleicht von den typischen so gerenderten Werbespots kennt, wo halt nicht echt sind, sondern mit CGI oder anderen Methoden erstellt wurden. Und Genesis ist dafür da, dass man jetzt dieses supereinfach für jeden mehr oder weniger 'n Python schreiben kann, Simulationen zu erstellen für Roboter, für Werbungen, für alles Mögliche eigentlich. Und der Hintergedanke dadurch, dass LLMs ja so gut mittlerweile sind im Code generieren ist, dass sie synthetisch eine Data Engine bereitstellen, dass man mit 'nem einfachen Prompt mehr oder weniger eine Simulation erstellen kann, die wirklich beeindruckend ist. Also als Beispiel haben Sie oder als Teaser ein Wassertropfen, der an einer Bierflasche entlang nach unten slide und also auf dem Flaschenboden, auf der Flaschenwand. Und das sieht meiner Meinung nach so beeindruckend gut aus, dass wenn das wirklich mit einem Prompt kommen kann, dann kann jeder bald hochprofessionelle Marketingclips oder Simulation erstellen, was vor allem online für große Begeisterung gesorgt hat. Also ich hab das glaub überall gesehen. Das Einzige, wo man 'n bisschen aufpassen muss, diese Generator Methode, also dass ich von meinem Prompt zu dieser supercoolen professionellen Simulation Video komme, existiert noch nicht. Also bisher hat man nur die Physik Engine in Python, wo man selber dann, sag ich mal, Simulation für alles Mögliche erstellen kann.
- Fabi
- Okay. Und diese, da haben wir haben Sie das dazu geschrieben, die Generator Methode, wann die kommen soll oder gibt's da schon irgendwelche Infos? Dann nur Coming su und stand irgendwo, ne? Ja. Und Also ich hab's hab's wirklich komplett falsch am Anfang, gar nicht von Google. Ich weiß auch nicht, warum ich, glaub Logo und Namen hab ich irgendwie direkt in den Google Top geworfen, als ich's gelesen hab. Aber von wem es ist, weiß weiß man das?
- Philipp
- Also es ist eine eine 'n Zusammenschluss oder 'n Researchprojekt, das bis zu einem Jahr oder ein Jahr jetzt ging. Und warte, es ist auf jeden Fall von mehreren Universitäten
- Fabi
- zusammen. Sonst nimmt das?
- Philipp
- Aber ich find's jetzt nicht direkt aufs Erste. Also sie haben bisher auch, also es gibt 'n Gitar Repository mit dem mit der Library, die man nutzen kann, einfach wirklich Pip install und dann kann man anfangen. Es gibt auch eine Dokumentation dazu. Es gibt paar Beispiele, dass man sich das anschauen kann. Es gibt 'n Docker Container, dass man's jetzt Standalown ausführen kann. Bei Beispielen sind irgendwelche Drohnen dabei, Rendering, also gerade das mit dem Wassertropfen der Flasche entlang nach unten. Und dann an sich auch noch Tutorials, wie man halt Roboter baut, wie sich Gelenke und Muskeln verhalten sollen und einfach, dass man da reinkommt. Und ich glaube, für die brauchen sie noch mehr solche Codebeispiele. Also in meinem Hintergedanke funktioniert das so, dass ich ganz viele dieser Beispiele mit der hab, also wie ich zum Beispiel diesen Wassertropfen simulier oder andere Dinge. Und dass ich dann ein Modell feintunen kann, das anhand von 'nem Prompt diesen Code ausspuckt und dann der Code sozusagen ausgeführt werden kann und ich dann dieses Video bekomme. Dafür brauchen Sie ja erst mal sone synthetische Data Generation Pipeline, muss sie vielleicht schon arbeiten, die sie vielleicht schon haben. Aber es ist Am besten geht's ja auch.
- Fabi
- Woher kommen denn woher dann diese Modelle sozusagen kommen dafür? Also gebe ich auch in der in dem Beispiel sieht's wirklich so aus, ich geborene einfach nur 'n Prompt rein, aber diese es generiert ja nicht die Modelle, die Physik's entsteht. Das nimmt ja bestehende Modelle
- Philipp
- und Ja. Ja, das ist die das ist alles bisher, also das mit dem mit der Channel Methode ist bisher Review sozusagen oder gutes Marketing, was dazu geführt hat, dass alle Augen auf dieser neuen Physik Library sozusagen aktuell sind. Ja, weil ich meine,
- Fabi
- in dem Beispiel mit der Heinekenflasche und so was, die ist ja nicht die ist ja auf jeden Fall nicht generiert vom Modell sozusagen, sondern diese die die Physik des Wassertropfens auf der Flasche und so weiter. Genau. Und die haben zumindest ja auch in dem Beispiel, ist ja keinerlei Konfigurationsdatei oder so was, wo's irgendwie drinsteht, aber wahrscheinlich ist das irgendwo hinterlegt in der Generator Methode. Ja, auf jeden Fall sehr spannend. Auf jeden Fall nicht von Google, sondern das für das Engine Genesis. Dann kommen wir aber jetzt mal wirklich zu Google und dem neuen Reasoning AI Modell von Ihnen.
- Philipp
- Genau, also nicht nur OpenAI, hatte auch irgendwie Google gefühlt zwölf Tage auf für Adventskalender. Also Dezember war auch voller neuer, guter Gemanine Updates und vor allem unerwarteten Gemanine Updates. Und eins davon ist 'n neues Experimentalmodell. Also Google hat angefangen, ich glaub schon Mitte November oder auch davor schon, viel schneller Modelle zu releasen und zugänglich zu machen, die dann einen X-Tag hatten im Namen. Und so ist auch letzte Woche, eine vorletzte Woche am neunzehnten Dezember ein Geni zwei Punkt olaf fhinking Ex Model verfügbar gewesen in der Studio. Und Flash Thinking ist sozusagen Googles Antwort auf o 1, welches Germany oder auf auf Basis von Gemini zwei ist, indem das Modell erst mal mehr oder weniger dieses oder erstellt und dann die Antwort generiert. Ich würd sagen, der große Unterschied hier ist, dass man das direkt nutzen kann. Also wirklich am zehn Minuten danach, die das gepostet haben, konnten man ins AI Studio gehen, also auf AI Studio Punkt com, Punkt Google Punkt com und das Modell auswählen. Und eine weitere, größere, wahrscheinlich mehr bedeutsame Veränderung oder Änderung oder Vergleich zu o eins ist, dass man Zugriff auf dieses hat. Das heißt, bei o eins ist es ja so, dass man nicht sieht, was behind the Scenes das Modell generiert und dann, dann zur Antwort zu kommen, bei Google kann man das sich in AI Studio oder auch per API anzeigen. Das heißt, man kann genau nachvollziehen, was das Modell generiert, ein Mathe Problem zu lösen oder 'n anderes komplexes Problem zu lösen. Sie haben leider keine offiziellen Benchmarks mit released, aber es gab 'n paar von der Community, die schon Germany, 2 and o, Flash Thinking getestet haben. Und es performt auf jeden Fall im Coding auf Level, also in dem Bereich erreicht neunzig und einundneunzig Komma fünf acht, aber hier ist das o 1 von dem siebzehnten Zwölften gemeint. Mhm. Und das o 1 Preview, was halt länger zur Verfügung war, hat zum Beispiel nur siebzig erreicht. Also Coding definitiv auch starke Performance. Und es ist ist, war verfügbar in der LMSY Chatbot Arena. Die haben auch geteilt, dass Flash Thinking Overall jetzt Platz eins teilt mit dem normalen Gemini Modell, aber in Mathe zum Beispiel Platz eins, in harten Propants auch Platz eins und in Vision auch Platz eins. Und vielleicht noch ganz kurz, das Flash Thinking Modell auch supportet Bilder und Video Inputs, also wirklich nativ multimodal. Allerdings hat man nur aktuell eine Kontext von zweiunddreißigtausend Token. Das heißt, ist nur 'n sehr, sehr kurzes Video möglich.
- Fabi
- Okay. Ja cool. Eigentlich hat's ja von der Reihenfolge her noch Sinn gemacht, jetzt mal über das neue Riesenmodell von OpenAI zu sprechen. Aber lassen Sie mal zwei Themen vorher noch fertig machen. Das eine wäre 11 Labs Flash. Wir haben ja am Anfang noch gemeint 'n neues Modell von 11 Labs, was im Endeffekt Text to Speech in unfassbar kurzer Geschwindigkeit macht und zwar in, ich glaube nur zweiundsiebzig Millisekunden kriegt man's hin oder siebzig und 'n paar zerquetschte Millisekunden Sprache zu erzeugen, was super super interessant ist für alle möglichen Realtime Use Cases, also das was sie Und das ist auch ab jetzt schon direkt nutzbar, also man kann's entweder über die API benutzen über oder ihre oder über ihre commerational AI Plattform und im Endeffekt jetzt ein Modell bietet, wo es wirklich, man sagt, man will das realtime machen. Es könnten irgendwelche Chat Agents sein am am Telefon, wenn man direkt Sprache erzeugen möchte und mal gucken, ob's da draußen irgendwelche Use Case gibt, die's jetzt wirklich auch schon sich trauen, direkt einzusetzen. Sie sagen son bisschen, also es verliert 'n bisschen an emotionaler Tiefe. Also sie haben son bisschen ihre drei Modelle auf der, ja, auf 'ner Skala verglichen, was Geschwindigkeit und emotional Tiefe angeht, wo auf jeden Fall Flash, das das Netzste ist, aber zum Beispiel Turbo eher dafür genutzt werden sollte, wenn's eben emotionale Tiefe gehen würde. Aber ich mein, Use Cases könnten zum Beispiel natürlich auch sein irgendwie, keine Ahnung, in irgendwelchen Realtime Games Szenarien, wenn irgendwas direkt on the fly erzeugt werden soll und irgendwie Dialoge auch nicht nur vorgescripted sein sollen, sondern man beispielsweise 'n LLM nutzt, um's zu erzeugen und dann es da direkt aussprechen lassen möchte. Der ist natürlich superinteressant und auf jeden Fall krass, dass jetzt dass wir jetzt so weit sind, dass wir bei Sprachen erzeugen. Ich glaub, auch in zweiunddreißig Sprachen haben Sie gesagt innerhalb von fünfundsiebzig Millisekunden und 'n bisschen drüber funktioniert es auf jeden Fall sehr, sehr beeindruckend. Probier's gern mal aus, wenn ihr irgendwelche Text to Speech Varianten habt, die ihr ausprobieren wollt so. Also wer weiß, vielleicht ist dieser Podcast auch jetzt schon gar nicht mehr hier aufgezeichnet, sondern direkt mit Text to Speech einfach nur vorher eingeschrieben und schon live könnt ihr grade hören, wie wir hier sprechen.
- Philipp
- Weißt Du, ob das vielleicht Modell auch günstiger geworden ist?
- Fabi
- Nee, nach Preisen hab ich nicht geschaut. Können wir aber vielleicht noch, machen wir's einfach so, wir packen's in die Shownotes noch mal 'n Link zu dem Pricing der Einzelmodelle. Dann kann man noch mal nachschauen, falls es euch interessiert. Und bevor wir jetzt gleich noch mal zu kommen und unserem Ausblick fürs nächste Jahr, da sind
- Philipp
- wir noch mal kurz über ein Open Source Modell unterhalten, und zwar DS3. Genau, ich glaub, das war mit das schönste Weihnachtsgeschenk für alle, die Open Source AI verfolgen. Zwar hat an, im ersten Weihnachtsfeiertag war's, glaub ich, Deep SEEK, also 'n chinesisches AI Lab Deep SEEK V drei vorgestellt, was 'n Expertmodell mit sechshunderteinundsiebzig Milliarden Parameter, also und vierhundertsiebenunddreißig Milliarden aktiven Parametern während der Generierung releast. Und das Besondere hierbei ist, es ist so gut beziehungsweise besser als Cloud oder und nicht nur auf einem Benchmark, sondern wirklich, sie haben durchgetestet von Englisch, Code, Mathe und auch chinesischen Benchmarks. Vor allem im chinesischen sind sie besser als Open Air beziehungsweise Antropic. Und das wirklich Interessante daran ist, dass also das Modell wurde auch von DeepSeak gehostet. Wenn ihr's frei nutzen wollt, gibt's auch, die Lizenz ermöglicht auch. Also man kann es einfach nutzen, solang man, sag ich mal, den Compliance oder entspricht. Das heißt, kein kein Hacking oder sonst irgendwie Scamed damit macht. Man braucht 'n bisschen Computer, also sie schreiben acht h zweihundert beziehungsweise sechzehn m I dreihundert. M I dreihundert, das ist der AMD Chip. Da gibt's eine Instanz immer mit sechzehn dieser Grafikkarten und h zweihundert ist die neue NVIDIA Grafikkarte. Das heißt, es sind so, also ich glaub hundertsechzig Gigabyte hat eine davon. Das heißt, knappen Terabyte an GPU Speicher brauch ich für das Modell. Aber was wirklich besonders ist, was es sehr, sehr interessant macht, glaub ich auch, wenn sobald andere anfangen ist zu provider, es ist zehnmal günstiger als OpenAI beziehungsweise Herrn Tropic. Und auf der Deep SEEK Plattform zahlt man nur siebenundzwanzig Cent pro eine Million Input Tokens und ein Dollar und zehn Cent pro eine Million Output Tokens. Und sowohl so nett als auch Kosten ja fünfzehn, ungefähr fünfzehn Dollar pro eine Million Output Token. Und jetzt haben wir 'n Modell zehnmal günstiger Open Access Open Source, sag ich mal, was wie gesagt zehnmal günstiger ist, gleiche Performance zum Nutzen, was, glaub ich, keiner so wirklich auf der Bucketliste für zwanzig vierundzwanzig noch hatte. Und das sehr, sehr andere Besondere daran ist, ich mein, ich weiß nicht, wie viele es wissen, aber China ist ja 'n bisschen restriktiert, welche GPUs sie nutzen können. Und NVIDIA hat ja 'n speziellen H-800 GPU entwickelt, der weniger Netzwerkbandbreite hat oder die Kommunikation zwischen den Chips verringert. Das heißt, dass sie einfach ineffizienter sind. Und generell ist der Zugang zu Zehntausenden Hunderttausenden, GP und China ja nicht so einfach, was dazu geführt hat, dass DeepSeak ganz, ganz viele Engineering Innovation umgesetzt hat, ihr Modell trainiert trainiert, was umgerechnet nur fünf Komma fünf Millionen US Dollar sind. Klar, das sind immer noch Preisen und Zahlen und Fakten, die kein normales Unternehmen normalerweise nutzt oder umsetzt. Aber wir haben jetzt Ende zwanzig vierundzwanzig für unter zehn Millionen Modell, was vor zwei Jahren noch über hundert Millionen gekostet hat. Also man hat ursprünglich mal gesagt, dass GPT-4 ungefähr hundert Millionen gekostet hat zum Trainieren. Und jetzt sind wir bei GPT4O, was ja 'n bisschen besser ist, Kostenfaktor zwanzig gesunken. Und sag ich mal, ganz viele Influencer oder auch Researcher von großen US Unternehmen, die sich das Paper angeschaut haben und so, sind alle, also jeder sagt, dass DeepSeek hier wirklich gekocht hat in dem Sinne von, wie sie's entwickelt haben und umgesetzt haben, was sehr, sehr beeindruckend ist. Und ich bin echt gespannt, was da nächstes Jahr dann noch kommt von anderen Labs auch. Und dass vielleicht auch die GPU Scarcity dazu führen kann, dass wir doch weiterhin Engineering Innovation auch haben.
- Fabi
- Ja, krass, wirklich sehr beeindruckend. Bei fünfeinhalb Millionen sagst Du sind's jetzt.
- Philipp
- Ja, es ist auf auf jeden Fall günstiger als Lama free sevenity zu trainieren von Meta. Und sie haben's auch irgendwie nur in ein, zwei Monaten trainiert. Also es ist echt nicht Es klingt im Verhältnis immer noch extrem viel, aber wenn man dann weiß, wie viel Computing Open Air oder 'n Tropicut, dann ist es wirklich, da wird gegen Goliath.
- Fabi
- Ja, wir können ja gleich mal, bei Kosten sind, wir kommen ja jetzt ja gleich auf O3 von Open Air, dann es wird ja Kosten durchaus gleich noch mal 'n Thema. Das setzt dann gleich wieder 'n bisschen in Relation, wenn man sagt, wir können uns immer die fünfeinhalb Millionen im Sinn merken, die wir uns grade dieses Trainieren des Modells gekostet hat. Ja, und dann haben wir zumindest mal 'n paar Benchmarks für Preise. Aber auf jeden Fall auch noch mal interessant, packen wir auch die Shownotes, deinen Benchmarkvergleich von Deep Seek gegen Claude noch GPT vier auf den verschiedensten Benchmarks. Ist ja immer schon beeindruckend, wo sie wirklich überall besser sind. Ich mein, es ist nicht jeder gegen jedes Modell so, aber durch die Bank weg schon das das Beste, wenn man so sich den Schnitt anschaut. Ist schon sehr, sehr beeindruckend.
- Philipp
- Ja, ich mein, das mit den Badgeucks ist ja mittlerweile superschwierig geworden. Ist man jetzt besser? Wo ist man besser? Was bedeutet besser? Aber es ist wirklich nicht so, dass man irgendwie fünf Prozent hinterher ist, sondern wirklich auf manchen bessern, auf manchen Kleidgut manchmal einen Punkt schlechter oder zwei Punkte und dann wieder sehr, sehr viel besser und vor allem im Coding Bereich ist es extrem gut. Also durch die Bank weg besser als GPT-v-o.
- Fabi
- Ja, auf jeden Fall sehr beeindruckt und wie Du sagst, ja, der grade auch durch die Bank weg. Sone ich, dass man sagt, man hat jetzt drei Benchmarks irgendwie rausgesucht und sagt dann, okay, in denen ist es jetzt besser und nutzt das irgendwie für die Kommunikation. Ich find, der Chart, den Du da gepostet auf X, ist auf jeden Fall,
- Philipp
- gibt schon 'n gutes Bild darüber.
- Fabi
- Dann hast Du jetzt mal zu o drei com von OpenAI, bevor wir dann gleich noch 'n bisschen unseren Outlook für zweitausendfünfundzwanzig machen. Und zwar hab ich ja schon gemeint, OpenAI, zwölf Tage OpenAI. Zuletzt, als wir gesprochen haben, waren die zwölf Tage noch nicht alle voll und der letzte ist auf jeden Fall noch mal einen Knaller Mann. Der erste Tag, den sie hatten, war ja ihr neuer Plan, der zweihundert Dollar pro Monat kostet und der Release von o eins, raus aus dem Preview. Und aufgehört nach dann dem Ende ihrer zwölf Days, ich glaub, dazwischen lagen dann nur zwei, drei, drei Wochen, glaub ich, insgesamt, ist ein neues Reasoning Modell. Sie haben o zwei übersprungen aufgrund aufgrund von wahrscheinlich Lizenzschwierigkeiten mit meinem Internetanbieter o zwei, der sich höchstwahrscheinlich beschwert hätte, wenn sie im Modell o zwei genannt hätten. Deswegen wurde nach kam nach o eins direkt o drei. Und o drei hat auf jeden Fall auch noch mal für große Wellen gesorgt und viele Leute, glaub ich, sehr, sehr beeindruckt. Wir werden uns gleich mal wissen über die Benchmarks unterhalten, vielleicht so viel dazu. Also es gibt das Video von OpenAI, was ungefähr fünfundzwanzig Minuten ging, wo man 'n bisschen präsentiert bekommt, was o 3 kann, woher wir auch alle unsere Informationen ziehen. Und ansonsten ist es noch grundsätzlich für, also müssen sie jetzt noch nicht im Preview irgendwie nutzbar, sondern im Endeffekt jetzt müssen noch das ganze Red Teaming und so weiter muss gemacht werden. Das heißt, bisher käme das, was OpenAI uns übers Modell gesagt hat. Aber es ist erst mal superbeeinigungs. Weiterhin einen einen Modeling Modell, also die Familie, die sich weiterentwickelt hat von o-1 zu o drei. Und vielleicht können wir ja erst mal auf den Benchmarks bleiben, die wir die wir im Endeffekt uns auch grade angeschaut haben, wenn wir uns irgendwie Deep Siege gegen die Bestandsmodelle verglichen haben. Und zwar, wenn wir auf Coding gehen, ist auf jeden Fall schon mal sehr beeindruckend. Ich glaub, zwei Dinge, die man da mal rausstellen kann. Das einerseits der SWR Bench, der ja son bisschen auf typischen GitHub Issues, die so typische Softwareentwickler lösen müssen, basiert, wo wir eigentlich bisher bei allen Modellen so im Bereich waren. Also wenn wir jetzt grade auch noch mal Deepseak als Beispiel nehmen, hat, glaub ich hier, wenn ich noch mal deinen Party durchgehe, in dem SRE Verified zwei zweiundvierzig Prozent erreicht. Das beste Modell in deiner Tabelle waren bei knapp über fünfzig Prozent, also mit fünfzig Komma acht Prozent. Das ist auch das, wo man sagt, das war eigentlich der der bisherige Standard auf dem auf dem SWE Band. Wenn man jetzt sich anschaut, wo wo liegt denn o drei, dann sind wir hier jetzt am einen Sprung von zwanzig Prozent gemacht. Also O3 ist jetzt bei einundsiebzig Komma sieben Prozent auf dem SWRE Bench verified. Also einen Sprung von zwanzig Prozent haben wir eigentlich sonst nie gesehen, einen einen zwanzigprozentigen Anstieg. Und auch superinteressant wär auch noch neben dem SWRE Bench der der, der im Endeffekt einen einen einen Elo Score anzeigt, wo o drei jetzt grade bei zweitausendsiebenhundertsiebenundzwanzig Elo Score ist, was wirklich ihn damit in den, ich glaube, ins neunundneunzig Komma fünfprozentige neunundneunzig Komma neun fünfprozentige Perzentil von Codeforces steckt. So und wenn man das einfach im Vergleich hat, zum Beispiel so Dinge wie Alpha Code Ende letzten Jahres, was Deep Mainz hat, was ja wirklich trainiert wurde auf eben dieses kompetitive Coding, was glaube ich damals ins siebenundachtzig Prozent per Centil eingestiegen ist. Es ist auf jeden Fall schon sehr beeindruckend, wenn man hier 'n Modell, was nicht explizit auf diesem Codeforces Benchmark trainiert wurde, jetzt hier im neunundneunzig Komma neun fünf Prozent per Centil sieht. Auf jeden Fall super super beeindruckend. Sind aber alles natürlich auch Benchmarks, die man typischerweise in den Charts, die Du ja auch auf X gepostet hast, auch so von von anderen Modellen sieht. Also Codeforce ist jetzt noch mal hier zum Vergleich, wo Deepseak wirklich sehr, sehr gut abgeschnitten hat mit dem einundfünfzig Prozent per Centil im Vergleich zu den anderen Modellen. Sind's aber zwei Benchmarks, die über die man sich jetzt unterhält mit o drei, die man vorher gar nicht wirklich auf dem Schirm hatte bei anderen Modellen, weil sie einfach keine Werte erreicht haben, die irgendwie groß nennenswert waren, dass man darin verglichen hat. Und das sind einerseits Fronty-Math und das andere ist Arch AGI. Also Fronty-Math, im Grunde genommen ein Benchmark, der extrem schwere Mathematikaufgaben gibt, die zu lösen sind. Und da gibt's zum Beispiel auch Leute, die in dem Bereich irgendwie unterwegs sind, die gesagt haben, also diese die Aufgaben sind so challenging, dass höchstwahrscheinlich in den nächsten Jahren es noch schwierig sein wird für AI, diese Dinge zu lösen und als auch von Leuten, die wirklich in dem Bereich, die solche solche Aufgaben, also Mathematiker diese Aufgaben lösen, die gesagt haben, okay, wenn wenn AI nur eine von diesen Fragen irgendwie richtig beantworten würde, wäre das schon weit mehr, als wir aktuell erwarten könnten. Und auf diesem Contye Math hat also, und noch mal ums einzuordnen, andere Modelle liegen alle bei unter zwei Prozent von dem, was sie irgendwie, was sie was sie gelöst haben auf dem Benchmark. Und O3 hat jetzt einfach fünfundzwanzig Prozent auf diesem Front Your Math Benchmark geschafft, was auf jeden Fall auch einfach wieder eine super, super beeindruckende Zahl ist. Und das Ganze wird abgerundet nimmt als 'n Benchmark, der ja wirklich so PhD Level, so wirklich High Education Task sozusagen geht, sind ja sind es ja alles Tasks, auf denen probiert wurde, die ARMI Models sehr stark zu verbessern. Eine Schwierigkeit, die man ja immer hatte, wo man gesagt hat, okay, es ist im Vergleich relativ einfach, der AI Models auf diese komplexen Tasks zu optimieren. Aber was was oftmals schwierig ist im Bereich, ist im Endeffekt die, dass dass Models auch diese sehr einfachen Aufgaben können, die für uns Menschen relativ einfach sind. Son arc ag I sind eigentlich Beispiele, wenn man wenn man sich den Menschen noch mal anschaut, ist nichts anderes als ein, man hat immer einen Input und Output Imgen. Im Endeffekt ist das 'n Gridraster mit mit Farben und hat im Endeffekt ein bestimmtes Pattern im Input, bestimmten Output, kriegt davon vier Beispiele, muss dann eine Aufgabe lösen, was teilweise, also nicht alle sind supereinfach, aber es gibt auch Aufgaben, die wahrscheinlich Erstklässler irgendwie lösen können, was aber für AI Modelle supersuperschwierig ist und wir vorher Modelle hatten, die im Endeffekt auf AGI eigentlich nichts groß lösen konnten. Also wir wir können mal schauen, so die vorher war's so, ich glaub O1 in den in den besten Varianten, glaube ich O1 High hatte irgendwie zweiunddreißig Prozent davon irgendwie lösen können. Und wir sind jetzt mit o3 einfach so, dass siebenundachtzig Komma fünf Prozent der ARC AG Aufgaben gelöst werden konnten, was auf jeden Fall son bisschen als der Holy Grail der der Benchmarks galt, was was AI Modelle angeht. Und ist auf jeden Fall super beeindruckend, was o drei da geschafft hat. Und dann kommen wir vielleicht zu dem zu dem Pricing Point, den wir den wir vorhin angesprochen hatten so. Andererseits beeindruckend ist auch, was es kostet mit o drei das Ganze zu lösen. Also das bestgetunte Modell, ARG I tunet Modell o drei high hat achtundachtzig Prozent erreicht und ist aber auch, man muss sagen, es ist auf 'nem Logscale irgendwas, was pro Task mehrere Tausend Dollar kostet. Also die Ausführung, so einen ArchAGI Task zu lösen, kostet mehrere Tausend Dollar. Und wenn man, ich hab mal reingeschaut in den in den ArchAGI auf der ArchAGI Seite, ist übrigens ganz interessant, da könnt ihr auch mal selbst, pro Tag gibt's immer so ein Arch AGI Rätsel, was ihr lösen könnt. Also wenn ihr mal selbst schauen wollt, seid ihr noch schlauer als eine General Intelligence. Könnt ihr's mal machen? Ich hab's für heute gelöst, macht Spaß. Und da ist es so, dass dieser Arch AGI Benchmark aus neunhundert Tasks besteht, so vierhundert sind auch zum Tasks sind zum Training auch gedacht. Vierhundert sind Public available Publicly available Daten, die man sozusagen zum Validieren dann nehmen kann und hundert sind privat. Also die sind wirklich nur, wenn wirklich ein LLM sagt, okay, wir möchten jetzt dagegen testen, dann werden diese hundert privat gehaltenen Aufgaben genutzt. Also sagen wir mal, dass dieser Benchmark auf diesen hundert Dingen auf den hundert Task gemacht wurde. Das heißt, wir nehmen hundertmal zigtausend. Also keine Ahnung, sagen wir mal, wenn's zehntausend Dollar pro Task kostet o drei auszuführen, dann hat's eine Million gekostet, diesen Benchmark einmal auszuführen. Wenn's nur in der Nähe von tausend waren, dann waren's vielleicht oder waren's vielleicht hunderttausend, die's gekostet haben. Aber das fand ich noch mal sehr interessant einfach nur, in welchem Skale wir gerade sind, was das Ganze kostet, dass allein diesen Benchmark zu validieren wahrscheinlich nahe einer Million gekostet hat.
- Philipp
- Nicht nur darüber sogar. Also der Arch AGI, also die Arch Seite hat 'n auch veröffentlicht zu Open AI o free, wo sich das auch noch mal aufzeigen, wie gut die Modelle jetzt geworden sind, wie Open AI sie getestet hat. Und es gibt auch wieder für o free 'n Modell und 'n High tuned Modell. Das ist mehr oder weniger nur, wie viele wie viel Computer eigentlich hauptsächlich genutzt wurde. Mhm. Und sie haben auch veröffentlicht, wie viele Tokens generiert wurden. Okay. Und genau genau, wie Du halt gemeint hast, bei dem also wirklich das, wo man am meisten Computing nutzt, das auch siebenundachtzig Prozent erreicht, fünf Komma sieben Milliarden Tokens für hundert Rätsel. Das heißt siebenundfünfzig Millionen Tokens. Und Sie haben auch in dem Chart aufgezeichnet, das ist son logarithmische Skalierung mit ein Dollar pro Task, zehn Dollar, hundert Dollar, tausend Dollar pro Task und o drei high ist schon über tausend Dollar pro Task. Also wir bewegen uns wirklich zwischen hunderttausend und einer Million. Schwierig jetzt genau zu sagen. Ich glaub, da müssen wir noch 'n bisschen warten, bis die API Preise dann kommen. Und zusätzlich sollte man noch erwähnen, was online 'n bisschen zu Diskussionen geführt hat, OpenAI hat auf dem Trainingset trainiert. Natürlich sagt man, MLML und AII, okay, 'n Trainingset, wie der Name ja sagt, ist dafür da, damit ich darauf trainiere, damit ich irgend eine Aufgabe besonders gut lösen kann. Aber der Gedanke dahinter oder den alle son bisschen kritisiert haben, ist ja, okay, wir wissen jetzt nicht, ob das Modell besser ist so. Also was passiert, wenn ich irgendwie O1 darauf trainiere oder chip t-v-o darauf trainiere und dann noch mal den Benchmark mache? Und der Gedanke ist ja mehr oder weniger hinter ag okay, ist generalisiert. Also es ist nicht so, vielleicht ist jetzt o free wirklich gut in diesem Bilderrätsel Puzzle lösen, sag ich mal. Und nicht, okay, man hat hier wirklich was erreicht. Also es ist son bisschen wie bei allen Benchmarks muss man's 'n bisschen aufpassen und nicht für voll ernst nehmen, definitiv, wie Du gemeint hast bei allen anderen Benchmarks, bei dem oder auch Code. Man vermutet son bisschen den Sprung zwischen GPT drei Punkt fünf und vier so auf allen Benchmarks, weil wir wirklich diesen Zehn, zwanzig Prozent Sprung gesehen haben, was mich persönlich super freut, weil wir dann immer noch weiterhin progress machen. Der hat sich zwar 'n bisschen verschoben zu mehr Inference, Computern und weg von irgendwelchen speziellen Trainingsmethoden, aber man muss trotzdem Also wir haben jetzt nur nicht API und eure Jobs gehen jetzt nicht morgen verloren, sondern das ist einfach nur 'n weiterer Schritt auf dem Weg hin zu etwas Gutem, glaub ich.
- Fabi
- Ja. Aber deswegen, weil wo Du auch meintest, so wenn man's jetzt, wenn wir höchstwahrscheinlich unser Produkt für zweitausendfünfundzwanzig gemacht hätten und ohne jetzt noch mal den Jump, den jetzt o drei gemacht hätte, hätt ich wahrscheinlich auch ein negativeres Bild für die Entwicklung gezeichnet. So, es hat mich auf jeden Fall noch mal 'n bisschen gebremst in meinem so, vielleicht kommen wir einen scaling Lars, jetzt einfach kratzen wir an dem oberen Ende. Deswegen trotzdem auf jeden Fall beeindruckend, wie Du auch sagst, irgendwie ging diese ganze AGI Diskussion irgendwie los. Der eine Part, den Du sagst, so ist die Frage, wenn sie darauf trainiert haben, so, ist es dann überhaupt, also wie für allgemeinbar ist es denn? Und trotzdem ist es auch, und selbst wenn es so wäre, dass es dass sie es auch nicht trainiert hätten und diese Ergebnisse erreichen. Es hat trotzdem immer noch so, dass man sagen muss in der Definition irgendwie AGI so, dass eine AGI eigentlich niemals niemals dumm ist so. Und dass es, solange es irgendwelche Fragen, weil irgendwelche Fragen eigentlich blöd ist und sie nicht beantworten kann, dann kann's doch keine AGI sein so. Also von der Definition, da würde ich sagen, solange es immer noch ist, dass bei dem Benchmark bei sowas nicht hundert Prozent erreicht wird, dann würde ich sagen, in meiner Definition sprechen wir noch nicht von AGI. Aber ich meine, die Definition von AGI wäre es oder so interessant. Ich glaube, war es nicht so, dass OpenAI und Microsoft jetzt auch rauskamen, sich für sich eine Definition von AGI getroffen haben, jetzt auch rauskam, sich für sich eine Definition von AGI getroffen haben und die witzigerweise keine subjektive, was kann sie, sondern wie viel wie viel wie viel Gewinn macht OpenAI mit AGI? Und Microsoft und OpenAIs Definition von AGI ist dann jetzt wohl, dass sie hundert
- Philipp
- Milliarden Gewinn mit dem Produkt machen, dann ist es AGI. Ja, ich glaub, der Microsoft OpenAI Turn hat son bisschen anderen Hintergrund. Microsoft Ja, ja. Ist dann halt Partnerschaft mit OpenAI angegangen für, damit sie halt AGI erschaffen können. Und in dem Partnerschaftsvertrag steht ja drin, sobald OpenAI AGI erreicht, dann sind sie keine Partner mehr. Und ich glaub nicht, dass Microsoft das möchte oder andersrum, weil beide brauchen sich irgendwie trotzdem son bisschen wegen Computing und die anderen wegen dann Modelle und Sonstiges. Ich glaub, deswegen war das der Hauptgrund, weil es macht für mich keinen Sinn, dass ich
- Fabi
- Nee, so genau nur darum geht, wo ich
- Philipp
- wo ich hätte. Aber Nee,
- Fabi
- ich meine, ich glaube, Microsoft ist ja auch da interessiert, dass es nicht irgendwas, dass es dass es nicht irgendwas, dass es irgendeine subjektive Definition von AGI ist, sondern irgendwie ganz klar an Zahlen zu bewerten ist, so wann ist es erreicht und wann ist es nicht erreicht. Und dann muss man eben Umsatz beziehungsweise Gewinn wählen. Aber trotzdem irgendwie interessant, dass diese beiden, also das irgendwie, fast zeitgleich irgendwie kam, Open Airie sagt, AGI sind einhundert Milliarden Gewinn und damit sie auch gleichzeitige Frage. Ich mein, das sieht man ja auch, dass es dann trotzdem notwendig ist. Wenn jetzt schon bei o drei irgendwie die Diskussion losgehen, ist das jetzt AGI? Dann kann ich auch verstehen, dass Microsoft irgendwie eine bessere Definition dafür haben will für Ja, ich
- Philipp
- glaub, ein großer Punkt dabei ist, wirklich bei dem Arch API Benchmark haben Sie gesagt, dass wenn 'n Modell über siebzig, fünfundsiebzig Prozent oder irgendwie so was erreicht, dann kann man von von sprechen. Und dadurch, dass sie ja das geschafft haben, wär es schon naheliegend, dass sie jetzt darüber reden oder halt das sagen können. Aber ne.
- Fabi
- Ja. Aber jetzt, bin mal gespannt, werden wahrscheinlich auch direkt an zumindest jetzt auch gesagt an Arch AGI zwei arbeiten. Ich glaub, es wird noch genug, es wird auch genug Dinge geben, die dann auch ein O3 noch nicht lösen kann. Und wie gesagt, wir es hat noch bisher sind das alles Dinge, die wir von OpenAI kommuniziert wissen, so ne. Also lass uns mal schauen. Es wird wahrscheinlich auch noch ein paar Monate dauern, bis wir bei das bis zu o3 wirklich auch mal unsere Hände bekommen können und testen können. Noch die Frage ist, mit welchem mit welchem welcher Subscription bestimmt nur mit der zweihundert Dollar Subscription. Also mal gucken, ob wir das auch testen können. Philipp, Entschuldigung. Ich meine, wir können gerne jetzt
- Philipp
- schon reingehen. Ich glaube, es wird nicht bei zweihundert Dollar bleiben.
- Fabi
- Ach so, ich meinte, Bier auf jeden Fall nicht mit der zwanzig. Also Ja. Nee. Das also
- Philipp
- ich meine zusätzlich zu o free haben Sie ja auch o free mini vorgestellt, was jetzt besser als o 1 normal ist. Ich kann mir vorstellen, dass das eventuell einfacher zur Verfügung steht. Aber einfach nur, wenn man darüber nachdenkt, wenn ich siebenundfünfzig Millionen Tokens generieren kann für eine Antwort, das heißt, ich kontinuierlich generier ja diese Tokens und das tausend Euro kostet, dann ist ja der Inference Prozess sehr, sehr, sehr viel höher als bei einem normalen O1 sogar oder halt bei einem GPT4O. Deswegen kann ich mir gut vorstellen, wenn das in Chat GPT Zugang findet, dass wir einen Chat GPT Xtreme Ultra Vertrag Optionen bekommen Ja, das wär schon pro Tag.
- Fabi
- Dann kommen wir ja fast schon zu, so wir haben eigentlich noch ein Thema, wir kommen fast schon zu Predict, aber eine Prediction, was was ist deine Prediction? Was wird nächstes Jahr der teuerste Subcription Plan für irgendein AI Modell sein?
- Philipp
- Was sagt wir werden, ich sag wir werden bei zweitausend Dollar im Monat liegen.
- Fabi
- Hätt ich bei so was auch. Und dann hat wie viel darf man denn machen? Zwei pro Monat aus Rea oder was was ist was ist das Limit, das man kommt?
- Philipp
- Nee, ich glaub, man hat's ja jetzt, wir hatten's letzte Woche bei Devan, ja, ich glaub, die Pläne sind dann auch an Credits mehr oder weniger geknüpft. Und dann hab ich halt für zweitausend Dollar eine bestimmte Anzahl an umgerechnet wieder Computing, den ich halt zur Verfügung hab. Und dann werd ich halt Dinge ausführen können. Sei, also ich glaub, es wird auf jeden Fall 'n Art Agent Plan sein. Ich kann mir gut vorstellen, dass es von OpenAI kommt oder dann von, ich weiß nicht, irgendwie Start ups Feed wie Devin in dem Sinne, wo ich wirklich losgeh und das LLM einfach erst mal Dinge tun, also ganz viele Tokens generiere und dann Wiederholungen und Untersuchungen 'n Problem zu lösen und halt einfach viel mehr Computer brauche aktuell. Und das ja irgendwie rechtszufertigen oder halt profitabel zu machen, muss ich ja mit den Preisen nach oben gehen. Die Frage bleibt halt, welche Probleme ich da wirklich damit lösen kann, die ich sonst mit anderen Modellen nicht lösen kann und wie viele Leute werden da halt drauf eingehen. Weil ich mein, wie ich weiß nicht, wie's bei dir ist, aber ich hab halt nutze o-One auch manchmal in ChatGPT, aber ich sitz jetzt nicht daheim und will irgendwelche komplexe Mathe Probleme lösen. Ich glaub, wir sind aktuell noch son bisschen an dem Punkt, wo diese Reselling Modelle sehr gut halt auf diesen mathematischen oder komplexen Puzzles sind und halt nicht den normalen Einklang finden in, okay, nee, schreib mir 'n Brief. So, ich mein, dafür brauche ich das ja aktuell einfach nicht und da fehlen wahrscheinlich auch die Daten bei den ganzen Labs. Okay, wie kann ich darüber dieses Reading und dieses Revision und diese Search machen? Deswegen vielleicht sehen wir da auch in zwanzig fünfundzwanzig eine Verbesserung, dass die Reasoning- oder Thinking Modelle nicht nur besser in Mathe und Programmieren werden, sondern auch wirklich in ganz vielen anderen Dingen oder halt auch Mann für Agents nutzen können. Da bin ich halt am meisten gespannt darauf.
- Fabi
- Ja, aber ist halt dafür müssen es halt einfach in ganz andere preisliche Gefilde kommen. Sondern also ich nutze auch O1 ab und zu mal. Ich hatte auf jeden Fall auch schon Use Case, das wo O1 wirklich definitiv besser war und mir 'n Ergebnis geliefert hat, wo ich mit anderen Modellen nicht hinkam. Aber wenn da daran auch ein höherer Pricepoint geknüpft wäre, ich meine, das ist halt im Moment in der Lizenz mit drin, dass ich halt nur bestimmte Anfragen pro Woche, ich weiß gar nicht, wie viel sind gegen O1, ist immer noch bei vierzig pro Woche oder so was, die ich irgendwie mache kann. Im Monat. Pro Monat sogar, nur. So klar, dann nutze ich das ab und zu mal für bestimmte Tasks, wenn daran geknüpft ist, dass ich meine zweitausend Dollar Lizenz brauche, dann bleibt's halt, also das ist ja kein, dann muss es schon sehr gut im Briefschreiben sein, dass ich dafür zweitausend Dollar pro Monat ausgebe. Aber es wird halt, glaube ich, sehr auf diese spezialisierten Tasks sein, deswegen bin ich mal gespannt, wie viel wie viel Anklang das findet und so beeindruckend, wie es ist, so groß muss ich die Frage stellen, so wie viel, also solang's bei dem Pricing bleibt, wird's, glaube ich, schwierig zu sein, wirklich in der, dass das den Großteil ihres Umsatzes irgendwie ausmacht, diese diese Modelle. Deswegen schon schon sehr spannend für das für das kommende Jahr, was das was das so bedeutet, wenn der Prog das halt über die komplett über irgendwie geht und dadurch die Modelle irgendwie besser werden. Und noch
- Philipp
- mal kurz zur Korrektur, es sind fünfzig Nachrichten pro Woche
- Fabi
- mittlerweile für o-One pro Woche.
- Philipp
- Für alle, die ChatGPT plus so Team haben. Okay. Und fünfzig Nachrichten pro Tag für o-1 mini, was schon viel ist. Ja, das stimmt. Ja, ich glaub, wir werden halt, ich mein, daran arbeiten Sie ja auch und da ist auch, wurde auch im Hintergrund bisschen spekuliert. Dadurch, wenn ich jetzt Modelle hab, die viel länger Tokens generieren können, die zusammenhängend sind, die auch das anfängliche Problem versuchen zu lösen, komm ich ja immer mehr in dieses, okay, kann ich denn bauen, die wirklich wie bei S wie E Bange, okay, ich geborene eine Aufgabe, was beim Programmieren bleiben, update alle. JSON Versionen zu der letzten verfügbaren und dass der Agent dann halt mehr oder weniger losgeht und erst mal planen, okay, ich muss schauen, welche sind die letzten verfügbaren Versionen auf irgendwie NPM? Hab ich irgendwelche Version Constrains? Dann kann ich die in ausführen, damit ich das ändern kann. Kann ich das mein Projekt bauen, dass halt alles dieses automatisiert funktioniert. Und wenn ich dann wirklich anfangen kann, kleinere Tasks diesen Agents oder Modellen zu geben von wirklich, kann ja auch eine E-Mail-Schreiben sein, irgendwie les hier bitte die letzten zehn Teammeetings durch, schau, wer welche Tasks hat, erstellen KitHub Issues oder Gyra Tickets dafür und mach dann das und das, also wirklich mehr in diesen Agent Workflow, wo ich aktuell auch schon umsetzen könnte, aber viel mehr LLM Calls brauche und halt die man nur nicht die höchste Performance hat. Und ich glaub, wenn man's dann irgendwann vergleicht mit, okay, ich mach halt, keine Ahnung, zwei Calls, weil der das superlang schon raus generiert und viel besser darin ist oder ich mach hundert g p t-tv-Calls, Agents haben, die nicht sind wie der Wim und wirklich gut funktionieren.
- Fabi
- Ja, bin ich auch gespannt. Ja, ich mein, aber ist halt auch die die Frage, ne, jetzt auch grade, wenn wir jetzt halt in diese, jetzt kommen wir schon in, was wird denn nächstes Jahr so sein? Aber wenn wir jetzt, wir sehen jetzt durch die Riesenmodelle kommen wir in diese Inference Time Computing. Wir merken ja, wie wie schnell es jetzt wie schnell es jetzt teurer wird. Und da stellt sich auf jeden Fall die Frage so, worüber skalieren Sie denn jetzt dann die die Kosten im nächsten Jahr? Also wie wie wird es denn jetzt wie wird es denn jetzt wieder günstiger und heißt es, also worüber entweder können Sie es sehr viel performanter machen, wie Sie das Reasoning machen. Also das Modell muss weniger Reason, was glaube ich nicht der Weg sein wird, den sie probieren werden im nächsten Jahr, sondern man wird eher sehen, das wird mehr werden, bessere Ergebnisse zu erzielen. Das heißt, die Varianten, die sie ja eigentlich haben, das Ganze günstiger zu machen, werden dann wieder die Base Modelle, neue Base Modelle zu trainieren, die kostengünstiger zu machen oder performantere Hardware, die im Endeffekt einfach günstiger zum Ausführen ist so. Und da bin ich halt mal gespannt im nächsten Jahr, wie sehr das dann wirklich mitskaliert, wenn man da irgendwie Kosten hat. Du musst einerseits die ganzen Modelle müsstest neue Modelle trainieren, um's günstiger zu machen oder irgendwie neue neue Hardware kaufen. Und gleichzeitig musst Du sehr viel mehr Geld ausgeben, irgendwie diese neuen Modelle zu dir zu erarbeiten. So, da bin ich mal gespannt, in diesem ganzen Rennen so, ob dann wie En tropic, die ja in dem Jahr so aufgeholt hatten und irgendwie auch 'n Modell hatten, das ich eigentlich dann hauptsächlich genutzt hab, ob die da überhaupt noch mithalten können im nächsten Jahr oder ob das dann ein Rennen aus Google und OpenAI an der Stelle wird.
- Philipp
- Also ich glaube, bei Tropic wird definitiv mit im Rennen bleiben und die haben wahrscheinlich die letzten drei bis sechs Monate sehr gut und intensiv genutzt. Und ich kann mir vorstellen, dass 'n Cloud Thinking Modell nicht lange auf sich warten lässt. Eventuell ist es ja auch schon in der UI irgendwie da und wir wissen's nicht genau. Und Hardware wird immer besser werden. Ich mein, Google hat jetzt Anfang Dezember ihren neuen TPU V6 vorgestellt. Die neuen NVIDIA GPUs kommen. Man hat von AMD jetzt endlich auch mal GPUs, die man wirklich nutzen kann, vor allem im Open Source Bereich. Amazon hat ja Traineum zwei zwei vorgestellt, was an nutzt. Also es geht alles hin, dass Hardware schneller noch besser wird, weil ja mehr Konkurrenz scheinbar da ist. Und was wir halt zählen und das beste Beispiel ist, glaub ich, grade Deep Seek ja v drei ist, man nutzt diese Modelle, bessere Daten oder synthetische Daten zu erstellen, die ich dann wieder nutzen kann, kleinere Modelle zu trainieren oder neue Base Modelle trainieren zu können. Ich glaub, das ist das, was OpenA ja auch wahrscheinlich schon Jahre macht, dass ich einfach, okay, jetzt hab ich, wo halt die a das Arc AgI Tasks zum Lösen über tausend Dollar kostet. Ich trainiere generier ganz viele gute, hochqualitative Daten, trainier dann 'n kleineres Modell. Plötzlich kann das kleinere Modell auch die Task lösen. Da das kleinere Modell effizienter ist, laufen zu lassen, kann ich Kosten senken. Man bekommt neue Hardware, die effizienter ist oder besser skalierbarer, kann ich Kosten senken. Glaub, das ist, wir haben die Kurve von größere, bessere Modelle zu kleinere, bessere Modelle oder günstigere Modelle schon seit GPT-4 eigentlich hauptsächlich, also seit zweieinhalb, drei Jahren. Und ich glaub, das wird auch weiterhin so bleiben. Es bleibt wird spannend bleiben, ob wir irgendwann nicht mehr besser werden. Also aktuell auch, man sieht's ja bei Google mit Gemini zwei Punkt o Flash, besser als Gemini 1.5 pro, was ja das bisherige beste und größte Modell war, jetzt das Flash, das eher kleinere Modell genauso gut. Also wie lange können wir dieses bessere Datenqualität machen und skalieren, bis wir keinen Fortschritt mehr machen? Aktuell zeigt alles darauf hin, dass irgendwie das immer noch fleißig weitergeht. Und dann werden wir ja sehen, wo
- Fabi
- man ja Bier noch nicht allzu viel ist, dass da gerade auch synthetische Daten angesprochen soll, dass die dann irgendwie erzeugt werden, so so viel Erfahrung in dem Sektor ist jetzt auch, also man ist ja schon, wir kamen an die Grenze von, wir haben halt nur ein Internet und die Daten daraus haben wir schon sehr stark optimiert und ich glaube, es ist jetzt spannend zu sehen fürs nächste Jahr. Ich glaube auch synthetische Daten und in Fillens time Computer, so Reasoning sind die beiden Dinge, die auf jeden Fall im nächsten Jahr interessant werden, genauso wie auch Agents. Also sind, glaube ich, die drei Themen, in denen nächstes Jahr viel passieren wird. So und ich bin mal gespannt, wie viel wir aus synthetischen Daten dann da rausholen können, ob dann wir wir, also wie wie viel wie viel wird es wirklich Rolle spielen? So und sind es, in welcher Magnitude werden wir dadurch Veränderungen herbeiführen und irgendwie bessere Modelle trainieren können. Was hast 'n Du sonst noch so auf Vielleicht, wir haben das eine Thema und das können wir noch ganz kurz anschneiden. Jetzt gehört zwar nicht zu dem Ausblick, was kann nächstes Jahr oder das ist jetzt keine Spekulation mehr, sondern eher Fakt, dass OpenAI ja auch strukturelle Veränderungen jetzt vorgenommen hat. Und weg von ihrem Profit Non Profit Arm hin zu zwei eigenständigen Unternehmen kommt und zwar einem kompletten OpenAI for Profit Unternehmen. Und dass Non Profit ein Unternehmen sein wird, was dann einfach Anteile an dem an der Profit Organisation halten wird, was ja die ganze Zeit schon auch in Diskussion war, wie hier auch schon mal diskutiert haben. Und Sie genau, von daher sehr viel aus Ihrer Sicht, OpenAI Sicht sehr viel besser aufgestellt sind für nächstes Jahr, weil natürlich auch sagen, argumentativ ist, das ist ein einer der großen Dinge, die sie noch bis zweitausendneunundzwanzig brauchen, ist sehr viel mehr Investments in die Firma und müssen irgendwie Kapital sammeln. Und sie sagen, die Struktur, die sie halt jetzt haben, ist schwierig oder macht das immer wieder schwierig für in solchen Fundingrunden neues Geld zu sammeln, weil's halt immer schwierige Vereinbarungen sozusagen geben muss mit einer Organisation, die eigentlich Non Profit ist und nur einen for Profit Arm hat. Deswegen haben wir, was Sie jetzt gründen, ist im Endeffekt so eine Dela Public Corporation. Die Public Benefit Corporation, die sozusagen sich dann verschiedenen Dingen verschreibt, also andererseits natürlich Shareholder und Stakeholder Interests, aber auch dem Allgemeinwohl dienen muss. So, das sind zwar jetzt keine ganz klaren Regeln, an die Sie sich halten müssen, aber grundsätzlich könnten Sie auch dafür verklagt werden, wenn Sie das nicht tun. Aber was das genau bedeutet, liegt da trotzdem in der Definition der der Firma selbst. Und Sie sagen auch, dass es wohl auch besser für den für den Non Profit Arm ist, obwohl das schon sehr, ja, sozusagen 'n bisschen sagen, bisher war's halt so, dass eigentlich der Non Profit Arm eigentlich immer nur dem dem dem vor Profit Arm auf die Finger gucken konnte und sozusagen sagen konnte, wenn irgendwas falsch läuft. Und jetzt können sie halt sehr viel eigenständiger auch noch Dinge im im Education Bereich oder Health Care Bereich aktiv unternehmen und sind sehr gut gefahndet durch diesen for Profit Arm. Das klingt schon sehr, sehr schwammig, was Sie da irgendwie sagen, aber natürlich aus finanzieller Sicht. Und wenn man sieht, was für Ambitionen sie haben bis zweitausendneunundzwanzig, dann das erste Mal profitabel zu werden, wie viel Geld dahintersteckt, kann ich mir schon vorstellen, dass es ein notwendiger Schritt ist. Aber ist natürlich schon auch sehr interessant von dem eigentlichen Grund, wie Open Airmer gegründet wurde, jetzt hin zu 'nem komplett eigenständigen Unternehmen. Genau, von daher auch gespannt, was da, wie viel Geld OpenAI im nächsten Jahr einsammeln wird. Kommen wir noch mal zum Paar. Wir haben ja jetzt schon einige einige Thesen, was im nächsten Jahr so passieren wird. Philipp sagt, zweitausend Dollar planen werden wir auf jeden Fall sehen. Werden viel im im Infilencime Reasoning Bereich sehen, synthetische Daten, Agenten wird 'n Thema sein.
- Philipp
- Hast Du noch andere Themen auf der Agenda, was nächstes Jahr so kommen wird? Also was mich persönlich super, worauf ich mich am meisten freu, ist, dass ich mein, wir hatten's ja am Anfang von den News schon mit dem 11 Labs Flash, was jetzt irgendwie für Realtime da ist. Man hat's im Dezember hat Google ja ihre Live API released, OpenAI hat im September oder so was ihre Realtime Voice API released. Also ich bin, ich freu mich riesig auf diese Realtime Multimodal Use Cases, die wir bauen können. Und ich glaub, dort die größte Herausforderung wird nicht sein, dass Modelle die Features nicht können, sondern eher der entwicklerttechnische Herausforderung, weil Realtime, ich mein, wenn man ohne LLM schon irgendwas Realtime macht mit Messages und zu einer Kommunikation und weggeht von diesen, mich senden 'n Request und ich bekomm eine Response, ist schon eine Herausforderung an sich. Jetzt hin zu, ich hab irgendwelche multimodale Realtime APIs, wo User via Chat wie Webcam oder Mikrofon mit 'nem System interagieren können und das System dann im Hintergrund irgendwelchen Aktionen durchführt wie Tool Calling und dann wieder 'n Output generiert, der ein Bild sein kann, 'n 'n Text sein kann oder anderes. Darauf freu ich mich am meisten, weil ich mein, wir haben's gesehen, dieses Jahr Modelle werden besser, ungünstiger. Wir werden sehr große, sehr teure Modelle haben, aber wir werden auch sehr günstige, sehr kleine Modelle haben. Und das beste Beispiel hierfür ist ja Gemini Flash a b, was nicht mal 'n Cent pro eine Million Input Token kostet und auch nativ multimodal ist, wo ich aktuell schon eine mehr oder weniger eine Webcam dranhängen könnte und pro Sekunde irgendwie ein Bild an die API schicken kann, wo ich dann noch im Free Tier bin. Also man wird sehr, sehr günstig. Und ich glaub halt auch jetzt mit Gemini zwei Punkt o und vielleicht 'nem neuen 8 b und Multimodalität, dass ich Use Cases umsetzen kann, die vorher einfach nicht wirklich betrachtet wurden, weil sie zu teuer waren, ja, und ich jetzt halt einfach machen kann und wirklich diese LLM nutzen kann und nicht halt irgendwie 'n spezielles, irgendwie Computervision Modell brauch oder alles hin von irgendwie Voice Interfaces oder vielleicht eine neue Alexa oder 'n neuen Google Home oder sonstiges, wo ich wirklich mal hingehen kann und sagen kann, okay, bitte stell einen Timer, füg das auf die Liste hinzu und erinner mich, wenn morgen fünf Grad sind, dass ich irgendwie eine Jacke entziehen soll. Weil das funktioniert ja alles aktuell mit diesen Smarthome Devices noch nicht. Und vielleicht durch das alles wird der erste neue Alexa zwei Punkt null oder Google Home, Gemini, whatever kommen. Da bin ich auf jeden Fall am meisten gespannt darauf.
- Fabi
- Hätte ich ja eigentlich auch schon für dieses Jahr gedacht.
- Philipp
- Okay. Hätte ich
- Fabi
- gar nicht gedacht, dass wir dass wir in dem Space dieses Jahr noch gar nicht sehen wollen. Schon, also da hast Du recht, haben wir zumindest Technisch gibt's eigentlich keinen Grund mehr, warum nächstes Jahr son Produkt nicht auf den Markt kommen sollte. So wenn Und irgendeiner wird es ja besetzen. Bin ich mir auch gespannt, ob's auch Apple wird so. Ich mein, man muss ja schon auch sagen, gerade so Apple so seit der WWW WWDC, so wo man gefühlt vor der bevor sie Hallo. Bevor sie ihr Apple Intelligence announced haben, davor war's ja immer wieder hier eine News Thema, irgendwie auch mit Papern, die Sie veröffentlicht haben und so und irgendwie Arbeit, die Sie in dem Bereich gemacht haben gefühlt. Seitdem war's auch in unseren News nicht mehr wirklich Thema und so. Und man muss ja auch sagen, grundsätzlich Apple Intelligence war jetzt auch nach der WWTC jetzt auch in meinem Leben. Gut, man muss auch sagen EU, ne. Das nutzt kann doch nicht so viel davon nutzen, aber auch so nicht mehr so richtig Thema. Ich bin mal gespannt, was Apple in dem Bereich AI im nächsten Jahr noch macht oder ob sie, können wir auch vorstellen, irgendwie ihre Strategie auch noch mal verändern, weil auch gerade, ich meine, die Use Case, die sie auch damals gezeigt haben auf der WWDC, auch mit wie so, ja, also alles nicht die Ground Breaking Use Case, jetzt auch nicht die, wo man sagt, sie sind so unfassbar gut integriert, dass es dass es der dass es damit komplett rausholt. Ich mein, klar, ihre Private Cloud und wie sie das wie sie die ganze Infrastruktur gemacht haben, find ich immer noch super beeindruckend. Ihre Use Cases ist ja noch eher so mäh. Bin ich mal gespannt, was da im nächsten Jahr auch von von Apple irgendwie kommt, ob's irgendwie 'n Player da in dem in dem Bereich wird und sie irgendwie interessante Use Cases finden oder ob sie da weiter hinterherhängen. Aber apropos weiter hinterherhängen, ich bin sehr gespannt auf Google, was OpenAI im nächsten Jahr so. Also bis, wenn jetzt o drei nicht gekommen wär, hätte ich wirklich gesagt, Google hat extrem, also Google hat ja extrem aufgeholt und war irgendwie gefühlt am Ende auch mit dem Reasonometer, was ich rausgebracht habe, irgendwie auch 'n paar mit OpenAI in vielen Bereichen. Grade im Videobereich mit Zora waren sie ja sogar, also gegen Zora waren sie ja sogar waren sie ja sogar besser. Und ich glaub, das wird schon spannendes Rennen im nächsten Jahr so, weil ich glaube gerade auch jetzt, wenn wir in Richtung in Ferienstime Compute kommen, das werden Zyklen sein, die sehr viel schneller sind als das Trainieren neuer Modelle so. Das heißt, nur weil OpenAI jetzt O3 rausgebracht hat, heißt es nicht, dass sie so viel weiter vorne dadurch jetzt gerade sind als als Google. Und ich glaube, es wird schon wird schon sehr, sehr spannendes Rennen im nächsten Jahr werden, wo wir am mindestens nächsten Jahres stehen, ob Open Air immer noch der unangefochtene Platzhirsch ist oder Google stark aufgehört. Zumindest haben sie echt sehr viel gemacht in diesem Jahr, fand ich sehr beeindruckend.
- Philipp
- Ich glaub, Antropic kann man da mit reinwerfen. Ich mein, für mich ist immer noch also die Frage, okay, wir haben jetzt drei große, sag ich mal. Werden alle drei dieselben Features am Ende bereitstellen? Oder wird es weiterhin Features geben? Ich mein, mit Computer Use, dann kam irgendwie Google mit ihrem Projekt Marinera, mit, jetzt halt irgendwie, dasselbe. Ich bin mir sicher, an kommt da auch nach. Google ist noch mit ihrem richtig nativ multimodal, build in, build out, Video in, alles Mögliche, sag ich mal. Da ist ja 'n Propic noch son bisschen hinterher und Open AI hat's irgendwie schon, aber irgendwie nicht so für jeden. Also ich glaub, die Bildergenerierung von GPTvO ist hat noch niemand so in dem Sinne. Input lengts gibt Spekulationen, dass Open Air nächstes Jahr unlimited oder Endless Input Kontext irgendwie bereitstellen wird, gerade oft Bezug auf o drei, weil wie generierst Du? Siebenundfünfzig Millionen Output Tokens. Ich mein, die müssen ja auch irgendwie wieder zurück ins Modell, wenn ich 'n Neues generiere. Deswegen, ich bin echt gespannt. Und den größten Vorteil, wenn man das objektiv einfach betrachtet, ist, dass Google wahrscheinlich die meisten Ressourcen hat und einfach die größten Comput Kapazitäten und alles Mögliche.
- Fabi
- Ja, dann wird's spannend im nächsten Jahr, ob es Google, Shopic oder Open AI wird. Auf jeden Fall drei große Player in dem Bereich und zumindest lässt es nicht sehr auf viel interessante Neuerungen hoffen. Gibt's denn sonst noch, bevor wir hier den das Jahr beenden in den AI News noch irgendeinen Take, den Du noch machen willst fürs nächste Jahr oder?
- Philipp
- Ja, ich glaub, es wird nicht alles positiv. Also für mich sind's so zwei Themen, die wahrscheinlich mehr aufkommen werden noch nächstes Jahr, ist zum einen, was Schlechtes damit gemacht werden kann. Ich mein, ich kann ja jetzt wirklich auf meinem PC, auf meinem Mac alles Mögliche ausführen. Und bisher bekomm ich noch diese SMS mit, hallo Mama, ich hab eine neue Whatsapp Nummer. Was passiert, wenn wirklich die Scamersysteme da hinten dranhängen, die erst mal schauen, wie ich heiße, wo ich wohne, wer wirklich meine Mutter oder so was ist und dann man halt viel komplexer wird. Und ich mein, klar, wir haben jetzt vielleicht den Vorteil und sind relativ geschult in dem Bereich. Aber wenn ich dann plötzlich eine SMS verschick, wo genau drin steht, dass ich irgendwie meinen Bus verpasst hab und jetzt nicht mehr nach Hause komm, weil ich gestern das und das gemacht hab und dann, ich glaub, das wird kann 'n großes Thema werden. Und dann auf jeden Fall, ich mein, wir hatten's so häufig in den letzten Monaten in den AI News, dass wir irgendwas nicht testen oder nicht nutzen können, wer wir in der EU sind. Wie geht dieses Thema EU versus Rest of the World mehr oder weniger weiter? Also werden sich die AI Labs mehr auf die EU einlassen? Wird die EU im Nachhinein doch noch irgendwelche andere Dinge anpassen, dass man doch nicht so langsam ist? Weil ich glaube, ich also ich hab den Überblick verloren, was wir in der EU nutzen können und was wirklich nutzbar ist. Und wir sind jetzt ein Jahr drin. Und ich glaub, große Unternehmen können auch diesen Überblick verlieren. Also weiß OpenAI, welche Features sie eigentlich in der EU zur Verfügung haben oder nicht, weiß das Google, ist es denen überhaupt wichtig? Und ich mein, das Schlimmste wär, wenn wir pro Jahr nur noch halb so schnell sind, also im Sinne von, was wir jetzt irgendwie im Januar besprechen, was neu released würde für die US und Rest of the World kommt ein Jahr später in die EU. Das wär, ich glaube, so das Schlimmste, wenn man das auf lange Sicht betrachtet.
- Fabi
- Ja, bleibt auf jeden Fall spannend, das ganze EU Thema. Und ich mein, bei den bei den Scam Optionen, da wundert es mich ja immer noch auch auch für dieses Jahr schon. Ich schon. Ich mein, wir sind ja echt schon so weit, dass dass Scam schon sehr viel besser sein könnte dadurch. Und bin mal gespannt, wie viel dieser Fälle sich dann in allgemeine News durchschlagen, die auch breiter diskutiert werden. Weil bestimmt gibt's auch schon einige Fälle, aber ich hätte gedacht, dass es auch jetzt schon der Part auch jetzt schon mehr Thema ist.
- Philipp
- Ja, ich glaub, es ist wie bei allem halt im Leben. Man braucht erst son Riesenthema, 'n Riesenaufschrei, dass man anfängt, über etwas zu sprechen. Ich mein, wir hatten's ja vor 'n paar Monaten mit dem traurigen Fall von Character AI. Und wenn so etwas häufiger oder eher im Betrugsbereich kommt und wirklich publik ist, dann gibt's mehr Augen, mehr Leute fragen sich, hey, was macht man dagegen? Und dann mal schauen, wo die Diskussion hinführt. Ja, mal
- Fabi
- schauen, wo die Diskussion hinführt, würd ich auch sagen. Und mal schauen, wo Freust Du dich auf auf zwanzig fünfundzwanzig?
- Philipp
- Denkst Du, dein Job wird am Ende vom Jahr noch sicher sein oder bist Du eher son bisschen, ich weiß nicht, ob das Ganze eher haltigend gut ist?
- Fabi
- Also ich ich mach mir keinerlei Gedanken darum, dass mein Job nicht sicher sein wird so. Also das ich glaube, also ich glaube gerade so im im im Development Bereich so, es wird, ich meine, man sollte auf jeden Fall Schritt damit halten und probieren seinen Arbeitsalltag zu integrieren, aber ich denke, bei diesen ganzen Technologien habe ich nicht das Gefühl, dass deswegen mein Job irgendwie wegfällt. So es wird bestimmt, es wird 'n umdenkendes Arbeitsumfeld sein, aber ich glaube auch, dass der große Part davon kommt noch nicht im nächsten Jahr. Also ich erwarte nicht, dass es im nächsten Jahr den den großen Shift gibt, aber ich erwarte schon, dass in den nächsten Jahren einige Jobs sehr viel anders sein werden, aber dass deswegen weniger Arbeitskraft gebraucht wird, glaube ich nicht, aber die Jobs werden anders sein. Aber auch da, denn noch nicht der große Schiff im nächsten Jahr und vielleicht wird's auch gar nicht den riesigen Schiff geben, sondern eine Nach- und Nachentwicklung und der große Big Bang wird gar nicht kommen. Deswegen, also fürs nächste Jahr, glaub ich, können wir dann unseren Jobs noch getrost getrost weitermachen. Aber aber mein Job wird ja auf jeden Fall Ende nächsten Jahres anders sein als als Anfang diesen Jahres so. Also mein Job auch jetzt ist anders, als der Anfang des Jahres war, auch durch durch AI, also die Integration von AI und was für Dinge ich tue, sind anders geworden. Nächstes Jahr
- Philipp
- nur noch Slack Nachrichten schreiben und Davin. Dervin setzt alle Dinge, die
- Fabi
- Du auch noch. Denke ich das Ist doch und da da kann ich mir Kaffee trinken, ist doch auch schön. Mach ich ja auch gerne. Apropos beim nächsten Jahr, wir haben noch gar nicht drüber gesprochen, bevor wir uns hier aufhören. Das wird auch meine und deine letzte Folge in der Konstellation für die nächsten dreieinhalb Monate sein, weil ich 'n bisschen einen auf OpenAI Mitarbeiter mache und auch mal ein kleines Sabbatical von drei Monaten einlegen werde. Aber keine Angst, erstens, der Philipp bleibt da, zweitens AI News bleiben da und mich wird in der Zeit zumindest der liebe Dennis vertreten, den ihr aus allen möglichen anderen Formaten kennt. Ich bin dann wieder Mitte April da und werde als stiller Zuhörer in diesen Folgen hier fungieren. Also Philipp, denn ist kein Mist.
- Philipp
- Ich dachte, wir können jetzt lästern, aber
- Fabi
- ja. Probiert's mal. Mal gucken, könnt ihr den Test machen und schauen, ob ich's auch wirklich höre, wenn ihr über mich lästert. Alright Philipp, dir vielen Dank für 'n cooles Jahr AirI News. Euch vielen Dank fürs Zuhören bei diesem Jahr und ich bin sehr gespannt, was unser Resümee Ende nächsten Jahres sein wird für unsere Thesen. Was sind die nächstes Jahr passiert und was soll die These für zweitausendsechsundzwanzig dann sein werden. Philipp, mach's gut. Euch vielen Dank fürs Zuhören. Tschüss. Tschau. Schönen Rutsch.