[Playlisten] [Impressum und Datenschutzerklärung]

GPT-2: Aufbau und Funktion

CC-BY-NC-SA 3.0

Nachtmodus Pausen an Schnitten Tempo: 0,5 0,7 1,0 1,3 1,5

Anklickbares Transkript:

Tattoo, was – macht das eigentlich dieser Text Generator KI Text Generator weit mehr als ein Text Generator für Windrad noch mal vor – was da jetzt eigentlich drinnen steckt man sozusagen Neuronen – und anderen spirenzien, wieso das funktioniert warum das raffinierte ist Sprache verarbeitet wird vor allen Dingen, kriegt man Texte in neuronales Netz rein und – wieder raus, aber – GPT – to geht es um mein Sprachmodell – erstmal geht's nur darum. – nächsten Token in einem Text vorherzusagen Token erkläre ich gleich auch noch. Es ist mehr als ein Zeichen weniger als 1 Wort. Typischerweise oft ist auch Wörter – er nimmt nicht ein Bild – und sagt es ist eine Katze oder Hund, sondern kriegt ein Text und sag dieses Wort – das nächste wahrscheinliche oder folgende Wörter kommen jetzt mit folgender Wahrscheinlichkeit – als nächstes – kannst du dich immer weiter laufen lassen, das nächste Wort haben – übernächste erzeugen und so weiter und dann haben sie ganzen Text wir sehen gleich, die kann auch noch ganz andere Sachen kann Fragen beantworten kann übersetzen – Wort Stahl kommt gleich bette sollte ich Vollständigkeit halber erklären, – was heißt EPC das heißt generate – Trading – Training – wie erzeugen die nächsten Token-Ring, – Gigabyte am – das an und das ist eigentlich nur ein Vortrag. – mal das Foto ja nicht gedacht gewesen, dass die Maschine weiß wie Texte funktionieren, sie lernt ein Sprachmodell und danach soll eigentlich weiter trainiert werden, deshalb ist das hier ein betraying, – aber es geht jetzt hier die ganze Zeit nur um das – und nicht was danach – soll das wäre – überweist. – war noch mal wiederholen, – war an Zuber weißt was was ✂ supervised ohne Labels – Daten, der Mensch hat die nicht – sondern die Maschine soll nur aus den Reihen Darten – ist spannende Mann gibt die Gigabyte an Text – damit – Text funktioniert wie Sprache funktioniert, ohne dass jemand auch zusätzlich was dran geschrieben hat, – überweist – Superweiss – wartet die Literaturquelle auch noch angeben – et al – models – überweist, da kommt es vor ans supervised. – Learner's multi-task. Arten wir eben auch. – keiner Konferenz bisher in keinem djournal bisher. – spannend aus, es gibt sich anscheinend auch so eine Dienst, dass man – gar nicht mehr auf die Ohren ist – zurückgreift, – dann die Sachen einfach ins Internet stellt auch gut. – in dem Sinne erlernt als Sprachmodell durch Vorhersage des nächsten Tokens – damit gleich noch ganz andere Sachen machen, würde ich ihn so ein bisschen vor das. – ist Anfang dieses Jahres besonders in die Presse geraten, weil das Modell nicht komplett veröffentlicht worden ist, weil ich mir es nicht war es ein Public Relations Trick oder war das – ernsthafte Sorgen, es war hoffentlich wirklich ernsthafte Sorgen – dass dieses Modell wenn man es veröffentlicht – werden kann, das Internet – sozialen Netzwerke ist, besondere zu fluten – allen möglichen – oder stimme.de – automatisch erzeugten Beiträgen. – einer der Gründe, weshalb für die Autoren gesagt haben wir – Modell jetzt nicht in der voller Größe sein, erstmal nur – Varianten von dem Modell inzwischen ist es in voller Größe veröffentlicht, – dass die Welt – wäre, aber weiß ja nicht, alles so hätte passieren können, – Modell gibt es insofern – ich nur deshalb – vier Größen. – kleinste hat – Millionen – die größte hat – Millionen – also 1,5 Milliarden an Parameter. – wie englische Sprache funktioniert – du wieder nett? – saugte englische Sprache funktioniert, das kleine Modell gesehen ist weniger als ein Zehntel so groß – ist – an dieser Entwicklung? – nächste Wort vorherzusagen ist fahre ich jetzt nicht so richtig lustig – ist ein riesiger Trainingsdatensatz, – den sie verwendet haben, – 40GB – an Text – 40 Gigabyte an Videos, das wäre ja einfach 40 Gigabyte an Text – einzelnen Texten – dem Web den paper steht außer dich dabei, sie haben Wikipedia ausgespart, – sie haben alles aus Wikipedia daraus gefällt hat meinem – befürchtete man jetzt irgendwelche Abfragen formuliert aus Wikipedia Texten – wir was jetzt – beantwortet werden kann, die man aus Wikipedia texten generiert, – wird das wahrscheinlich stören andere Effekte auf jeden Fall sagen die Autoren sie hätten bewusst Wikipedia – komplett rausgestrichen aus diesen 40GB, aber trotzdem sind 40 GB – das eine spannende – nächste spannende ist, dieses Modell – eben schon vor multi-task – learners an zu beweisen. Wollte das klären, dass – Modell kann auch anders verwendet werden nicht nur das nächste Token – ist ein Modell überhaupt Modell hast heißt das Netz wie es verschaltet ist, wie ist das Netz verschaltet – lustige Wichtel, – Zahlen schreiben Sie eine Verbindung dran und die bei swr.de und so weiter alles was man braucht auszurechnen, das ist das Modell – Modell kann für andere Aufgaben verwendet werden – für learning. – für mehrere Sachen. – gleich ein paar – wäre sowas w-transfer – und zero-shot – dafür sucht – Und – spannend ist, wie Arbeitsgedächtnis – simuliert – fährt – ich in langen Text habe ich will dann weiter schreiben. – muss ich mich erinnern, was sie vorgeschrieben habe, ich kann nicht nur das letzte Wort wissen, ich muss wissen, was ich vorher geschrieben habe, worum ging es eigentlich thematisch, – welchen Personen handelt, das ich muss wissen, ob dass er oder sie sind die Person oder ob ich es oder sie was an Gegenständen gibt und so weiter, muss ein Arbeitsgedächtnis haben, ich muss wissen, was bisher geschehen ist und bisherige Art an – ein – Netz nicht RNN kommt in einem alten Video von mir vor – sind neuronale – Netze in die Speisen, die was ein den Kriegen sie was raus und sie haben Rückkopplung – einem Zeitschrift Vorsatz, hier hatte sie verzögern, – einen Zeitschritt – funktioniert ganz ganz schematisch einen RNN – was hier im Kreis rum geht ist sozusagen die Arbeitsgedächtnis. – kriegen das nächste Wort rein oder das nächste Tor können rein, – haben hier ihr – Arbeitsgedächtnis – verarbeiten das dann kriegen sie einen neuen Zustand für das Arbeitsgedächtnis und – Ausgabe fortan Ausgabe Token – mit dem neuen Zustand des Arbeitsgedächtnisses – gehen, sie hat es nächste Woche 3 und so weiter, das ist ein ar – rekurrentes neuronales – das war bisher der Gedanke – es verblieb sozusagen sehr modisch Sprache – Musik und ähnliches – zu verarbeiten mit Rekurrenten neuronalen Netzen. – Einheiten, die immer vorgekommen sind long – memory und sowas will ich gar nicht buchstabieren. – das jetzt danach aus, dass diese arnanes gar nicht mehr so hübsch sind, – dass man ohne die aus count zeige ich gleich, wie geht das ohne eine Rückkopplung – der vielen – keine Rückkopplung zu haben? – dass es Leute zu trainieren ist, wenn sie so eine Rückkopplung haben, dann heißt das ja im Endeffekt, sie haben eine unendlich lange Kette. – letzte Wort kommt hier raus. – Ist – Zustand vom Arbeitsgedächtnis – das – Wort und so weiter und so weiter und so weiter, die – haben im Prinzip eine unnötig lange Kette – wenn Sie hier vorne was verstehen wird sich hier hinten was ändern und das ist keine gute Idee, wenn man es lernen will, das ist so weit weg. – es sich – die Art wie es jetzt hier gebaut ist viel besser? – einer von vielen Vorteilen, drei Punkte denke ich sie die wesentlichen Didi Communität dran interessiert – dem GPT to – mal in Aktion an, – habe hier auf dem Rechner – Jaffa von GTA runterladen von Openair. – habe hier auf dem Rechner die – und die drittgrößte Version die allergrößte Version schafft der Rechner hier nicht, da geht er in die – allem habe ich auf den rechten keine vernünftige Grafikkarte, das heisst passiert sehen ist – das ganze Parallelrechner nicht auf der Grafikkarte machen kann, sondern weil das die normale CPU – erstmal – auf den Desktop Maus – ist deine mitgelieferten und wir sagen unter den Top 40 – Art auswählen unter den Top 40 nächsten Tokens, damit es nicht vorhersagbar ist es – nicht zu können und es gibt jedes Mal an der Text – ist die natürliche Sprache, – auch nicht gut vorhersagbar ist sie das – 774 – mega – heißt das für die Zahl der Parameter – mein Rechner nicht mehr kann. – Text ausgedacht, mal gucken. – gestern schon mal durchlaufen lassen, – Leute – Text den ich mir ausgedacht habe, nicht gleich eintippen werd, ich weiß ja nicht was rauskommt wegen des Zufalls. – ist so, dass das – ist so schön hast halluzinieren muss ist eine Geschichte, die nicht stimmt an Geschichte, die so nicht gefunden worden sein kann – den Gigabyte an Texten, die zu lernen benutzt worden sind. – heißt, Modell muss alles mögliche halluzinieren, ich habe es gestern ausprobiert. Hatte mir sogar – Weblinks – halluziniert – die plausibel Aussehen. – gucken, ob er heute auch irgendwas hinkriegt – Er scheint gelernt zu haben, wie – Sprache – ansatzweise Zyliss gelernt zu haben, wie Sprache funktioniert, – Begriffe aufeinander verweisen, wann Personen gemeint sind das Person dann auch wieder vorkommen müssen. – Moni. Ich glaub es nicht, er ist schon geladen. – doch ein sehr langsamer Rechner. Mal gucken. Also, ich – mal meine Fake News hier an, – Sinn von Afrika und – den ich noch nie was gehört habe. Ich hoffe dir gibt es nicht. – an solchen Sachen weiß man dann hat das Ding auswendig gelernt oder – es jetzt wirklich – Träume haben – inherit – the Sahara – dann ebenfalls von sudano sonstwie zu fabulieren und die – waren unterwegs – was er daraus macht. – hier mehr zusammen hat man ihm liefert, – mehr kann er auch – wenn sie nur Einsatz liefern – er wenig Material um zu erkennen, warum ist denn jetzt eigentlich geht? – liest sich jetzt wieder Anfang von irgendeinem Bericht aus den Nachrichten – ist er würde jetzt fabulieren, – wie so ein Bericht geht. – Modell hat anscheinend gelernt, wie solche Berichte gehen – typischerweise aussehen und fabuliert dann wenn es erkennt, das ist nur ein Bericht formuliert es dann weiter, – ein Bericht geht, weil du Wales seem – have. – the plains – of – America – ist nun wirklich alles half formed, – der Riesen. – it – unclear – ich hoffe natürlich, dass sie mir jetzt gleich verrät was der Grund für die rote Farbe ist, also als ob in Märchen weiterspinnen würde – damit was vorkommt, was er garantiert nicht gelernt hat, noch mal in – international – im Satz, also muss jetzt mitten im Satz fortsetzen. – mir auf return und ✂ Minuten später – von der international exhibition und mein Satz wurde dann fortgesetzt – investigate the witness of this nur die discovered species, aber – ich habe nirgends etwas von Racknitz geschrieben, sondern nur was für ein wird geschrieben und ich habe auch nie was von species geschrieben, – er da hat sie mir hat species of right where we – for Africa, das ist komplett neu – sich die Rede von Libyen davon habe ich nichts geschrieben von Algerien und von Gambia überhaupt nichts geschrieben all das ist – erfunden, – animals Website entdeckt beieinander water Joe, das ist ja völlig durchgeknallt. – muss man erstmal drauf kommen und sie sehen jetzt Doktor logischer ich oben steht als Professor logisch 8. Bez ich bin ich zu Dr. Loviscach geworden, das hat er auch erfasst – dass wir dann immer was zu tun hat und dass für einige dann eine Person gemeint ist Siege Team foreign Expedition auch, das greift er wieder auf mit andere Formulierung ist es schon gehört. – hört eben der Beitrag auf – versucht anscheinend er sage ich immer so schön – Modell versucht anscheinend – veranstalten. Ja und der hört die Brust Meldung auf und dann kommt die nächste Newsmeldung – und die ist natürlich genauso – Mark Zuckerberg und Keller und was auch immer. Keine Ahnung, was da alles noch kommen mag, man versuchen würde jetzt zum Roman – Würde wahrscheinlich versuchen Roman fortzusetzen und dann nicht. – abzubrechen, – gesagt, gestern hatte ich sogar URL String mehr Informationen unter diesem Geld und dann kam in den ur es auch Sahara und die kam das vor als Teil der URL – dass – dahin – ist das zweitgrößte Modell das größte Modell ist ja so große Zahl der Parameter – Idiot, das läuft auf dem – Speicher Tablet – hier ist dauert ein bisschen Sie das mit der Grafikkarte machen – dem modernen Rechner ist das zack – können wir uns gerade mal ein paar – Webseite, wo jemand vorführt wie GP T2 – in – Aktion mit Grundstücken, – kurze Stücke kriegen, aber man kann – machen wir die Parameter? War nicht so wieder kleiner machen, wenn – es gleich stehen kriege auch die Parameter, wenn sich Amex time groß stellen, dann ich wollte ein bisschen mehr hier können Sie zwischen den verschiedenen Größen – GPT – und Arm noch – and – Medium – large – Lake City ich eben hatte extra light ist die die bei mir nicht läuft, aber sie läuft jetzt halt hier in der Cloud – Sachen auf sie hat gelernt – ist das nächste Zeichen und was ist mit dem Zeichen das nächste Zeichen und so weiter oder Token – ganz plötzlich sowas anfangen Barack Obama. – born – in – sagen jetzt bitte fortsetzen Seite können jetzt nicht den ganzen Text hier, sondern muss ein Ausschnitt. – nachgucken, aber es sieht nicht ganz unplausibel aus. – sie können dem Ding jetzt indirekt Fragen stellen, – hat eigentlich nur gelernt, was das nächste Wort ist, aber wir sind der Lage Fragen zu stellen auf diese Art, – kann man noch weiter treiben, – hingefahren amerikanische natürliche Zandvoort – leaves – Brown. – dann frage ich einfach – wenn jetzt wird fortgesetzt werden soll – da ja eigentlich ein Grund plötzlich erscheinen, also das System erfindet hoffentlich jetzt einen Grund dafür, warum die Blätter runterfallen. Vielleicht findest auch den richtigen Grund, – Zwickau autocomplete sehen, wie viel schneller das ist als auf meinem hier. – glücklich – and plans lose – chance – nicht so schlecht – Antwort, – bis ihr da auf der andere Antworten, die vielleicht nicht so toll waren. – das ergibt. Weil ich dich so wirklich den sehen – wir jetzt noch weitermachen, was kommt danach, – auf jeden Fall, wenn Sie ein Aufsatz für die Schule brauchen. – Bis sich irgendwie machen auf den ersten Blick ist das verdächtig – plausibel – Autoren – diesem PayPal dazu, die haben auch einiges mit Übersetzung – direkt eingetippt. Man kann auch ein bisschen raffinierter dran gehen, aber ich gebe es einfach mal jetzt direkt ein, da funktioniert nicht ganz so gut, aber – kriegt schon mal eine Idee, er hat auch von – Übersetzungen gelernt, weil diese Beisetzungen in den – an Text – er gelernt, wie zu übersetzen ist das Modell gelernt, wie zu übersetzen ist – dann in dem Sinne heißt – know is translated – hoffe ich ja, dass jetzt – Übersetzung kommt. – jetzt um diese Sätze – Fortsetzung ab dement finde ich es etwas komisch, aber hättest zumindest hingekriegt – gelernt gelernt in Anführungszeichen, wie gesagt, ist ja total schwer zu sagen, was hat die Maschine eigentlich gelernt, aber sie scheint irgendwas über Französisch gelernt zu haben einfach aus Gigabyte beim Text aus dem Internet, – ich ganz – finde, dass das Rechnen das kam in von den Autoren – vor, – können ihn ja auch zwingend zu rechnen und das geht – schief – to Apples – have. – Apples – have – hoffe ich fünf Äpfel zu sehen. – Cinebase – atable Stuart – Mehrzahl kommen und es muss Apples wiederholt werden, aber die Zahl hat er noch nicht erfasste, das hat er nicht gelernt, – schreibt – einen Text blablablablablablabla, – schreiben einen Text und das Ende von dem Text schreiben sie zu lang den Tweet – dann fängt er an, wenn – zu halluzinieren – dem Text der davor steht, – er gelernt hat Ilda – sage ich wieder, weil die Maschine gelernt – hat – die Art zu lange den Brief ist eine Zusammenfassung von dem davor – aus dem die Arbeiter Text, – sollten aber klar machen, sie gelernt ist. – Text, es ist eine – eine riesige Sammlung von Gleitkommazahlen monströs – viele Gleitkommazahlen, – wie was wie stark verbunden ist. Es ist Text gelernt, kann ich gerade mal zeigen, – lade mal das – Modell. – sind jetzt gar nicht alle Variablen durchgehen in diesem Modell, was ist da abgespeichert, wie heißt die Variable, – ist die Größe die Größe in dem Sinne wie 1024 – x 768 – x – soundsoviel? – mehreren Dimensionen – ihre PIN soflow XYZ – noch eine vierte Dimension dahinter, – kommt dann seist nicht nur eine einzige Zahl, ich rechne aus, wie groß die Gesamtgröße – ist, aber das Produkt – dann kommt – x 768 bin ich das Produkt von denen, – viel – stecken insgesamt drin – total verfolge ich gesamte Größe, wie viel – ich bisher gesehen habe und dann gebe ich das ja aus – eine Liste. – Variablen – dieser – wie groß die E-Bikes sind, wie viel – ich da jeweils hinter verbergen – und Gesamtsumme auch noch 774 – Millionen – natürlich wieder rauskommen, – das ist gespeichert. – ziemlich endlos aus. – haben – b2s – Werte. – Einträge, dann haben wir – wir sehen das ist ein denn zuvor – sich mal 3840 – Einträge sie erkennen vielleicht warum das der Gigabyte an Daten werden. – mal so weiter, das wird sich dann doch an einigen Stellen massiv – endlos viele – diesen Tensoren – den meisten stehen dann einfach – einer Ausnahme stehen einfach Gleitkommazahlen – drin, sonst zuviel Gleitkommazahlen – so weiter und so weiter und so weiter und so weiter sind Kreuz Kreuz Kreuz Kreuz – am Ende haben wir die 774 – tatsächlich. – von – in monströser – mit insgesamt 774 – für das Modell Einträgen, – was ist das angelernte Modell? Da steckt das Gelernte drin – nicht direkt von Sahara – von Südamerika – von Barack Obama all das ist auf – Weise und keiner weiß ja so wie ich Dich genau wie – codiert – die – die Frage, wenn es als – wie werden jetzt Zeichen eigentlich verarbeitet – Verarbeitung jetzt wohlgemerkt Zeichen Verarbeitung in diesem Modell JP Tattoo anderswo ist die anders, aber die Ideen finden sich inzwischen an ganz vielen Stellen. Die – Verarbeitung ist eigentlich gar nicht das spannende das Spannende ist, wie – Kurzzeitgedächtnis funktioniert, aber – muss erstmal – Verarbeitung verstehen, – die Idee zu haben, wie der Rest denn funktionieren könnte – Zeichen Verarbeitung sind nicht Buchstaben – das ist zu fein teilig. – sind nicht Wörter, – weil zusammengesetzte – Wörter möchte man gerne in zwei Teilen verarbeiten können, – nett sich – sind Fragmente. – hat gebildet werden sollte zu schreiben, hier sind es 50.000. – ist das Vokabular nicht – Vokabeln dem Wörterbuch komplette Wörter – eben Board Fragment und Fragmente – sind – gebildet auf banal hat automatisch gebildet man sucht, – Teile von Wörtern sich in anderen Wörtern wiederfinden fast die zusammen, was sie denn der zusammen man viele hat – ist dann die Sammlung der Tokens, die ist ziemlich wild. – ich das anzeigen lässt – zeige es von denen – 50.000 nur jedes 500 surf, damit man Übersicht hat – die ganzen Sonderzeichen die dann noch Tischdecken die bisschen besonders behandelt werden – hier wären das? – sieht was da drin steht. Ist – gerade das was man sich so vorgestellt hätte als Wortbestandteil Aiko – using, – vielleicht – Leerzeichen davor das typischerweise Leerzeichen – dieser Müll, der davor steht Men Julie mit dem Leerzeichen davor – und so weiter, – sind die Türke, – fängt man an etwas mehr als 50.000 davon. – ist er mit 750 000 – ins Netz, – habe das mal nicht mal hier unten der Eingang so ich – einen Token der nächste Torge mir erstmal nur ein – Ansehen – von 50.000 Token, – damit will ich jetzt in – System rein. – ist ja ein neuronales Netz, damit will ich in das Netz rein – damit will ich dem Netz wieder raus – wenn du einen nehmen nachher bist, weil die Geschichte auch nach haben, das ist der schwierigere Teil aber erstmal für die Zeichen Verarbeitung – Token ein Token rein – Token raus – von 50.000. – wäre die einfachste Art das zu machen – hört sich ausdrucken rein anderen 50001 – raus. ✂ der einfachste Weg ist, dass ihr – 50.000 Anschlüsse haben. – wenn es der 3400 – Token – ist, dann setzen Sie den 3410 – anschluss auf 1 und alle anderen setzen sie auf null – nennt sich das – heiß und hot encoding, – ist offensichtlich keine so tolle Idee, wenn wir jetzt hier mit anfängt. – man macht. Man geht in eine Matrix rein. – Der kommt man – weniger raus. – mit mir nach Modellgröße, da kommt ST Modell und Größe rein 768 – bis 1600 – zu weit für die Modellgröße rein. Man rechnet um mit einer Matrix – dem Tod. – Soße fehlten auf 1 setzen – auf null setzen von den 50000. – zu viel – einer Matrix – man das um von den fünfzigtausend auf – oder 1600, – also, sie geht dann aus der Matrix und auch mit – 1600 Dimensionen – raus, – von den Token hat eine eigene Richtung – diesem 1600 dimensionalen Raum, man hat sich 1600 – Dimension, das kann ich nicht zeichnen, – sich drei Dimensionen vor aber dann eben nicht drei Dimensionen sondern entsprechend viele 1600 Dimensionen – wenn sie mit dem Sohn so vielten joggen reingehen kriegen sie einen bestimmten vector, wenn Sie mit dem nächsten reingehen kriege ich ein anderen Vektor und so weiter. – wäre ein embedding – nicht man hat hier auf dieser Stufe hätte man – embedding – benutzt man typischerweise, – man nicht mit zigtausend Anschlüssen – angeht, sondern eben nur noch mit – minus 1000 Anschlüssen dran geht. kommt das gleich mal angucken? – diese – schon geleert. – geht nämlich gelernt, welche der – besonders nah oder fern sind, welche dabei China Token soll ich sagen nah oder fern sehen, das ist dann schon in der Matrix drin. Die wird schon gelernt, die matrix – Zeit nicht mal gerade diese Matrix. – ist bisschen ekliger – Anfang von diesem programmieren will ich ihnen erspart – jeden Fall Status schon mal, wenn ich dabei erzählen. – ich auf jeden Fall tue, ich lade einen Checkpoint so heißt, dass – was abgespeichert worden ist. Von dem Modell ist ein Checkpoint, ich lade den letzten Checkpoint, also genau – was – den Herstellern abgespeichert – worden ist. – sind die Zahlen und dann kann ich fragen, ok, welche Variablen trainierbare war. Jan sind ja da drinnen. – kriege ich zurück. – kriege ich nicht die Variable indirekt, das ist ein bisschen schwieriger, ich muss erst eine Session laufen lassen durchrechnen – lassen und – es war ja während der zärtlich als Werte zu kriegen. Sei so ist ein dich ein bisschen viel was ich hier mache. – dauert es auch so lange dann habe ich einmal nachgeguckt hier – den trainable variables, – steht da mio? Ti? Das ist diese Matrix sehen wir gleich – die gebe ich da hier hübsch Es ist noch eine zweite die gucken was nachher an und zweite Matrix dabei. ist erstmal die Double You – matrix, das ist die – mit dem was ich jetzt eben benutzt habe ich das – Modell – mit 768. – Größte für 8600 – mit der es dann weitergeht, nachdem embedding ihren bei dem kleinsten Modell gehst mit 768 – Dimension weiter, also, ich gehe mit – plus irgendwas. – mir 50.000 – irgendwas – verschieden toggles gar nicht reingehen und kriege dann jeweils – einen – 780 dimensional vector aus für – jeweilige Token so wird übersetzt – den Tokens – nur noch 768 – oder in großen Modell 1600 – und sie sehen, das sieht ja wild – aus, dass es wirklich gelernt – des Prozesses des Maschinen Systematik – hier gelernt worden, – ist, die geschickte Art – Tokens – 100 – Dimensionen umzuwandeln. Man – geht dann davon aus ähnliche Wörter werden ähnliche Vektoren kriegen und so weiter mit was ich noch mal genau angucken – anderen Stellen kann man sich solchen bin ich sehr gut angucken, – hier an Streifen durchgeht, – ist gar nicht so durchgehen. Kann Streifen, ich suche mal rein. – irritiert in der 50.000 Sachen untereinander, wenn sie da mal genauer reingucken hier – die halt wesentlich mehr Struktur drinne sind ziemlich wilde Zusammenhänge die Wörter, die hintereinander stehen haben nicht allzu viel miteinander zu tun und entsprechend sind dann auch die – die dazu gehören anders, du müsstest mal sortieren, dass die Vektoren er nicht sind. gucken, welche Wörter darf welche Tokens dazu gehören. Die weiß das ist auf jeden Fall diese Matrix – der das gemacht wird, aber – schon mal die andere kommt gleich auch noch dran – am Ausgang. – was wird jetzt im Ausgang passieren, ich habe 50.000 – Tokens, ich will einen Token am Ausgang haben, was mache ich sinnvollerweise am Ausgang, ✂ dasselbe zurück. – mit derselben Matrix transponiert, was komisches weißen. Drehungsmatrix wäre würde es richtig funktionieren, wann nimmt diese Matrix – schreibe ich mal, was Matrix wird gelernt. – die schon so so gelernt werden, dass das funktioniert. – nehmen die matrix – sozusagen – gehen dann eben mit den 768 – rein und komme mit 50000 wieder raus. – reicht noch nicht ganz, was sie jetzt rauskriegen. Am Ende – da irgendwelche wahnwitzigen. – Werte – besondere Werte 0 und Werte über addieren – sich nicht – noch eine Schicht dahinter softmax nennt die sich. – ich mal im ein Video zu – erklärt, will ich jetzt gar nicht im Detail machen. Softmax sorgt dafür, dass sie wirklich so was die Prozentzahlen – rauskriegen, die sich zu 1 addieren – ist und keiner ist über eins und dann hat man hier hinten wieder – Jetzt wissen die schon wie es geht, man nimmt sich ja die 40 z.b. Die 40. Wahrscheinlichsten Token und würfelt dann unter dem pissig wahrscheinlichsten – hat man da eine – Ausgabe kein Zeichen Ausgabe, sondern – softmax – und softmax ist eine ziemlich dumme Anwendung der – fünf minuten ich gerade nicht investieren und dafür zu sorgen, dass aus irgendwelchen reellen Zahlen Zahl zwischen 0 und 1 mit der Summe 1 werden, dass das hier eine Wahrscheinlichkeit aussieht und trainiert es dann auch so hübsch, – wie du gesagt – du das auch hinten sich anfühlt, wenn Wahrscheinlichkeit – ist das – Wie kriege ich ein Zeichen rein, wie kriege ich ein Zeichen raus und hierhin hier in drin – würde Geschichten, – die ganze Zeit mit diesen 7 und 68 b1600 – navigiere ich nicht nur noch – hundert Dimensionen oder um die 1000 Dimension nicht mehr mit den 50.000 Zeichen – innere Teil hier, das ist der – nächste Schritt – fand das lustig. – was da drin – als Transformer genauer als Transformer – zu bezeichnen. – wie lange dieser Begriff noch hält. – es gab früher mal Transformer Encoder Transformer. Decoder gibt auch immer noch aber es hat sich herausgestellt und wir brauchen halt nur Transformer Decoder, – das was hier passiert – Transformer – zwar nicht einer sondern – bis 48 hintereinander – 12 Schichten und beim größten Modell 48 Schichten. – ich nicht ein € Schicht ist kannst im Gegenteil eine Schicht ist eine von diesen Maschinchen, – jetzt das? Hier weiter aus buchstabiert nach der Zeichen Verarbeitung – ist hier – drin passiert – Maschinchen aus buchstabiert. – was wir der eben hatten gehen 768. – 1600 – Leitungen sozusagen rein und es gehen 768 – bis – Leitungen je nach Größe des Modells raus, – da passiert ist, – man – ein muss ich mal etwas größer machen. – dazwischen auch – wieder genau diese Anzahl Anleitungen, das ist schön, dass das so konsistent – ist wieder dieselbe – Anleitung jedes ist ein Transformer. – dasselbe – wir gehen überall durch mit den See mit 68 bis – von vorne bis hinten ganz – von denen eben Jappy gerade – 12 bis 48, – hier ist Schicht 1 Schicht 2 Schicht – und so weiter und dann haben Sie hier oben Schicht 12 – Schicht 48/48 – von solchen Plätzen – in den größten Modell. Man versteht dann auch vor unserer kleinen Rechner das dann nicht mehr so recht machen will, – das nicht hinhaut, – kann man sich angucken, – in diesem Transformer – der Stelle ist der Programmcode sogar recht gut zu verstehen, deshalb zeige ich mal den offiziellen Programmcode von Openair. – Model, – wie wird dieses Modell zusammengebaut? – OT hatten wir gerade schon, was ist diese Matrix die umrechnet von one hot – Korfu Roda wupi – einmal vor, – steht immer von Transformer – diese for-Schleife – bastelt da jetzt diese Schichten sich Geschichten – übereinander. – etwas am Musizieren, wie shape wie auch immer es fallen – geht's raus und die lockits werden – dann – geschickt, – dich softmax heißt sondern Vasso verstecktes – ist jetzt dieser – ich also der Schleife werden jetzt Transformer übereinander gestapelt – geht man rein, schließ – das an an den nächsten Transformer und dann kommt Haar wieder raus und dann schließe ich h an den nächsten Transformer an hier schließlich haben das mit Normalisierung an und so weiter auszahlschein TV durchgereicht zu werden, das ist die – von einem zur nächsten – kann man sich angucken. Okay, so ein einzelner Transformer, das ist ein Blog, was ist zu einem Block – da gibt's den Blog. – machst du ein Transformer? – kriegt? – Ist der Kern des Ganzen – mal genauer hingucken, also attention – raus, auch immer intencion ist. – nimmt das Eingangssignal was reingekommen ist in den Block – dir dazu, – ist nur eine Hilfe beim Lernen, – er noch nichts tut geht einfach das Signal durch. – Hat sich herausgestellt, dass es raffiniert ist das zu machen, es gibt den Umweg sozusagen. Man kann den – Ausgang nehmen oder den direkten Weg einmal rum nehmen und dann gibt es hier noch im Multiplayer besser können normales neuronales Netz – nur zwei Schichten – einer nicht in die heute dazwischen ganz banales neuronales Netz, das ist ja NLP gibt's eine Funktion, was das baut und das hat auch so ein eingebaut ist man rumlaufen kann das ist der Wehrdienst vorhatte und der Werte aus dem neuronalen Netz rauskommen, – ist alles nicht so spannend. – ist das spannendste – ist der Kern von diesem Transformer – darunter jetzt kann aufpassen auf verschiedene Stellen – sozusagen, das passiert in der tenschen – ist – länglich oje, – ist nicht so auf die Schnelle zu verstehen. – könnte man sanq – k&v. – mir erst mal erzählen, was attention Macht hätten schon ist der Kern – dem Transformer. – was haben wir gesehen? – drinnen? Gibt es einmal denn schon. – Aufmerksamkeit – es gibt auch ein Weg drumherum. – die attention und dann gibt es einen ganz normalen, – die Lea besitzt schon sogar nur mit zwei Ebenen und einer nicht den Erhalt der Held und Weg drum herum auf – Art. Das jemals in den Transformer drin – ist, der Spann ist ein Teil, der tenschen ist, das das – macht, deshalb ist das spannend, wie gesagt am Anfang schon. Trick ist – hier Kurzzeitgedächtnis – Wird – von diesen Schichten Service 48 Geschichten – seine eigene Simulation von Kurzzeitgedächtnis. – schreibe das mal so Verarbeitung – der Historie, das ist eigentlich das Kurzzeitgedächtnis Verarbeitung – der Historie – dem Transformer mit dir gefunden, – Text – ja berücksichtigt werden und der neue Trick dafür heißt denn schon Aufmerksamkeit. – was hat man sich unter identischen vorzustellen, denn – sie haben so ein Satz wie – Doppelpass. – oder irgendwas keine Ahnung – managed – was auch immer – Bus – dieses Vieh und IT irgendwie generieren können – von Peter die Rede ist kann das Sprachmodell ihr nicht – schreiben? – wenn dem was die Rede ist, kann er sprach und die hier nicht – schreiben statt – it – muss das Sprachmodell – gemerkt haben, – der Bus ist, was Pita ist. – der Trick ist – es sich gar nicht das vorwärts gemerkt und es rückwärts nach guckt – hat man sich das vorwärts gemerkt – dem Rekurrenten Netzen, es gibt es quasi ein Arbeitsgedächtnis, dass man immer mit schleift und dann muss man sich das – merken Anbieter es geht jetzt um Peter und es geht um den Bus und dann muss man später gucken ha, das reicht hihi und it – war die alte Art und die neue Art ist, dass man jetzt nach guckt an dieser Stelle muss das Sprachmodell wissen, dass es nachgucken muss – dann ihre Stelle muss das Sprachmodell dass es nachgucken muss. Das ist Attention – Nachhinein – der richtigen Stelle nachzugucken – diese Art des Arbeitsgedächtnis – zu simulieren – hat gelernt im Sprachmodell, wo man nachgucken muss gibt in dem Sinne nicht wirklich im – funktioniert auf dieser Erde bei Themen natürlich auch gar auf große ebene der Artikel muss sein Thema wie eben hatten wir die roten Wale – Sprachmodell muss – auf irgendeine Art dran erinnern, dass zum Auto war ging genau – so einem Mechanismus muss ich Dich daran erinnern, dass du schon rote Wale ging und nichts anderes und dann meinen Namen muss es sich auf diese Art erinnern. Dafür ist Attention da das ist das – So lange – es ja nicht. Lustigerweise schönes guckt einfach rückwärts nach Assistentin. – auf die Schnelle, wie das funktionieren könnte, – der Programmcode ziemlich verstrickt aus, wie kann man nachgucken – dem was bisher passiert ist, man hat – folge von Token, – bisher reingekommen sind, die kennen wir – nächste token. – werden muss geraten werden, – hier kommen Token an. – dieser WTE Matrix werden sie Token übersetzt in die 768 – bis was auch immer 1600 – Dimensionen, – mache ich in jedem Zeitschritt. Jede – stalken wird übersetzt – die Einbettung. – das passiert in jedem – einer nach dem anderen ein Token nach dem anderen jeder wird übersetzt. – habe ich also die – Form – jetzt kommen die. – die Transformer – habe ich die soundsovielte Schicht, da sind die Transformer drinnen – wir jetzt hier von Transformer. – den Transformers steckt das dem Marteria Perzeption und so weiter, aber insbesondere steckt attention in den Transformer drin und dann geht es weiter – Transformer und zum Schluss gibt es Ausgabe – zum Schluss, die eine Matrix und softmax – kommt dann nächste Token raus. – jetzt – wie funktioniert die Erinnerung? – von diesen – immer auf dieselbe Art ist ja immer dieselbe Maschine – wird immer auf dieselbe Art – Vektoren – value – in vector – und ein Vektor quer RIS erzeugt. Jeder von denen die Vektoren werden einfach auch mit Matrizen – Season 7 und 68 bis 1600 – Das machen alle – ihr keine Lust, dass du komplett durch zu zeichnen. – generell – Wert – und einer Abfrage Wert Schlüssel – Abfrage – jetzt kommt der Trick, – man dieser Query – guckt, – das was bisher geschehen ist wir haben gewisse Story es sind schon – Tote und verarbeitet worden ist 8 Türken soll verarbeitet werden, das solltest Du heute Token rauskommen. – jedes von diesem Token habe ich Wert – einen Schlüssel und eine Abfrage value t und querrey – was jetzt hier denn schon macht ist folgendes – diese Queri – diese Abfrage – multipliziert – es mit den Keys dieses – Queri – den Key, das sind Vektoren Skalarprodukt, die werden wohl skizziert, – wird x dem jeweiligen key mir das multipliziert. – the story and – eine Queri mit dem T und mit dem T und so weiter. Das gibt ein Ergebnis – dieses Ergebnis – Ergebnis – normiert auf eine Zahl wieder – 0 bis 1 softmax schon wieder – Dieser Abfall kommt das jeweils die Zahl von 0 bis 1 raus defekt, wie gut passt diese Queri zu dem jeweiligen key überall die Zahl von 0 bis 1. – Summe dieser Zahlen – eins aus so wird nominiert und nimmt man jetzt die Werte, die – schon ausgerechnet worden sind. Diese Werte nehmen – Sie – diese Zahl dieser Wert mal diese Zahl – Wert mal diese Zahl. wird mal die Zahl dieser letzte werd ich mal diese Zahl – ist ziemlich – also – hat ihn seitdem schon – auf dieselbe Art gerechnet – anderen Daten dann – Wert ein Schlüssel und eine Queri – Queri Wirt im Endeffekt verglichen mit den ganzen Schlüssel Skalar – das Ergebnis wird nun jetzt auf null bis eins – ist Eifersucht Prozentzahlen – werden – dann gewichtet man das Wasser rauskommt. Diese values die jeweils gespeichert sind, gewichtet man dann mit diesem Zahl – sie zusammen – dann rauskommt. ist eine gewichtete Summe über die – Algorithmus fokussieren – dass diese Wörter im Fokus hat, dann nimmt er deren Ergebnis – die nächsten Schritt, – ist attention. – er weiß wirklich wo er hin gucken. Musste. Algorithmus rechnet aus, wo er hin gucken muss auf diese Art all das wird natürlich gelernt, die Matrizen mit denen diese – und die – und die Querys gebildet werden. Die werden natürlich auch alle gelernt, – es wird noch richtiger. – dieser Sorte hier gibt es nicht nur einen sondern – es richtig kompliziert – wird, – gibt es 12 Uhr im kleinsten Modell bis 25. – Parallel. – nennt sich multihead – Maschine kann sozusagen 25 verschiedene Stellen – 520 verschieden gewichtetes Gewahrsam 50% davon und zwanzig verschiedene solche Gewichtung parallel verarbeiten – die größte Maschine davon, – wird schon echt heftig, das ist keine Rückkopplung sonst das Verfolgen hier im – gibt keine Rückkopplung. Es geht alles immer nur vorwärts – kann ich gerade noch sagen, dass für diese andere Matrix da ist, die eben zu sehen war – Visualisierung, – es wird kein Unterschied gemacht zwischen den Positionen. – Sie die beiden hier vertauschen. – die VK und CO-Werte kommt – das selbe raus als Ergebnis. – hängt nichts von der Position hat bis es ungeschickt. Sprache muss von der Position abhängen, – darf nicht austauschbar sein, was man jetzt noch macht – dass man die Position 1 codiert – recht immer noch was drauf auf diese – bis 1600 – Werte – immer noch die Position Rebuys drauf auch wieder mit einer extra gelernten Matrix, das war die andere Matrix, die man eben gesehen hat, wird noch die – drauf addiert. – Modell nicht Informationen nur über den Tod kann sondern durch die Addition auch wo der steht, – sehen wir das jetzt noch – tides, war das im Bett irgendwie umgerechnet wird von Token auf die hier jetzt bei dem kleinen Motel 768 – Dimension und dabpi – wie die Positionen – noch eingerechnet werden – wieder die sie mit 68 Dimensionen – je nachdem welcher Position sie stehen von 0 bis – innertier – mal welche Position sie stehen – es dann jeweilige Zeile wir sehen das hängt – sinusförmig. – Engpass sinusförmig – von der Position, aber so ist gibst du verschiedene Dimensionen hier, dass so sinusförmig – der Position durchlaufen – das ist gelernt auf diese Matrix ist gelernt, es gibt ganz viele Leberflecken hier. ist Beauty – matrix – das ist im Prinzip alles – GPT to was macht dieses Modell eigentlich massiv parallel – ohne Ende, – gar nicht so dramatisch eigentlich man sich das genau anguckt. – noch sagen, das haben sie eben gesehen, – lang ist die Historie – 1024, wenn – sie gerade an der Matrix gesehen die Position – rechnet, – wir eine Matrix – x 768 oder andersrum, – 1024 Positionen ein – 1024 – die man ein rechnet – allen Größen von dem TPT warte, also 1024 – Tokens nicht aus 420 Wörter – jemand? – hat sie können diesen – bei der Arbeit zusehen, das ist sehr schön. – in Transformer based – weiter, – der – hat sich angeguckt wurden, – verschiedenen – der malthead attention hingucken und das – oder kriegt dann wirklich? – Bilder hier was man sieht AA dizisi guckt nach bei dem Peter und dass ich guck nach bei dem was das wird gelernt. – Maschine weiß nichts über Grammatik am Anfang, – kriegt jeder bei centex und sie lernt Grammatik – diesem Gigabyte an text, was ist it Zurückverweisung – des he auf den Bieter verweist. – was ✂ MdB passiert ist dann das – tatsächlich so funktioniert, wie man sich das erhofft und vor allen Dingen auch – attention an viel Stellen gar nicht benötigt wird einige – von diesen Herz oder sogar viele von diesen Herz – oft arbeitslos, da – lässt sich also vielleicht was optimieren. – Überblick über die bd.to