[Playlisten] [Impressum und Datenschutzerklärung]

GPT-2: Aufbau und Funktion


CC-BY-NC-SA 3.0

Tempo:

Anklickbares Transkript:

Tattoo, wasmacht das eigentlich dieser Text Generator KI Text Generator weit mehr als ein Text Generator für Windrad noch mal vorwas da jetzt eigentlich drinnen steckt man sozusagen Neuronenund anderen spirenzien, wieso das funktioniert warum das raffinierte ist Sprache verarbeitet wird vor allen Dingen, kriegt man Texte in neuronales Netz rein undwieder raus, aberGPTto geht es um mein Sprachmodellerstmal geht's nur darum.nächsten Token in einem Text vorherzusagen Token erkläre ich gleich auch noch. Es ist mehr als ein Zeichen weniger als 1 Wort. Typischerweise oft ist auch Wörterer nimmt nicht ein Bildund sagt es ist eine Katze oder Hund, sondern kriegt ein Text und sag dieses Wortdas nächste wahrscheinliche oder folgende Wörter kommen jetzt mit folgender Wahrscheinlichkeitals nächsteskannst du dich immer weiter laufen lassen, das nächste Wort habenübernächste erzeugen und so weiter und dann haben sie ganzen Text wir sehen gleich, die kann auch noch ganz andere Sachen kann Fragen beantworten kann übersetzenWort Stahl kommt gleich bette sollte ich Vollständigkeit halber erklären,was heißt EPC das heißt generateTradingTrainingwie erzeugen die nächsten Token-Ring,Gigabyte amdas an und das ist eigentlich nur ein Vortrag.mal das Foto ja nicht gedacht gewesen, dass die Maschine weiß wie Texte funktionieren, sie lernt ein Sprachmodell und danach soll eigentlich weiter trainiert werden, deshalb ist das hier ein betraying,aber es geht jetzt hier die ganze Zeit nur um dasund nicht was danachsoll das wäreüberweist.war noch mal wiederholen,war an Zuber weißt was wassupervised ohne LabelsDaten, der Mensch hat die nichtsondern die Maschine soll nur aus den Reihen Dartenist spannende Mann gibt die Gigabyte an TextdamitText funktioniert wie Sprache funktioniert, ohne dass jemand auch zusätzlich was dran geschrieben hat,überweistSuperweisswartet die Literaturquelle auch noch angebenet almodelsüberweist, da kommt es vor ans supervised.Learner's multi-task. Arten wir eben auch.keiner Konferenz bisher in keinem djournal bisher.spannend aus, es gibt sich anscheinend auch so eine Dienst, dass mangar nicht mehr auf die Ohren istzurückgreift,dann die Sachen einfach ins Internet stellt auch gut.in dem Sinne erlernt als Sprachmodell durch Vorhersage des nächsten Tokensdamit gleich noch ganz andere Sachen machen, würde ich ihn so ein bisschen vor das.ist Anfang dieses Jahres besonders in die Presse geraten, weil das Modell nicht komplett veröffentlicht worden ist, weil ich mir es nicht war es ein Public Relations Trick oder war dasernsthafte Sorgen, es war hoffentlich wirklich ernsthafte Sorgendass dieses Modell wenn man es veröffentlichtwerden kann, das Internetsozialen Netzwerke ist, besondere zu flutenallen möglichenoder stimme.deautomatisch erzeugten Beiträgen.einer der Gründe, weshalb für die Autoren gesagt haben wirModell jetzt nicht in der voller Größe sein, erstmal nurVarianten von dem Modell inzwischen ist es in voller Größe veröffentlicht,dass die Weltwäre, aber weiß ja nicht, alles so hätte passieren können,Modell gibt es insofernich nur deshalbvier Größen.kleinste hatMillionendie größte hatMillionenalso 1,5 Milliarden an Parameter.wie englische Sprache funktioniertdu wieder nett?saugte englische Sprache funktioniert, das kleine Modell gesehen ist weniger als ein Zehntel so großistan dieser Entwicklung?nächste Wort vorherzusagen ist fahre ich jetzt nicht so richtig lustigist ein riesiger Trainingsdatensatz,den sie verwendet haben,40GBan Text40 Gigabyte an Videos, das wäre ja einfach 40 Gigabyte an Texteinzelnen Textendem Web den paper steht außer dich dabei, sie haben Wikipedia ausgespart,sie haben alles aus Wikipedia daraus gefällt hat meinembefürchtete man jetzt irgendwelche Abfragen formuliert aus Wikipedia Textenwir was jetztbeantwortet werden kann, die man aus Wikipedia texten generiert,wird das wahrscheinlich stören andere Effekte auf jeden Fall sagen die Autoren sie hätten bewusst Wikipediakomplett rausgestrichen aus diesen 40GB, aber trotzdem sind 40 GBdas eine spannendenächste spannende ist, dieses Modelleben schon vor multi-tasklearners an zu beweisen. Wollte das klären, dassModell kann auch anders verwendet werden nicht nur das nächste Tokenist ein Modell überhaupt Modell hast heißt das Netz wie es verschaltet ist, wie ist das Netz verschaltetlustige Wichtel,Zahlen schreiben Sie eine Verbindung dran und die bei swr.de und so weiter alles was man braucht auszurechnen, das ist das ModellModell kann für andere Aufgaben verwendet werdenfür learning.für mehrere Sachen.gleich ein paarwäre sowas w-transferund zero-shotdafür suchtUndspannend ist, wie Arbeitsgedächtnissimuliertfährtich in langen Text habe ich will dann weiter schreiben.muss ich mich erinnern, was sie vorgeschrieben habe, ich kann nicht nur das letzte Wort wissen, ich muss wissen, was ich vorher geschrieben habe, worum ging es eigentlich thematisch,welchen Personen handelt, das ich muss wissen, ob dass er oder sie sind die Person oder ob ich es oder sie was an Gegenständen gibt und so weiter, muss ein Arbeitsgedächtnis haben, ich muss wissen, was bisher geschehen ist und bisherige Art aneinNetz nicht RNN kommt in einem alten Video von mir vorsind neuronaleNetze in die Speisen, die was ein den Kriegen sie was raus und sie haben Rückkopplungeinem Zeitschrift Vorsatz, hier hatte sie verzögern,einen Zeitschrittfunktioniert ganz ganz schematisch einen RNNwas hier im Kreis rum geht ist sozusagen die Arbeitsgedächtnis.kriegen das nächste Wort rein oder das nächste Tor können rein,haben hier ihrArbeitsgedächtnisverarbeiten das dann kriegen sie einen neuen Zustand für das Arbeitsgedächtnis undAusgabe fortan Ausgabe Tokenmit dem neuen Zustand des Arbeitsgedächtnissesgehen, sie hat es nächste Woche 3 und so weiter, das ist ein arrekurrentes neuronalesdas war bisher der Gedankees verblieb sozusagen sehr modisch SpracheMusik und ähnlicheszu verarbeiten mit Rekurrenten neuronalen Netzen.Einheiten, die immer vorgekommen sind longmemory und sowas will ich gar nicht buchstabieren.das jetzt danach aus, dass diese arnanes gar nicht mehr so hübsch sind,dass man ohne die aus count zeige ich gleich, wie geht das ohne eine Rückkopplungder vielenkeine Rückkopplung zu haben?dass es Leute zu trainieren ist, wenn sie so eine Rückkopplung haben, dann heißt das ja im Endeffekt, sie haben eine unendlich lange Kette.letzte Wort kommt hier raus.IstZustand vom ArbeitsgedächtnisdasWort und so weiter und so weiter und so weiter, diehaben im Prinzip eine unnötig lange Kettewenn Sie hier vorne was verstehen wird sich hier hinten was ändern und das ist keine gute Idee, wenn man es lernen will, das ist so weit weg.es sichdie Art wie es jetzt hier gebaut ist viel besser?einer von vielen Vorteilen, drei Punkte denke ich sie die wesentlichen Didi Communität dran interessiertdem GPT tomal in Aktion an,habe hier auf dem RechnerJaffa von GTA runterladen von Openair.habe hier auf dem Rechner dieund die drittgrößte Version die allergrößte Version schafft der Rechner hier nicht, da geht er in dieallem habe ich auf den rechten keine vernünftige Grafikkarte, das heisst passiert sehen istdas ganze Parallelrechner nicht auf der Grafikkarte machen kann, sondern weil das die normale CPUerstmalauf den Desktop Mausist deine mitgelieferten und wir sagen unter den Top 40Art auswählen unter den Top 40 nächsten Tokens, damit es nicht vorhersagbar ist esnicht zu können und es gibt jedes Mal an der Textist die natürliche Sprache,auch nicht gut vorhersagbar ist sie das774megaheißt das für die Zahl der Parametermein Rechner nicht mehr kann.Text ausgedacht, mal gucken.gestern schon mal durchlaufen lassen,LeuteText den ich mir ausgedacht habe, nicht gleich eintippen werd, ich weiß ja nicht was rauskommt wegen des Zufalls.ist so, dass dasist so schön hast halluzinieren muss ist eine Geschichte, die nicht stimmt an Geschichte, die so nicht gefunden worden sein kannden Gigabyte an Texten, die zu lernen benutzt worden sind.heißt, Modell muss alles mögliche halluzinieren, ich habe es gestern ausprobiert. Hatte mir sogarWeblinkshalluziniertdie plausibel Aussehen.gucken, ob er heute auch irgendwas hinkriegtEr scheint gelernt zu haben, wieSpracheansatzweise Zyliss gelernt zu haben, wie Sprache funktioniert,Begriffe aufeinander verweisen, wann Personen gemeint sind das Person dann auch wieder vorkommen müssen.Moni. Ich glaub es nicht, er ist schon geladen.doch ein sehr langsamer Rechner. Mal gucken. Also, ichmal meine Fake News hier an,Sinn von Afrika undden ich noch nie was gehört habe. Ich hoffe dir gibt es nicht.an solchen Sachen weiß man dann hat das Ding auswendig gelernt oderes jetzt wirklichTräume habeninheritthe Saharadann ebenfalls von sudano sonstwie zu fabulieren und diewaren unterwegswas er daraus macht.hier mehr zusammen hat man ihm liefert,mehr kann er auchwenn sie nur Einsatz lieferner wenig Material um zu erkennen, warum ist denn jetzt eigentlich geht?liest sich jetzt wieder Anfang von irgendeinem Bericht aus den Nachrichtenist er würde jetzt fabulieren,wie so ein Bericht geht.Modell hat anscheinend gelernt, wie solche Berichte gehentypischerweise aussehen und fabuliert dann wenn es erkennt, das ist nur ein Bericht formuliert es dann weiter,ein Bericht geht, weil du Wales seemhave.the plainsofAmericaist nun wirklich alles half formed,der Riesen.itunclearich hoffe natürlich, dass sie mir jetzt gleich verrät was der Grund für die rote Farbe ist, also als ob in Märchen weiterspinnen würdedamit was vorkommt, was er garantiert nicht gelernt hat, noch mal ininternationalim Satz, also muss jetzt mitten im Satz fortsetzen.mir auf return undMinuten spätervon der international exhibition und mein Satz wurde dann fortgesetztinvestigate the witness of this nur die discovered species, aberich habe nirgends etwas von Racknitz geschrieben, sondern nur was für ein wird geschrieben und ich habe auch nie was von species geschrieben,er da hat sie mir hat species of right where wefor Africa, das ist komplett neusich die Rede von Libyen davon habe ich nichts geschrieben von Algerien und von Gambia überhaupt nichts geschrieben all das isterfunden,animals Website entdeckt beieinander water Joe, das ist ja völlig durchgeknallt.muss man erstmal drauf kommen und sie sehen jetzt Doktor logischer ich oben steht als Professor logisch 8. Bez ich bin ich zu Dr. Loviscach geworden, das hat er auch erfasstdass wir dann immer was zu tun hat und dass für einige dann eine Person gemeint ist Siege Team foreign Expedition auch, das greift er wieder auf mit andere Formulierung ist es schon gehört.hört eben der Beitrag aufversucht anscheinend er sage ich immer so schönModell versucht anscheinendveranstalten. Ja und der hört die Brust Meldung auf und dann kommt die nächste Newsmeldungund die ist natürlich genausoMark Zuckerberg und Keller und was auch immer. Keine Ahnung, was da alles noch kommen mag, man versuchen würde jetzt zum RomanWürde wahrscheinlich versuchen Roman fortzusetzen und dann nicht.abzubrechen,gesagt, gestern hatte ich sogar URL String mehr Informationen unter diesem Geld und dann kam in den ur es auch Sahara und die kam das vor als Teil der URLdassdahinist das zweitgrößte Modell das größte Modell ist ja so große Zahl der ParameterIdiot, das läuft auf demSpeicher Tablethier ist dauert ein bisschen Sie das mit der Grafikkarte machendem modernen Rechner ist das zackkönnen wir uns gerade mal ein paarWebseite, wo jemand vorführt wie GP T2inAktion mit Grundstücken,kurze Stücke kriegen, aber man kannmachen wir die Parameter? War nicht so wieder kleiner machen, wennes gleich stehen kriege auch die Parameter, wenn sich Amex time groß stellen, dann ich wollte ein bisschen mehr hier können Sie zwischen den verschiedenen GrößenGPTund Arm nochandMediumlargeLake City ich eben hatte extra light ist die die bei mir nicht läuft, aber sie läuft jetzt halt hier in der CloudSachen auf sie hat gelerntist das nächste Zeichen und was ist mit dem Zeichen das nächste Zeichen und so weiter oder Tokenganz plötzlich sowas anfangen Barack Obama.borninsagen jetzt bitte fortsetzen Seite können jetzt nicht den ganzen Text hier, sondern muss ein Ausschnitt.nachgucken, aber es sieht nicht ganz unplausibel aus.sie können dem Ding jetzt indirekt Fragen stellen,hat eigentlich nur gelernt, was das nächste Wort ist, aber wir sind der Lage Fragen zu stellen auf diese Art,kann man noch weiter treiben,hingefahren amerikanische natürliche ZandvoortleavesBrown.dann frage ich einfachwenn jetzt wird fortgesetzt werden sollda ja eigentlich ein Grund plötzlich erscheinen, also das System erfindet hoffentlich jetzt einen Grund dafür, warum die Blätter runterfallen. Vielleicht findest auch den richtigen Grund,Zwickau autocomplete sehen, wie viel schneller das ist als auf meinem hier.glücklichand plans losechancenicht so schlechtAntwort,bis ihr da auf der andere Antworten, die vielleicht nicht so toll waren.das ergibt. Weil ich dich so wirklich den sehenwir jetzt noch weitermachen, was kommt danach,auf jeden Fall, wenn Sie ein Aufsatz für die Schule brauchen.Bis sich irgendwie machen auf den ersten Blick ist das verdächtigplausibelAutorendiesem PayPal dazu, die haben auch einiges mit Übersetzungdirekt eingetippt. Man kann auch ein bisschen raffinierter dran gehen, aber ich gebe es einfach mal jetzt direkt ein, da funktioniert nicht ganz so gut, aberkriegt schon mal eine Idee, er hat auch vonÜbersetzungen gelernt, weil diese Beisetzungen in denan Texter gelernt, wie zu übersetzen ist das Modell gelernt, wie zu übersetzen istdann in dem Sinne heißtknow is translatedhoffe ich ja, dass jetztÜbersetzung kommt.jetzt um diese SätzeFortsetzung ab dement finde ich es etwas komisch, aber hättest zumindest hingekriegtgelernt gelernt in Anführungszeichen, wie gesagt, ist ja total schwer zu sagen, was hat die Maschine eigentlich gelernt, aber sie scheint irgendwas über Französisch gelernt zu haben einfach aus Gigabyte beim Text aus dem Internet,ich ganzfinde, dass das Rechnen das kam in von den Autorenvor,können ihn ja auch zwingend zu rechnen und das gehtschiefto Appleshave.Appleshavehoffe ich fünf Äpfel zu sehen.Cinebaseatable StuartMehrzahl kommen und es muss Apples wiederholt werden, aber die Zahl hat er noch nicht erfasste, das hat er nicht gelernt,schreibteinen Text blablablablablablabla,schreiben einen Text und das Ende von dem Text schreiben sie zu lang den Tweetdann fängt er an, wennzu halluzinierendem Text der davor steht,er gelernt hat Ildasage ich wieder, weil die Maschine gelernthatdie Art zu lange den Brief ist eine Zusammenfassung von dem davoraus dem die Arbeiter Text,sollten aber klar machen, sie gelernt ist.Text, es ist eineeine riesige Sammlung von Gleitkommazahlen monströsviele Gleitkommazahlen,wie was wie stark verbunden ist. Es ist Text gelernt, kann ich gerade mal zeigen,lade mal dasModell.sind jetzt gar nicht alle Variablen durchgehen in diesem Modell, was ist da abgespeichert, wie heißt die Variable,ist die Größe die Größe in dem Sinne wie 1024x 768xsoundsoviel?mehreren Dimensionenihre PIN soflow XYZnoch eine vierte Dimension dahinter,kommt dann seist nicht nur eine einzige Zahl, ich rechne aus, wie groß die Gesamtgrößeist, aber das Produktdann kommtx 768 bin ich das Produkt von denen,vielstecken insgesamt drintotal verfolge ich gesamte Größe, wie vielich bisher gesehen habe und dann gebe ich das ja auseine Liste.Variablendieserwie groß die E-Bikes sind, wie vielich da jeweils hinter verbergenund Gesamtsumme auch noch 774Millionennatürlich wieder rauskommen,das ist gespeichert.ziemlich endlos aus.habenb2sWerte.Einträge, dann haben wirwir sehen das ist ein denn zuvorsich mal 3840Einträge sie erkennen vielleicht warum das der Gigabyte an Daten werden.mal so weiter, das wird sich dann doch an einigen Stellen massivendlos vielediesen Tensorenden meisten stehen dann einfacheiner Ausnahme stehen einfach Gleitkommazahlendrin, sonst zuviel Gleitkommazahlenso weiter und so weiter und so weiter und so weiter sind Kreuz Kreuz Kreuz Kreuzam Ende haben wir die 774tatsächlich.vonin monströsermit insgesamt 774für das Modell Einträgen,was ist das angelernte Modell? Da steckt das Gelernte drinnicht direkt von Saharavon Südamerikavon Barack Obama all das ist aufWeise und keiner weiß ja so wie ich Dich genau wiecodiertdiedie Frage, wenn es alswie werden jetzt Zeichen eigentlich verarbeitetVerarbeitung jetzt wohlgemerkt Zeichen Verarbeitung in diesem Modell JP Tattoo anderswo ist die anders, aber die Ideen finden sich inzwischen an ganz vielen Stellen. DieVerarbeitung ist eigentlich gar nicht das spannende das Spannende ist, wieKurzzeitgedächtnis funktioniert, abermuss erstmalVerarbeitung verstehen,die Idee zu haben, wie der Rest denn funktionieren könnteZeichen Verarbeitung sind nicht Buchstabendas ist zu fein teilig.sind nicht Wörter,weil zusammengesetzteWörter möchte man gerne in zwei Teilen verarbeiten können,nett sichsind Fragmente.hat gebildet werden sollte zu schreiben, hier sind es 50.000.ist das Vokabular nichtVokabeln dem Wörterbuch komplette Wörtereben Board Fragment und Fragmentesindgebildet auf banal hat automatisch gebildet man sucht,Teile von Wörtern sich in anderen Wörtern wiederfinden fast die zusammen, was sie denn der zusammen man viele hatist dann die Sammlung der Tokens, die ist ziemlich wild.ich das anzeigen lässtzeige es von denen50.000 nur jedes 500 surf, damit man Übersicht hatdie ganzen Sonderzeichen die dann noch Tischdecken die bisschen besonders behandelt werdenhier wären das?sieht was da drin steht. Istgerade das was man sich so vorgestellt hätte als Wortbestandteil Aikousing,vielleichtLeerzeichen davor das typischerweise Leerzeichendieser Müll, der davor steht Men Julie mit dem Leerzeichen davorund so weiter,sind die Türke,fängt man an etwas mehr als 50.000 davon.ist er mit 750 000ins Netz,habe das mal nicht mal hier unten der Eingang so icheinen Token der nächste Torge mir erstmal nur einAnsehenvon 50.000 Token,damit will ich jetzt inSystem rein.ist ja ein neuronales Netz, damit will ich in das Netz reindamit will ich dem Netz wieder rauswenn du einen nehmen nachher bist, weil die Geschichte auch nach haben, das ist der schwierigere Teil aber erstmal für die Zeichen VerarbeitungToken ein Token reinToken rausvon 50.000.wäre die einfachste Art das zu machenhört sich ausdrucken rein anderen 50001raus.der einfachste Weg ist, dass ihr50.000 Anschlüsse haben.wenn es der 3400Tokenist, dann setzen Sie den 3410anschluss auf 1 und alle anderen setzen sie auf nullnennt sich dasheiß und hot encoding,ist offensichtlich keine so tolle Idee, wenn wir jetzt hier mit anfängt.man macht. Man geht in eine Matrix rein.Der kommt manweniger raus.mit mir nach Modellgröße, da kommt ST Modell und Größe rein 768bis 1600zu weit für die Modellgröße rein. Man rechnet um mit einer Matrixdem Tod.Soße fehlten auf 1 setzenauf null setzen von den 50000.zu vieleiner Matrixman das um von den fünfzigtausend aufoder 1600,also, sie geht dann aus der Matrix und auch mit1600 Dimensionenraus,von den Token hat eine eigene Richtungdiesem 1600 dimensionalen Raum, man hat sich 1600Dimension, das kann ich nicht zeichnen,sich drei Dimensionen vor aber dann eben nicht drei Dimensionen sondern entsprechend viele 1600 Dimensionenwenn sie mit dem Sohn so vielten joggen reingehen kriegen sie einen bestimmten vector, wenn Sie mit dem nächsten reingehen kriege ich ein anderen Vektor und so weiter.wäre ein embeddingnicht man hat hier auf dieser Stufe hätte manembeddingbenutzt man typischerweise,man nicht mit zigtausend Anschlüssenangeht, sondern eben nur noch mitminus 1000 Anschlüssen dran geht. kommt das gleich mal angucken?dieseschon geleert.geht nämlich gelernt, welche derbesonders nah oder fern sind, welche dabei China Token soll ich sagen nah oder fern sehen, das ist dann schon in der Matrix drin. Die wird schon gelernt, die matrixZeit nicht mal gerade diese Matrix.ist bisschen ekligerAnfang von diesem programmieren will ich ihnen erspartjeden Fall Status schon mal, wenn ich dabei erzählen.ich auf jeden Fall tue, ich lade einen Checkpoint so heißt, dasswas abgespeichert worden ist. Von dem Modell ist ein Checkpoint, ich lade den letzten Checkpoint, also genauwasden Herstellern abgespeichertworden ist.sind die Zahlen und dann kann ich fragen, ok, welche Variablen trainierbare war. Jan sind ja da drinnen.kriege ich zurück.kriege ich nicht die Variable indirekt, das ist ein bisschen schwieriger, ich muss erst eine Session laufen lassen durchrechnenlassen undes war ja während der zärtlich als Werte zu kriegen. Sei so ist ein dich ein bisschen viel was ich hier mache.dauert es auch so lange dann habe ich einmal nachgeguckt hierden trainable variables,steht da mio? Ti? Das ist diese Matrix sehen wir gleichdie gebe ich da hier hübsch Es ist noch eine zweite die gucken was nachher an und zweite Matrix dabei. ist erstmal die Double Youmatrix, das ist diemit dem was ich jetzt eben benutzt habe ich dasModellmit 768.Größte für 8600mit der es dann weitergeht, nachdem embedding ihren bei dem kleinsten Modell gehst mit 768Dimension weiter, also, ich gehe mitplus irgendwas.mir 50.000irgendwasverschieden toggles gar nicht reingehen und kriege dann jeweilseinen780 dimensional vector aus fürjeweilige Token so wird übersetztden Tokensnur noch 768oder in großen Modell 1600und sie sehen, das sieht ja wildaus, dass es wirklich gelerntdes Prozesses des Maschinen Systematikhier gelernt worden,ist, die geschickte ArtTokens100Dimensionen umzuwandeln. Mangeht dann davon aus ähnliche Wörter werden ähnliche Vektoren kriegen und so weiter mit was ich noch mal genau anguckenanderen Stellen kann man sich solchen bin ich sehr gut angucken,hier an Streifen durchgeht,ist gar nicht so durchgehen. Kann Streifen, ich suche mal rein.irritiert in der 50.000 Sachen untereinander, wenn sie da mal genauer reingucken hierdie halt wesentlich mehr Struktur drinne sind ziemlich wilde Zusammenhänge die Wörter, die hintereinander stehen haben nicht allzu viel miteinander zu tun und entsprechend sind dann auch diedie dazu gehören anders, du müsstest mal sortieren, dass die Vektoren er nicht sind. gucken, welche Wörter darf welche Tokens dazu gehören. Die weiß das ist auf jeden Fall diese Matrixder das gemacht wird, aberschon mal die andere kommt gleich auch noch dranam Ausgang.was wird jetzt im Ausgang passieren, ich habe 50.000Tokens, ich will einen Token am Ausgang haben, was mache ich sinnvollerweise am Ausgang,dasselbe zurück.mit derselben Matrix transponiert, was komisches weißen. Drehungsmatrix wäre würde es richtig funktionieren, wann nimmt diese Matrixschreibe ich mal, was Matrix wird gelernt.die schon so so gelernt werden, dass das funktioniert.nehmen die matrixsozusagengehen dann eben mit den 768rein und komme mit 50000 wieder raus.reicht noch nicht ganz, was sie jetzt rauskriegen. Am Endeda irgendwelche wahnwitzigen.Wertebesondere Werte 0 und Werte über addierensich nichtnoch eine Schicht dahinter softmax nennt die sich.ich mal im ein Video zuerklärt, will ich jetzt gar nicht im Detail machen. Softmax sorgt dafür, dass sie wirklich so was die Prozentzahlenrauskriegen, die sich zu 1 addierenist und keiner ist über eins und dann hat man hier hinten wiederJetzt wissen die schon wie es geht, man nimmt sich ja die 40 z.b. Die 40. Wahrscheinlichsten Token und würfelt dann unter dem pissig wahrscheinlichstenhat man da eineAusgabe kein Zeichen Ausgabe, sondernsoftmaxund softmax ist eine ziemlich dumme Anwendung derfünf minuten ich gerade nicht investieren und dafür zu sorgen, dass aus irgendwelchen reellen Zahlen Zahl zwischen 0 und 1 mit der Summe 1 werden, dass das hier eine Wahrscheinlichkeit aussieht und trainiert es dann auch so hübsch,wie du gesagtdu das auch hinten sich anfühlt, wenn Wahrscheinlichkeitist dasWie kriege ich ein Zeichen rein, wie kriege ich ein Zeichen raus und hierhin hier in drinwürde Geschichten,die ganze Zeit mit diesen 7 und 68 b1600navigiere ich nicht nur nochhundert Dimensionen oder um die 1000 Dimension nicht mehr mit den 50.000 Zeicheninnere Teil hier, das ist dernächste Schrittfand das lustig.was da drinals Transformer genauer als Transformerzu bezeichnen.wie lange dieser Begriff noch hält.es gab früher mal Transformer Encoder Transformer. Decoder gibt auch immer noch aber es hat sich herausgestellt und wir brauchen halt nur Transformer Decoder,das was hier passiertTransformerzwar nicht einer sondernbis 48 hintereinander12 Schichten und beim größten Modell 48 Schichten.ich nicht ein Schicht ist kannst im Gegenteil eine Schicht ist eine von diesen Maschinchen,jetzt das? Hier weiter aus buchstabiert nach der Zeichen Verarbeitungist hierdrin passiertMaschinchen aus buchstabiert.was wir der eben hatten gehen 768.1600Leitungen sozusagen rein und es gehen 768bisLeitungen je nach Größe des Modells raus,da passiert ist,manein muss ich mal etwas größer machen.dazwischen auchwieder genau diese Anzahl Anleitungen, das ist schön, dass das so konsistentist wieder dieselbeAnleitung jedes ist ein Transformer.dasselbewir gehen überall durch mit den See mit 68 bisvon vorne bis hinten ganzvon denen eben Jappy gerade12 bis 48,hier ist Schicht 1 Schicht 2 Schichtund so weiter und dann haben Sie hier oben Schicht 12Schicht 48/48von solchen Plätzenin den größten Modell. Man versteht dann auch vor unserer kleinen Rechner das dann nicht mehr so recht machen will,das nicht hinhaut,kann man sich angucken,in diesem Transformerder Stelle ist der Programmcode sogar recht gut zu verstehen, deshalb zeige ich mal den offiziellen Programmcode von Openair.Model,wie wird dieses Modell zusammengebaut?OT hatten wir gerade schon, was ist diese Matrix die umrechnet von one hotKorfu Roda wupieinmal vor,steht immer von Transformerdiese for-Schleifebastelt da jetzt diese Schichten sich Geschichtenübereinander.etwas am Musizieren, wie shape wie auch immer es fallengeht's raus und die lockits werdendanngeschickt,dich softmax heißt sondern Vasso verstecktesist jetzt dieserich also der Schleife werden jetzt Transformer übereinander gestapeltgeht man rein, schließdas an an den nächsten Transformer und dann kommt Haar wieder raus und dann schließe ich h an den nächsten Transformer an hier schließlich haben das mit Normalisierung an und so weiter auszahlschein TV durchgereicht zu werden, das ist dievon einem zur nächstenkann man sich angucken. Okay, so ein einzelner Transformer, das ist ein Blog, was ist zu einem Blockda gibt's den Blog.machst du ein Transformer?kriegt?Ist der Kern des Ganzenmal genauer hingucken, also attentionraus, auch immer intencion ist.nimmt das Eingangssignal was reingekommen ist in den Blockdir dazu,ist nur eine Hilfe beim Lernen,er noch nichts tut geht einfach das Signal durch.Hat sich herausgestellt, dass es raffiniert ist das zu machen, es gibt den Umweg sozusagen. Man kann denAusgang nehmen oder den direkten Weg einmal rum nehmen und dann gibt es hier noch im Multiplayer besser können normales neuronales Netznur zwei Schichteneiner nicht in die heute dazwischen ganz banales neuronales Netz, das ist ja NLP gibt's eine Funktion, was das baut und das hat auch so ein eingebaut ist man rumlaufen kann das ist der Wehrdienst vorhatte und der Werte aus dem neuronalen Netz rauskommen,ist alles nicht so spannend.ist das spannendsteist der Kern von diesem Transformerdarunter jetzt kann aufpassen auf verschiedene Stellensozusagen, das passiert in der tenschenistlänglich oje,ist nicht so auf die Schnelle zu verstehen.könnte man sanqk&v.mir erst mal erzählen, was attention Macht hätten schon ist der Kerndem Transformer.was haben wir gesehen?drinnen? Gibt es einmal denn schon.Aufmerksamkeites gibt auch ein Weg drumherum.die attention und dann gibt es einen ganz normalen,die Lea besitzt schon sogar nur mit zwei Ebenen und einer nicht den Erhalt der Held und Weg drum herum aufArt. Das jemals in den Transformer drinist, der Spann ist ein Teil, der tenschen ist, das dasmacht, deshalb ist das spannend, wie gesagt am Anfang schon. Trick isthier KurzzeitgedächtnisWirdvon diesen Schichten Service 48 Geschichtenseine eigene Simulation von Kurzzeitgedächtnis.schreibe das mal so Verarbeitungder Historie, das ist eigentlich das Kurzzeitgedächtnis Verarbeitungder Historiedem Transformer mit dir gefunden,Textja berücksichtigt werden und der neue Trick dafür heißt denn schon Aufmerksamkeit.was hat man sich unter identischen vorzustellen, dennsie haben so ein Satz wieDoppelpass.oder irgendwas keine Ahnungmanagedwas auch immerBusdieses Vieh und IT irgendwie generieren könnenvon Peter die Rede ist kann das Sprachmodell ihr nichtschreiben?wenn dem was die Rede ist, kann er sprach und die hier nichtschreiben stattitmuss das Sprachmodellgemerkt haben,der Bus ist, was Pita ist.der Trick istes sich gar nicht das vorwärts gemerkt und es rückwärts nach guckthat man sich das vorwärts gemerktdem Rekurrenten Netzen, es gibt es quasi ein Arbeitsgedächtnis, dass man immer mit schleift und dann muss man sich dasmerken Anbieter es geht jetzt um Peter und es geht um den Bus und dann muss man später gucken ha, das reicht hihi und itwar die alte Art und die neue Art ist, dass man jetzt nach guckt an dieser Stelle muss das Sprachmodell wissen, dass es nachgucken mussdann ihre Stelle muss das Sprachmodell dass es nachgucken muss. Das ist AttentionNachhineinder richtigen Stelle nachzuguckendiese Art des Arbeitsgedächtniszu simulierenhat gelernt im Sprachmodell, wo man nachgucken muss gibt in dem Sinne nicht wirklich imfunktioniert auf dieser Erde bei Themen natürlich auch gar auf große ebene der Artikel muss sein Thema wie eben hatten wir die roten WaleSprachmodell mussauf irgendeine Art dran erinnern, dass zum Auto war ging genauso einem Mechanismus muss ich Dich daran erinnern, dass du schon rote Wale ging und nichts anderes und dann meinen Namen muss es sich auf diese Art erinnern. Dafür ist Attention da das ist dasSo langees ja nicht. Lustigerweise schönes guckt einfach rückwärts nach Assistentin.auf die Schnelle, wie das funktionieren könnte,der Programmcode ziemlich verstrickt aus, wie kann man nachguckendem was bisher passiert ist, man hatfolge von Token,bisher reingekommen sind, die kennen wirnächste token.werden muss geraten werden,hier kommen Token an.dieser WTE Matrix werden sie Token übersetzt in die 768bis was auch immer 1600Dimensionen,mache ich in jedem Zeitschritt. Jedestalken wird übersetztdie Einbettung.das passiert in jedemeiner nach dem anderen ein Token nach dem anderen jeder wird übersetzt.habe ich also dieFormjetzt kommen die.die Transformerhabe ich die soundsovielte Schicht, da sind die Transformer drinnenwir jetzt hier von Transformer.den Transformers steckt das dem Marteria Perzeption und so weiter, aber insbesondere steckt attention in den Transformer drin und dann geht es weiterTransformer und zum Schluss gibt es Ausgabezum Schluss, die eine Matrix und softmaxkommt dann nächste Token raus.jetztwie funktioniert die Erinnerung?von diesenimmer auf dieselbe Art ist ja immer dieselbe Maschinewird immer auf dieselbe ArtVektorenvaluein vectorund ein Vektor quer RIS erzeugt. Jeder von denen die Vektoren werden einfach auch mit MatrizenSeason 7 und 68 bis 1600Das machen alleihr keine Lust, dass du komplett durch zu zeichnen.generellWertund einer Abfrage Wert SchlüsselAbfragejetzt kommt der Trick,man dieser Queryguckt,das was bisher geschehen ist wir haben gewisse Story es sind schonTote und verarbeitet worden ist 8 Türken soll verarbeitet werden, das solltest Du heute Token rauskommen.jedes von diesem Token habe ich Werteinen Schlüssel und eine Abfrage value t und querreywas jetzt hier denn schon macht ist folgendesdiese Queridiese Abfragemultipliziertes mit den Keys diesesQueriden Key, das sind Vektoren Skalarprodukt, die werden wohl skizziert,wird x dem jeweiligen key mir das multipliziert.the story andeine Queri mit dem T und mit dem T und so weiter. Das gibt ein Ergebnisdieses ErgebnisErgebnisnormiert auf eine Zahl wieder0 bis 1 softmax schon wiederDieser Abfall kommt das jeweils die Zahl von 0 bis 1 raus defekt, wie gut passt diese Queri zu dem jeweiligen key überall die Zahl von 0 bis 1.Summe dieser Zahleneins aus so wird nominiert und nimmt man jetzt die Werte, dieschon ausgerechnet worden sind. Diese Werte nehmenSiediese Zahl dieser Wert mal diese ZahlWert mal diese Zahl. wird mal die Zahl dieser letzte werd ich mal diese Zahlist ziemlichalsohat ihn seitdem schonauf dieselbe Art gerechnetanderen Daten dannWert ein Schlüssel und eine QueriQueri Wirt im Endeffekt verglichen mit den ganzen Schlüssel Skalardas Ergebnis wird nun jetzt auf null bis einsist Eifersucht Prozentzahlenwerdendann gewichtet man das Wasser rauskommt. Diese values die jeweils gespeichert sind, gewichtet man dann mit diesem Zahlsie zusammendann rauskommt. ist eine gewichtete Summe über dieAlgorithmus fokussierendass diese Wörter im Fokus hat, dann nimmt er deren Ergebnisdie nächsten Schritt,ist attention.er weiß wirklich wo er hin gucken. Musste. Algorithmus rechnet aus, wo er hin gucken muss auf diese Art all das wird natürlich gelernt, die Matrizen mit denen dieseund dieund die Querys gebildet werden. Die werden natürlich auch alle gelernt,es wird noch richtiger.dieser Sorte hier gibt es nicht nur einen sondernes richtig kompliziertwird,gibt es 12 Uhr im kleinsten Modell bis 25.Parallel.nennt sich multiheadMaschine kann sozusagen 25 verschiedene Stellen520 verschieden gewichtetes Gewahrsam 50% davon und zwanzig verschiedene solche Gewichtung parallel verarbeitendie größte Maschine davon,wird schon echt heftig, das ist keine Rückkopplung sonst das Verfolgen hier imgibt keine Rückkopplung. Es geht alles immer nur vorwärtskann ich gerade noch sagen, dass für diese andere Matrix da ist, die eben zu sehen warVisualisierung,es wird kein Unterschied gemacht zwischen den Positionen.Sie die beiden hier vertauschen.die VK und CO-Werte kommtdas selbe raus als Ergebnis.hängt nichts von der Position hat bis es ungeschickt. Sprache muss von der Position abhängen,darf nicht austauschbar sein, was man jetzt noch machtdass man die Position 1 codiertrecht immer noch was drauf auf diesebis 1600Werteimmer noch die Position Rebuys drauf auch wieder mit einer extra gelernten Matrix, das war die andere Matrix, die man eben gesehen hat, wird noch diedrauf addiert.Modell nicht Informationen nur über den Tod kann sondern durch die Addition auch wo der steht,sehen wir das jetzt nochtides, war das im Bett irgendwie umgerechnet wird von Token auf die hier jetzt bei dem kleinen Motel 768Dimension und dabpiwie die Positionennoch eingerechnet werdenwieder die sie mit 68 Dimensionenje nachdem welcher Position sie stehen von 0 bisinnertiermal welche Position sie stehenes dann jeweilige Zeile wir sehen das hängtsinusförmig.Engpass sinusförmigvon der Position, aber so ist gibst du verschiedene Dimensionen hier, dass so sinusförmigder Position durchlaufendas ist gelernt auf diese Matrix ist gelernt, es gibt ganz viele Leberflecken hier. ist Beautymatrixdas ist im Prinzip allesGPT to was macht dieses Modell eigentlich massiv parallelohne Ende,gar nicht so dramatisch eigentlich man sich das genau anguckt.noch sagen, das haben sie eben gesehen,lang ist die Historie1024, wennsie gerade an der Matrix gesehen die Positionrechnet,wir eine Matrixx 768 oder andersrum,1024 Positionen ein1024die man ein rechnetallen Größen von dem TPT warte, also 1024Tokens nicht aus 420 Wörterjemand?hat sie können diesenbei der Arbeit zusehen, das ist sehr schön.in Transformer basedweiter,derhat sich angeguckt wurden,verschiedenender malthead attention hingucken und dasoder kriegt dann wirklich?Bilder hier was man sieht AA dizisi guckt nach bei dem Peter und dass ich guck nach bei dem was das wird gelernt.Maschine weiß nichts über Grammatik am Anfang,kriegt jeder bei centex und sie lernt Grammatikdiesem Gigabyte an text, was ist it Zurückverweisungdes he auf den Bieter verweist.wasMdB passiert ist dann dastatsächlich so funktioniert, wie man sich das erhofft und vor allen Dingen auchattention an viel Stellen gar nicht benötigt wird einigevon diesen Herz oder sogar viele von diesen Herzoft arbeitslos, dalässt sich also vielleicht was optimieren.Überblick über die bd.to