[Playlisten] [Impressum und Datenschutzerklärung]

Neuronale Netzwerke mit Deep Playground verstehen


CC-BY-NC-SA 3.0

Tempo:

Anklickbares Transkript:

Vonmilkovund Schenk Alter undanderen gibt esschöneIan JavaScriptläuft im Browser an, die man sich mal klarmachen kann, was denn so ein neuronales Netzfür sein Geld ein totalwir zwei Dimensionen hat die anderen sind für uns nicht spannt.zweidimensionalenDaten reinsehen ein paar Neurone,and wir verbunden sind.spannende Frage, wie viele Neuronen sehen Sie jetzt auf dem Bildschirm? Es ist nicht ganz einsichtigviele Neuronen sehen Sie jetzt auf dem Bildschirm.Ich hab doch also das hier hinten ist auch ein Neuron. Es sind 74 inder ersten verdeckten Schicht dann kommt 2 in der zweiten verdeckten Schicht und diesesbeim output, das ist auch für andere, die sind jetzt zwei Eingänge.Hirn ist auch an Neuronen groß gezeichnete, dass man auch sieht, was passiert,sehen jetzt hier in jedem von diesem Quadraten die verschiedenenWerte X1läuft offensichtlich von links nach rechts und x2 läuft von unten nach oben und jetzt sind immer in einem Quadrat alle möglichen Werte aufgezeichnet,was macht dieses Logo hier als Ausgabewertfürlinks oben, das heißt X1links oben X2 links oben, was macht dieses Neuron hier links oben und so weiter, so kannst es jeweils.und hier bei demEuro und ist allerletzte in der allerletzten Schicht,kann sie auch links oben ablesen, was passiert, wenn X1 links oben und x2 links oben ist und so weiter. Nein, das ist sozusagen alles auf einmal sichtbar um dassofort was denn hier, was passieren wird, ansonsten sind die Verbindungen diesiekönnen, dann kann ich was eingeben hier, was ist das Gewicht dir die kleinen Punkte, das sind die beide Werte in können Sie auch anklicken, um was einzugeben. DieVerbindungen sind jeweils dick oder dünn gezeichnet den nachdemgebe dir mal.sehen Sie dann wird es blau und dicker die Verbindungen sind jeweilsdick oder dünn gezeichnet, je nachdem wie groß die Gewichtesind undsie sind orange oder blau gezeichnet. Je nachdem was das Vorzeichen ist.siehtman so auf die Schnelle, was jetzt wie verbunden ist.ich mal für das allererste ein bisschen was verstellenED kriegt also wenn ich da jetzt das oberste Gewicht auf 1. Stelleauf 1. Stelle den süßen blau und dick undGewicht hier stelle ich auf null.So, dannist die Linie praktisch weg. Es kommt direkt X1hierdurch in das Neuron und es haben wir noch die bias wert, ich den bias Wert auf 0,5lustig das jetzt, da steht ein deutsches, 0,5Stelleer sich dann bisschen uns mit deutlicher machen, ich stelle ihn mal auf drei,dannsieht sie da schiebt sich das deutlich rüberagierendazudamit verschiebt sich das ganze hier nach links.Oder wenn Sie hier von X2 was dazu addieren ihm ein Stückchen von X2 immerda 0,5von X2 dazu dann wird das schrägkönnen Sie erkennen, dass du wirklich über Steam ja das passiert. AmEnde steht hier oben sieht man schon der Tangens hyperbolicus, dasssie oben gucke muss gleich noch mal an, was das alles bedeuten wird,jeden Fall sich diese grundsätzlichen Rechenoperationentrennen. Sie nehmen jetzt hier für jedes der NeuronenzweiEingängemaljeweils ein Gewicht +Bayers Wert und davon der Tangens hyperbolicus, das ist das was man nicht dann sieht, das macht man sich Geschichten sind Geschichten einstellenhierbei die Zahl der Neuronen pro Schicht ein Stern.ist schon ganzgemachtsauber, soll ich dazu sagen reale Probleme,haben das eben mit den zehn Ziffern gesehen bei realen Problemen haben sie hundertetausende10.000100.000Neuronen und vielleicht dutzende einschichten,ist nicht wie hier im Sandkasten, das ist wirklichdamit man sieht, was denn da überhaupt im Prinzip passiert.geht erstmal los mit Klassifikationkommen aus umstellen Klassifikation Regression, dass die beiden üblichen Sachen, die man mit Baron einnetzen macht mich clustering, sondern KlassifikationRotbäckchen, lass uns mal bei Klassifikation.heißt,habe bestimmte Datenpunkte die reingehen gesehen hier,was für ein Garten musste ich gewählt habe als Eingangssignal jabestimmte Datenpunkte dir ein Gitternetzmacht eine Vorhersage, welche Klasse das hier weiß ist.den besten auf discretize output,dann ziehen die deutlicher die Vorhersage als die Vorhersagehier so bisschen blau und bisschen orange unddas Wetter ist heiß, ich mache jetzt eine harte Entscheidung, esgibt nicht ein bisschen blaues gibt nicht ein bisschen orange wieder blau oder orangevon diesen beiden Tasten, ja oder nein? es sein, das ist jetzt meine Vorhersage, ob sie sehen das passiert was natürlich überhaupt noch nicht das auch nichts an trainiert. Die Vorhersage hat überhaupt noch nichts mit meinen Daten zu tun,muss doch an trainiert fürdie Ausgabedatenmüsste man jetzt so verstehen, dass die Ausgabe hart.nehmen. Ist das eine und das an entweder Katze oder Hund, aber nicht beides und auch nicht ganz vom Weinen,kann's doch mal so, dass man besser sehen kann,sich das Netz jetzt sicher ist und wo es sich jetzt unsicherist,wäre im Prinzip das was bei der Klassifikation jetztsollte es nicht sollte sagen, die auch jede außen im Außenbereich. Na, ja, das ist ja wohl orange und im Innenbereich ist es wohl eher blau, das müsste eigentlich raus kommen bei der Klassifikation, wennwir es an trainiert haben.erstmal Daten, das ist ja auf der linken Seite über von Daten zum an trainieren. Sie Siri, kann ihr so ein paarDatensätze vor werde ich niemals jetzt mit demKreis und dem äußeren Kreis, das möchte ich gerne lernen, ich möchte gerne lernen in sind die blauen außensind die Orangen.Dadurch viel banaler als wenn sie lernen wollen, so sieht die Ziffer neun aus so wird die Ziffer 1 aus oder wenn sie lernen wollen, so sieht ein Hund aus, sosieht ein Auto aus, abergut, wir haben ganz wenigen Euro und wir wollen lernen in sind die blauen außen sind die Orangen, dassind die Daten, die ich vorgebe zumundich dann hier entscheiden 50%zum anlernen und die anderen 50% zum Testen und dann sichauch noch angucken, das sind die Daten nicht mehr zum Testen benutzen werde.gucke nach ob das Ding auch was vernünftiges gelerntmit den Testdaten. Man kann sich doch hier einstellen, wie viel sie wofür verwenden wollen, wollen Sie Daten zum Lernen oder mehr da zum testen, dassdu mal auf den 50%benutzen sie überhaupt andere Tage zum Testenzum Lernen. Warum trenne ich meinen Datensatz überhaupt im Test DatenDatenTrading erstmal her und trenne ich den Datensatz.wollen nachweisen, dass es jetzt nicht auswendig gelernt habe, wenn Sie z.b. Nearest neighbor verwenden würden, dann werden die Trainingsdaten hundertprozentiggetroffenauswendig gelernte produziertin die Trainingsdaten wunderbar auswendig,aberwissen nicht, ob das Fall gemein hat Verfahren, wir wollen wissen, ob das Verfahren allgemeinedeshalb brauchen wir testenwir nehmen andere Daten als die mit denen wir gelernt haben, um zu gucken, ob es mit denen denn jetzt funktioniert, ob das Netz ist übertragen kann verallgemeinern kann generalisierenkann deshalb diese Trennung inunddich mal wieder aus, dass man nur die Trainingsdaten sehenkann Rauschendraufgeben.Sowie nach dem LebenSinn, gebe das alles auch noch bisschen umgestellt parallel, dass du bisschen verwirrend aber sie sehen wie die Daten. Jetzt durcheinander gehen, wenn sie raus schon drauf nehmen, abervielleicht gleich noch malsize muss ich gleich auch noch mal getrennt sagen wozu. Das da ist generateheißt die Daten noch mal neu, würfeln Siemal neu. Datenpunktediesem Muster, was jetzt im Prinzipist, das passiert auf der linken Seite, also, wassind die Daten? Mit denen? Ich trainiere undwas sind die Daten mit denen ich dann zum Schluss teste, ob das traininghat.Lernenihr dann am ehrlich statt hier obenSie was mit dem Lernen zu tun hatdem ResetdemKreis rückwärts. Setze das Ganze auf ZufallswerteGewichtebuyers Werte werden auf Zufall gesetzlichenirgendein Unsinn passiert, dann hier das Ergebnis passt natürlich vorn und hinten nicht. Es wird alles auf Zufall gesetzt immer wenn sie darauf drücken,Sie hier einmal aufs Tab drücken.mal bisschen an zu lernen und jetzt passieren so einige Geschichten.nicht er geht alleeinmal durch,heißt eine EpocheTrainingsdaten einmal durch das ist jeweils eine Woche vergehtalle Trainingsdaten einmal durch und versucht die Gewichtund die Baez Werte in die richtige Richtung zu bringen, alles und Stückchen in die richtige Richtung zu schieben,gibt zweidafür der Test los und der König aus der Test los sagtdie Testdaten,gut haben wir jetzt die Testdaten reproduziertder training los sagt, wie gut wir diehaben.wird es besser werden, ich mache ihn noch malSchritt durch eine weitere Woche allewir haben als Trainingsdatennoch mal durchzusehen und gehpassiert, wasein ehrlich passiert da waskeine Lust, da die ganze Zeit drauf zu klicken, deshalb kann sich automatisch laufen lassen.Wenn die Epoche um 1 Uhr weitergeht, heißt das beim Lernen sind einmal alle Trainingsdaten durchlaufenworden, das ist ja so wird am ehrlich ein Schuh draus.ist jetztVorhersage,also, wenn sie mit einem Datenpunkt hier reingehenwürde blau vorher sagen, wenn sie mit einem Datenpunkt hier reingehen würde, erVorhersagen,ergibt allmählich sehen. So ist das Netz jetzt an trainiert und dann auf einmal hier auf Disco DICEdass wir jetzt eben die Vorhersageharte Entscheidung Katze oder Hundoderwäre das nichts an trainiert. Also das würden sie mit einem Netz dieser Art, wenn sie es hinkriegen,Daten vernünftig zu klassifizieren in der Mitte blauorange.können wir vielleicht mal bisschen Rauschen dazu geben,es spannender wird,in der Warenwelt, die haben natürlich keine exakten Daten in der Warenwelt sie sehen, ob auchlass mir noch mal lernen.Und da muss ich ja schon bisschen mehr arbeiten.Und sie sind das wird jetzt auch ganz schönes Uwe Almer,soll die Maschine wissen, dass das mal ursprünglich Anrufer wäre,sieht er.aus was jetzt rauskommt, aber einigtsich dann schon auf irgendwas sinnvolles.Ich halte ihn da mal an.Mit diese beiden Kurven da oben noch mal uns angucken Test los und training los sie sehen, das hat also offensichtlich was damit zu tun, wie gut das Netz gelernt hat zuAngebote, welcheNote kriegt das Netz jetzt hat sie ein wenig eine 1,7 erreicht sagen. Es hängt immer 5,0an ich bestanden und es jetzt sozusagen, wannverschiedene Kurvenwie gut das Netz jetzthat, warum sind wir zwei Kurven und warum ist da eine graue untenund eineoben?sozusagen zwei Noten undwir bekommen zwei Noten dafür,gut das Netz vorhersagteinmalden Test los einmal training los und das ist wirklich wie Schulnoten in Deutschland große Zahlen sind schlecht kleine Zahlengut. Ein Los von null heißt Perfektion,das ist die 1,0 mit Sternchen sozusagen, wenn Sie ein Los von Null haben,habe zwei verschiedene Noten,die eine Note ist, wie gutPunkte die wir jetzt haben mit denen an trainiert worden ist,Punkte sind die die ich lerne, die gut treffe ich die Punkte, die ich lerne sehr nutze sozusagen Vokabeln, die gut können Sie die Vokabeln,ist der schöne Klaus,die Vorhersage für die Trainingsdaten und sie sind die passt ja nicht gut, hier derhier nicht im blauen Bereich der orange Licht impound, das ist nicht hundertprozentig, das ist nicht 0,0das ist nicht Perfektion ist es gut vielen blauen blauen Bereich viel Orangen Orangen weich, aber es ist nicht perfekt, deshalbkonnte nicht 0,000raus beim training los.Tesla ist ein das imposantedie Testdaten, die wir nicht gesehen haben beim LernenTestdaten diese Daten, wie gut werden die denn getroffen?die wäre natürlich schlechter getroffen,die nicht auswendig gelernt werden können, die hat das Netz ja noch gar nicht gesehen diese Daten, die kann es nicht auswendig gelernt haben.Da ist die Frage, wie gut kann es verallgemeinern nicht die gut hat es auswendig gelernt, sondern hat es denhat es die Logik dahinter erkannt hat es den allgemeinen Zusammenhang erkannt, kann es die Daten auch klassifizierendies noch nie gesehen hat,ist dann der Test los derVerlust für diedie wir zur Seite gelegt haben hier die 50% die wir zur Seite gelegt haben und nicht zum Lernen benutzt haben, die gut passt es da und das ist natürlich zwangsläufig schlechter als das was sie auswendig gelernt habe ist kannst du über die haben eben gesehen, dass ganz zufällig mal den graue Kurve über der schwarzen gegen weit am Anfang, aber das meldetsich schnell aus.dich die graue Kurve, die für den training losder für den Testlauf ist, es schwieriger die Verallgemeinerung zu machen, als die Daten auswendig zu lernen. Dessert gibt es jetzt zwei Kurven unddie spannende Begur, wie ist eigentlich die obere denn das ist dieungeseheneDaten. Wenn Sie dieses jetzt wird's jetzt benutzen irgendwasungesehen ist einin das Netz, wie gut passt denn das Ergebnis dann das war die normalerweise wissen, sie wollen nicht wissen, wie gut diepassen. Die benutzen sie zum Lernen, irgendwas müssen wir zum Lernen benutzen,die könnte das Ding ja auch auswendig gelernt haben, so ziehen wir ja Kurven sind wir zurück an den Anfang, ich setze das noch mal aufalles die ganzen Gewicht und beides werde auf Zufall.sie am Anfang haben wir 0,50,5ungefähr bei 0,5das ganze OpenSource ist kann man sich das ja netterweise angucken,da offiziell drinnen steht.es wenn es sich wundert, dass es eben JavaScript sondern type Script was hier steht. Sieht fast aus, wie JavaScript.Es nach JavaScript in kombiniert. Sie können sich ja von der Webseite dir den Quellcode anguckenOriginal ist in type Scriptbestes JavaScriptsagen, das wird kompliziert nach JavaScriptGeschichte mit dem los.Steckt in playgroundTSdrinnen.sehen,das ist doch etwas länglich. Es lässt sich verstehen, aber es etwas länglich hier gibt es eine function get los.Undwird passieren los + = Square error, das könnte mir jetzt auch wieder nachgucken, was da hinter den Kulissen passiert, aberHand ist dann schon also es wird wohl sowas sein, wieFehler da rauskommtdurch wie viel Daten. Die sie haben auch keine große Überraschung inder for-Schleife davor.lässt sich doch relativ gut verstehen auf das ist schon ein quadratischer Fehler. Der Stadt findetwenn sie es dann im laufen lassenganz allmählich runter singer ergibt 40 mal richtig einen dicken Effekt, wenn dieser blaue Google deine Mitte erkannt wird, beides geht gut runternaja sind ja eben bei 0,1beim training los und schreib was mehr als nur, Halsband Testlos unddafür die quadratischen Fehler ist heute einmalig ja auf die Regressionschalten,das mit den Fehler ist auch bei der Regression.GenausodannSie das laufen lassensie erstmalZufallswertehierhier schöneHausaufgabe viel kommt diese 10, 150,130,17,Sie den Erwartungswert bildenirgendwas mit 0,1was bist du das eigentlich von exakter Wert wird auch das ist mit der quadratischen Abweichung dannbei der Regression hatte umgeschaltet bei der Regression wollenSie werden? Es geht von richtigorange bist richtig blauin der Mitte diagonal.Kann man sich Kontrolle einmal überlegen, was muss denn da denn derquadratische Fehler sein, aber ich hatte mal wieder zurückKlassifikation,nicht so kompliziert dir kommemit 0,5 anders, das ist die Bedeutung von Tesla und Tradinglos.mit den Daten mit denen sie trainieren, aber das ist gar nicht so das spannende der Testlauf ist viel spannender die Vorhersage,wie gut ist ihre Vorhersage auf Daten, die das Netz noch nie gesehen hat.Job des trainierenes ist das sieht man denn hier steht noch mal zurück. Der Job beim trainieren ist jetzt die Gewichte und die baires werde zu verstehen. Wir sehen wie es hier live die ganzen Werte verstellt werden und die Vorhersage besser wird mit deinem angucken, wie das überhaupt sein kann, dass das besser wird.dieser Optimierung, aber die sehen zumindest, dass ich die Werte ändern unddass das Ergebnis vernünftig wird.schiedenenja, das geht so. Langsam ist doch er sieht dass einiges werden dicker einige werden dünner.Muss ich noch mal starten. Die Änderungen waren doch sehr subtil geradeund start noch mal guckensie auf die Pfeile gucken sie auf die Punkte.Die Verbindungslinien auf die Punkte, dann sehen Sie Alter tut sich was aus. Es wird alles so ganz ehrlich ein bisschen verstellt und das Ergebnis pastamehlich bisschenflackert, wenn ich über eines diese andere Neuronen gehe, dann sehe ich das ein Bild in groß das ein bisschen komisch,man im Ausgaben Euro und jetzt fehlt von dem einen Cent sieht das finde ich ungewöhnliche Lösungist im Prinzip die Idee hinter dem Lernen, jetzt habe ich hier nicht verraten, wie das Lernen funktioniert, aberdas Lernen machtoptimieren,die bei uns wird optimieren, so, dass diebessergetroffen werden.ist Phänomen nochWenn siezu genau lernen, wenn Sie die Ausgangsdatenauswendiglernen, dann passiert unser immer, das merkt man dann hier Zwischentestlos und training los.stell mal irgendwas ganz finsteresein ich sage mal 5 Layer, es geht hier ja einfach auf Mausklick 5-layer verborgeneinLea am Endefünf Vorlagen länger nadima5 verborgene Lea und jeweils fünf Neuronen, also viel zu viel des Guten, damitkönnen Sie viel mehr lernen.Netz ist sozusagen zu intelligentfür dich jetzt nicht sagen, das ist nicht ganz so viel, Sie 5 leer mit 50 Euronen für dieses Problem ist, das zuviel des Guten, siekönnen Anfang auswendig zu lernen jetzt mit fünf Lehrern 5 EuronenSchachbrett hier alsmassiv Frauchen draufmit mir nach der Schachbrett erkennen. DasProblem ist. Jetzt ist es Netz zu viel lernen, kann ich das ist mal wieder auf Zufallswerte,das Netz fängt jetzt an auswendigzu lernen und das wirdwerden, das ist fitting.Hoffe zumindest, dass es jetzt ein wenig zu deinem hängt vom Zufall ab, was passiert, wie ist das initialisiert werden liegenmeine Datenpunkte.Man das bisschen länger laufen lässt sich toitoitoi solltest jetzt zumindestdazu neigenOma f*****, das istin den Daten zu erkennen glaubt, weil sie auswendigwas da gar nicht drinnen ist manGeduld weiterlaufenlassen.ich, dass ich jetzt hier auf die blauen Punkte springt, dass er da noch was sieht oder hier die die beiden gelben irgendwo erkennt.ich Geduld haben hier.Was fand ich natürlich nicht,war schon mal nicht da hat es hatnichts schlimmes stattgefunden, ich setze noch mal auf Zufallswerte und jetzt noch mal.meine Hoffnung ist das jetzt so ein paar einzelne gelbe Kleckse unteneigenen gelben Rahmen kriegen oder hier ein paar von den blauen Fleck seine eigenen blauen Rahmen kriegen, wasda nicht im Sinne des Erfinders wäre, wasdann overfitting, sie hätten heiße Datenpunkteoffensichtlich nicht da sind, wo sie hingehören.Undtrotzdem gelernt werden.Könntest mal laufen lassen länger laufen lassen,würden sie dann das merken, woran würden sie merkenauswendig gelernt worden ist und nicht generalisiertworden ist, dass das Netz das falsche gelernt hat, woranwürden sie das merken, woran wird sie overfitting bemerken?so, also Zeichen für overfitting ist wer in der training los runter geht und der Test los rauf gehthier vorne ist eigentlich bisschen komisch nicht, dass derlos RobertContest los ist da irgendein Zufall passiert.müsste der Testlauf über den Pfennig das liegen, das haben wir hinten aber wenn die beiden auseinander gehen und die schiere aufgeht, dannkomisch derlos, den sie der Test los steigtjetzt sogarder training los fällt. Man erkennt hier, warum dasneuronale lässt mich gerade so an trainiert, es ist hier noch so ein bisschen blau rein nimmtoffensichtlich Gürzenichist, wir wollten eigentlich dieses Schachbrettmuster haben.das geht dann ebendie Testdaten und jetzt schaut es täte wenn ihr seid Testdaten rein nehmen Sie die das passt überhaupt nicht, abermöglichen gelben kriegst du dapasst nicht zu den Testdaten, das ist nur Zufalldurch das Rauschen hier neueste ich das Rauschen die blauen Kekse hier Zufall, die werden jetzt aber angelernt, die blauen Klecksedazu, dass das beim Lernen gut funktioniert der Trend los, der graue geht runter, aberwir jetzt die noch nie gesehenen Daten uns anguckendie da er gelbdamit geht der Test los raus, also, wenn der Test darauf geht ein Stück davon schon in der Test das Beste aus draufgeht. Weiß man ob hier ist was faul?Netzwerk nicht mehr,ist lean soll Sonnenschein quasi auswendig zu lernen müssen und so bisschen weiter laufen lassen. Wird wahrscheinlich eh sogar noch einen kleinen blauen Flecken machen,ihrso ner Situation 5-layermit jeweils 5 und in dieser Situation istzu viel des Guten. DieMaschine lernst nicht das was sie lernen sollLand jetztDatenpunkte mehr oder minder, zumindest die blauen.deauswendig und verallgemeinertnicht, das ist nicht im Sinne des Erfinders,Sie das ganze mit 100 Dimensionen machen und 1000 Dimensionen kann sich das nicht mehr angucken, aber Sie können sich die Kurven angucken und sehen, ob da ist, was schiefgegangenmuss also nur Geduld haben, wir sind jetzt bei 4000Epochen will sagen jederTrainingsdaten.Ist hier tausendmal gesehen worden beim Lernendann sieht manjetzt die Optimierungsalgorithmuswie zum Beispiel, die vier blauenhat in Anführungszeichen, da so eine Schneise durchgeschlagen hat durch die vier blauen bei den beiden auch eine Schneise.denen schlecht eine Schneise durch das ist overfitting, wennman sich die Testdaten anguckt sieht man das hat nichts mit den Testdaten zu tun.generalisiertnicht geht. Diesersagen isafjord jetzt da blaue Fjord generalisiertnichtes Zufall dassda soviel blaue habenes neues hierhat nichts dem zu tun was gelernt werden soll.sie nebenher auch an dem fest los und dem training los, der Test läuft bistdeutlich größer als der training los, was sind hin und her.sie so viel gelernt haben haben, die zu viel gelernt.vorher aufhören zu lernen unddas andere ist man darf sein jetzt nicht so kompliziert machen, wenn Sie hier jetzt verborgen 5-layermit jeweils fünf nur holen haben, dann kann das zu viel lernen. Willstdu viel lernenLea. Die sagen zwar nicht das was sie wollen ist verallgemeinertnicht diese Schachbrett Strukturden raus starten, sondern während wirklich die einzeln Datenpunkte,kann sich diese beidenKurven angucken und versuchen zudann zu stoppen oder automatisch zu stoppen und Abbruchkriterienzu definieren. Man kann versuchen nichtsviele Neuronen zu haben, es gibt auch noch andere Ansätze sekundarisierung.Sie können bestrafen,dass das Netzviel lernt ist so eine hat Punktabzug ein notenverschlechterung, wenn sie Test aus dem schönen Toten nehmen jetzt von 0 bis 0,5noch was bei diesemdiesem Problem hier nurdie beste Note und jehöher, der Nuss wird. Umso schlechter ist die Note, wenn sie es als Note nehmen könnte sich auch vorstellen, dassdie Note wird was drauf addiert als Bestrafung dafür,dass man jetzt auswendig gelernt hat, das ist die Idee hinter den meisten Regularisierung Verfahren sind sie da kann sie ein paar einschalten.gibt eineneinen roten Verschlechterung eineMöglichkeit. Hier ist 11.1.ist l21Stück endlich alles wieder zurück sehr gut,lasse ihn trotzdem noch mal neu laufen.Charlie noch mal dafürbrauchen ja nochFaktor muss ich gleich sagen, wo dieser Faktor auftaucht nehmen wir mal 0,01jetzt eine Bestrafungnoch mal neu, also diese Regularisierung, hier ist jetzt ein Bestrafung dafür, wenn wir zu viel gelernt haben zu viel auswendig gelernt haben. L1dieder Beträge der Gewichte, also von allen Gewichten dir jetzt eingezeichnetsind von allen Gewichten die Summe der Beträge, das ist L1. L2 gibt's auch haben sie im Gesäß istQuadrat jeweils davonman sich überlegenkann,das L1dazu führt, dass alleGewichtedie dicht bei 0 sind.die noch weiter runter gedrückt werden in 1die führt dazu, dassGewichte sehr sehr dicht beim neue sind, das viele von diese Linien verschwinden was Gutes, da muss man nicht so viel rechnendasQuadrat vonden Gewichtenist unserPunktabzug sozusagen, dasheißt die großen Gewichterichtig ins contour by L2 werden die großen Gewicht verringert. Hoffe, das kann man jetzt schon sehen, es ist nicht immer so eine prozentiger Initialisierung und dann versetzt gut zu sehen bei L1. Sollten jetzt viele Gewicht auf Null gedrückt werden.ist die eine klassische arte Regularisierunghier, die regularizationWelt ist umso größer ist der Effekt.sind oder ist ja plötzlich gar nichts mehr los lauter grauewird wohl der Effekt dieser Regularisierung sein, wennsie L1 benutzen kriegesie ganz viele graue Linieneigentlich wären wir wollten Schachbrett lernen mit ganz viel Rauschen, das ist jetztzwar sehr regulär, was da rauskommt, aber mit dem was wir lernen wollten auch nicht so viel zu tun. L2wir sollten nicht so viele dicke Linien sehen, dieGewichte werden bestraft.dir noch males hängt ihm alles von Zufall ab.Was ist jetzt ein dicke Ding, was ist eine dünne Linie im Mittel je nach Experimentwas dann sind bisschen damit rum, aber das Gedanke dahinter, es gibtPunkte, wenn man so will oder Punktabzug bei L2 für die Quadratedie Summe der Quadrate von den Gewichten bei A1die Beträge von den Gewichten undhat ein etwas anderen Effekt führt aberdazu, dass sieFiguren kriegen.erstmal aus zu Hause mit lernen 5 Neuronen,sollte einen Unterschied machen, das ist dieser dieser Abteilung hierund regularization Raid.gibt's hier noch die Abteilung activationnur wieder auf diese ursprünglichen.Himbeeren mit vier und zwei zurückdu rectifyingunit derTangens hyperbolicus sigmoid1 /+ E linearnur linear.Dann können wir gerade mal anfangen, was steht passieren, wenn ich jetzt im Jahr einstelle undDing lernen lasse?Also wird zwangsläufig dann eine lineareFigur eine Ebenewerden Dir das alles trennt uns laufen lassen.versucht er da irgendwas zu lernen, aber keine Chance was zu lernen. Sie sehen es hier schon.kommt nicht Fieber raus, was soll ichsollte ich ein anderen Datensatz nehmen, vielleicht niemals einmal den Dingemal.Das müsste damit doch Swiss gelernt kriegensirokay, das ist was er lernen kann, wenn sie es auf dem Jahr stellen, können sie sowas lernen.Einen linearen ZusammenhangKnicke drinnen und wenn die Schweinereienkriegen sie nicht gelernt und dannnoch mal starten,können sie nicht den Jahr beschreiben. Sie sehen was die Neuronen mir tun. Diealle nur was den Jahresich auf den Kopf stellen diese Figur mit blau.de und orangefarbenePunkte außen Figur kann sie niemals bilden,alles nur linear ist.Sieben wastin euronia somit mir Wehen kriegenChance, also den ja ergibt keinen Sinnheute mit 1 / 1 + Enoch mal angucken, die drei Jahre totalfällt man im Quellcode.istDatei inaber im Prinzip ist er nicht undurchdringlichder Quellcode.So, sie sehen hier jetzt den Tangens. Hyperbolicusoffensichtlich irgendwo vordefiniert daist hyperbolicus.Einweg gleich Das Maximum von 0 und X-Mendie Zahl mit der ich reingehe, wenn die kleiner ist als 0. Dann ist das Maximum 0. Okay, wenn die Zahl die mit der ich wein gebe, die negativ ist, kommt nur draußen. Das Maximum ist null, wenn die Zahl mit der ich reingehe positivist ist dies maxmo die Zahlen die durch reingeht. Die Zahl kommt raus, das ist der einweggleichrichter,also für den einweggleichrichterbrauchen Sie keine schlimmen Funktionen wie Quadrat oder Wurzel, das ist Maximum von 0 undder Zahl mit der sie reingehen, das istwas man heute üblicherweise nimmt, weil es so billig zu rechnen ist. InsbesondereKräuter sind es ja eins durchplus EU - Xja nicht eingebaut ist gerade eben nach dem Tennis wird wohl die größer sind die Funktion, die da drinnensind eingebaut hier oben.polyfill für den Tangens. Hyperbolicus. Hier steht da irgendwo noch mal als Formele hoch 2x, sie sind sie dass das ist e hoch 2x -1durch E hoch 2x +1es Verbote diesessigmoid ist auch ihre Musik, dass es nur eskaliert und verschobender Tangens hyperbolicus die beiden sind Spinnen verwandt.ich jetzt auch sehen, dass du mal für gleich nicht uninteressant, dass jeweils die Ableitung mit kommt. Ja class activation, siehaben einmal die Funktion als solches den Tangens hyperbolicus aberauch die Ableitung, der steht da wohl für terrific.de 1 - das Quadrat von dann als Überblick, was ist dessen Ableitung oder hier bei Renault der Gleichrichter, dasist die Ableitung von Gleichrichter,X kleiner gleich 0 ist, dann ist sie nur platt undX größer 0 ist ist die Ableitung 1.1,sie die jetzt in dieser Schreibweise mit fallen sehr lustig aus X wird abgebildet aufdas nächste ist ein kleiner gleich ich dividieren lassen, das ist ein abbildungsverhältniswird abgebildet auf das kann man in JavaScript auch schreiben inzwischeninden meisten Browserndas hier ist ein kleiner gleichirritieren lassen von der Schreibweise, das sieht ein bisschen komisch aus istdas in der Mitte stimmt nicht gemeint wird abgebildet auf.Wenn X kleiner gleich 0 ist dann 0und sonst eins die Ableitung von dem einweggleichrichterAbleitung ist diese Funktion x 1 - die Funktion linearhier sind es kommt einfach nix wieder raus mit X rein mit X wieder raus. Der Ableitung ist ein des jeweils auch noch die Ableitung dabei,gleich darum, die wichtig ist beider Optimierung.sie die AktivierungsfunktionhierNeuronarbeitet mit dieser Aktivierungsfunktion.erstmal auf den Tangens hyperbolicus undlass sie noch mal lernen, diehier jahat er eben funktioniert.jetzt habe ich die reguläre mach die Regularisierung wieder aus.dann bist du jetzt ja wieder lernen, das in der Mitte blauer Block ist und außenrum ein orangener Kreishinkriegen mit so wenig Neuronen und nicht mehr,ein bisschenwaswieder ein bisschen runter das Rauschen.müsste jetzt sauber lernen.das habe ich mit dem Tangens über bodikos, wenn Sie dasich machen sollte die Figur am Ende verdächtig ähnlich aussehen,lernt er langsamer, weil es Sigma häuten andere Steigung hat Aber das ist eigentlich nun skalierungsproblem,das hätte man auch. das lösen können. Ja sieht ein bisschen Lama aus, jetzt müssteaber auch gleich wieder auf den blauen Bobder Mitte kommen.auf zu warten ging, dann wird es passieren undhalt doch mal zum Tanken zur Würdigung zurück.Sie das ist der blaue Block in der Mitte unddann hängt nur noch mal überreden nachhier dieplausibel aus wir lernenblaue Blase in drin und außen rum alles orange, das lernen wir aus diesen Rennen starten wieder jetzt zu sehen Sie zurück so und wenn ich jetzt nicht mit den Timer zu beruhigungssondern mit demwerden wir sehen aber die GleichrichterIch lass es einmal laufen,sieht man auch nicht was passieren wird, rückwärtsArbeitsamkeitbesser verstehen.Sowassehen sie so,wir sind also ein Vieleck ein weiches Vieleck zwar, aber es ist ein Filet. Konta natürliche 100 Dimensionen sprechenden Vieleck, sondern einen vielflächner99Dimensionen in den Oberflächen.Hälfte der Fälle gilt, sozusagen der rechte Teil von der Kurve, aberdann springt es irgendwann um irgendwannwird einer von diesen rilos anfangen auf null abzuschneiden eine springen sie umso eine andereund dann springen sie wieder um auf eine andere eben.So kommt dann so ein Vieleck. ZustandeSuperbowl Dekos.meinst du ich als Bussi auf Minixso weiter, die machen IhnenRundeund Renault macht ihn so kantiger eckige Randlinien.nicht so ein Drama, aberdoch interessant, dass es diesen Unterschied zwischen beiden gibt.Dann haben wirburgerei also fast das letzteist e-Learning great. Jetzt muss ich an wenn ich mal dazu kommen, wie das Ding dennhat und das normale die es lernt istdie Enten Abstiegetwasund wenn man das verstanden hat, weiß man was diese learning great hier ist und was dieRaidda isthaben wir im PrinzipSchalter und jeden Regler hierwie funktioniert das Lernen?große BegriffgradientAgentenAbstieg.Müssen betont descentKam 2000 Mister Mathematik bei mir mal vor.stellt sich folgendesvor ein HochdimensionalesKoordinatensystemeine ganz wesentliche Richtung und die anderenRichtungen ganz ganz viel Achsen ihr ich kann nicht soviel Akzentzeichen dich zeichnen müsstesindmeinesind die Gewichte.bei Schwertehaben sie jetzt der hier schonin den richtigen ernsthaftenneuronalenNetzen, vielleicht sogar Millionen an Gewichten und buyers Werte, also hier unsere Grundebene,stellen sich wenn sie es können Millionen dimensionalvorsenkrecht darauf in die Höhe ist der losdie Note die wird im ganzen Leben jeEinstellungdes Netzes dieser.Würde bedeuten. Das Neuron hat folgende 20 Gewichte und folgen preiswert und das andere hat Folgen 20. Jeder.Hier wäre so eine komplett Einstellung des neuronalen Netzes.dafür kriegen sie los und zwar genauer gesagt einlos, das wollte ich bei Fieber dazu schreiben training los mit unserenguckennachherwir gelernt haben, aber nicht auswendig gelernt habentrainieren, die man den training los aus unsererDaten, also für diese diese eine Einstellung, deshalb man dazu eineeinstellung.ich happy dick sind die Linien und sind so blau und sind sie rot und die Punkte blau oder rotden Sandkasten Beispiel eine komplette einstellung.Lieder. Hier Hintergrundeben ist eine komplette einstellung.plotte ich los in die Höhe.So erstmalblau, das heißt ich kriege hierGelände,ist mein Gedanke. Ich kriege hier irgendein Gelände und was ich gerne möchte.los minimieren,der soll minimiert werdendie Optimierung besteht darin, den los zu minimierensieht das Abstract aus.Zu jeder Einstellungkann ich im Prinzip ausrechnen,was der los ist. Die Werte haben sie ihm gesehen 0,50,3wie auch immer der training los.stellt das Netzein.diese Einstellung vorgibt und dann guckt mangut ist, denn das man gibt die Note dafür ist sie gut werden die Daten getroffen, mit denen man trainieren will, wie jeder Einstellung werden sie dann ein Ergebnis kriegen werden sie einen.biometrischeSituation die man hat, jetzt möchte ich optimieren.möchteins Tal reinlaufen in ein Tal reinlaufen. Das erste Problem ist schones wahrscheinlich viele Teller geben.finden wir jetzt ein globaleswenn wir wahrscheinlich nicht finden, wir werden alle lokales Minimum finden,ist das worauf man oftan sie noch aus Mathe 2 irgendwie mitgenommen haben Funktion mehrerer veränderlicherwar zwei veränderlichein die Höhe XYHintergrundebenejetzt am Leben im Zweifelsfall 1000000 veränderlicheändert sich daran nichts ist es ein bisschen schwierig zu rechnen und bisschen schwierigerschwieriger vorzustellen,suche jetzt die beste Einstellung,wäre superEinstellung hier.Das wäre die beste Einstellung.werde ich im Zweifelsfall nicht hinkriegen, die beste Einstellung. Ichwahrscheinlich in seinem Lokalnachher nicht bei der besten Einstellung.wäre der Traum sozusagen nicht dieser Punkt entspricht an bestimmten Einstellung, was sind die ganzen Gewichte, was sind die Baez Werte, wennich diesen Punkt hätte,ich hier im Tal drin und der training los wäre amgesagt, eigentlich kommst danach auf den Test los. Dann noch mal guckt sich erstmal den Pfennig du hast an mit dem Testlauf muss man da mit irgendwelchen Regularisierungand lösen,dass der heimlichaus dem Ruder läuft.genauer gesagt, man hier diese Fläche entsprechend wie ich zu dass der Testauch klappt.starte bei ihm dann Zufalls. Haben sie gerade gesehen. Gibt. Ja für diesen schönen Taste da links Stelle alles auf Zufall, ichstarte bei irgendein Zufallswertarbeite mich dann in die richtige Richtung in die hoffentlich richtigeRichtung.Name sagt es eigentlich schon, wiefinde ich die hoffentlich richtige Richtung in dich mich, dann anmelde ich Vorarbeiter.hat der Gedanke ist also den Berg runter zu laufen,schreibe hier mal Start.Zufälliger dich dumm ist, wenn man es raffinierter macht, wird man nicht zufällig starten. Man kann das jetzt schon mal so ein bisschen vorbereiten, aberhierder playground startet zufälligaus, ich starte bei irgendeinem zufälligen.einer zufälligen komplett Einstellung und dann werde ich versuchen, den Berg runter zu laufen.Sie sich vor Sie stehen auf fremden GeländeAugen, sie wissen nicht, wie das Gelände aussieht. Sie haben keine Landkarte für dieses Geländeihr Job ist jetzt ein möglichst Tiefe Stelle in diesem Gelände zu finden.Wenn ich das banalste, was sie machen, sie machen einenSchritt in die Richtung, wo sie merken, es geht den Berg runter. Sie laufen immer Berg runter.Egal wo wir sehen uns in okay, das würde hier sogar glücklicherweise funktioniert. Normalerweiseman nicht davon aus, dass man ein globales Minimum trifft und könnt ihr auch hier gestartet sein und hätte dann ein lokales aber kein globalesMinimum.wird das funktionieren und dertechnische Ausdruck dahinter ist dann eben der GradientJagd gehen in welche Richtung die Flächeund wie stark Sie ansteigtmir da sind geht die Fläche ja so ein bisschen nach hinten auf der Gradient würde Hintergrundebeneso zeigen,liegt in der Grund geben und zeigt in die Richtung in der Grundebene.ist den Berg rauf geht Lokal den Berg rauf geht nicht zur Spitze des Berges, sondern wo ist Luca.Berg rauf geht, das macht er gerade Jan hier länger der Gradient ist umso steiler ist esSie hier horizontalsind, ist der GradientNullvektorman sieht okay, der Gadient ist genau die falsche Richtung. Ich laufe entgegen den Gradienten, das ist gerade hinten Abstieg, die machen einen kleinen Schrittden Gradienten.Und dannsie weiter runtermal zugeben. Muss dann gut schiefgehen, aber das ist der Gedanke,ist gerade yandan Abstieg gradientenabstiegheißt kleine Schritte.Richtung des Gradienten.ganzen neuen Einstellung Gewichte weiß Wertedie alten -einekleine Zahl bei den Gradienten.entgegen der Richtungist gerade hinten Abstieg.macht man jetzt nicht in dieser Reihenfolge, es gibtund eine Verbesserung dafür, dass ein ziemlich schon dutzende andockt Arbeiten dazu geschrieben worden auf diesem Gebiet, wie man das jetzt besser machen kann, aber dasistimmer die Idee dahinter, wie werden die Gewichte eingestellt, wie werden die Basiswerte eingestellt durchgradientenabstiegmitein bisschen Raffinesse nicht sodieser Reinform mit ein bisschen raffinessa, was steckt typischerweise immer die Idee von gradientenabstiegdahinterjetzt hier in dem playground,sofort vorführen kann was alles schief gehen kann,habe schon gesagt, also man wird jetzt immer ein Vielfaches von Gradienten in die Gegenrichtung des Gradienten gehen sind die unten. Jetzt gehen sie gegen den Gradienten ein Vielfaches der Länge des Gradienten.Noch mal gegen die da ein Vielfaches der Länge und so weiter, das sind die Einstellung,die ich dann durch laufe.passiert, wenn ihre Schritte zu groß sind, wenn dieses Vielfahrer was sie nehmen von Gradienten, wenn dieses vielfache zuvielwird, was passiert, wenn sie zu große Schritte machen?ganze wird also hin und her hoppeln, weil sie übers Ziel hinausschießen werden,kann man hier sehen,learning great hier sagtwievielfache von Gradienten nehme ich in die Gegenrichtung von Gradienten, dasheißt learning wird hier das noch mal neu an startenich erstmal eine riesige learning Raid so dann wird sich nichts tun praktischnichts tun ist dauert Ewigkeitenich soKurve hier sind so steil wird es immer so auf den vollen Bereich skaliert 4,49,dassind immer hoch eskaliertdie untere Grenze der kleinste bisher vorgekommen, der Wert ist nicht von diesem Kurven revidieren lassen, wir sind immer noch bei praktisch 0,5, also,wenn Sie hier die Downgrade aufN1 stellenda nicht allzuviel. Man geht winzige Schritte zur Ameisen mäßigdie richtige Richtung, die hoffentlich richtige Richtung des dauert Ewigkeitendas will man nicht haben. Will sie aber mit Siebenmeilenstiefeln dadurchgehen nämlich mal auf eins, dann springensie hin und her als ich sind über sie hinweg gehen wieder zurück. Ging es woanders hin,weiß nicht ob 113 weil gleich ich hoffe eins reicht das auf 3.Die sind zumindest wieder zappelt. Okay, das ist noch nicht um das völlig aus dem Ruder laufen zu lassen, aber sie sehen die fürchterlich das zappelt. Unsere Schritte sind zu groß,wir jeweils machen.habe noch im Rahmen muss ein bisschen weiter drehen,will noch mal auf 3 mal gucken, ob er dann in der wichtig anfängt zu zappelnEs ist in der geht irgendwie nicht, der ist im Wald gelandet und dann fängt er wieder an. Das passiert, wenn die Schrittweite zu groß ist, wenn sie das Dreifache von Gradienten in die Gegenrichtung des Gradienten gehen, sie landen im Wald sozusagen sindmit Siebenmeilenstiefeln schon überall Tayloralle Berge hinweg.die monningRage.ELearningwelcher Begriffist ein wichtigeralsoes gibt Parameterhier die Gedichte,Werte das Lied Parameterdie Beschreibung das Netz undwerden optimiert unddann gibt es hyper hyper Parameter,sowie die learning weightdie regularizationweight und dann aber darauf kommt'sdie Batch size nochmal drauf kommen,werden normalerweise nicht optimiert, ich könnte man optimieren, aber die werden normalerweise erstmal nicht optimiert, sondern der sie eingestellt sind, aber auch wichtig für die Optimierung, die nennen sich dann hyperhyper parameters,falls Sie den Begriff hören.ist der davon.wäre das macht man üblicherweise auch, dass man die Warngerät nicht fest lässt, sondern dass man die launige z.b. Sinken lässt, sie gehen erst mit großen Schritten durch in der Hoffnung. Vor allen Dingen, dass sie auch so ein paar lokale Minimain den mit großen Schritten gehen und dann kleine Schritte machen und dass wir noch großeRunde und dann Ingrid anfängt und die dann automatisch runter drehen lässtWochenzahl ist, dass sie dann am ehrlichwieder learning Gerät auch runtergehen ist eine Möglichkeit. Es gibt auch noch arbeiten dazu, dass man die Ladegerät kutschierenlässt, das mal wieder rauf dreht und mal alles durch zu schütten und dann wieder runter drehteine Möglichkeit kann man auch wieder 20 Uhr dort arbeiten darüber schreiben, wie merkt man diese dynamiteKunst für sichjeden Fall wird man die im Normalfall nicht einfach fest lassen.Aufgaben,sondern damit versuchen, die anzupassen.nicht eine einzige Optimat oder nicht weggeben, die wird sich ändern, vielleicht ist sogar die Sonne dreht hier nachrichtzu wählen.zurück zu dieser wahnsinnige skizzieren,wir haben aber die Bedeutung.der learning Gerät das wievielfache vondem Gradientensie weiterhier schon im playground hat man nicht den klassischen Medientitties andsoll ich zumindest einmal sagen, weil die Begriffe völlig verwirrend sind.Dieser klassische gradient descent heißt zur allgemeinen Verwirrung Batch.gradient descentist es aber nicht die Batch gemeint, die man eben schon gesehen hat, leider.dann haben wir dann eben nochStalker Stick Verdiand his and starkSTdescent.gleich kommt noch den mini Batch gradient descent das ist das was man üblicherweise macht.uns zudem Stalker Stick gradient descentden klassischen Kleid Interessent, würden Sie sich jetzt alle tausende hunderttausende anBeispiel nehmenund für die insgesamt ein los ausrechnen.den neuronales Netz mit dieser Einstellung rechnensie komplett durch für alle hunderttausend Beispiele gibt, es gibt ihn dann eine Note sozusagen einen training du hastdann gehen Sie einen Schritt weiter,ist ungeschickt man ganz viel vorher schon einen Schritt weiter gehen, weil möchte zwischendurch schon lernen, ich möchte nicht erst 100000oder sogar Millionen Exemplarehaben, um dann im Netz die nächsten Schritt zu machen,möchte vorab schon weitergehen,ganz brutale Variante der dich vergess ich werden Test sind. Man rechnet diesen was für ein einziges Beispiel aus.Trainings Exemplar, sie nehmen Trainingsdaten.Aus dem 1000einenfür diesen einen den los und gehen dann in die richtige Richtung. Des wird natürlich nicht gut passen, aber es ist so ungefährzufällig gewählte. Ist es ungefähr in Mittel hoffentlich die richtige Richtung dehnt sich Verdiund ich sindist wieder ungeschickt, weillerne ich zwar schnell, aber ich nenne zu schnell,Den ich mir angeguckt habe, mussich meine hunderttausenderParameterform jetzt vorstellen, dass du und sich auch wieder nicht was man macht ist so ein Mittelding, dasist die grundsätzliche Lösung und die nennt sich zur Verwirrung mini-batch gradient descent.teiltgesamten Trainingsdatenteilt man in batches ein eigentlich dann den Mini Batches, was ist verwirrend, weil oben stand auf was von Batch Maintal die Bankdaten inEinheiten einnachdem man so eine kleine Einheit fürdie denn los ausgerechnet hat korrigiert, manman das Netz weiter,ich starten.schreibe ich erstmal was verwirrend ist, wenn ich das jetzt oder ein ähnliches Batch, ich nenne das mal TrainingsdatenTeilen.eine Kreuzungzwischen dem Standardgradientdescent und dem Stock Gäste gradient descent das ist das was man dann macht.nimmt nicht den ganzen Trainingsdatensatzund mach dann einen Schritt, das wäre der Klassiker.der verwirrenderweise ebengradient descent ICE,macht auch nicht den Zuckersticks Quartierzentrum Ansicht nur ein zufällig raus pickt ein trainingstarten. Faustix & mit dem Bernsteindie richtige Richtung geht,Mittelding, wann nimmt sichden Trainingsdatenund guckt, dass man dann schon in die richtige Richtung kommt, das ist dasmini-batch gradient descent.Und das ist das was hier stattfindet. Habe nämlich die letzten Begriff auch noch der da steht.steht was von wegen Batch sizees jetzt gemeint nach 10setzenNetzzweiter gestelltnicht richtig gut zu sehen, wenn ich dass hier laufen lasse, weiß nicht, ob man den Unterschied großartig sieht.denke mal wieder zurück aufist überzeugterHallo ausfallenhierwollte ich gar noch meinen Quellcode zeigen, dass Sie mir glauben, dass das echt so ist undzwar.ja auch in der Datei in inArten durch das jetzt durchzugehen,gehen einmal von vorne nach hinten vonden Eingängen zu den Ausgängen was auszurichtenEingangsdaten rein ist doch ganz normal ausgerechnet werden, was die Klasse ist oder was als Regression vorhergesagtwird, dasist die normale durch das letzte zu gehendie alte dann in der Anwendung vorkommt öffnet sich vor Waltrop vergessen.Ausbreitung,wenn sie so farRobert Fritz durch das Netz, dasist der relativ einfachen Schrittden was hier passiert forward propagation sehen,was hier passiert, man stellt die Eingänge einLayer, was kommt in den eingang ein die Eingangsdaten kommen in den Eingang rein und jetzt gehen wir alledurch und in allem Lea gehen wir alle Neuronen durchdas raus aus dem Neuron,da rauskommt, das ist der einfache Teil der ganzen Angelegenheit vorwärtsrechnungdervorwärts Schritt durch das Netz.was denn jetzt die Klassifizierung ist oder was als regation vorhergesagt,wirdAnwendung vom Netzunter neuem auch wunderbar auf der Grafikkarte parallelisierbaristauch gerne auf dem lokalen Rechner laufen kann. Der schwierige Teil ist,das Lernendazu gehört eben nicht nur von vorne nach hinten durch zu laufen. Aachen sie ja auch um festzustellen, wie gut oder wie schlechtgerade passen.müssen auch die Gradienten haben undGradienten Bestimmung ist, die backward propagationrückwärts durchlaufen eigentlichdie rückwärts Ausbreitung, ich brauche Gleichnisse aus, wah diddy rückwärts aus Reinbek Pop dierückwärts Ausbreitung durch das Netz des rückwärtsrechnungdurch das Netzmuss ich die ganzen Gewichte und die beides Werte verstellen ich dass ich einen Schritt in die richtige Richtung macheden Gradienten, ich brauche den Gradienten, ich brauche die Ableitung.Diese Ableitung bestimmt man von hinten nach vorne, das istdurchder hier backdrop heißt, dass es gibt zwei Arten durch das Netz zu gehen vorwäre es ist es erst noch mal auszurechnenvorne nach hinten von den Eingängen zu den Ausgängen, aber zum lernen brauchen sie auch die Rechnung rückwärts durch daszu sagen, was denn jetzt die geändert werden, muss sogar ihren technisch, dass mangewünschtennäher kommt,bei der back-propagation kommen jetzt die Ableitung vorbei, derkeine Ableitung vor sie bilden gewichtete Summen. Bei uns wird dazu dann besonders für Bus oder was auch immer angesagt ist wie dufertig das ist der Weg vorwärts rückwärtsist ekliger, weil man jetzt Ableitungen wissen wieAbleitungen bestimmen.kann man viel Glück aus Mathe 1 sich zusammen rein, warum das rückwärtsgehen muss,sie Ableitungen wissen wollen,wollen jetzt z.b. Wissen.möchte hier fürdiesen oder jenen.Vorglüh krasse rauskriegen, wie komme ich mehr in diese Richtung?Gewichte muss ich hier vorne einstellen genau gesagt, wie muss ich die Gewicht hier vorne den beides wird Niki muss ich den bisschen verstellen, damit ich hier hinten in die richtige Richtung komme.Sie das von hinten nach vorne, was ist der?Team ist der Grund dafür, dass von hinten nach vorne zu rechnen davon vorne nach hinten zu rechnen.haben also eine Funktion eineFunktion einer Funktion für jedes Neuron was hinten dran kommt eine weitere nicht lineare FunktionKettensäge hier sind sie schon dreimal wegen Renault,ist die Ableitung 0 oder 1 und wenn der jetzt ebenTangens hyperbolicus Stundeähnliches wird es ein bisschen ekliger, da kann das Überholen Kuss hinten von irgendeinerPlus bei uns fährt davongeht der Tank symbolism weiter ganz viel Tangens hyperbolicus ineinander,möchte ich ableiten,muss ich das vorne ändern damit hinten was bestimmtes passiert, dass du muss ich jetzt zum tangentopoli Kuss von der Ganges über Buddhismus weiter oder redo von redo von Velo ableitenmit der Kettenregel macheich das unddann multipliziere ich die Ableitungen äußere mal innere Ableitung oder jetzt entlang dieser ganzen fade natürlich nicht nur äußeremal innere Sonne ganz viele Ableitungen werden miteinander multipliziert. Daspassierte im Prinzip ist werden ganz viel Ableitung miteinander multipliziert undSie wissen, washier beim vorderen mit dem Ergebnis machen müssen, die entlang von diesem ganzen Faden multiplizieren die Ableitung multiplizierenimmer die Ableitung von den hinteren.ist der Gedanke, egal, wo Sie gerade sind, sie müssen immer mit den ganzen hinteren Ableitung die darauf folgen multiplizieren, deshalb ist es sinnvoll von hinten nach vorne zu gehen. Sie brauchen erst die hinteren Ableitungen oder andersrum, die brauchen auf jeden Fall die hinteren Ableitung, die kommen immer wieder vor. DieForderung kommt manchmal vor, deshalb geht man dann von hinten nach vorn dann hat man garantiert die Internetleitungist der eigentliche Gedankehinter der back-propagation Ableitungenausrechnen ist leicht immer von hinten nach vorne gehen, also von vorne hinten gehenpassiert. Ich versuch, das noch hier wiederzufinden bei dem back-propagation versucht und jetzt Ableitung zu bestimmen.Es ging ja darum den Patienten auszurechnen. Möchteein Schritt in die richtige Richtung machen, dazu brauche ich den Katja Enten, ich möchte die Ableitung Wissen und die Ableitung gibt's in eben über Kettenregel mit ziemlich langen Produktenden die hinterengarantiert immer vorkommen und die vordere vielleicht vorkommen. Je nachdem, wo ich gerade bin mit meinenund bei es werden Dich einstellen will,sehen hier sowas vor,ist die Schleife Überraschung,die von hinten durch das Netz geht nicht um Schicht rückwärts arbeitet durch das Netz. Und dann sehen sie, dass es hier plötzlich um Ableitungengeht.Was kommt als Ableitung rein über die Rewe TÜV und was geht an Summer an Ableitungen natürlich bis wir jetzt verschiedene Ableitung partielle Ableitungen addieren, was geht denn so machen Ableitung wieder raus,ist die Idee und das jetzt vorhin geschrieben habe, das ist die Idee Kettenregelpartielle Ableitungen,die was wird addiert und dann geht von hinten nach vorne, aber die Hüterin Ableitung auf jeden Fall drin haben. Muss in derdie Ableitung denkst verschiedene hat mit den Ableitung umzugehen. Man rechnet die Ableitung auf jeden Fall nicht numerischaus gehenjetzt nicht 0,01zur Seite und schätzen damit was die Ableitung gehst. Das wäre viel zu aufwendig.Ableitung denn grundsätzlich immer ausgerechnet,bei den aktivierungsfunktionenhier.ist immer auch die Ableitungmit dabei. Die Ableitung wird nicht numerisch bestimmtsie ist sofort mit definiert, wir kennen die aktivierungsfunktionenkönnen auch sofort sagen, was die Ableitung ist für die Aktivierungsfunktion,wird noch und geziert mit Gewichten, was drauf addiert ist klar, wie das dann funktioniert von den Ableitungen Sven die Ableitung direktkeinen Fall wert ist Ableitung jetzt numerisch ausgerichtetso von wegen 0,01drauf und dann gucken wir uns die Änderung an und Teilen durch 0,01, das wäre zu kompliziert die Ableitungder direktist der rückwärtsist von hinten nach vorneNetz gehthängt also mit dem Rasieren und Abstieg zusammendas ist die eklige teil und der läuft im Zweifelsfall irgendwo draußen auf Servern undnicht die auf dem eigenen Rechner vereinigennatürlich auch gut getrennten Servern mit allem möglichen Grafikkarten oder speziell Flächeneinheiten.gation, also ein bestimmt die Ableitungenjetzt haben wir die Ableitung ausgerechnet,jetzt will man den Schritt machenzum garni Emdentieferes von GradientenSchrittmacher, das ist hier Update Waits undWelt ist genug ist nämlich Update weightsbuyers, valuessehen hier bald weißes ist wirklich banal. Esist genau dasman sich naiv vorstellt indas was passiert mit den beiß Werten -einVielfaches learning Ray t ziehenab von dem aktuellen Wert dasnehme ich burning red vonAbleitung durch eine Normierung, der ein Vielfaches von Katja Anthonydas ziehen sie ab vomfährt kann damit den neuen preiswertso werden, die beide Werte eingestellt undgenausoist das neue Gewicht auf die Gewichte werden durchgegangen wieder die Ladegerät alteGewicht und das ziehen sie wieder ab beginnedie Gegenrichtung vom brennendenRage in der Normierung sterben und das ist der Gadientdie Regularisierung, die ist jetzt hier so gemacht, kennen die Ableitung von der Regularisierung,müssen wir nicht zu Fuß ausrechnen, die es dir jetztträgt eingebaut.erst noch mal ein weiter für die Gesichtersind wir habenneues Linkbait für die Gewichte geht es dann noch einen Schritt weiter nehme ich mit, derweight mal die regularizationred mal die Ableitung von der Regularisierung Funktion,ist das denn hier eingebaut statt, dass man ausdrücklich die regulationsfunktiondie mit dem deroder der Betrag der Gewichte L1 statt,dass man dies ausführlich noch mal ableitetdie Ableitung direkt ausgleichen eingebaut.simpel kann es sein, das ist die Optimierung, die daund für so wenige Neuronsie gesehen Funktion des wirklich wennsie was kompliziert ist an trainieren wollen habe ich natürlich dannaber auch mal ein bisschenwas Methoden.zuBildchen hier,ist wie heute das Maschinen dann mit den neuronalen Netzen stattfindetpaar Raffinessen im ZweifelsfallDass die neuen Geräte nicht konstant bleibt, das ist dasschon was man macht versucht zu schätzen, wann trainiert vorher schon an und so weiter und so weiter, aber das große Bild ist dieses Jahr gradientenabstieg.ist natürlichüberhaupt nicht, dass das menschliche Hirn macht muss ich sie dazu sagen.kann ich zu sein, dass das menschliche Nieren so funktioniert mitirgendeiner Optimierungsfunktion jetztalle möglichenanguckt, wir lernen viel vielwir gucken und Bilder von Hunden an oder ein Bild vom Hund an und Wissenwas ein Hund ist, wir müssen nicht eine Million Bilder von Hunden nachgucken.geht bei Menschen deutlich deutlich anders.wird es wahrscheinlich bei Menschen nicht funktionieren. Das lernen, wasder jetzt auch noch nicht behandelt ist das Kurzzeitgedächtnis?wir jetzt hier in den Gewichtenund den bei auswerten gelernt haben? Ist ja eher sowas wie ein Langzeitgedächtnis.ist in Garbsen hat diesen optischen Verbindungen,stark sind, die wo sind die das ist eherbei Menschen dann wohl das Langzeitgedächtnis ist, was ihm bisschen dauert bis es an trainiert ist, esgibt auch ein Kurzzeitgedächtnis bei Menschen,Arbeitsgedächtnissagt man nur dann Arbeitsgedächtnis,ich bin nicht in der Lage mich daran zu erinnern, dass ich vor fünf Sekunden gesagt habe.Was ich für 5 Sekunden gesagt habe, was ich für 5 Sekunden gesagt habe, das kann ich abspielen in der Schleife, ich kann mir auch wieder vorstellen, was ich vor fünf Sekunden gesehen habe, es gibt auch so ein Bild Speichertonschleife speichert,sind ja höchstwahrscheinlich nichtmithilfe der SynapsenDas wäre viel zu langsamtone Speicher.Der muss sozusagen elektrischgebaut sein Zielvariabler gebaut sein. Für einen kann ich ja auch im Hirn verformen. Deshalb Arbeitsgedächtnis, ich kann ihm hierin damit arbeiten, ich kann mir vorstellen 3 + 43+. 3 + 4 zusammen7s.Warte, ich kann das Verfahren in 3 - 4, ich kann daran arbeiten,das wäre komisch, wenn das tatsächlich überdie Synapsenwäre, das muss irgendwie elektrische stattfinden. Kann ich nächste Mal noch du sagen so ähnlich Ideen gibt es auch bei den Ohren der letzten rekurrente neuronale Netzeshort-termmemory und ähnliche Geschichten, wie kriegen sie Arbeitsgedächtnishin?ist nicht das was wir hier haben.hier ist dann ihr so ein einvorsichtig, der Mensch scheint da noch deutlich anders zu funktionieren,es gibt so ein paar Tricks, die man dann nochkann, der Natur nachmachen kann.