[Playlisten] [Impressum und Datenschutzerklärung]

Neuronale Netzwerke mit Deep Playground verstehen

CC-BY-NC-SA 3.0

Nachtmodus Pausen an Schnitten Tempo: 0,5 0,7 1,0 1,3 1,5

Anklickbares Transkript:

Von – milkov – und Schenk Alter und – anderen gibt es – schöne – Ian JavaScript – läuft im Browser an, die man sich mal klarmachen kann, was denn so ein neuronales Netz – für sein Geld ein total – wir zwei Dimensionen hat die anderen sind für uns nicht spannt. – zweidimensionalen – Daten rein – sehen ein paar Neurone, – and wir verbunden sind. – spannende Frage, wie viele Neuronen sehen Sie jetzt auf dem Bildschirm? Es ist nicht ganz einsichtig – viele Neuronen sehen Sie jetzt auf dem Bildschirm. ✂ Ich hab doch also das hier hinten ist auch ein Neuron. Es sind 74 in – der ersten verdeckten Schicht dann kommt 2 in der zweiten verdeckten Schicht und dieses – beim output, das ist auch für andere, die sind jetzt zwei Eingänge. – Hirn ist auch an Neuronen groß gezeichnete, dass man auch sieht, was passiert, – sehen jetzt hier in jedem von diesem Quadraten die verschiedenen – Werte X1 – läuft offensichtlich von links nach rechts und x2 läuft von unten nach oben und jetzt sind immer in einem Quadrat alle möglichen Werte aufgezeichnet, – was macht dieses Logo hier als Ausgabewert – für – links oben, das heißt X1 – links oben X2 links oben, was macht dieses Neuron hier links oben und so weiter, so kannst es jeweils. – und hier bei dem – Euro und ist allerletzte in der allerletzten Schicht, – kann sie auch links oben ablesen, was passiert, wenn X1 links oben und x2 links oben ist und so weiter. Nein, das ist sozusagen alles auf einmal sichtbar um das – sofort was denn hier, was passieren wird, ansonsten sind die Verbindungen die – sie – können, dann kann ich was eingeben hier, was ist das Gewicht dir die kleinen Punkte, das sind die beide Werte in können Sie auch anklicken, um was einzugeben. Die – Verbindungen sind jeweils dick oder dünn gezeichnet den nachdem – gebe dir mal. – sehen Sie dann wird es blau und dicker die Verbindungen sind jeweils – dick oder dünn gezeichnet, je nachdem wie groß die Gewichte – sind und – sie sind orange oder blau gezeichnet. Je nachdem was das Vorzeichen ist. – sieht – man so auf die Schnelle, was jetzt wie verbunden ist. – ich mal für das allererste ein bisschen was verstellen – ED kriegt also wenn ich da jetzt das oberste Gewicht auf 1. Stelle – auf 1. Stelle den süßen blau und dick und – Gewicht hier stelle ich auf null. – So, dann – ist die Linie praktisch weg. Es kommt direkt X1 – hierdurch in das Neuron und es haben wir noch die bias wert, ich den bias Wert auf 0,5 – lustig das jetzt, da steht ein deutsches, 0,5 – Stelle – er sich dann bisschen uns mit deutlicher machen, ich stelle ihn mal auf drei, – dann – sieht sie da schiebt sich das deutlich rüber – agieren – dazu – damit verschiebt sich das ganze hier nach links. – Oder wenn Sie hier von X2 was dazu addieren ihm ein Stückchen von X2 immer – da 0,5 – von X2 dazu dann wird das schräg – können Sie erkennen, dass du wirklich über Steam ja das passiert. Am – Ende steht hier oben sieht man schon der Tangens hyperbolicus, dass – sie oben gucke muss gleich noch mal an, was das alles bedeuten wird, – jeden Fall sich diese grundsätzlichen Rechenoperationen – trennen. Sie nehmen jetzt hier für jedes der Neuronen – zwei – Eingänge – mal – jeweils ein Gewicht + – Bayers Wert und davon der Tangens hyperbolicus, das ist das was man nicht dann sieht, das macht man sich Geschichten sind Geschichten einstellen – hierbei die Zahl der Neuronen pro Schicht ein Stern. – ist schon ganz – gemacht – sauber, soll ich dazu sagen reale Probleme, – haben das eben mit den zehn Ziffern gesehen bei realen Problemen haben sie hunderte – tausende – 10.000 – 100.000 – Neuronen und vielleicht dutzende einschichten, – ist nicht wie hier im Sandkasten, das ist wirklich – damit man sieht, was denn da überhaupt im Prinzip passiert. – geht erstmal los mit Klassifikation – kommen aus umstellen Klassifikation Regression, dass die beiden üblichen Sachen, die man mit Baron einnetzen macht mich clustering, sondern Klassifikation – Rotbäckchen, lass uns mal bei Klassifikation. – heißt, – habe bestimmte Datenpunkte die reingehen gesehen hier, – was für ein Garten musste ich gewählt habe als Eingangssignal ja – bestimmte Datenpunkte dir ein Gitternetz – macht eine Vorhersage, welche Klasse das hier weiß ist. – den besten auf discretize output, – dann ziehen die deutlicher die Vorhersage als die Vorhersage – hier so bisschen blau und bisschen orange und – das Wetter ist heiß, ich mache jetzt eine harte Entscheidung, es – gibt nicht ein bisschen blaues gibt nicht ein bisschen orange wieder blau oder orange – von diesen beiden Tasten, ja oder nein? es sein, das ist jetzt meine Vorhersage, ob sie sehen das passiert was natürlich überhaupt noch nicht das auch nichts an trainiert. Die Vorhersage hat überhaupt noch nichts mit meinen Daten zu tun, – muss doch an trainiert für – die Ausgabedaten – müsste man jetzt so verstehen, dass die Ausgabe hart. – nehmen. Ist das eine und das an entweder Katze oder Hund, aber nicht beides und auch nicht ganz vom Weinen, – kann's doch mal so, dass man besser sehen kann, – sich das Netz jetzt sicher ist und wo es sich jetzt unsicher – ist, – wäre im Prinzip das was bei der Klassifikation jetzt – sollte es nicht sollte sagen, die auch jede außen im Außenbereich. Na, ja, das ist ja wohl orange und im Innenbereich ist es wohl eher blau, das müsste eigentlich raus kommen bei der Klassifikation, wenn – wir es an trainiert haben. – erstmal Daten, das ist ja auf der linken Seite über von Daten zum an trainieren. Sie Siri, kann ihr so ein paar – Datensätze vor werde ich niemals jetzt mit dem – Kreis und dem äußeren Kreis, das möchte ich gerne lernen, ich möchte gerne lernen in sind die blauen außen – sind die Orangen. – Dadurch viel banaler als wenn sie lernen wollen, so sieht die Ziffer neun aus so wird die Ziffer 1 aus oder wenn sie lernen wollen, so sieht ein Hund aus, so – sieht ein Auto aus, aber – gut, wir haben ganz wenigen Euro und wir wollen lernen in sind die blauen außen sind die Orangen, das – sind die Daten, die ich vorgebe zum – und – ich dann hier entscheiden 50% – zum anlernen und die anderen 50% zum Testen und dann sich – auch noch angucken, das sind die Daten nicht mehr zum Testen benutzen werde. – gucke nach ob das Ding auch was vernünftiges gelernt – mit den Testdaten. Man kann sich doch hier einstellen, wie viel sie wofür verwenden wollen, wollen Sie Daten zum Lernen oder mehr da zum testen, dass – du mal auf den 50% – benutzen sie überhaupt andere Tage zum Testen – zum Lernen. Warum trenne ich meinen Datensatz überhaupt im Test Daten – Daten – Trading erstmal her und trenne ich den Datensatz. ✂ wollen nachweisen, dass es jetzt nicht auswendig gelernt habe, wenn Sie z.b. Nearest neighbor verwenden würden, dann werden die Trainingsdaten hundertprozentig – getroffen – auswendig gelernte produziert – in die Trainingsdaten wunderbar auswendig, – aber – wissen nicht, ob das Fall gemein hat Verfahren, wir wollen wissen, ob das Verfahren allgemeine – deshalb brauchen wir testen – wir nehmen andere Daten als die mit denen wir gelernt haben, um zu gucken, ob es mit denen denn jetzt funktioniert, ob das Netz ist übertragen kann verallgemeinern kann generalisieren – kann deshalb diese Trennung in – und – dich mal wieder aus, dass man nur die Trainingsdaten sehen – kann Rauschen – draufgeben. – Sowie nach dem Leben – Sinn, gebe das alles auch noch bisschen umgestellt parallel, dass du bisschen verwirrend aber sie sehen wie die Daten. Jetzt durcheinander gehen, wenn sie raus schon drauf nehmen, aber – vielleicht gleich noch mal – size muss ich gleich auch noch mal getrennt sagen wozu. Das da ist generate – heißt die Daten noch mal neu, würfeln Sie – mal neu. Datenpunkte – diesem Muster, was jetzt im Prinzip – ist, das passiert auf der linken Seite, also, was – sind die Daten? Mit denen? Ich trainiere und – was sind die Daten mit denen ich dann zum Schluss teste, ob das training – hat. – Lernen – ihr dann am ehrlich statt hier oben – Sie was mit dem Lernen zu tun hat – dem Reset – dem – Kreis rückwärts. Setze das Ganze auf Zufallswerte – Gewichte – buyers Werte werden auf Zufall gesetzlichen – irgendein Unsinn passiert, dann hier das Ergebnis passt natürlich vorn und hinten nicht. Es wird alles auf Zufall gesetzt immer wenn sie darauf drücken, – Sie hier einmal aufs Tab drücken. – mal bisschen an zu lernen und jetzt passieren so einige Geschichten. – nicht er geht alle – einmal durch, – heißt eine Epoche – Trainingsdaten einmal durch das ist jeweils eine Woche vergeht – alle Trainingsdaten einmal durch und versucht die Gewicht – und die Baez Werte in die richtige Richtung zu bringen, alles und Stückchen in die richtige Richtung zu schieben, – gibt zwei – dafür der Test los und der König aus der Test los sagt – die Testdaten, – gut haben wir jetzt die Testdaten reproduziert – der training los sagt, wie gut wir die – haben. – wird es besser werden, ich mache ihn noch mal – Schritt durch eine weitere Woche alle – wir haben als Trainingsdaten – noch mal durchzusehen und geh – passiert, was – ein ehrlich passiert da was – keine Lust, da die ganze Zeit drauf zu klicken, deshalb kann sich automatisch laufen lassen. – Wenn die Epoche um 1 Uhr weitergeht, heißt das beim Lernen sind einmal alle Trainingsdaten durchlaufen – worden, das ist ja so wird am ehrlich ein Schuh draus. – ist jetzt – Vorhersage, – also, wenn sie mit einem Datenpunkt hier reingehen – würde blau vorher sagen, wenn sie mit einem Datenpunkt hier reingehen würde, er – Vorhersagen, – ergibt allmählich sehen. So ist das Netz jetzt an trainiert und dann auf einmal hier auf Disco DICE – dass wir jetzt eben die Vorhersage – harte Entscheidung Katze oder Hund – oder – wäre das nichts an trainiert. Also das würden sie mit einem Netz dieser Art, wenn sie es hinkriegen, – Daten vernünftig zu klassifizieren in der Mitte blau – orange. – können wir vielleicht mal bisschen Rauschen dazu geben, – es spannender wird, – in der Warenwelt, die haben natürlich keine exakten Daten in der Warenwelt sie sehen, ob auch – lass mir noch mal lernen. – Und da muss ich ja schon bisschen mehr arbeiten. – Und sie sind das wird jetzt auch ganz schönes Uwe Almer, – soll die Maschine wissen, dass das mal ursprünglich Anrufer wäre, – sieht er. – aus was jetzt rauskommt, aber einigt – sich dann schon auf irgendwas sinnvolles. – Ich halte ihn da mal an. – Mit diese beiden Kurven da oben noch mal uns angucken Test los und training los sie sehen, das hat also offensichtlich was damit zu tun, wie gut das Netz gelernt hat zu – Angebote, welche – Note kriegt das Netz jetzt hat sie ein wenig eine 1,7 erreicht sagen. Es hängt immer 5,0 – an ich bestanden und es jetzt sozusagen, wann – verschiedene Kurven – wie gut das Netz jetzt – hat, warum sind wir zwei Kurven und warum ist da eine graue unten – und eine – oben? ✂ sozusagen zwei Noten und – wir bekommen zwei Noten dafür, – gut das Netz vorhersagt – einmal – den Test los einmal training los und das ist wirklich wie Schulnoten in Deutschland große Zahlen sind schlecht kleine Zahlen – gut. Ein Los von null heißt Perfektion, – das ist die 1,0 mit Sternchen sozusagen, wenn Sie ein Los von Null haben, – habe zwei verschiedene Noten, – die eine Note ist, wie gut – Punkte die wir jetzt haben mit denen an trainiert worden ist, – Punkte sind die die ich lerne, die gut treffe ich die Punkte, die ich lerne sehr nutze sozusagen Vokabeln, die gut können Sie die Vokabeln, – ist der schöne Klaus, – die Vorhersage für die Trainingsdaten und sie sind die passt ja nicht gut, hier der – hier nicht im blauen Bereich der orange Licht impound, das ist nicht hundertprozentig, das ist nicht 0,0 – das ist nicht Perfektion ist es gut vielen blauen blauen Bereich viel Orangen Orangen weich, aber es ist nicht perfekt, deshalb – konnte nicht 0,000 – raus beim training los. – Tesla ist ein das imposante – die Testdaten, die wir nicht gesehen haben beim Lernen – Testdaten diese Daten, wie gut werden die denn getroffen? – die wäre natürlich schlechter getroffen, – die nicht auswendig gelernt werden können, die hat das Netz ja noch gar nicht gesehen diese Daten, die kann es nicht auswendig gelernt haben. – Da ist die Frage, wie gut kann es verallgemeinern nicht die gut hat es auswendig gelernt, sondern hat es den – hat es die Logik dahinter erkannt hat es den allgemeinen Zusammenhang erkannt, kann es die Daten auch klassifizieren – dies noch nie gesehen hat, – ist dann der Test los der – Verlust für die – die wir zur Seite gelegt haben hier die 50% die wir zur Seite gelegt haben und nicht zum Lernen benutzt haben, die gut passt es da und das ist natürlich zwangsläufig schlechter als das was sie auswendig gelernt habe ist kannst du über die haben eben gesehen, dass ganz zufällig mal den graue Kurve über der schwarzen gegen weit am Anfang, aber das meldet – sich schnell aus. – dich die graue Kurve, die für den training los – der für den Testlauf ist, es schwieriger die Verallgemeinerung zu machen, als die Daten auswendig zu lernen. Dessert gibt es jetzt zwei Kurven und – die spannende Begur, wie ist eigentlich die obere denn das ist die – ungesehene – Daten. Wenn Sie dieses jetzt wird's jetzt benutzen irgendwas – ungesehen ist ein – in das Netz, wie gut passt denn das Ergebnis dann das war die normalerweise wissen, sie wollen nicht wissen, wie gut die – passen. Die benutzen sie zum Lernen, irgendwas müssen wir zum Lernen benutzen, – die könnte das Ding ja auch auswendig gelernt haben, so ziehen wir ja Kurven sind wir zurück an den Anfang, ich setze das noch mal auf – alles die ganzen Gewicht und beides werde auf Zufall. – sie am Anfang haben wir 0,5 – 0,5 – ungefähr bei 0,5 – das ganze Open – Source ist kann man sich das ja netterweise angucken, – da offiziell drinnen steht. – es wenn es sich wundert, dass es eben JavaScript sondern type Script was hier steht. Sieht fast aus, wie JavaScript. – Es nach JavaScript in kombiniert. Sie können sich ja von der Webseite dir den Quellcode angucken – Original ist in type Script – bestes JavaScript – sagen, das wird kompliziert nach JavaScript – Geschichte mit dem los. – Steckt in playground – TS – drinnen. – sehen, – das ist doch etwas länglich. Es lässt sich verstehen, aber es etwas länglich hier gibt es eine function get los. – Und – wird passieren los + = Square error, das könnte mir jetzt auch wieder nachgucken, was da hinter den Kulissen passiert, aber – Hand ist dann schon also es wird wohl sowas sein, wie – Fehler da rauskommt – durch wie viel Daten. Die sie haben auch keine große Überraschung in – der for-Schleife davor. – lässt sich doch relativ gut verstehen auf das ist schon ein quadratischer Fehler. Der Stadt findet – wenn sie es dann im laufen lassen – ganz allmählich runter singer ergibt 40 mal richtig einen dicken Effekt, wenn dieser blaue Google deine Mitte erkannt wird, beides geht gut runter – naja sind ja eben bei 0,1 – beim training los und schreib was mehr als nur, Halsband Test – los und – dafür die quadratischen Fehler ist heute einmalig ja auf die Regression – schalten, – das mit den Fehler ist auch bei der Regression. – Genauso – dann – Sie das laufen lassen – sie erstmal – Zufallswerte – hier – hier schöne – Hausaufgabe viel kommt diese 10, 15 – 0,13 – 0,17, – Sie den Erwartungswert bilden – irgendwas mit 0,1 – was bist du das eigentlich von exakter Wert wird auch das ist mit der quadratischen Abweichung dann – bei der Regression hatte umgeschaltet bei der Regression wollen – Sie werden? Es geht von richtig – orange bist richtig blau – in der Mitte diagonal. – Kann man sich Kontrolle einmal überlegen, was muss denn da denn der – quadratische Fehler sein, aber ich hatte mal wieder zurück – Klassifikation, – nicht so kompliziert dir komme – mit 0,5 anders, das ist die Bedeutung von Tesla und Trading – los. – mit den Daten mit denen sie trainieren, aber das ist gar nicht so das spannende der Testlauf ist viel spannender die Vorhersage, – wie gut ist ihre Vorhersage auf Daten, die das Netz noch nie gesehen hat. – Job des trainieren – es ist das sieht man denn hier steht noch mal zurück. Der Job beim trainieren ist jetzt die Gewichte und die baires werde zu verstehen. Wir sehen wie es hier live die ganzen Werte verstellt werden und die Vorhersage besser wird mit deinem angucken, wie das überhaupt sein kann, dass das besser wird. – dieser Optimierung, aber die sehen zumindest, dass ich die Werte ändern und – dass das Ergebnis vernünftig wird. – schiedenen – ja, das geht so. Langsam ist doch er sieht dass einiges werden dicker einige werden dünner. – Muss ich noch mal starten. Die Änderungen waren doch sehr subtil gerade – und start noch mal gucken – sie auf die Pfeile gucken sie auf die Punkte. – Die Verbindungslinien auf die Punkte, dann sehen Sie Alter tut sich was aus. Es wird alles so ganz ehrlich ein bisschen verstellt und das Ergebnis pastamehl – ich bisschen – flackert, wenn ich über eines diese andere Neuronen gehe, dann sehe ich das ein Bild in groß das ein bisschen komisch, – man im Ausgaben Euro und jetzt fehlt von dem einen Cent sieht das finde ich ungewöhnliche Lösung – ist im Prinzip die Idee hinter dem Lernen, jetzt habe ich hier nicht verraten, wie das Lernen funktioniert, aber – das Lernen macht – optimieren, – die bei uns wird optimieren, so, dass die – besser – getroffen werden. – ist Phänomen noch – Wenn sie – zu genau lernen, wenn Sie die Ausgangsdaten – auswendig – lernen, dann passiert unser immer, das merkt man dann hier Zwischentest – los und training los. – stell mal irgendwas ganz finsteres – ein ich sage mal 5 Layer, es geht hier ja einfach auf Mausklick 5-layer verborgen – ein – Lea am Ende – fünf Vorlagen länger nadima – 5 verborgene Lea und jeweils fünf Neuronen, also viel zu viel des Guten, damit – können Sie viel mehr lernen. – Netz ist sozusagen zu intelligent – für dich jetzt nicht sagen, das ist nicht ganz so viel, Sie 5 leer mit 50 Euronen für dieses Problem ist, das zuviel des Guten, sie – können Anfang auswendig zu lernen jetzt mit fünf Lehrern 5 Euronen – Schachbrett hier als – massiv Frauchen drauf – mit mir nach der Schachbrett erkennen. Das – Problem ist. Jetzt ist es Netz zu viel lernen, kann ich das ist mal wieder auf Zufallswerte, – das Netz fängt jetzt an auswendig – zu lernen und das wird – werden, das ist fitting. – Hoffe zumindest, dass es jetzt ein wenig zu deinem hängt vom Zufall ab, was passiert, wie ist das initialisiert werden liegen – meine Datenpunkte. – Man das bisschen länger laufen lässt sich toitoitoi solltest jetzt zumindest – dazu neigen – Oma f*****, das ist – in den Daten zu erkennen glaubt, weil sie auswendig – was da gar nicht drinnen ist man – Geduld weiterlaufen – lassen. – ich, dass ich jetzt hier auf die blauen Punkte springt, dass er da noch was sieht oder hier die die beiden gelben irgendwo erkennt. – ich Geduld haben hier. – Was fand ich natürlich nicht, – war schon mal nicht da hat es hat – nichts schlimmes stattgefunden, ich setze noch mal auf Zufallswerte und jetzt noch mal. – meine Hoffnung ist das jetzt so ein paar einzelne gelbe Kleckse unten – eigenen gelben Rahmen kriegen oder hier ein paar von den blauen Fleck seine eigenen blauen Rahmen kriegen, was – da nicht im Sinne des Erfinders wäre, was – dann overfitting, sie hätten heiße Datenpunkte – offensichtlich nicht da sind, wo sie hingehören. – Und – trotzdem gelernt werden. – Könntest mal laufen lassen länger laufen lassen, – würden sie dann das merken, woran würden sie merken – auswendig gelernt worden ist und nicht generalisiert – worden ist, dass das Netz das falsche gelernt hat, woran – würden sie das merken, woran wird sie overfitting bemerken? ✂ so, also Zeichen für overfitting ist wer in der training los runter geht und der Test los rauf geht – hier vorne ist eigentlich bisschen komisch nicht, dass der – los Robert – Contest los ist da irgendein Zufall passiert. – müsste der Testlauf über den Pfennig das liegen, das haben wir hinten aber wenn die beiden auseinander gehen und die schiere aufgeht, dann – komisch der – los, den sie der Test los steigt – jetzt sogar – der training los fällt. Man erkennt hier, warum das – neuronale lässt mich gerade so an trainiert, es ist hier noch so ein bisschen blau rein nimmt – offensichtlich Gürzenich – ist, wir wollten eigentlich dieses Schachbrettmuster haben. – das geht dann eben – die Testdaten und jetzt schaut es täte wenn ihr seid Testdaten rein nehmen Sie die das passt überhaupt nicht, aber – möglichen gelben kriegst du da – passt nicht zu den Testdaten, das ist nur Zufall – durch das Rauschen hier neueste ich das Rauschen die blauen Kekse hier Zufall, die werden jetzt aber angelernt, die blauen Kleckse – dazu, dass das beim Lernen gut funktioniert der Trend los, der graue geht runter, aber – wir jetzt die noch nie gesehenen Daten uns angucken – die da er gelb – damit geht der Test los raus, also, wenn der Test darauf geht ein Stück davon schon in der Test das Beste aus draufgeht. Weiß man ob hier ist was faul? – Netzwerk nicht mehr, – ist lean soll Sonnenschein quasi auswendig zu lernen müssen und so bisschen weiter laufen lassen. Wird wahrscheinlich eh sogar noch einen kleinen blauen Flecken machen, – ihr – so ner Situation 5-layer – mit jeweils 5 € und in dieser Situation ist – zu viel des Guten. Die – Maschine lernst nicht das was sie lernen soll – Land jetzt – Datenpunkte mehr oder minder, zumindest die blauen.de – auswendig und verallgemeinert – nicht, das ist nicht im Sinne des Erfinders, – Sie das ganze mit 100 Dimensionen machen und 1000 Dimensionen kann sich das nicht mehr angucken, aber Sie können sich die Kurven angucken und sehen, ob da ist, was schiefgegangen – muss also nur Geduld haben, wir sind jetzt bei 4000 – Epochen will sagen jeder – Trainingsdaten. – Ist hier tausendmal gesehen worden beim Lernen – dann sieht man – jetzt die Optimierungsalgorithmus – wie zum Beispiel, die vier blauen – hat in Anführungszeichen, da so eine Schneise durchgeschlagen hat durch die vier blauen bei den beiden auch eine Schneise. – denen schlecht eine Schneise durch das ist overfitting, wenn – man sich die Testdaten anguckt sieht man das hat nichts mit den Testdaten zu tun. – generalisiert – nicht geht. Dieser – sagen isafjord jetzt da blaue Fjord generalisiert – nicht – es Zufall dass – da soviel blaue haben – es neues hier – hat nichts dem zu tun was gelernt werden soll. – sie nebenher auch an dem fest los und dem training los, der Test läuft bist – deutlich größer als der training los, was sind hin und her. – sie so viel gelernt haben haben, die zu viel gelernt. – vorher aufhören zu lernen und – das andere ist man darf sein jetzt nicht so kompliziert machen, wenn Sie hier jetzt verborgen 5-layer – mit jeweils fünf nur holen haben, dann kann das zu viel lernen. Willst – du viel lernen – Lea. Die sagen zwar nicht das was sie wollen ist verallgemeinert – nicht diese Schachbrett Struktur – den raus starten, sondern während wirklich die einzeln Datenpunkte, – kann sich diese beiden – Kurven angucken und versuchen zu – dann zu stoppen oder automatisch zu stoppen und Abbruchkriterien – zu definieren. Man kann versuchen nichts – viele Neuronen zu haben, es gibt auch noch andere Ansätze sekundarisierung. – Sie können bestrafen, – dass das Netz – viel lernt ist so eine hat Punktabzug ein notenverschlechterung, wenn sie Test aus dem schönen Toten nehmen jetzt von 0 bis 0,5 – noch was bei diesem – diesem Problem hier nur – die beste Note und je – höher, der Nuss wird. Umso schlechter ist die Note, wenn sie es als Note nehmen könnte sich auch vorstellen, dass – die Note wird was drauf addiert als Bestrafung dafür, – dass man jetzt auswendig gelernt hat, das ist die Idee hinter den meisten Regularisierung Verfahren sind sie da kann sie ein paar einschalten. – gibt einen – einen roten Verschlechterung eine – Möglichkeit. Hier ist 11.1. – ist l21 – Stück endlich alles wieder zurück sehr gut, – lasse ihn trotzdem noch mal neu laufen. – Charlie noch mal dafür – brauchen ja noch – Faktor muss ich gleich sagen, wo dieser Faktor auftaucht nehmen wir mal 0,01 – jetzt eine Bestrafung – noch mal neu, also diese Regularisierung, hier ist jetzt ein Bestrafung dafür, wenn wir zu viel gelernt haben zu viel auswendig gelernt haben. L1 – die – der Beträge der Gewichte, also von allen Gewichten dir jetzt eingezeichnet – sind von allen Gewichten die Summe der Beträge, das ist L1. L2 gibt's auch haben sie im Gesäß ist – Quadrat jeweils davon – man sich überlegen – kann, – das L1 – dazu führt, dass alle – Gewichte – die dicht bei 0 sind. – die noch weiter runter gedrückt werden in 1 – die führt dazu, dass – Gewichte sehr sehr dicht beim neue sind, das viele von diese Linien verschwinden was Gutes, da muss man nicht so viel rechnen – das – Quadrat von – den Gewichten – ist unser – Punktabzug sozusagen, das – heißt die großen Gewichte – richtig ins contour by L2 werden die großen Gewicht verringert. Hoffe, das kann man jetzt schon sehen, es ist nicht immer so eine prozentiger Initialisierung und dann versetzt gut zu sehen bei L1. Sollten jetzt viele Gewicht auf Null gedrückt werden. – ist die eine klassische arte Regularisierung – hier, die regularization – Welt ist umso größer ist der Effekt. – sind oder ist ja plötzlich gar nichts mehr los lauter graue – wird wohl der Effekt dieser Regularisierung sein, wenn – sie L1 benutzen kriege – sie ganz viele graue Linien – eigentlich wären wir wollten Schachbrett lernen mit ganz viel Rauschen, das ist jetzt – zwar sehr regulär, was da rauskommt, aber mit dem was wir lernen wollten auch nicht so viel zu tun. L2 – wir sollten nicht so viele dicke Linien sehen, die – Gewichte werden bestraft. – dir noch mal – es hängt ihm alles von Zufall ab. – Was ist jetzt ein dicke Ding, was ist eine dünne Linie im Mittel je nach Experiment – was dann sind bisschen damit rum, aber das Gedanke dahinter, es gibt – Punkte, wenn man so will oder Punktabzug bei L2 für die Quadrate – die Summe der Quadrate von den Gewichten bei A1 – die Beträge von den Gewichten und – hat ein etwas anderen Effekt führt aber – dazu, dass sie – Figuren kriegen. – erstmal aus zu Hause mit lernen 5 Neuronen, – sollte einen Unterschied machen, das ist dieser dieser Abteilung hier – und regularization Raid. – gibt's hier noch die Abteilung activation – nur wieder auf diese ursprünglichen. – Himbeeren mit vier und zwei zurück – du rectifying – unit der – Tangens hyperbolicus sigmoid – 1 / – + E linear – nur linear. – Dann können wir gerade mal anfangen, was steht passieren, wenn ich jetzt im Jahr einstelle und – Ding lernen lasse? ✂ Also wird zwangsläufig dann eine lineare – Figur eine Ebene – werden Dir das alles trennt uns laufen lassen. – versucht er da irgendwas zu lernen, aber keine Chance was zu lernen. Sie sehen es hier schon. – kommt nicht Fieber raus, was soll ich – sollte ich ein anderen Datensatz nehmen, vielleicht niemals einmal den Dinge – mal. – Das müsste damit doch Swiss gelernt kriegen – sirokay, das ist was er lernen kann, wenn sie es auf dem Jahr stellen, können sie sowas lernen. – Einen linearen Zusammenhang – Knicke drinnen und wenn die Schweinereien – kriegen sie nicht gelernt und dann – noch mal starten, – können sie nicht den Jahr beschreiben. Sie sehen was die Neuronen mir tun. Die – alle nur was den Jahres – ich auf den Kopf stellen diese Figur mit blau.de und orangefarbene – Punkte außen Figur kann sie niemals bilden, – alles nur linear ist. – Sieben wastin euronia somit mir Wehen kriegen – Chance, also den ja ergibt keinen Sinn – heute mit 1 / 1 + E – noch mal angucken, die drei Jahre total – fällt man im Quellcode. – ist – Datei in – aber im Prinzip ist er nicht undurchdringlich – der Quellcode. – So, sie sehen hier jetzt den Tangens. Hyperbolicus – offensichtlich irgendwo vordefiniert da – ist hyperbolicus. – Einweg gleich Das Maximum von 0 und X-Men – die Zahl mit der ich reingehe, wenn die kleiner ist als 0. Dann ist das Maximum 0. Okay, wenn die Zahl die mit der ich wein gebe, die negativ ist, kommt nur draußen. Das Maximum ist null, wenn die Zahl mit der ich reingehe positiv – ist ist dies maxmo die Zahlen die durch reingeht. Die Zahl kommt raus, das ist der einweggleichrichter, – also für den einweggleichrichter – brauchen Sie keine schlimmen Funktionen wie Quadrat oder Wurzel, das ist Maximum von 0 und – der Zahl mit der sie reingehen, das ist – was man heute üblicherweise nimmt, weil es so billig zu rechnen ist. Insbesondere – Kräuter sind es ja eins durch – plus EU - X – ja nicht eingebaut ist gerade eben nach dem Tennis wird wohl die größer sind die Funktion, die da drinnen – sind eingebaut hier oben. – polyfill für den Tangens. Hyperbolicus. Hier steht da irgendwo noch mal als Formel – e hoch 2x, sie sind sie dass das ist e hoch 2x -1 – durch E hoch 2x +1 – es Verbote dieses – sigmoid ist auch ihre Musik, dass es nur eskaliert und verschoben – der Tangens hyperbolicus die beiden sind Spinnen verwandt. – ich jetzt auch sehen, dass du mal für gleich nicht uninteressant, dass jeweils die Ableitung mit kommt. Ja class activation, sie – haben einmal die Funktion als solches den Tangens hyperbolicus aber – auch die Ableitung, der steht da wohl für terrific.de 1 - das Quadrat von dann als Überblick, was ist dessen Ableitung oder hier bei Renault der Gleichrichter, das – ist die Ableitung von Gleichrichter, – X kleiner gleich 0 ist, dann ist sie nur platt und – X größer 0 ist ist die Ableitung 1. – 1, – sie die jetzt in dieser Schreibweise mit fallen sehr lustig aus X wird abgebildet auf – das nächste ist ein kleiner gleich ich dividieren lassen, das ist ein abbildungsverhältnis – wird abgebildet auf das kann man in JavaScript auch schreiben inzwischen – in – den meisten Browsern – das hier ist ein kleiner gleich – irritieren lassen von der Schreibweise, das sieht ein bisschen komisch aus ist – das in der Mitte stimmt nicht gemeint wird abgebildet auf. – Wenn X kleiner gleich 0 ist dann 0 – und sonst eins die Ableitung von dem einweggleichrichter – Ableitung ist diese Funktion x 1 - die Funktion linear – hier sind es kommt einfach nix wieder raus mit X rein mit X wieder raus. Der Ableitung ist ein des jeweils auch noch die Ableitung dabei, – gleich darum, die wichtig ist bei – der Optimierung. – sie die Aktivierungsfunktion – hier – Neuron – arbeitet mit dieser Aktivierungsfunktion. – erstmal auf den Tangens hyperbolicus und – lass sie noch mal lernen, die – hier ja – hat er eben funktioniert. – jetzt habe ich die reguläre mach die Regularisierung wieder aus. – dann bist du jetzt ja wieder lernen, das in der Mitte blauer Block ist und außenrum ein orangener Kreis – hinkriegen mit so wenig Neuronen und nicht mehr, – ein bisschen – was – wieder ein bisschen runter das Rauschen. – müsste jetzt sauber lernen. – das habe ich mit dem Tangens über bodikos, wenn Sie das – ich machen sollte die Figur am Ende verdächtig ähnlich aussehen, – lernt er langsamer, weil es Sigma häuten andere Steigung hat Aber das ist eigentlich nun skalierungsproblem, – das hätte man auch. das lösen können. Ja sieht ein bisschen Lama aus, jetzt müsste – aber auch gleich wieder auf den blauen Bob – der Mitte kommen. – auf zu warten ging, dann wird es passieren und – halt doch mal zum Tanken zur Würdigung zurück. – Sie das ist der blaue Block in der Mitte und – dann hängt nur noch mal überreden nach – hier die – plausibel aus wir lernen – blaue Blase in drin und außen rum alles orange, das lernen wir aus diesen Rennen starten wieder jetzt zu sehen Sie zurück so und wenn ich jetzt nicht mit den Timer zu beruhigungs – sondern mit dem – werden wir sehen aber die Gleichrichter ✂ Ich lass es einmal laufen, – sieht man auch nicht was passieren wird, rückwärts – Arbeitsamkeit – besser verstehen. – Sowas – sehen sie so, ✂ wir sind also ein Vieleck ein weiches Vieleck zwar, aber es ist ein Filet. Konta natürliche 100 Dimensionen sprechenden Vieleck, sondern einen vielflächner – 99 – Dimensionen in den Oberflächen. – Hälfte der Fälle gilt, sozusagen der rechte Teil von der Kurve, aber – dann springt es irgendwann um irgendwann – wird einer von diesen rilos anfangen auf null abzuschneiden eine springen sie um – so eine andere – und dann springen sie wieder um auf eine andere eben. – So kommt dann so ein Vieleck. Zustande – Superbowl Dekos. – meinst du ich als Bussi auf Minix – so weiter, die machen Ihnen – Runde – und Renault macht ihn so kantiger eckige Randlinien. – nicht so ein Drama, aber – doch interessant, dass es diesen Unterschied zwischen beiden gibt. – Dann haben wir – burgerei also fast das letzte – ist e-Learning great. Jetzt muss ich an wenn ich mal dazu kommen, wie das Ding denn – hat und das normale die es lernt ist – die Enten Abstieg – etwas – und wenn man das verstanden hat, weiß man was diese learning great hier ist und was die – Raid – da ist – haben wir im Prinzip – Schalter und jeden Regler hier – wie funktioniert das Lernen? – große Begriff – gradient – Agenten – Abstieg. – Müssen betont descent – Kam 2000 Mister Mathematik bei mir mal vor. – stellt sich folgendes – vor ein Hoch – dimensionales – Koordinatensystem – eine ganz wesentliche Richtung und die anderen – Richtungen ganz ganz viel Achsen ihr ich kann nicht soviel Akzentzeichen dich zeichnen müsste – sind – meine – sind die Gewichte. – bei Schwerte – haben sie jetzt der hier schon – in den richtigen ernsthaften – neuronalen – Netzen, vielleicht sogar Millionen an Gewichten und buyers Werte, also hier unsere Grundebene, – stellen sich wenn sie es können Millionen dimensional – vor – senkrecht darauf in die Höhe ist der los – die Note die wird im ganzen Leben je – Einstellung – des Netzes dieser. – Würde bedeuten. Das Neuron hat folgende 20 Gewichte und folgen preiswert und das andere hat Folgen 20. Jeder. – Hier wäre so eine komplett Einstellung des neuronalen Netzes. – dafür kriegen sie los und zwar genauer gesagt ein – los, das wollte ich bei Fieber dazu schreiben training los mit unseren – gucken – nachher – wir gelernt haben, aber nicht auswendig gelernt haben – trainieren, die man den training los aus unserer – Daten, also für diese diese eine Einstellung, deshalb man dazu eine – einstellung. – ich happy dick sind die Linien und sind so blau und sind sie rot und die Punkte blau oder rot – den Sandkasten Beispiel eine komplette einstellung. – Lieder. Hier Hintergrund – eben ist eine komplette einstellung. – plotte ich los in die Höhe. – So erstmal – blau, das heißt ich kriege hier – Gelände, – ist mein Gedanke. Ich kriege hier irgendein Gelände und was ich gerne möchte. – los minimieren, – der soll minimiert werden – die Optimierung besteht darin, den los zu minimieren – sieht das Abstract aus. – Zu jeder Einstellung – kann ich im Prinzip ausrechnen, – was der los ist. Die Werte haben sie ihm gesehen 0,5 – 0,3 – wie auch immer der training los. – stellt das Netz – ein. – diese Einstellung vorgibt und dann guckt man – gut ist, denn das man gibt die Note dafür ist sie gut werden die Daten getroffen, mit denen man trainieren will, wie jeder Einstellung werden sie dann ein Ergebnis kriegen werden sie einen. – biometrische – Situation die man hat, jetzt möchte ich optimieren. – möchte – ins Tal reinlaufen in ein Tal reinlaufen. Das erste Problem ist schon – es wahrscheinlich viele Teller geben. – finden wir jetzt ein globales – wenn wir wahrscheinlich nicht finden, wir werden alle lokales Minimum finden, – ist das worauf man oft – an sie noch aus Mathe 2 irgendwie mitgenommen haben Funktion mehrerer veränderlicher – war zwei veränderliche – in die Höhe XY – Hintergrundebene – jetzt am Leben im Zweifelsfall 1000000 veränderliche – ändert sich daran nichts ist es ein bisschen schwierig zu rechnen und bisschen schwieriger – schwieriger vorzustellen, – suche jetzt die beste Einstellung, – wäre super – Einstellung hier. – Das wäre die beste Einstellung. – werde ich im Zweifelsfall nicht hinkriegen, die beste Einstellung. Ich – wahrscheinlich in seinem Lokal – nachher nicht bei der besten Einstellung. – wäre der Traum sozusagen nicht dieser Punkt entspricht an bestimmten Einstellung, was sind die ganzen Gewichte, was sind die Baez Werte, wenn – ich diesen Punkt hätte, – ich hier im Tal drin und der training los wäre am – gesagt, eigentlich kommst danach auf den Test los. Dann noch mal guckt sich erstmal den Pfennig du hast an mit dem Testlauf muss man da mit irgendwelchen Regularisierung – and lösen, – dass der heimlich – aus dem Ruder läuft. – genauer gesagt, man hier diese Fläche entsprechend wie ich zu dass der Test – auch klappt. – starte bei ihm dann Zufalls. Haben sie gerade gesehen. Gibt. Ja für diesen schönen Taste da links Stelle alles auf Zufall, ich – starte bei irgendein Zufallswert – arbeite mich dann in die richtige Richtung in die hoffentlich richtige – Richtung. – Name sagt es eigentlich schon, wie – finde ich die hoffentlich richtige Richtung in dich mich, dann anmelde ich Vorarbeiter. ✂ hat der Gedanke ist also den Berg runter zu laufen, – schreibe hier mal Start. – Zufällig – er dich dumm ist, wenn man es raffinierter macht, wird man nicht zufällig starten. Man kann das jetzt schon mal so ein bisschen vorbereiten, aber – hier – der playground startet zufällig – aus, ich starte bei irgendeinem zufälligen. – einer zufälligen komplett Einstellung und dann werde ich versuchen, den Berg runter zu laufen. – Sie sich vor Sie stehen auf fremden Gelände – Augen, sie wissen nicht, wie das Gelände aussieht. Sie haben keine Landkarte für dieses Gelände – ihr Job ist jetzt ein möglichst Tiefe Stelle in diesem Gelände zu finden. – Wenn ich das banalste, was sie machen, sie machen einen – Schritt in die Richtung, wo sie merken, es geht den Berg runter. Sie laufen immer Berg runter. – Egal wo wir sehen uns in okay, das würde hier sogar glücklicherweise funktioniert. Normalerweise – man nicht davon aus, dass man ein globales Minimum trifft und könnt ihr auch hier gestartet sein und hätte dann ein lokales aber kein globales – Minimum. – wird das funktionieren und der – technische Ausdruck dahinter ist dann eben der Gradient – Jagd gehen in welche Richtung die Fläche – und wie stark Sie ansteigt – mir da sind geht die Fläche ja so ein bisschen nach hinten auf der Gradient würde Hintergrundebene – so zeigen, – liegt in der Grund geben und zeigt in die Richtung in der Grundebene. – ist den Berg rauf geht Lokal den Berg rauf geht nicht zur Spitze des Berges, sondern wo ist Luca. – Berg rauf geht, das macht er gerade Jan hier länger der Gradient ist umso steiler ist es – Sie hier horizontal – sind, ist der Gradient – Nullvektor – man sieht okay, der Gadient ist genau die falsche Richtung. Ich laufe entgegen den Gradienten, das ist gerade hinten Abstieg, die machen einen kleinen Schritt – den Gradienten. – Und dann – sie weiter runter – mal zugeben. Muss dann gut schiefgehen, aber das ist der Gedanke, – ist gerade yandan Abstieg gradientenabstieg – heißt kleine Schritte. – Richtung des Gradienten. – ganzen neuen Einstellung Gewichte weiß Werte – die alten - – eine – kleine Zahl bei den Gradienten. – entgegen der Richtung – ist gerade hinten Abstieg. – macht man jetzt nicht in dieser Reihenfolge, es gibt – und eine Verbesserung dafür, dass ein ziemlich schon dutzende andockt Arbeiten dazu geschrieben worden auf diesem Gebiet, wie man das jetzt besser machen kann, aber das – ist – immer die Idee dahinter, wie werden die Gewichte eingestellt, wie werden die Basiswerte eingestellt durch – gradientenabstieg – mit – ein bisschen Raffinesse nicht so – dieser Reinform mit ein bisschen raffinessa, was steckt typischerweise immer die Idee von gradientenabstieg – dahinter – jetzt hier in dem playground, – sofort vorführen kann was alles schief gehen kann, – habe schon gesagt, also man wird jetzt immer ein Vielfaches von Gradienten in die Gegenrichtung des Gradienten gehen sind die unten. Jetzt gehen sie gegen den Gradienten ein Vielfaches der Länge des Gradienten. – Noch mal gegen die da ein Vielfaches der Länge und so weiter, das sind die Einstellung, – die ich dann durch laufe. – passiert, wenn ihre Schritte zu groß sind, wenn dieses Vielfahrer was sie nehmen von Gradienten, wenn dieses vielfache zuviel – wird, was passiert, wenn sie zu große Schritte machen? ✂ ganze wird also hin und her hoppeln, weil sie übers Ziel hinausschießen werden, – kann man hier sehen, – learning great hier sagt – wievielfache von Gradienten nehme ich in die Gegenrichtung von Gradienten, das – heißt learning wird hier das noch mal neu an starten – ich erstmal eine riesige learning Raid so dann wird sich nichts tun praktisch – nichts tun ist dauert Ewigkeiten – ich so – Kurve hier sind so steil wird es immer so auf den vollen Bereich skaliert 4,49, – das – sind immer hoch eskaliert – die untere Grenze der kleinste bisher vorgekommen, der Wert ist nicht von diesem Kurven revidieren lassen, wir sind immer noch bei praktisch 0,5, also, – wenn Sie hier die Downgrade auf – N1 stellen – da nicht allzuviel. Man geht winzige Schritte zur Ameisen mäßig – die richtige Richtung, die hoffentlich richtige Richtung des dauert Ewigkeiten – das will man nicht haben. Will sie aber mit Siebenmeilenstiefeln dadurch – gehen nämlich mal auf eins, dann springen – sie hin und her als ich sind über sie hinweg gehen wieder zurück. Ging es woanders hin, – weiß nicht ob 113 weil gleich ich hoffe eins reicht das auf 3. – Die sind zumindest wieder zappelt. Okay, das ist noch nicht um das völlig aus dem Ruder laufen zu lassen, aber sie sehen die fürchterlich das zappelt. Unsere Schritte sind zu groß, – wir jeweils machen. – habe noch im Rahmen muss ein bisschen weiter drehen, – will noch mal auf 3 mal gucken, ob er dann in der wichtig anfängt zu zappeln – Es ist in der geht irgendwie nicht, der ist im Wald gelandet und dann fängt er wieder an. Das passiert, wenn die Schrittweite zu groß ist, wenn sie das Dreifache von Gradienten in die Gegenrichtung des Gradienten gehen, sie landen im Wald sozusagen sind – mit Siebenmeilenstiefeln schon überall Taylor – alle Berge hinweg. – die monning – Rage. – ELearning – welcher Begriff – ist ein wichtiger – also – es gibt Parameter – hier die Gedichte, – Werte das Lied Parameter – die Beschreibung das Netz und – werden optimiert und – dann gibt es hyper hyper Parameter, – sowie die learning weight – die regularization – weight und dann aber darauf kommt's – die Batch size noch – mal drauf kommen, – werden normalerweise nicht optimiert, ich könnte man optimieren, aber die werden normalerweise erstmal nicht optimiert, sondern der sie eingestellt sind, aber auch wichtig für die Optimierung, die nennen sich dann hyper – hyper parameters, – falls Sie den Begriff hören. – ist der davon. – wäre das macht man üblicherweise auch, dass man die Warngerät nicht fest lässt, sondern dass man die launige z.b. Sinken lässt, sie gehen erst mit großen Schritten durch in der Hoffnung. Vor allen Dingen, dass sie auch so ein paar lokale Minima – in den mit großen Schritten gehen und dann kleine Schritte machen und dass wir noch große – Runde und dann Ingrid anfängt und die dann automatisch runter drehen lässt – Wochenzahl ist, dass sie dann am ehrlich – wieder learning Gerät auch runtergehen ist eine Möglichkeit. Es gibt auch noch arbeiten dazu, dass man die Ladegerät kutschieren – lässt, das mal wieder rauf dreht und mal alles durch zu schütten und dann wieder runter dreht – eine Möglichkeit kann man auch wieder 20 Uhr dort arbeiten darüber schreiben, wie merkt man diese dynamite – Kunst für sich – jeden Fall wird man die im Normalfall nicht einfach fest lassen. – Aufgaben, – sondern damit versuchen, die anzupassen. – nicht eine einzige Optimat oder nicht weggeben, die wird sich ändern, vielleicht ist sogar die Sonne dreht hier nachricht – zu wählen. – zurück zu dieser wahnsinnige skizzieren, – wir haben aber die Bedeutung. – der learning Gerät das wievielfache von – dem Gradienten – sie weiter – hier schon im playground hat man nicht den klassischen Medien – titties and – soll ich zumindest einmal sagen, weil die Begriffe völlig verwirrend sind. – Dieser klassische gradient descent heißt zur allgemeinen Verwirrung Batch. – gradient descent – ist es aber nicht die Batch gemeint, die man eben schon gesehen hat, leider. – dann haben wir dann eben noch – Stalker Stick Verdi – and his and stark – ST – descent. – gleich kommt noch den mini Batch gradient descent das ist das was man üblicherweise macht. – uns zudem Stalker Stick gradient descent – den klassischen Kleid Interessent, würden Sie sich jetzt alle tausende hunderttausende an – Beispiel nehmen – und für die insgesamt ein los ausrechnen. – den neuronales Netz mit dieser Einstellung rechnen – sie komplett durch für alle hunderttausend Beispiele gibt, es gibt ihn dann eine Note sozusagen einen training du hast – dann gehen Sie einen Schritt weiter, – ist ungeschickt man ganz viel vorher schon einen Schritt weiter gehen, weil möchte zwischendurch schon lernen, ich möchte nicht erst 100000 – oder sogar Millionen Exemplare – haben, um dann im Netz die nächsten Schritt zu machen, – möchte vorab schon weitergehen, – ganz brutale Variante der dich vergess ich werden Test sind. Man rechnet diesen was für ein einziges Beispiel aus. – Trainings Exemplar, sie nehmen Trainingsdaten. – Aus dem 1000 – einen – für diesen einen den los und gehen dann in die richtige Richtung. Des wird natürlich nicht gut passen, aber es ist so ungefähr – zufällig gewählte. Ist es ungefähr in Mittel hoffentlich die richtige Richtung dehnt sich Verdi – und ich sind – ist wieder ungeschickt, weil – lerne ich zwar schnell, aber ich nenne zu schnell, – Den ich mir angeguckt habe, muss – ich meine hunderttausender – Parameterform jetzt vorstellen, dass du und sich auch wieder nicht was man macht ist so ein Mittelding, das – ist die grundsätzliche Lösung und die nennt sich zur Verwirrung mini-batch gradient descent. – teilt – gesamten Trainingsdaten – teilt man in batches ein eigentlich dann den Mini Batches, was ist verwirrend, weil oben stand auf was von Batch Maintal die Bankdaten in – Einheiten ein – nachdem man so eine kleine Einheit für – die denn los ausgerechnet hat korrigiert, man – man das Netz weiter, – ich starten. – schreibe ich erstmal was verwirrend ist, wenn ich das jetzt oder ein ähnliches Batch, ich nenne das mal Trainingsdaten – Teilen. – eine Kreuzung – zwischen dem Standard – gradient – descent und dem Stock Gäste gradient descent das ist das was man dann macht. – nimmt nicht den ganzen Trainingsdatensatz – und mach dann einen Schritt, das wäre der Klassiker. – der verwirrenderweise eben – gradient descent ICE, – macht auch nicht den Zuckersticks Quartierzentrum Ansicht nur ein zufällig raus pickt ein training – starten. Faustix & mit dem Bernstein – die richtige Richtung geht, – Mittelding, wann nimmt sich – den Trainingsdaten – und guckt, dass man dann schon in die richtige Richtung kommt, das ist das – mini-batch gradient descent. – Und das ist das was hier stattfindet. Habe nämlich die letzten Begriff auch noch der da steht. – steht was von wegen Batch size – es jetzt gemeint nach 10 – setzen – Netz – zweiter gestellt – nicht richtig gut zu sehen, wenn ich dass hier laufen lasse, weiß nicht, ob man den Unterschied großartig sieht. – denke mal wieder zurück auf – ist überzeugter – Hallo ausfallen – hier – wollte ich gar noch meinen Quellcode zeigen, dass Sie mir glauben, dass das echt so ist und – zwar. – ja auch in der Datei in in – Arten durch das jetzt durchzugehen, – gehen einmal von vorne nach hinten von – den Eingängen zu den Ausgängen was auszurichten – Eingangsdaten rein ist doch ganz normal ausgerechnet werden, was die Klasse ist oder was als Regression vorhergesagt – wird, das – ist die normale durch das letzte zu gehen – die alte dann in der Anwendung vorkommt öffnet sich vor Waltrop vergessen. – Ausbreitung, – wenn sie so far – Robert Fritz durch das Netz, das – ist der relativ einfachen Schritt – den was hier passiert forward propagation sehen, – was hier passiert, man stellt die Eingänge ein – Layer, was kommt in den eingang ein die Eingangsdaten kommen in den Eingang rein und jetzt gehen wir alle – durch und in allem Lea gehen wir alle Neuronen durch – das raus aus dem Neuron, – da rauskommt, das ist der einfache Teil der ganzen Angelegenheit vorwärtsrechnung – der – vorwärts Schritt durch das Netz. – was denn jetzt die Klassifizierung ist oder was als regation vorhergesagt, – wird – Anwendung vom Netz – unter neuem auch wunderbar auf der Grafikkarte parallelisierbar – ist – auch gerne auf dem lokalen Rechner laufen kann. Der schwierige Teil ist, – das Lernen – dazu gehört eben nicht nur von vorne nach hinten durch zu laufen. Aachen sie ja auch um festzustellen, wie gut oder wie schlecht – gerade passen. – müssen auch die Gradienten haben und – Gradienten Bestimmung ist, die backward propagation – rückwärts durchlaufen eigentlich – die rückwärts Ausbreitung, ich brauche Gleichnisse aus, wah diddy rückwärts aus Reinbek Pop die – rückwärts Ausbreitung durch das Netz des rückwärtsrechnung – durch das Netz – muss ich die ganzen Gewichte und die beides Werte verstellen ich dass ich einen Schritt in die richtige Richtung mache – den Gradienten, ich brauche den Gradienten, ich brauche die Ableitung. – Diese Ableitung bestimmt man von hinten nach vorne, das ist – durch – der hier backdrop heißt, dass es gibt zwei Arten durch das Netz zu gehen vor – wäre es ist es erst noch mal auszurechnen – vorne nach hinten von den Eingängen zu den Ausgängen, aber zum lernen brauchen sie auch die Rechnung rückwärts durch das – zu sagen, was denn jetzt die geändert werden, muss sogar ihren technisch, dass man – gewünschten – näher kommt, – bei der back-propagation kommen jetzt die Ableitung vorbei, der – keine Ableitung vor sie bilden gewichtete Summen. Bei uns wird dazu dann besonders für Bus oder was auch immer angesagt ist wie du – fertig das ist der Weg vorwärts rückwärts – ist ekliger, weil man jetzt Ableitungen wissen wie – Ableitungen bestimmen. – kann man viel Glück aus Mathe 1 sich zusammen rein, warum das rückwärts – gehen muss, – sie Ableitungen wissen wollen, – wollen jetzt z.b. Wissen. – möchte hier für – diesen oder jenen. – Vorglüh krasse rauskriegen, wie komme ich mehr in diese Richtung? – Gewichte muss ich hier vorne einstellen genau gesagt, wie muss ich die Gewicht hier vorne den beides wird Niki muss ich den bisschen verstellen, damit ich hier hinten in die richtige Richtung komme. – Sie das von hinten nach vorne, was ist der? – Team ist der Grund dafür, dass von hinten nach vorne zu rechnen da – von vorne nach hinten zu rechnen. ✂ haben also eine Funktion eine – Funktion einer Funktion für jedes Neuron was hinten dran kommt eine weitere nicht lineare Funktion – Kettensäge hier sind sie schon dreimal wegen Renault, – ist die Ableitung 0 oder 1 und wenn der jetzt eben – Tangens hyperbolicus Stunde – ähnliches wird es ein bisschen ekliger, da kann das Überholen Kuss hinten von irgendeiner – Plus bei uns fährt davon – geht der Tank symbolism weiter ganz viel Tangens hyperbolicus ineinander, – möchte ich ableiten, – muss ich das vorne ändern damit hinten was bestimmtes passiert, dass du muss ich jetzt zum tangentopoli Kuss von der Ganges über Buddhismus weiter oder redo von redo von Velo ableiten – mit der Kettenregel mache – ich das und – dann multipliziere ich die Ableitungen äußere mal innere Ableitung oder jetzt entlang dieser ganzen fade natürlich nicht nur äußere – mal innere Sonne ganz viele Ableitungen werden miteinander multipliziert. Das – passierte im Prinzip ist werden ganz viel Ableitung miteinander multipliziert und – Sie wissen, was – hier beim vorderen mit dem Ergebnis machen müssen, die entlang von diesem ganzen Faden multiplizieren die Ableitung multiplizieren – immer die Ableitung von den hinteren. – ist der Gedanke, egal, wo Sie gerade sind, sie müssen immer mit den ganzen hinteren Ableitung die darauf folgen multiplizieren, deshalb ist es sinnvoll von hinten nach vorne zu gehen. Sie brauchen erst die hinteren Ableitungen oder andersrum, die brauchen auf jeden Fall die hinteren Ableitung, die kommen immer wieder vor. Die – Forderung kommt manchmal vor, deshalb geht man dann von hinten nach vorn dann hat man garantiert die Internetleitung – ist der eigentliche Gedanke – hinter der back-propagation Ableitungen – ausrechnen ist leicht immer von hinten nach vorne gehen, also von vorne hinten gehen – passiert. Ich versuch, das noch hier wiederzufinden bei dem back-propagation versucht und jetzt Ableitung zu bestimmen. – Es ging ja darum den Patienten auszurechnen. Möchte – ein Schritt in die richtige Richtung machen, dazu brauche ich den Katja Enten, ich möchte die Ableitung Wissen und die Ableitung gibt's in eben über Kettenregel mit ziemlich langen Produkten – den die hinteren – garantiert immer vorkommen und die vordere vielleicht vorkommen. Je nachdem, wo ich gerade bin mit meinen – und bei es werden Dich einstellen will, – sehen hier sowas vor, – ist die Schleife Überraschung, – die von hinten durch das Netz geht nicht um Schicht rückwärts arbeitet durch das Netz. Und dann sehen sie, dass es hier plötzlich um Ableitungen – geht. – Was kommt als Ableitung rein über die Rewe TÜV und was geht an Summer an Ableitungen natürlich bis wir jetzt verschiedene Ableitung partielle Ableitungen addieren, was geht denn so machen Ableitung wieder raus, – ist die Idee und das jetzt vorhin geschrieben habe, das ist die Idee Kettenregel – partielle Ableitungen, – die was wird addiert und dann geht von hinten nach vorne, aber die Hüterin Ableitung auf jeden Fall drin haben. Muss in der – die Ableitung denkst verschiedene hat mit den Ableitung umzugehen. Man rechnet die Ableitung auf jeden Fall nicht numerisch – aus gehen – jetzt nicht 0,01 – zur Seite und schätzen damit was die Ableitung gehst. Das wäre viel zu aufwendig. – Ableitung denn grundsätzlich immer ausgerechnet, – bei den aktivierungsfunktionen – hier. – ist immer auch die Ableitung – mit dabei. Die Ableitung wird nicht numerisch bestimmt – sie ist sofort mit definiert, wir kennen die aktivierungsfunktionen – können auch sofort sagen, was die Ableitung ist für die Aktivierungsfunktion, – wird noch und geziert mit Gewichten, was drauf addiert ist klar, wie das dann funktioniert von den Ableitungen Sven die Ableitung direkt – keinen Fall wert ist Ableitung jetzt numerisch ausgerichtet – so von wegen 0,01 – drauf und dann gucken wir uns die Änderung an und Teilen durch 0,01, das wäre zu kompliziert die Ableitung – der direkt – ist der rückwärts – ist von hinten nach vorne – Netz geht – hängt also mit dem Rasieren und Abstieg zusammen – das ist die eklige teil und der läuft im Zweifelsfall irgendwo draußen auf Servern und – nicht die auf dem eigenen Rechner vereinigen – natürlich auch gut getrennten Servern mit allem möglichen Grafikkarten oder speziell Flächeneinheiten. – gation, also ein bestimmt die Ableitungen – jetzt haben wir die Ableitung ausgerechnet, – jetzt will man den Schritt machen – zum garni Emden – tieferes von Gradienten – Schrittmacher, das ist hier Update Waits und – Welt ist genug ist nämlich Update weights – buyers, values – sehen hier bald weiß – es ist wirklich banal. Es – ist genau das – man sich naiv vorstellt in – das was passiert mit den beiß Werten - – ein – Vielfaches learning Ray t ziehen – ab von dem aktuellen Wert das – nehme ich burning red von – Ableitung durch eine Normierung, der ein Vielfaches von Katja Anthony – das ziehen sie ab vom – fährt kann damit den neuen preiswert – so werden, die beide Werte eingestellt und – genauso – ist das neue Gewicht auf die Gewichte werden durchgegangen wieder die Ladegerät alte – Gewicht und das ziehen sie wieder ab beginne – die Gegenrichtung vom brennenden – Rage in der Normierung sterben und das ist der Gadient – die Regularisierung, die ist jetzt hier so gemacht, kennen die Ableitung von der Regularisierung, – müssen wir nicht zu Fuß ausrechnen, die es dir jetzt – trägt eingebaut. – erst noch mal ein weiter für die Gesichter – sind wir haben – neues Linkbait für die Gewichte geht es dann noch einen Schritt weiter nehme ich mit, der – weight mal die regularization – red mal die Ableitung von der Regularisierung Funktion, – ist das denn hier eingebaut statt, dass man ausdrücklich die regulationsfunktion – die mit dem der – oder der Betrag der Gewichte L1 statt, – dass man dies ausführlich noch mal ableitet – die Ableitung direkt ausgleichen eingebaut. – simpel kann es sein, das ist die Optimierung, die da – und für so wenige Neuron – sie gesehen Funktion des wirklich wenn – sie was kompliziert ist an trainieren wollen habe ich natürlich dann – aber auch mal ein bisschen – was Methoden. – zu – Bildchen hier, – ist wie heute das Maschinen dann mit den neuronalen Netzen stattfindet – paar Raffinessen im Zweifelsfall – Dass die neuen Geräte nicht konstant bleibt, das ist das – schon was man macht versucht zu schätzen, wann trainiert vorher schon an und so weiter und so weiter, aber das große Bild ist dieses Jahr gradientenabstieg. – ist natürlich – überhaupt nicht, dass das menschliche Hirn macht muss ich sie dazu sagen. – kann ich zu sein, dass das menschliche Nieren so funktioniert mit – irgendeiner Optimierungsfunktion jetzt – alle möglichen – anguckt, wir lernen viel viel – wir gucken und Bilder von Hunden an oder ein Bild vom Hund an und Wissen – was ein Hund ist, wir müssen nicht eine Million Bilder von Hunden nachgucken. – geht bei Menschen deutlich deutlich anders. – wird es wahrscheinlich bei Menschen nicht funktionieren. Das lernen, was – der jetzt auch noch nicht behandelt ist das Kurzzeitgedächtnis? – wir jetzt hier in den Gewichten – und den bei auswerten gelernt haben? Ist ja eher sowas wie ein Langzeitgedächtnis. – ist in Garbsen hat diesen optischen Verbindungen, – stark sind, die wo sind die das ist eher – bei Menschen dann wohl das Langzeitgedächtnis ist, was ihm bisschen dauert bis es an trainiert ist, es – gibt auch ein Kurzzeitgedächtnis bei Menschen, – Arbeitsgedächtnis – sagt man nur dann Arbeitsgedächtnis, – ich bin nicht in der Lage mich daran zu erinnern, dass ich vor fünf Sekunden gesagt habe. – Was ich für 5 Sekunden gesagt habe, was ich für 5 Sekunden gesagt habe, das kann ich abspielen in der Schleife, ich kann mir auch wieder vorstellen, was ich vor fünf Sekunden gesehen habe, es gibt auch so ein Bild Speicher – tonschleife speichert, – sind ja höchstwahrscheinlich nicht – mithilfe der Synapsen – Das wäre viel zu langsam – tone Speicher. – Der muss sozusagen elektrisch – gebaut sein Ziel – variabler gebaut sein. Für einen kann ich ja auch im Hirn verformen. Deshalb Arbeitsgedächtnis, ich kann ihm hierin damit arbeiten, ich kann mir vorstellen 3 + 43 – +. 3 + 4 zusammen – 7s. – Warte, ich kann das Verfahren in 3 - 4, ich kann daran arbeiten, – das wäre komisch, wenn das tatsächlich über – die Synapsen – wäre, das muss irgendwie elektrische stattfinden. Kann ich nächste Mal noch du sagen so ähnlich Ideen gibt es auch bei den Ohren der letzten rekurrente neuronale Netze – short-term – memory und ähnliche Geschichten, wie kriegen sie Arbeitsgedächtnis – hin? – ist nicht das was wir hier haben. – hier ist dann ihr so ein ein – vorsichtig, der Mensch scheint da noch deutlich anders zu funktionieren, – es gibt so ein paar Tricks, die man dann noch – kann, der Natur nachmachen kann.