[Playlisten] [Impressum und Datenschutzerklärung]
Bausteine neuronaler Netze am Beispiel Inception-v3
Tempo:
Anklickbares Transkript:
wie ein ernsthaftes – Netz funktioniert Inception – Google Inception – 3 – dem Bilder – kann in 1000 Klasse natürlich – im Hause auch schon bei angewendet haben als – Und – wollte ich noch mal erzählen, was ein Baustein vorkommt, also so ein Neuron mit – Gewichten muss die zieren addieren ein weiß Wert drauf addieren und dann was nicht den Jahres tun insbesondere Relikte. – unit anwenden, – sowas – kommt vor es kommen noch paar andere Sachen vor weniger andere Sachen und – hat man alle Bausteine, die man braucht, um richtig komplexe Sachen zu machen, wie eben mit den Zäpfchen. Ich zeige erstmal den Aktion netterweise – nämlich jemand – sofort irrt, dass es im Browser läuft. – Also, sie brauchen nicht den Wahnsinns Rechner. Sie brauchen auch nicht die Farm – von Servern bei – Google oder Microsoft oder – bei Amazon oder sonst wo – reicht tatsächlich, der eigene Rechner der – Browser im eigenen Rechner – gibt's noch ein kleinen Trick – werden die 3D Funktion vom Browser benutzt Web TL – heißt, es läuft schon – entscheidender Teil auf der Grafikkarte, obwohl das Ganze im Browser ist ist ein entscheidender Teil auf der und Verarbeitung, – wenn dir das der abschalten mit use GPU, dann wird es deutlich deutlich langsamer, ich lass mal lieber an, weil der arme rechne hier sowieso schon – überlastet – gerne und er soll noch nebenbei aufnehmen – hier sehen war Version – 3 im – Browser laufend. – Nicht auf dem Server laufen zu Dennis läuft im Browser und S-Klasse ich ziehen uns Bilder, ich habe eben schon mal eins geladen hier – ein privates das garantiert nicht an trainiert worden ist und wir erfahren – will 18% – Karussell 11% sola dich 8 – % ein Pizza Hut mit 4% und ein Radioteleskop 2% – obersten – 5 von 1000 klassenassistentin – 1000 Klassen unterschieden und das sind jetzt die Top 5 von 1000 Klassen, – ist gar nicht, weil sie dumm ich da noch mal ein anderes Bildchen. – Jena Fluss, – der jetzt neben war schon anzeigt ist – Bild Tal die Entscheidung hauptsächlich – getroffen – und sie sehen binnen – weniger – als drei Sekunden im Browser hat, er rausgekriegt, wähle 80% – Lakeside – 11% dem 2% – about how aus, ich – sehe jetzt keinen Boathouse, aber sei so kann nur sehe ich jetzt auch nicht, aber es passt offensichtlich – dazu, irgendwie – scheint doch was wirklich passiert zu sein, sie mit der Maus drüber gehen, – es jetzt in Ergänzung zum reinen Inception wenn sie mit der Maus drüber gehen sehen Sie welcher Teil des Bildes – ist für die Klassifikation. – Man kann das Netz noch mal und angucken, welche Pixel jetzt? – sind und welche weniger entscheidend sind – die Wäsche Mapping und was noch einen an, – habe einfach die Bilder gewählt aus irgendwelchen Urlaubsfotos – und es – ist erstaunlich wie – gut es passt sich Ihrem Minivan Beach wegen interessant Mini Bass Cab – jetzt nicht wirklich – groß oder movieman ist es beim besten Willen auch nicht, aber Minivan ja vielleicht weil es ein bisschen – die Schnauze, falls du bisschen kurz ist von dem Auto passt – auch erstaunlich – gut und – wir haben vier Jahren etwas komischen – muss – ich in der kommt das wirklich hier als – raus Bier – Skin, na ja gut analogue clock & George und Vortrag – vereinigte belko – man einfach so viel Bilder Dich mal meinen eigenen raus gegriffen habe und sie sehen bei allen Vieren ist es erstaunt nicht das läuft im Browser und es läuft in Sekundenschnelle – im Browser, wenn sie das nicht im Hause richtig offiziell in – C + + und C – dem richtigen spiele Rechner mit einer weit ist Grafikkarte können sich vorstellen, dass stutzt einfach so durch. – gibt andere Netze die ähnliches machen und die laufen Echtzeit mit dem Video mit auf dem gut ausgestatteten Rechner, also das kann man lokal machen zum Auswerten – von den Netz – man – im allgemeinen da nicht mehr die große Server fahren, das können sie lokal machen an trainiert ist eine andere Geschichte, wenn – du das auf lokal Rechner an trainieren sitze – dabei Wochen dran, – wollen Sie lieber auf der Serverfarm machen. – Tipps dann im Netz machen – ob man das jetzt hier auf dem Handy machen will ist auch eine Frage, vielleicht noch nicht auf dem Handy allein schon um – nicht unnötig zu strapazieren, du – siehst also aus, das macht den Zäpfchen sie gehen mit einem Bild rein – sie kommen in der Klassifikation raus, – Bild hat 299 x 299 Pixel, – ist jetzt jetzt irgendwie sie größer dargestellt, aber – Zahl der Pixel mit man reingeht 290 x 290 – sie kommen raus mit 1000 zahlen, wir sind jetzt nur die Top 5 dargestellt, – komm raus mit 1000 Zahlen zwischen 0 und 1. – jede von den Zahlen steht daneben für – wird clock und so weiter. Tausend verschiedene Begriffe, die kann ich auch mal welche Begriffe das sind. – sind die mal aufgelistet, dann kann man auch noch nebenbei Englisch lernen, also – alle möglichen Hund Arten durch Australian – Terrier English Setter – der hinten und genieße das Hundefans die Leute, die das hier – haben, Nevena – auch und so weiter einen Tiger Cats die Katzen und die Hunde müssen natürlich extrem dabei sein, – Border Collie – auch geben so ganz. – alle Geschichten 1 soccer ball oder ein Feier baut, eine gondola und so weiter und so weiter, das sieht die 1000 Kategorien in geht das dann klassifiziert wird. – gibt noch den Trick das man seine – verkehrt schon mal, dass man die letzte Schicht weglässt diese – in 1000 – dass man die letzte Schicht weglässt und ganz anders an trainiert, dass – die Arbeit die Google vor erledigt hat mit alldem Schichten davor, dass sie sich die – ihr immer – andere letzte Schicht dahinter hängen und ganz andere Sachen erkennen, – dann in der letzten Schicht, weil die Schichten davor sind wunderschön schon trainiert auf alles was – so – passiert normalerweise die wenn Sie das unterscheiden können alles mögliche heißt das ist Geschichten dadrunter John – ich sagen fast eine Art von visueller Wahrnehmung. – wann ist nicht auf diese 1000 – hier eingeschränkt, – man könnte viel weniger machen. Man könnte andere machen, – kann man da noch ein bisschen nach trainieren ist ein Trick für meine Sis verwendet Rezept – schon verwendet – das ist die Anwendungsseite können – an man den Code rein gucken. Der ist netterweise auch Open Source und – sieht dann – das Ganze gesehen enteisen, – wie das in Peißen zusammengebaut wird. – ganze ist geschrieben – einer Bibliothek namens tensorflow Googles Bibliothek namens tensorflow, die – die schlimmen Sachen macht, – die harten Rechnungen macht – in der auch einiges an Raffinesse verborgen ist und das läuft dann wahlweise auf dem lokalen Rechner oder es läuft auf dem Server – für die Webseite des eben jemand noch mal so gebaut – es – läuft. – wie es hier steht, läuft es auf dem lokalen Rechner als normales Programm oder – der Cloud – Programm, – macht man heute die ganzen – Netze – sind – alle in Peißen dann geschrieben, – Trick ist das die schlimmen Sache gesehen sowas von wegen tensorflow TF tensorflow, dass die schlimmen Sachen – CC – plus plus geschrieben werden und dann auf der Grafikkarte laufen oder sonst wo laufen – jeden Fall sind die gar nicht in Peißen geschrieben, die stimmen Sie diese – ganzen Einstellungen – von außen die Konfiguration, wer macht jetzt was wie viel Schichten habe ich mit wie viele Neuronen? Wer ist hungrig verbunden Konfiguration, – die mache ich in Peißen. Das anstarten mache ich in Peißen, – die hatten – Rechnungen die sind nicht in Python geschrieben, das wäre natürlich zu langsam. – kann man sich angucken, wie das Netz gebaut ist sie hier Inception V3 – gehen rein, das ist netterweise als Kommentar darüber geschrieben, wir gehen rein mit 299 mal 90 mal 3 will sagen, sondern 90 Pixel breit 290 – Pixel hoch oder andersrum und – drei Kanäle tief rot grün. Blau Rundhals Farbkanäle tief – gehen wir rein – Kommission erste Schicht von Evolution, ich – sag gleich was diese einzelnen. – bedeuten, aber hier sehen Sie OK conf 2D eine zweidimensionale convolution, – wird irgendwas 3 x 3 eine 3 x 3 Matrix 32 – Schichten – gezogen über das Originalbild – in Zweierschritten – gar nicht in den Rhein – wir gleich nachher noch mal, was das alles bedeuten könnte, – haben sie ein kleineres Bild, aber tieferes – Bild 32 tief – nicht mehr drei Kanäle tief sondern 32 tief deswegen dieser 32 zusammen, das war ein 30 Schichten gemacht. – noch mal eine – convolution gebildet – es wird noch mal ein Korn Evolution gebildet. Bis dahin nichts Neues, dass ich eine weitere Operation soll – gleich noch was zu maxpool gesehen. – Maxpool – Offensichtlich – dazu so ist hier verwendet ist es hat gleich zwei, dass das Bild kleiner wird jetzt ins x 73 x 73 x 64 tief und wiederkommt – solution und wiederkommt solution und wieder maxpool – wir gehen runter von 17071 – auf 35 – x 35, das Bild ist jetzt nur noch eine Briefmarke dafür, dass ist jetzt 192 – tief – Schichten tief das Bild. – geht jetzt so weiter. Jetzt gibt's ein paar raffinierte Geschichten, – die parallel laufen – man ein Evolution – und dann parallel noch mal zwei convolution, – also noch mal 3 Konvolut Chance und – hier wird noch mal Level – spule. Ich sag gleich, was diese Sachen bedeuten und conf zwei – aber nur zeigen, dass sie sehen okay, das sieht die Operation die Vorkommen und – schreiben einfach mit dieser Hypothek tensorflow und anderen Bibliotheken. Die sind zwischen gibt's schreiben Sie einfach in Paris, was sie haben wollen und hinter den Kulissen – sie mathematischen Monstrositäten – höchster Geschwindigkeit. Die – laufen da nicht in Peißen. – da werden Sachen hier parallel gemacht kommt Blut und so weiter und parallel der hier und so geht das weiter und so geht das weiter – endlos – wer endlos Schicht um Schicht Schicht um Schicht, wenn – ich mal wieder selber maxpool conv2d – conf 2D – 2D average – Pool, wie – viel Grad 2. DS – ist deep learning. Es ist eben sehr tief das ganze scheint – gar kein Ende zu nehmen hier – noch nicht irgendwann nur jemals Ende Golf 2 Legos 2-D maxpool, – 2D – sage gleich, was das bedeuten soll und – so weiter und so weiter ist eben – sehr tief und irgendwann sind wir jetzt am Ende hier. – kommt hier – jedes – Neuron ist mit jedem der Schicht davor verbunden – softmax und – das war's dann bitte an, – sind die Operationen die Vorkommen – benutzen einfach so eine Geduld, ich werde jetzt tensorflow um das zu konfigurieren, was soll jetzt in welcher Reihenfolge bitte – werden? – hinter den Kulissen – der Rest dann praktisch vollautomatisch, – was wird auf der Grafikkarte, wie gemacht – schieben, was auf dem Server raus, was – wird, die parallelisiert – kann man einstellen, aber es ist sehr sehr sehr viel vollautomatisch – gemacht auch das rückwärts rechnen mit der Ableitung. – steht jetzt nichts von Ableitungen, was auch immer – soflo weiß, wie das Netz aufgebaut ist. Es weiß deshalb auch wie es rückwärts Ableitungen ausrechnen kann back-propagation machen kann, weil – das – im Hintergrund ohne dass wir uns großartig – machen müssen. – wollte ich jetzt noch mal – einzeln – was heißt das jetzt eigentlich was davor gekommen müsste sie die Bausteine aber gesehen haben, das sind die üblichen Bausteine, wie sie jetzt hier in Inception vorkommen mit dir aber auch sonst in den derzeitigen – neuronalen Netzen vorkommen, die sind alle nicht tragisch, wir haben alle komische Namen zwar, aber die sind überhaupt nicht tragisch, – kann man ziemlich schnell verstehen. – naheliegendste dürfte? FC sein, – kam ganz am Ende eben vor. FC heißt nichts anderes als fully-connected so stellt man sich eigentlich oder hat man sich sehr lange neuronale – Netze vorgestellt vollständig verbunden – haben eine Schicht – sie haben eine Schicht, – wir gerade zusammen basteln – Mann gibt der jeweils an, welche Schicht gerade zusammengebastelt wird und fully connected heißt, – hab mal drüber unsere Schicht unsere aktuelle Schicht unsere aktuelle Schicht, der gerade gebaut wird. Aktuelle – connected heißt es ist alles mit allem verbunden jeder – aus unserer aktuellen Schicht – mit jedem – der Schicht davor verbunden, was heißt das wird rechnerisch – teuer und – wird auch von der Optimierung – ziemlich teuer. – Dann haben sie – massiv viele Gewichte. – Anstelle – sowas, wenn man's wirklich zeichnen wollen würde sind ich kann ich anfangen sollen, das komplett so zeichnen. – wäre jetzt – seiner – vollständig verbundene Schicht. – Ich habe mal da vorher noch vorherige – Schicht – Schichten kommen vor, – dancer Flo schreiben Sie eine Zeile sowieso FC – sie kriegen so eine Struktur – Schicht – die Sie gerade da anlegen ist fully-connected – mit der Schicht darunter jedes – Neuron ihre – aktuellen Schicht ist mit allen drunter verbunden, das kam eben ganz am Ende vor. – sie sie – scheint, also was dafür zu sein und die letzte Schicht die letzten Schichten zu bilden – dann machst du die. – Intelligenz reinzubringen, das ist – nächst schwieriger – ist ja komplett. – Nation Land geschrieben – Hängung – wird nicht wirklich gerechnet. – Das ist einfach nur so ein bisschen hin und her schieben, – ja irgendwie so im Bildformat. Jeweils. – zeig dir das mal so. – Schichten die Folgen hier alle noch dem ganzen Bildschirm quadratischen – Raster und ich das hier perspektivisch vorstellen, also ein – Raster ist in die Tiefe gehend vom Bild. – Wenn sie jetzt mehrere – davon haben, – haben eine so eine Lage an Neuronen und – haben noch so eine Lage an – Neuronen oder mehrere davon im – selben Format, – wir jetzt 3 x 5 im selben Format, – ist concatenation – dumm. – hängt die einfach hintereinander und das gerechnet wird werden, die einfach – gehängt die beiden, – sie – stapeln. So banal ist, das dafür braucht man natürlich irgendwie eine Rechenoperation, das ist diese Rechenoperation – für – Das könnte ich bald mal gerade im Kot zeigen. – das wirklich so banal ist, also keine weiteren Neuronen ist es jetzt einfach – Ergebnis gestapelt, – jetzt mal wieder sehen. Sie konkret da wird was zusammen gestapelt, – nehme mein – Bild – in drei verschiedene Schichten – an Neuronen ein ist 64 tief die – ist im Ausgang auch 460 die letzten zwei Schichten übereinander, die ist im Aufgang 64 – tief das sind drei übereinander diesen Ausgang 96 – tief und – diese hier ist im Ausgang 64 – tief – man die jetzt alle zusammen nimmt. – haben hier 64 – also – Stapel aus 64 gebenden – dann aus dann vom selben Format noch mal 64 – vom selben formatierte sind hintereinander 96, – raus. – das sind zwei – Da kommt 64 raus – 288 – aus dem ganzen Blog.com 288 – Schichten aus komplett – einfach die Schichten übereinander. – gibt's mehrere kleine – Netze sozusagen parallel – in diesem Bereich kleinen Ärzte, die parallel laufen, – er sich ja nur – eine Ebene dann zwei Ebenen übereinander drei Ebenen übereinander drei Schichten übereinander zwei Schichten übereinander alle – vom selben Format und die werden dann übereinander gestapelt aus dem Schluss hat man 288 – das macht dieses – hier, was – ist ziemlich banal? – stapelt – wenn das hier schon starke sind, aber das sind zwei Stapel und das ist ein Dreier Stapel im sehr gut, dann haben wir zum Schluss ein Fünfer Stapel, – ist – große. – dahinter – flach – machen, – ist genau super. Na, der kann Ende vor – eine Schicht haben hier. – Bedeutet chatten, dass sie jetzt habe ich 12 da drin, XII Neuronen einfach hintereinander hängen, jetzt verliert seine Dimensionalität – 10 – 12 – wieder einfach nur – Archiv Arbeit. Es wird nicht gerechnet werden. – diesen Euro und so betrachtet, als ob sie alle gleich fertig sind in einer Reihe stehen, das ist Flecken. – eben weiter am Ende vor – ist auch eine banal Operation. Das – erzähle ich um den klarzumachen, dass das meiste wirklich einfach – ist, dann passiert einiges – ist raffiniert, aber das meiste ist einfach nur hin und herschieben Formate anpassen, – ist eigentlich zusammenpasst. – So, jetzt wird er mal ein bisschen spannender max-pooling. – und average pooling – kam zwischendurch – vor da wird jetzt mal gerechnet, aber nicht wirklich mit Neuronen. – zusammenfassen offensichtlich – du etwas zusammengefasst, das können wir noch mal im Quellcode sehen – Sie kommen hier mit 147 – x 147 – nennen Pixel sozusagen an, so kann ich das Bild schon geworden 64 tiefgehend – 60 Schichten – Resultaten und dann – kommt ihr ein Max Pool 3 x 3 – 2 – sie in aha was rauskommt ist kleiner – mit Faktor 2 am Rand ist ein bisschen komisch, da muss ein bisschen gucken, was man mit dem Rand macht man den Rand behandelt, aber es ist ungefähr um Faktor 2 kleiner Bissen was weggefahren ich 147 / 2. – Rand haben wir ganz weggeschnitten – diesem Fall – die – dazu – die Zahl der Punkte, – die man in XY auflöst zu reduzieren. – Das auf Banane – hat genauso average Pool. – Also – habe eine Schicht in einer bestimmten Größe, – nehme einfachheitshalber 4 x 4, sonst – ich zu dir nachdenken so 4 x 4 – nicht gezeichnet ihr das ist vorne, – ist oben. – habe so eine Schicht 4 x 4 – und ich will jetzt die Größe reduzieren. – am einfachsten um – Faktor 2 auf 2 x 2 – pooling der Name soll es ihnen sagen, was machen sie um von 4 x 4 auf 2 x 2 zu reduzieren ✂ also ziemlich Banane werden, diese – vier hier unten – verrechnen – und – den Einwohnern bekommen und zwar bilden wir von denen das Maximum – max-pooling – oder – den Durchschnitt, – schreibe jetzt einfach so – average pooling, was heißt average pooling sprechen – für die anderen? – Wir werden – rechts – oben aus diesen Vieren bekommen, – Durchschnitt – und so weiter für die anderen – was hübsch aussieht, zeigt nicht noch ein hier – da oben. – den unten natürlich entsprechend – Es gab noch die Angabe Streit – die war hier zwei – im englischen ja klar, was ist Scheid bedeutet an der Stelle? ✂ Schritt – weiter, also – wie weit marschiere – ich jetzt weiter, – ich umziehe ein Schrittmacher, was mache ich hier im Original im Original mache ich – Schritte, – ist der strijd. – In – Richtungen jetzt vertikal – wie horizontal strahlt, – ich im Ziel – ein weitergehe, – gehe ich im Original von – dem ersten blauen zum ersten Grünstich im Original zwei Schritte weiter. So kann man es aufpassen, die könnten aber auch sagen, ok, das Resultat – ist um Faktor 2 kleiner in jede Dimension, also insgesamt um Faktor vier bei der Anzahl der kleiner. – Rand, der muss man anders behandeln. – Ergebnis ist in jeder Dimension um Faktor 2 kleiner – Schicht mit den Ausgangs werden, das ist der Streit – ist seit an seit von 1 hätten dann wäre ich ihr von dem grünen der nächste würde hier aus den vieren gebildet mit dem – Handy fact 4 x 4 – was muss mit dem Rand und – ich würde in einerschritten dann weitergehen – sie gerade gesehen, das ist nicht was bei Inception an der Stelle passiert in der Stelle war zeitgleich zwei, aber – gab noch eine andere Angabe. – groß – Fläche sozusagen ist über die da – oder Mittelwert gebildet werden, dass sie wäre zwei mal zwei. – habe ja hier – immer zweimal – zwei – wären zweimal zwei – hatten wir im Kot da nicht, wenn ich mich recht erinnere, – ist 3 x 3. – du sie gehen über – Punkte Holz Sonntag vertikal Bindemittel – und dann geht die zwei Punkte weiter. – ist ein bisschen raffinierter, die – haben mir zu gar keinen Überlack. Wenn du das mit dreien machen – einem Streit von – das heißt im Ergebnis werde ich dreimal drei erwarten – von – den sechs Sonntage – vertikal die Hälfte, deshalb dreimal drei nicht weniger dreimal drei, – im Rand umgehen. – ganzen hier oben. – mache das mal so, ich kriege sie einfach ja ein, das – sind dreimal drei, die werden verrechnet. – Ergebnis im Ziel – die nächsten drei mal drei, ich mache einen Schritt von zwei die nächsten drei mal drei, wo gehe ich hin ✂ und dann bin ich hier, dass sie die nächsten drei mal drei und so – weiter da wie das weitergehen muss. Also das ist was da der selig dann passiert mit – überlappt dazwischen. – Das – ist Max pooling und average pooling. – Jetzt an dem hauptsächlich dazu eingesetzt, – der Neuronen drastisch zu verkleinern, sie – fangen ja schon – recht verkleinerten Bild an 299 – x 299 – dann wird es Schritt für Schritt kleiner insbesondere eben durch diese Schritte – und erfüllt spuling wird es kleiner. ✂ sehe gerade in meiner Liste, dass ich einen – Quellcode eben – habe oder Pouch, – der ist noch so lustig. – überraschend, dass ich den erzählen will, – out ausfallen – und so will Hier haben wir ihn – Ende – so bisschen komisches fully-connected davor – fetten. Lockout-tagout. – Ist – doch einer. – raffiniert, – haben eine vorherige Schicht – wieder kommt – irgendwie an und die – aktuelle Schicht, die soll – sein. – der Witz ist – Was man jetzt macht, ist – quasi mit Schrotgewehr da rein. – die – werden – sozusagen zufällig weggeschossen, – ist dropout. – Eingänge werden – gelöscht – muss ja die anderen Eingänge bisschen justieren, aber ich will es nicht so weit treiben, – ich erstmal die Grundidee war dropout. – ist jetzt zufällig Eingänge wegnimmt und – wieder andere das sollte dazu sagen, also nicht dieselben, – sondern immer wieder andere das soll ich dazu schreiben immer wieder andere – aus nicht das orange rot Gewehr auf dem Computer schießt sondern als ob sie ein Wackelkontakt hätten – trifft es eher das Bild immer wieder andere Eingänge zufällig – löschen. Training zufällig – deutschen – machen sie nicht, wenn Sie das ausrechnen später anwenden das Netz – beim Training. – führt das, – ist das gut? ✂ Idee, sie kriegen einerseits so Zufall drauf, – haben – nicht immer wieder – gleichen – mit denen sie an trainieren, sondern die werden zufällig verfälschte – Werte, dann kommt natürlich auch einen Zufallswert insgesamt drauf hat ihren einfach Würfeln und irgendwie Zufallswerte drauf verlieren. – Handy defekt haben. – was hier passiert ist beim Lernen – beim Training beim Lernen lernt – Maschine die da – ehrlich zusammengebaut wird beim Lernen beim Lernen lernt sie robust zu sein, Maschine lernt auch noch zu funktionieren, wenn jemand im Schrotgewehr drauf geschossen hat, – haben sie nämlich so an trainiert, dass sie das ab kann, sie ist auf Robustheit – jeden Fall – der Sinn Regularisierung. – Gegenteil von overfitting – halt – etwas überraschende Maßnahme – auswerten das Netz dann wollen sie natürlich alle Verbindung haben, das ist – dropout. – Dann haben wir – an Bausteinen den Vorletzten, – Dirigent häufig vorkommt convolution Faltung – aber an dieser Stelle keiner Faltung – sie sich mit Signalverarbeitung – befassen – bei Bildern – audiosignalverarbeitung – und – erfüll mir aus die Signalverarbeitung von – Samples von der Netzspannung, – stoßen – sie zwangsläufig – Idee erst folgen, – wenn ich ein Signal habe, – bisschen Bild des Signal. – die Zeit in – Sie messen gegen – Millisekunde – ähnlich oder bei Audio müssen Sie 48000 – mal Sekunde z.b. – Bildern haben sie das ganze zweidimensional wird ein bisschen schwieriger vorzustellen sehen wir gleich. – ich habe ein Signal für – jeden Zeitpunkt – ich einen Messwert – für jede Millisekunde, z.b. Wenn sie mit einem Kilohertz Abtasten – haben sie für jede Millisekunde einen Messwert. – ist eine ziemlich banal Idee, wie man jetzt anfangen kann zu filtern. – können sie jetzt hier bestimmt Frequenzen rausnehmen, – wie kann sie bestimmte Frequenzen betonen – Bereiche in denen es rauscht rausschmeißen – oder ihre 50Hertz, die sie absichtlich haben wollen, wie können Sie die alleine raus picken oder gerade die 50er als unterdrücken und festzustellen, was sie an Dreck drin haben, – passiert üblicherweise mit Faltung, was man macht ist folgendes – nimmt immer. – ein Club von diesem werden wir z.b. Vier von diesen Werten und – rechnet dann immer das ja irgendwann – mal 5 – den ersten und – minus zweimal den – zweiten und – den drei und – mal den vierten – gibt ihnen ein Ergebnis und das merken Sie sich. als – Ergebnis – bekommt – dann – Ergebnis raus – wieder zum – Schluss. – sollte dir vielleicht sagen, Eingangssignal – hier Ausgangs. – diese neben uns die vier Werte und haben dann einen – Wert, – diesen Wert manno, 15 x -2 den mal 3 und den – mal -7 von mir aus gibt irgendwie einen neuen Wert – der Stelle und das ziehen sie jetzt durch knallhart ziehen Sie das durch überall, – nehmen sich die nächsten. – und – damit – den nächsten wert – rechnen 0,5 – mal diesen - zweimal dem dreimal diesen - 7 Mal den – bekommen – den nächsten Wert und so weiter. – Das ist – das ist eine Art, die man filtern kann. – sehr allgemeine Arzt oder gehört filtern kann ist die Idee hinter der – also ich erzeuge aus einem Eingangssignal ein Ausgangssignal – rechne einfach so zu viel mal den ersten sonst viel mal den zweiten zum dritten und vierten gibt einen – neuen Wert und dann rutsche ich eins weiter. – Dieselben – Zahlenwerte – sonst immer den ersten Soße und so weiter geht meine Multiplikationen, also, das ist ja jetzt auch wieder. – Der erste mal 0,5 hier fahren, jetzt ist aber ein anderer I und dann der nächste mal -2 und der nächste Mal drei und der nächste Mal -7 und so weiter gibt neuen Wert und so weiter so hübschen sie durch. – ist Faltung. – werden zwei – miteinander gefaltet. Hier. Das Eingangssignal wird gefaltet mit diesem Herrn – nennt sich das dann hat sich übertreiben – werden miteinander gefaltet. – schaffen Sie es jetzt mit Hilfe einer Faltung – unten die Ableitung – geschätzt – hier die – Ableitung und im Eingang Signal zu erzeugen. – multiplizieren See ✂ einfach Ableitung, sie nehmen einen – und den nächsten Wert und sagen der nächste Wert mal eins – unter Wert der vor – -1 – Dann haben Sie diesen Wert – von dem ziehen Sie den red davor abteilen – sozusagen durch 1. Dann haben sie eine sind – Durchsetzung der Ableitung – durch die Faltung kriegen sie nicht Heizung der Ableitung besser. Wäre folgendes im ersten Semester mal dran. Ich sag es. Sicherheitshalber – ich mal Ableitung numerisch haben wollen, machen Sie es bitte nicht so, sondern – sie machen, dass metrisch. – lassen einen frei, – nehmen – mal einhalb und sie nehmen den vorderen – mal Minus – an. Der beschreibt jetzt minus einhalb mal und der neue Wert kommt die denn bitte raus. Symmetrische – Differenzen kann irgendwann mal im ersten Semester vor – sich besser an ist auch tatsächlich besser. Also, – dass sie zwei Schritte dazwischen haben – vergleichen den und den bestimmen die Steigung. – der gerade durch den und den und – ordnet die als Steigung diesem Punkt in der Mitte zu. – was wir noch machen, zweite Ableitung und so weiter gehen auch – Unterlagen aus dem ersten Semester dann – kann man damit z.b. Machen und wenn sie Ableitung bilden können kann sich vorstellen. Okay, dann geht was damit, – wir können auch alles möglich sicher filtern können zusammen. Ok 50Hertz – betont werden. Alles andere soll möglich stark unterdrückt werden, – kriegt man auf diese Art hin. – große Klasse von filtern Sie auf diese Art. – mit Hilfe der Faltung. – das ist der Gedanke dahinter, das ist also eine Art Filterung – der Witz ist dass diese Filter jetzt gelernt werden diese – Zahlen hier die an ist leicht schon, das sieht so aus wie Neuron – ihr diesen Euro und das jetzt irgendwas tut das Sindbad sich Gewichte ist, wenn noch was drauf addiert diese – Filter werden gelernt, – ist die Idee diesen convolution Schicht es sind – endlich mal – in Ruhe. – Nach dem ganzen hin – her Geschiebe mit Kletten und – weiter concatenation. – noch ruhen, aber auf ein etwas raffinierte Art mittelfaltung – im zweidimensionalen oje. – sehen, also, wir kommen mit. – Ein Bild sozusagen an oder – einen verkleinerten Bild mit so und so viel Schichten – in der Tiefe kommen wir an – eine Faltung. – Im zweidimensionalen man – guckt sich diese Idee hier aus der eindimensionalen – Signalverarbeitung an irgendwie – ein Signal Spannung gemessen oder sowas, die CD guckt man sich an und sagt sich das muss doch auch in zweidimensionalen – gehen tut es bei – der Bildverarbeitung kommt das mal sie vor – in der Bildverarbeitung und – jetzt hier bei den neuronalen Netzen und – Wenn ich z.b. – 3 x 3 – habe, ganz – ehrlich für eben bei Max – und average pooling, gucke mir 3 x 3 in der Schicht da voran zu B303 – in der Schicht davor an. Die – verrechne ich das – gibt ein – der nächsten Schicht, – gucke mir. – nächsten drei mal drei – drei hier. – irgendwie so ja noch. – Ich gucke mir die nächsten drei mal drei an. – berechne – ich miteinander und bekomme den nächsten und dann gucke ich mir Überraschung – die – nächsten drei mal drei an diese drei, – geht dann bis hier – und ich bin nicht ganz fortwo und bekomme den – dasselbe nach unten. – Ich hoffe, Sie erkennen, dass das fürchterlich für die Faltung im eindimensionalen aussieht. – Man – geht jetzt hiermit zum 3. Mal 3 Raster, wenn sie dreimal 3 Faltung ist geht man und 3 mal 3 Raster weiter, – sehen die Schrittweite Schrittweite. – Eins habe ich jetzt das ist die Schrittweite 1. – gleich 1 – Die denke ich darüber entsprechend – gehe ich nach unten, – Wasser zu zeichnen wird. Hier wäre jetzt der nächste nach unten – runter, dann das kann ich lieber gar nicht an. – sind – Neuronen der nächsten Schicht verdrahtet. – ist hier, was es an neuer und dahinter. – hat nur an so einer Stelle maximum gebildet oder Durchschnitt gebildet, das ist banal, ihr setzen jetzt wirklich Neuro und dahinter mit – z.b. – Aktivierungsfunktion, – bedeutet jetzt Faltung, was wissen Sie über – Verbindungen hier? – Die roten Verbindung die Grünen die blauen Verbindungen, was bedeutet jetzt Faltung, ✂ angenommen dieser – oben dieser Wert wird mal 1,3 genommen als, – 31 Gewicht und dann der nächste ja dieser hier der – wird vielleicht mal – genommen – so weiter, dann kommt noch ein PS4 drauf – kommt – Aktivierungsfunktion – oder deine Turbo likus und das ist dann das Ergebnis von diesem Neuron. – ich im eindimensionalen haben – Sie mir dieses – Schema den ersten z.b. Mal einhalb das Verhalten bei -20 und – dann rutschen sie ein zweiter den ersten Mal dann halt den ersten und so weiter immer dasselbe Schema – denselben Zahlen multipliziert und addiert – ist auch hier, auf die Bezeichnung Faltung, – es ist ein prank mathematisch – hundertprozentigen Faltung, aber es fühlt sich an wie eine – zweite Punkt oben wird jetzt für das grüne Neuron auch – mit dem gewicht 1,3 verrechnet – und der nächste der kriegt das Gewicht 4,2 für das grüne weiter – und so weiter für – das blaue Neuron – den das blaue neu runter oben bekommt, der kriegt das gewicht 1,3 der – nächste – das. Mich jetzt sehr gruselig – gezeichnet, der nächste wird das Gewicht 4,2 kriegen und so weiter. Dieses – musste an Gewichten rutscht einfach weiter – eben dieser kam im eindimensionalen weiter gerutscht ist wollte ich dir dieses Muster an Gewichten einfach durch – Neuron hat. – dieselbe Richtung dasselbe – Gewicht oben – in der Mitte 4,2 – jedes Neuron hat diese Gewichte, die haben nicht verschiedene Gewichte – mal zurück zu machen der Unterschied zu fully connected fully connected ist, was man sich klassisch vorstellt – Unterarm neuronal Netz wo was – ist was man sich vorstellt – die – die man aktuell baut ist, – alle erdenklichen Arten mit der Schicht darunter verbunden – und – Gewichte – die da jetzt hier was an den Verbindung stehen – Gewichte sind alle unabhängig. – können dieses Gewicht – dem – einstellen und dieses Gewicht von dem verschieden sind alle verschieden zu wählen. Die ganzen Gewichte, – ist die – Vorstellung. – Und hier reduziert man das extrem. – guckt nicht mehr, die gesamte – Schicht darunter an, sondern hier z.b. Nur noch drei mal drei – in der Schicht – soll ich sagen, dass ich davor guck mal nur noch dreimal drei Punkte an die jetzt – bei 3 x 3 Faltung. – die Gewichte sind auch nicht mehr alle frei wählbar. – Der linke obere hat überall dasselbe – Gewicht, egal welches Neuron der in der Mitte hat, über das erwischt und so weiter, egal welches Neuron. – warum ist das hilfreich, wie kommt man auf so einen Gedanken man könnte es ja auch – kreuz und quer verbinden, warum ist das hilfreich das so zu machen. ✂ außer großer Vorteil ist es muss viel weniger gelernt werden. Hier haben sie – Werte, die gelernt werden müssen – davon, wie groß das Bild ist. – weil das Gewicht für eine links oben das Gewicht für den oben in der Mitte und so weiter sind 9 Gewichte plus ein bayer Schwert, – haben ja – mal Gewicht + Einkaufswert mal weg das Luxusgut bloß bei es wert und davon eine Aktivierungsfunktion – jetzt also ziehen werde insgesamt zu lernen für diese ganze Konstruktion. – Sie – Vorteile? ✂ also egal, wo die Katze ist, die soll überall erkannt werden, ob Sie links oben müsst oder rechts unten, wie sieht der überall gleich aus und dann soll sie auch überall gleich erkannt werden, deshalb ergibt das ganz viel sind die können das etwas Loriots bezeichnen als Translationen – Varianz. – das müssen sich erst was heißt transaktions irgendwie ganz egal, wo die Katze ist. soll Fans als Katze erkannt werden. Kannst ja Zion's Invarianz. – hat noch sehr interessanten Nebeneffekt, – lernt – der Katze, egal wo sie ist, wenn sie gelernt haben, wie die Katze unten aussieht, – sie automatisch gelernt für die Katze oben aussieht, weil – es werden ja diese in diesem Fall ziehen zahlen an trainiert, – lernen aus einem Bild. – davon, wo jetzt das Objekt ist, wir werden das Objekt überall. – lernen? – gesamte Fläche verallgemeinert, – ich – musste nicht eine ganze Dings oben lernen eine Katze wäscht unten lernen. Es reicht, wenn ich die Kasse rechts unten gelernt habe, sie ist sofort gesamt antrainiert, weil es nur eine Sorte anderen gibt ✂ aber für die connected wenn – sie nicht erzwingen, das war fully-connected die Gewichte – sind, das macht man normalerweise nicht müssten dies alles noch mal neu lernen, – hierbei fully connected erzwingt man normalerweise nicht, dass – Gewichte gleich sind, – mal lässt alle frei und das heißt wenn Sie die Katze da gelernt haben, müsste die Kasseler und noch mal anlernen das natürlich – viel Aufwand, – könnte erzwingen, dass die Gewichte gleich sind macht man normalerweise aber – okay, und ist der Vorteil ist dass dieses hier grandios ist, um es auf der Grafikkarte zu rechnet Filter – auf einer 2D Ebene, – ist was die Grafikkarte liebt, – schreibe mal GPU dahinter – Optimierung! – gut auf dem Notebook IMMOFUX ist keine Grafikkarte, sondern der Grafik-Chip gibt es das kann mehr super schön solche – Faltungen. – Läuft die Mehrzahl an Neuronen in diesem Inception und – praktisch allen neuronalen – Netzen, die sich mit Bildern beschäftigen gehe noch mal zurück hier auf die oberen Ebenen, – sehen Sie – weit sind die über den Kopf 2 beim allerersten da sehen Sims 3 = 2 und – es würde ziert sich die Seitenlänge auf die Hälfte beim – nächsten Golf 2 DTS ist kein Streit angegeben und es geht dann von 149 auf 147 – müssen mit dem Rand irgendwie umgehen, wenn – sie mir schon dreimal drei Stempel umgehen, – die müssen sie mit den Rand weiß machen, dass sie nicht über den Rand gehen Sie bitte wecken lassen sich zwei – Dixon am Rand – es geht weiter mit Konfetti hier zusammengefasst – und dann geht's weiter mit 2D – Schichten, das sind die die am häufigsten vorkommen in diesem Netz immer wenn Bildverarbeitung – geht. – Faltung Schichten extrem häufig vor – hier – Das ist auch das was in der allerletzten Schicht stand. Softmax, der – ist ein bisschen komplizierter – ist. – sie wollen ein weiches maximum, – aber irgendwie geredet da keiner von weichem maximum – heißt – es dann einfach so als stehender Begriff. – Softmax – sie sehen ja ganz am Ende. – kommt als Paddock schon als vorhersage für raus – dann sind wir fertig. – letzte Schicht. Typischerweise – dann die aller letzte Schicht mehr zu Klassifikationen – geht – Sie bauen ein wie auch immer geartetes neuronales – Netz sie enden mit einer Schicht, – das z.b. 1000 Klassen unterscheiden kann. – schreibe mal letzte Schicht darüber letzte. – ihr vor passiert irgendwas mehr oder minder fürchterliches – entschichten davor – Neuron hier steht für eine Klasse, also der Reha und Karussell und – oder wie auch immer jedes hier steht für eine einzelne Klasse. – habe ich den Stress, dass das was hier aus der Neuronen rauskommt – das wilde Werte sind. – Mit – spannend, – was ist mit redo, was kommt mit dir? Rede hier aus dem Neuron, wenn das Renault wäre hier die letzte Schicht, was käme dann an Werten Haus überhaupt, das könnt überhaupt rauskommen, ✂ mitreden wollten sie keine negativen aber beliebig – positive, was – ist das letzte aber auch Tangens hyperbolicus – jeden Fall können Sie sich nicht drauf verlassen. das was hier raus kommt – irgendeiner Art was – Wahrscheinlichkeit ist, ich schreib das mal hier so, was da jetzt rauskommt. – sich nicht wie eine Wahrscheinlichkeit an. – sind vielleicht sogar negative Zahlen – über 1 die Summe insgesamt ist nicht gleich 1, das – passt vorne und hinten nicht, wenn man jetzt die Wahrscheinlichkeit haben will ist fühlt sich nicht in Wahrscheinlichkeit an – hätten wir gerne das haben sie eben gesehen indem dem Ohr. – 0% – 0% als ob sie benannt ist nicht so gut, wenn man jetzt ein anderer und jemand das scheint sich wohl auf 100% zu addieren. – 80% – für das Billy 11% für Lakeside Inn, 91.2. – Prozent für den Daumen, da sind wir bei 93% – Bauverbot – Haus 94-95. – Okay, das scheint also auf 100% wurde in auszulaufen, das sind die Top 5. – den 1000 Klassen überall 1000 lassen zusammen genommen es wohl auch 100% hinauslaufen, man hätte gerne Werte zwischen 0 und 1, die sich zu eins summieren. – Es soll aussehen wie – Wahrscheinlichkeit, wir kommen gleich drauf ist dann auch so halbwegs sind Wahrscheinlichkeit, was dann da rauskommt, – wahrscheinlich ist, dass dass das Bild in der Klasse 1 Terrier ist, wie wahrscheinlich ist das Bild in der Klasse 2 noch – im Turm ist sie wahrscheinlich Klasse 3 ist, dass das Bild der Klasse – ist und so weiter, ich hätte gerne Wahrscheinlichkeiten die Summe der Wahrscheinlichkeiten muss – eins ergeben – jeweils – die Wahrscheinlichkeiten liegen zwischen tun und eins – allgemeine Ausgabe aus dem neu unter fehlt irgendwas intimus umgerechnet werden und softmax ist die übliche Art für umgerechnet. Wer ist so simpel ist das wie rechnen Sie – zwischen plus minus unendlich – reellen Zahlen, die rechnen Sie so um dass sie zum Schluss etwas kriegen – das wie – könnte man sich das vorstellen. Also es kommt jetzt noch eine Rechnung dazwischen – das ist schlicht und ergreifend softmax. – weiche maximum sind gleich auch wie so ein weiches maximum, was das mit Maximum zu tun und dann kriegen sie Werte raus, die sind vernünftig sowas, wie soll man den ersten 5% für den nächsten 90% und den nächsten – Prozent – dann 2% – und so weiter und in der Summe sind 100% – klappt es fühlt es sich wieder Wahrscheinlichkeit an, – man richtig an trainiert gleich mir dazu – es auch anpissen Wahrscheinlichkeit – ist der Job von – wir mal nur drei Zahlen, es ist leichter – in mir die Ergebnisse mal UV. – baue ich folgendes – drei Variablen – komm rein – zwischen plus minus unendlich irgendwas – und – ich hätte gerne uvw – raus du VW sollen sich anfühlen, die Wahrscheinlichkeiten – eins Zahl zwischen 0 und 1 – ich was vergessen die Formel hin und dann gucken wir, dass das hinhaut nehme – ich als – Kicks durch E hoch XE hoch y + E hoch – nehme ich als e hoch y – Evo X + y – + E ^ – nehme ich als GOZ – plus. – y + – banal dismissal – Funktion ist übel zu rechnen, – ist es nicht ganz banal ein bisschen Rechenaufwand. – doch eine Eigenschaft mit X extrem – negativ ist tut – sich bei Eriks nicht mehr viel und dann geht's sehr positiv ist explodiert. Leorics. – Eigenschaften kriegt man aber unter Kontrolle. – fühlen sich OVB wie Wahrscheinlichkeiten – an? Wieso klappt das so einer Umrechnung? ✂ also sie sehen offensichtlich – ist die Summe von den 30 + V + W = 1 – haben schon den Hauptnenner Indianer – stehen und dann tippt man sie hat ihre Theorie ist dass ihr Tipps was ihr auch Z im Zähler kürzlich mit dem Nenner die Summe ist eins – oben dran, dass – positiv sind. Geofix – wird nicht 0 wird nicht negativ er dich – nur wichtig negativ unten, – die drei werden alle nicht nur nicht negativ Teilen auch nicht durch 0 keine Probleme, damit – Zahlen eine positive Zahl durch eine positive Zahl überall – Alle drei sind garantiert positiv – und – dann sehen Sie automatisch. – Das alles vom schreiben soll automatisch wird keine davon eins werden, als hättest Du ihm schreiben sollen. Nur ist garantiert kleiner als du und ist – garantiert kleiner als Frau nur das garantiert kleiner als – ist garantiert kleiner als 1a sehen Sie hier aufnehmen. – etwas Positives – Bus etwas Positives ist 1 dann kann nicht – 1 oder mehr sein, weil sie agieren was positives drauf und kriegen ein – musst du kleiner sein als 1 und genauso muss V kleiner sein wird je kleiner sein als 1. – fühlt sich als sie jetzt die Wahrscheinlichkeiten, – eine simple Umrechnung – es gibt – einen witzigen Effekt. – Wenn sie xy&z – mal um 3 erhöhen – NX Pension – 3y erhöhen Sie um 2:45 – Uhr, was passiert mit UVB? ✂ noch den Effekt, wenn – z.b. – Alle um 3 größer machen X + 3x – + 3y + 3 + 3, dann sehen sie, dass sie überall ehoch3 – rausnehmen kann aus dem Zähler kann sie auch drei rausnehmen – Bucht – so weiter und kürzen über ehoch3 rauskommt – dasselbe raus, also, wenn sie – sie auf ihre ausgehen überall dieselbe Zahl drauf hat kommt – er aus, – das fühlt sich an. – ist die übliche Art – Funktionen, die man da hinterher. ✂ Mietverhältnissen, – also die Verhältnisse von xyz die gehen den Bach runter uvw – haben im allgemeinen ganz andere Verhältnisse als Xyz die – Verhältnisse von xyz, die sagen aber auch gar nicht soviel man sich vorstellen X = 2 und Epson ist -3 und – haben sie ein Verhältnis von -3 halbe – das kriegen sie nicht in Wahrscheinlichkeiten – übersetzt – außer jetzt irgendwie mit einzahlfunktion, – können kein Minuszeichen haben auch Verhältnisse – übertragen direkt – zu übertragen. – gibt wahrscheinlich nicht allzuviel. – Monotonie das – wollte ich auch noch sagen, – sie X sinken – lassen y sinken lassen und Z wachsen lassen sich das hier an, – X – singt und Y singt und Z wächst, dann – wird das richtig weh größer. – einfachste begründet, die mir gerade einfällt ist folgende, sie – mal konkrete Zahlen dran, – um 1 verringern hübsch um 1 verringern und z. – eins erhöhen z.b. Dann soll die Abwehr aufgeben – sollte – runtergehen V sollte runtergehen sonst etwas faul, das ist wirklich so – einfachste begründete mir gerade einfällt ist folgende – um 1 verringern. 1. Um 1 erhöhen wir wissen man kann alle – erhöhen – es passiert nichts, wenn – sie jetzt danach noch mal alle um dieselben erhöhen z.b. Um – 1 + 1 + 1 + 1, – heißt also – verringern Y1 verringern Z um eins erhöhen, – sie das machen kriegen dieselben uvw, als wenn sie X zulassen – hübsch und so lassen und Z um 2 erhöhen. – steht eine 2. Okay, – was passiert, wenn ich XO lasse Ybbs und so lasse Z und zwei erhöhe – XO lasse – ich so wirksam, – dass ich so sad erhöhe ich um 2 Uhr, der Nenner – wird größer wird – kleiner – bei – passiert. Dasselbe bei – du und V sinken die Summe ist, aber eins der muss wie wachsen. – sie kriegen es dass sich nicht begründet, weil ich mit dem Pack raffinierten – Klimmzüge richtig wirklich begründet, dass es so eine Monotonie gibt, wenn Sie einen größer machen wird, der auch – nachher hinten größere Prozentzahl bekommen, sondern quasi Wahrscheinlichkeit – bekommen, – ist die übliche Art – Rechnung softmax. – Begriff softmax – dem ist doch leichter haben warum – Es ist ein bisschen gewagt ist es nicht wirklich ein Maximum, – es sind recht ansatzweise – klar, – man auf diesen Begriff jetzt kommt. Softmax. – auf weiche Art softmax – erfahren auf welche Art welcher von den dreien XYZ jetzt bei den drei Variablen welche von den dreien der größte ist, wenn X deutlich größer ist als Y und Z – hier eine große Zahl durch eine große Zahl und unten stehen noch zwei Zahlen, die relativ klein sieht, – wird faktisch eins werden? – ich soll dich größer ist, das Y und als ZV – steht eine Zahl, die viel kleiner ist als EU – praktisch null werden und – da wird praktisch null werden, also, wenn X – gewinnt gegen YZ = 1 V = 0 W = 0 mehr oder minder weich – fahre nicht, den wert des Maximums erfahren, wer das Maximum ist, sozusagen ein Argument – Maximum, – von den drei Zahlen ist, die größte das erfährt man eigentlich im Ergebnis meine fertig maximale – maximal haben. – was ist das Maximum aus 13 und 42, das – ist 42 das Maximum von 13:42 – Uhr, das ist nicht gemeint an der Stelle mit dem softmax sie erfahren, welcher der größte ist, wenn du gleich 1 ist – v und w. Deshalb hatte ich nur sind wissen sie X war der größte deutlich der größte und das auf weiche Haare zu weich überblendet, – Ja, es ist irgendwie ein Maximum, – ist die Funktion am Ende. Also wann hat die ganz normale letzte Schicht ich die Vorstellung und dann rechne dies ist natürlich dann nicht mit – im Nenner, sondern den Sattel mit 1000 im Nenner auch. Da müssen wir noch bisschen raffinierter arbeiten, – man wollen würde, aber im Prinzip ist – das – bis er steht davon mal – and – kann es als Wahrscheinlichkeit interpretieren, aber sind es wirklich Wahrscheinlichkeiten – allerletzte Maßnahme ist, das ganze so zu trainieren, ist man wirklich auch bisschen – besser – sagen kann, sind froh so eine Art Wahrscheinlichkeiten, – sagen, dass ich jetzt zufällig zu 100 addieren – und zwischen 0 und 100 fliegen, – wäre der allerletzte Schritt. – ist das schlimmste was von dem ganzen was davor kommt jetzt, – dann kommt auch noch ein Logarithmus vorher – nur eine Kommentarfunktion, sondern sogar einen Logarithmus, wie trainiere ich den softmax ich möchte jetzt hier tatsächlich, was – haben, was wie Wahrscheinlichkeit aussieht, – was ich mit guten Gewissen als Wahrscheinlichkeit verkaufen kann. – Stichwort ist – cross-entropy. – sich ganz schlimm an ist es gar nicht so schlimm eigentlich wie es sich anhört. Kreuzentropie – loss function. – Wenn sich ein Anlass war der – zwischen korrekt – und – das Netz liefert. – der Job war ja die – zu minimieren, – sie an diese – Idee einer Landkarte in – Millionen Dimensionen, – die – hat nicht 2 Dimension Salix Millionen Dimensionen getragen, – als für den los auf wie groß ist die Abweichung zwischen – dem was rauskommt – und den was rauskommen sollte – wir würden jetzt gerne immer den Berg runter laufen immer – den Berg runter laufen drauf und das Maintal – wenn möglich tiefes Tal erwischen – Gegenrichtung von Gradienten – Berg runter laufen, das ist ja unsere Strategie – trainieren. – kommt der Trick aus. Los Funktion nimmt man nicht sowas wie den quadratischen Abstand – den absoluten Abstand Airlines, sondern etwas was ich net kreuzentropie – hat dann mit Wahrscheinlichkeiten – zu tun. – habe ich am Wahrscheinlichkeit – and ich habe echte Wahrscheinlichkeiten, – ich schreibe mal P1 – P2 P3 – echten Wahrscheinlichkeiten. – Ich habe Ware hört sich Ware Wahrscheinlichkeiten, – also, – groß ist die Wahrscheinlichkeit, dass ist wirklich den Katze ist wie groß ist die Wahrscheinlichkeit, dass ist wirklich ein Hund ist Bild an und zeigt soll ich sagen Wahrscheinlichkeiten. – ich nenne mal Q1 – und so weiter, was hinten aus dem softmax rauskommt. – ist – für eine Wahrscheinlichkeit. – Schon jetzt geschätzte Wahrscheinlichkeiten, – also das Ergebnis – vom softmax – das Ziel ist dass Funktion das Ziel ist, dass die gleich sind. – möchte, dass das nicht die Wahrscheinlichkeit die reale Wahrscheinlichkeit – jetzt – trainieren, dass die Werte die aus dem softmax rauskommen – Näherung gute Schätzungen für Wahrscheinlichkeiten – sind – B1 Q1 soll ungefähr gleich sein. Möchtest gut gleich sein. B2 gut 2 und so weiter sollen möglichst – gut, gleich sein – es aber wahre Wahrscheinlichkeiten, – welche – Waren Wahrscheinlichkeit and haben wir eigentlich – dem – Set, – haben Millionen an Bildern, – steht da jetzt ein wahrer Wahrscheinlichkeit dran nachher ✂ ist es – ein besonderer Art von Katze 100% – kein Auto – kein Karussel 0% – 0% oder es ist nicht. Also, – den training setz, – man üblicherweise benutzt – die Wahrscheinlichkeiten, – die meisten davon 99 – davon sind 0 und eine davon ist – nicht in die mit Strahl 70% Note und – Ich – tun erstmal so als ob das hier so gleitende Werte wären zwischen 0 und heiß, – habe also 1000 – die – vorgegeben – sind quasi als Label ein Bild sollte lentförden 1000 Wahrscheinlichkeiten sind als Label vorgegeben – aus dem Netz kriege ich tausend Werte raus und ich möchte, dass sie tausend Werte, die rauskommen – 1000 vorgegeben Wahrscheinlichkeiten bestmöglich – wäre die dümmste Art an los Funktion, die sich hin schreiben können, – wir eine ganz billige Adanos Funktionen ✂ was man da ich probieren würde, wäre sowas für die quadratische Abweichung P1 – - Q1 ins Quadrat + – D2 – - 2 ins Quadrat + – und so weiter bis – heute schon mal groß durch wird man es nicht machen, – wäre die Summe der quadratischen Abweichung wird man so nicht machen, aber ist der playground von letzter Woche so ist der programmiert. – der hat einfach Quadrate addiert und wie Sie sehen, wenn Sie das tun – wann wird der los gleich 0 R kann ich kleiner werden als 0. Wann wird der los gleich null – 1 = Q 1 std zwei gleich kurz weiß und so weiter, dann wird er Lust gleich nur das wäre die einfachste atanos, – benutzt man z.b. Für Regression, wenn – Sie wollen, das P1 – genau den Q1 und so weiter, dann wäre das eine Art – Regression an trainiert, – könnte man machen, das hat aber nichts mit Wahrscheinlichkeiten – zu tun. Es stellt sich heraus, dass man sich wie Wahrscheinlichkeit wie viel raffinierter angehen kann und das ist dann die kreuzentropie was – man hin schreibt. – Ausdruck sieht man – dich völlig unmöglich aus. Ich hoffe erschreckt – sie nicht ganz es kommt es besonders vor, – man nimmt die erste wahre Wahrscheinlichkeit – mal den zweierlogarithmus oder irgendein Logarithmus, ich habe nicht mal den zweier Logarithmus – von der ersten geschätzten Wahrscheinlichkeit - – für die zweite – Klasse mal – den zweierlogarithmus wie ein Blitz jetzt weitergeht von Q2 – die – Wahrscheinlichkeit für die dritte Klasse mal den zweierlogarithmus von – der geschätzten Wahrscheinlichkeit und so weiter, das nimmt sich – da steht. – erstmal Stimmen aus. – allen Dingen – was ich fragen halt – das jetzt wirklich – wenn – Kuss gleich den PS sind – gehen wir halt ne und dann wird das ja nicht 0 dann steht was fürchterlich ist da aber wendigos gleich gps sind wir das nicht nur genau, das wird da nicht null. Es wird minimal es wird nicht null, – wird nur minimal es muss ja auch nicht unbedingt durch werden, – los sollte minimal werden. Diese hier wird nicht null werden, die – kreuzentropie als los, das ist das was man dann üblicherweise nimmt hinter dem – gleich noch erklären, warum das funktioniert, warum wird der wirklich minimal – sieht nämlich überhaupt nicht danach aus, aber – auf Anhieb können sich schon denken, was daran genial ist, wenn ich das nehme – die – des Lernens einzuschätzen – wissen sie noch nicht, wie gesagt, warum das minimal wird, wenn es klappt, aber es ist das tolle an diesem Ausdruck, wenn sie den nehmen Kuh – kommt aus dem softmax, die – ist vorgegeben. – Was ist genial an diesem Ausdruck? ✂ diese PS sind – ja bis auf 10, – wenn man ein Exemplar betrachtet man gucken wie man lernt jetzt Batch mäßig und so weiter, aber im Prinzip kann man sich schon mal vorstellen und gehe alles bis auf eins und null und eins ist eins. Na toll dann fliegen, also ganz viele von den Thermen Weg. kommt aus einem softmax – und an den bis II hier überlebt ist. Kuh kommt aus einem softmax entsteht dann die hoch irgendwas durch irgendwas – bilden sie den Logarithmus der Logarithmus aus jedoch noch was durch das – vereinfacht sich massiv – Logarithmus und e hoch heben sich weg, was sollte man hier dann auch in natürlichen Logarithmus nehme, ich hab hier schonmal zweierlogarithmus geschrieben, – damit ich ihn gleich erklären kann, wieso das funktioniert mit dem los. – können ja auch die natürlichen oder von mir aus den Zehner nehmen ist ja alles nur Faktoren davor ok – aus jetzt haben sie schon mal die Idee, warum das eine geniale Funktion ist, – ist er doch die große Frage, warum geht das überhaupt? Da muss ich mal bisschen weiter ausholen, warum funktioniert es überhaupt? – der zweierlogarithmus – nichts anderes als – viele Bits also – bzw. Nur von Bytes und Megabyte, wie viele Bits brauche ich zu sagen, dass das Ergebnis in Klasse 1 war – ein bisschen ausholen, warum das – das ist es tatsächlich, wie viele Bits – ich – vergiss – nicht hin benötige ich. – die Information – Bild – 1 ist. – ist - der zweierlogarithmus der Wahrscheinlichkeit – P1, – versuche ich das mein Beispiel klarzumachen, ich habe – mal was aufgenommen zu Entropie. – kommt das etwas länglicher vor stellen sich vor – P1. – war ein 256 – ist die Wahrscheinlichkeit, dass – ist – Klasse war – brauchen Sie dann - – den zweier Logarithmus von 21 56, um – diese Information zu übertragen, das war ein – wie hängt das zusammen ✂ 156 – würde heißen, dass das – was sie herauskriegen. – brauchen 8. Bit 12056 – daraus, der zweierlogarithmus ist -8 - davon – sind 84 brauchen 8 Bit – ist am einfachsten vorzustellen, – wenn sie wirklich 256 – Klassen hätten – 0 – Klasse – verschiedene – Klassen, die alle gleich wahrscheinlich sind und – 256 ein – 256? – zu sagen, es ist die Klasse 1. – Ja, die Klasse 1, dann würden sie die Binärzahl – 00000001 – übertragen und so sagen, es ist die Klasse 255 – würden sie die Binärzahl 11111111 – übertr? – so weiter sie bräuchten 8-Bit und mitzuteilen welche Klasse das ist – die können auch keines der Witz weglassen, – fehlt was an Informationen. – acht Bits aber 8-Bit reichen auch – man sich am einfachsten bei so einer Gleichverteilung überlegen, was ich jetzt nicht anfangen will, wenn sie – haben, die häufige sind seltene haben – das trotzdem ist hängt von der Wahrscheinlichkeit ab – geht auch mit gebrochenen Beats, also, – wenn Sie hier gebrochene bis – 10,3 Bit das ist okay. – kriegt ein gebrochenes bit wenn man es noch einmal überträgt, man kriegt ein gebrochene Beziehung. Meines ist ja häufig macht und es Mittel bildet – kriegt man auch. Dass ich dich – also das sagt, was über die Zahl der Bez, die ich brauche, der – 20. Und muss von P1 mit Minuszeichen davor sagt was über die Zeit der Witz, die ich brauche, um zu sagen ist ist die Klasse 1 – gewesen. Entsprechend – für die anderen, jetzt kann man sich überlegen, viel Bits man im – braucht. – Sie – jetzt nehmen - P1 – mal der – von – B1 – - B2 mal – der zweierlogarithmus von – - P3 – der zweierlogarithmus von – und so weiter durch die ganze Reihe durch, – haben wir brauchen wir im Mittel – weniger geht nicht, das ist das Beste, was wir machen können. Weniger geht nicht. – meine ich, damit habe ich jetzt nicht hin, weil ich zu bin, wie viel Bits – wir Mitte oben – ich auch nicht hin und zu sagen, welche Klasse das ist, inwiefern. – Ist das jetzt ein Mittel – Mittelwert? ✂ noch etwas ich hier oben hingeschrieben – habe – das hier. – Ist das hier oben? – Und das geht dann ja so weiter, dann kommt der nächste. – Dieser hier – so weiter, – fern ist das hier ein Mittel – Mittelwert. ✂ ist schon versteckter die vorbei dem P1 ständig vor durch die 30% – nur, dreimal das – was da in – rot – ist. – geht das hier weiter p2plus – B2 mal mit dem Minus – lock und so weiter B2 = – von 0,3 und hier – steht dann bloß von – mir aus 0,1 – mal und – hier steht -9° – muss und so weiter, dann sehen Sie das ist eine gewichtete Summe 30 – % von dem roten Wert + 40 – % oder was von diesem – Wert und – so weiter – mittels – die BIZ, die man für die einzelnen Klassen braucht. – weiß, es ist etwas verborgen. – und so viel Prozent des P1 von den Beats, die ich für Klasse 1 brauche und dann kommt bloß soundso viel Prozent von minus und so weiter – wifi für Klasse 2 brauche und so weiter, – ist zum Schluss das was man als Entropie bezeichnet – viel Bits brauche ich im Mittel? – ein gewichtete Summe über die Zahl der Witz so – und jetzt kommt die kreuzentropie – mischt jetzt zwei verschiedene – hier kam ja nur p vor. – kreuzentropie mischt jetzt diesen ganzen Kram und dieser hat - – T1 – Lok – sind zweierlogarithmus oder – irgendeinen – dann hat sie den Faktor davor - – P2 – von – - P3D – - – und so weiter, das heißt, – haben sie auch eine Gewichtung – nachdem Wahrscheinlichkeiten ti stehen – davor, – viel bitsy bräuchten, wenn die Wahrscheinlichkeiten – Kuvert? – Es kann man sich überlegen, ob das größer – ist oder kleiner als die Entropie – passiert. Sie – haben eine andere Verteilung. Kuh – haben sie jetzt im drin Stadt.de diebitz – bauen – sie mit Hilfe einer anderen Wahrscheinlichkeitsverteilungen – und wichten dann. – es mehr oder wird es weniger werden? – die ✂ der kann also allenfalls größer werden nett ist gleich der Entropie, wenn die Wahrscheinlichkeiten übereinstimmte E1 gleich kurz und so weiter, ansonsten – ist er größer als die Entropie, also, das heißt ich versuche wirklich die kreuzentropie zu minimieren es ergibt – die kreuzentropie als los zu benutzen, dann passe ich die Wahrscheinlichkeiten – an – mal die wie deine Begründung, warum das so ist. – Sie die Zahl an Beats perfekt nehmen für – die erste Klasse nehmen Sie soundsoviel Betz, wie die Wahrscheinlichkeit sagt für die zweite Klasse nehmen Sie so und so für PC wie die Wahrscheinlichkeit sagt und so weiter, dann haben Sie bitte so – viel bis wie den Tobi sagt. Ok, – werde ich meine bis nach einer anderen Verteilung – bisschen mehr ein bisschen weniger auf jeden Fall nicht perfekt, das ist kein perfekter Code, ich – brauche beide nicht perfekt ist im Zweifelsfall mehr wird – wenn die Wahrscheinlichkeit übereinstimmen Q1 gleich P1 und so weiter, dann brauche ich genauso viel bit ich brauche im Zweifelsfall mehr wird – heißt das was hier raus kommt aus der kreuzentropie ist größer als die Entropie. – das ist genau was ich von dem los Funktion haben will. Eine loss function habe ich jetzt die sich schön berechnen lässt, weil in Wirklichkeit sind ja diese Wahrscheinlichkeiten fast alle gleich null, die PS sind fast alle gleich null, – Grützwurst ist sich wunderschön berechnen, weil in drin das Q ist ein e hoch irgendwas durch – sehr genau stroke. – waschfunktion hier bin ich dass es los Funktion nehme, die kreuzentropie – der weiß ich eben, sie ist nur dann der Entropie, – ich Perfektion habe. – Das ist die übliche lochfunktion, die man daneben für Klassifikation – mit softmax – an der Stelle schon etwas Gehirnschmalz drinnen – funktioniert – jetzt haben sie alle Schichten gesehen, es gibt einige Tricks beim Lernen – kann z.b. Vor. – ist also kein Wunder, dass es erst vorbei Jahren erfunden worden ist, aber die große sich Zutaten sind relativ einfach zu verstehen.