[Playlisten] [Impressum und Datenschutzerklärung]

Bausteine neuronaler Netze am Beispiel Inception-v3


CC-BY-NC-SA 3.0

Tempo:

Anklickbares Transkript:

wie ein ernsthaftesNetz funktioniert InceptionGoogle Inception3dem Bilderkann in 1000 Klasse natürlichim Hause auch schon bei angewendet haben alsUndwollte ich noch mal erzählen, was ein Baustein vorkommt, also so ein Neuron mitGewichten muss die zieren addieren ein weiß Wert drauf addieren und dann was nicht den Jahres tun insbesondere Relikte.unit anwenden,sowaskommt vor es kommen noch paar andere Sachen vor weniger andere Sachen undhat man alle Bausteine, die man braucht, um richtig komplexe Sachen zu machen, wie eben mit den Zäpfchen. Ich zeige erstmal den Aktion netterweisenämlich jemandsofort irrt, dass es im Browser läuft.Also, sie brauchen nicht den Wahnsinns Rechner. Sie brauchen auch nicht die Farmvon Servern beiGoogle oder Microsoft oderbei Amazon oder sonst woreicht tatsächlich, der eigene Rechner derBrowser im eigenen Rechnergibt's noch ein kleinen Trickwerden die 3D Funktion vom Browser benutzt Web TLheißt, es läuft schonentscheidender Teil auf der Grafikkarte, obwohl das Ganze im Browser ist ist ein entscheidender Teil auf der und Verarbeitung,wenn dir das der abschalten mit use GPU, dann wird es deutlich deutlich langsamer, ich lass mal lieber an, weil der arme rechne hier sowieso schonüberlastetgerne und er soll noch nebenbei aufnehmenhier sehen war Version3 imBrowser laufend.Nicht auf dem Server laufen zu Dennis läuft im Browser und S-Klasse ich ziehen uns Bilder, ich habe eben schon mal eins geladen hierein privates das garantiert nicht an trainiert worden ist und wir erfahrenwill 18%Karussell 11% sola dich 8% ein Pizza Hut mit 4% und ein Radioteleskop 2%obersten5 von 1000 klassenassistentin1000 Klassen unterschieden und das sind jetzt die Top 5 von 1000 Klassen,ist gar nicht, weil sie dumm ich da noch mal ein anderes Bildchen.Jena Fluss,der jetzt neben war schon anzeigt istBild Tal die Entscheidung hauptsächlichgetroffenund sie sehen binnenwenigerals drei Sekunden im Browser hat, er rausgekriegt, wähle 80%Lakeside11% dem 2%about how aus, ichsehe jetzt keinen Boathouse, aber sei so kann nur sehe ich jetzt auch nicht, aber es passt offensichtlichdazu, irgendwiescheint doch was wirklich passiert zu sein, sie mit der Maus drüber gehen,es jetzt in Ergänzung zum reinen Inception wenn sie mit der Maus drüber gehen sehen Sie welcher Teil des Bildesist für die Klassifikation.Man kann das Netz noch mal und angucken, welche Pixel jetzt?sind und welche weniger entscheidend sinddie Wäsche Mapping und was noch einen an,habe einfach die Bilder gewählt aus irgendwelchen Urlaubsfotosund esist erstaunlich wiegut es passt sich Ihrem Minivan Beach wegen interessant Mini Bass Cabjetzt nicht wirklichgroß oder movieman ist es beim besten Willen auch nicht, aber Minivan ja vielleicht weil es ein bisschendie Schnauze, falls du bisschen kurz ist von dem Auto passtauch erstaunlichgut undwir haben vier Jahren etwas komischenmussich in der kommt das wirklich hier alsraus BierSkin, na ja gut analogue clock & George und Vortragvereinigte belkoman einfach so viel Bilder Dich mal meinen eigenen raus gegriffen habe und sie sehen bei allen Vieren ist es erstaunt nicht das läuft im Browser und es läuft in Sekundenschnelleim Browser, wenn sie das nicht im Hause richtig offiziell inC + + und Cdem richtigen spiele Rechner mit einer weit ist Grafikkarte können sich vorstellen, dass stutzt einfach so durch.gibt andere Netze die ähnliches machen und die laufen Echtzeit mit dem Video mit auf dem gut ausgestatteten Rechner, also das kann man lokal machen zum Auswertenvon den Netzmanim allgemeinen da nicht mehr die große Server fahren, das können sie lokal machen an trainiert ist eine andere Geschichte, wenndu das auf lokal Rechner an trainieren sitzedabei Wochen dran,wollen Sie lieber auf der Serverfarm machen.Tipps dann im Netz machenob man das jetzt hier auf dem Handy machen will ist auch eine Frage, vielleicht noch nicht auf dem Handy allein schon umnicht unnötig zu strapazieren, dusiehst also aus, das macht den Zäpfchen sie gehen mit einem Bild reinsie kommen in der Klassifikation raus,Bild hat 299 x 299 Pixel,ist jetzt jetzt irgendwie sie größer dargestellt, aberZahl der Pixel mit man reingeht 290 x 290sie kommen raus mit 1000 zahlen, wir sind jetzt nur die Top 5 dargestellt,komm raus mit 1000 Zahlen zwischen 0 und 1.jede von den Zahlen steht daneben fürwird clock und so weiter. Tausend verschiedene Begriffe, die kann ich auch mal welche Begriffe das sind.sind die mal aufgelistet, dann kann man auch noch nebenbei Englisch lernen, alsoalle möglichen Hund Arten durch AustralianTerrier English Setterder hinten und genieße das Hundefans die Leute, die das hierhaben, Nevenaauch und so weiter einen Tiger Cats die Katzen und die Hunde müssen natürlich extrem dabei sein,Border Collieauch geben so ganz.alle Geschichten 1 soccer ball oder ein Feier baut, eine gondola und so weiter und so weiter, das sieht die 1000 Kategorien in geht das dann klassifiziert wird.gibt noch den Trick das man seineverkehrt schon mal, dass man die letzte Schicht weglässt diesein 1000dass man die letzte Schicht weglässt und ganz anders an trainiert, dassdie Arbeit die Google vor erledigt hat mit alldem Schichten davor, dass sie sich dieihr immerandere letzte Schicht dahinter hängen und ganz andere Sachen erkennen,dann in der letzten Schicht, weil die Schichten davor sind wunderschön schon trainiert auf alles wassopassiert normalerweise die wenn Sie das unterscheiden können alles mögliche heißt das ist Geschichten dadrunter Johnich sagen fast eine Art von visueller Wahrnehmung.wann ist nicht auf diese 1000hier eingeschränkt,man könnte viel weniger machen. Man könnte andere machen,kann man da noch ein bisschen nach trainieren ist ein Trick für meine Sis verwendet Rezeptschon verwendetdas ist die Anwendungsseite könnenan man den Code rein gucken. Der ist netterweise auch Open Source undsieht danndas Ganze gesehen enteisen,wie das in Peißen zusammengebaut wird.ganze ist geschriebeneiner Bibliothek namens tensorflow Googles Bibliothek namens tensorflow, diedie schlimmen Sachen macht,die harten Rechnungen machtin der auch einiges an Raffinesse verborgen ist und das läuft dann wahlweise auf dem lokalen Rechner oder es läuft auf dem Serverfür die Webseite des eben jemand noch mal so gebautesläuft.wie es hier steht, läuft es auf dem lokalen Rechner als normales Programm oderder CloudProgramm,macht man heute die ganzenNetzesindalle in Peißen dann geschrieben,Trick ist das die schlimmen Sache gesehen sowas von wegen tensorflow TF tensorflow, dass die schlimmen SachenCCplus plus geschrieben werden und dann auf der Grafikkarte laufen oder sonst wo laufenjeden Fall sind die gar nicht in Peißen geschrieben, die stimmen Sie dieseganzen Einstellungenvon außen die Konfiguration, wer macht jetzt was wie viel Schichten habe ich mit wie viele Neuronen? Wer ist hungrig verbunden Konfiguration,die mache ich in Peißen. Das anstarten mache ich in Peißen,die hattenRechnungen die sind nicht in Python geschrieben, das wäre natürlich zu langsam.kann man sich angucken, wie das Netz gebaut ist sie hier Inception V3gehen rein, das ist netterweise als Kommentar darüber geschrieben, wir gehen rein mit 299 mal 90 mal 3 will sagen, sondern 90 Pixel breit 290Pixel hoch oder andersrum unddrei Kanäle tief rot grün. Blau Rundhals Farbkanäle tiefgehen wir reinKommission erste Schicht von Evolution, ichsag gleich was diese einzelnen.bedeuten, aber hier sehen Sie OK conf 2D eine zweidimensionale convolution,wird irgendwas 3 x 3 eine 3 x 3 Matrix 32Schichtengezogen über das Originalbildin Zweierschrittengar nicht in den Rheinwir gleich nachher noch mal, was das alles bedeuten könnte,haben sie ein kleineres Bild, aber tieferesBild 32 tiefnicht mehr drei Kanäle tief sondern 32 tief deswegen dieser 32 zusammen, das war ein 30 Schichten gemacht.noch mal eineconvolution gebildetes wird noch mal ein Korn Evolution gebildet. Bis dahin nichts Neues, dass ich eine weitere Operation sollgleich noch was zu maxpool gesehen.MaxpoolOffensichtlichdazu so ist hier verwendet ist es hat gleich zwei, dass das Bild kleiner wird jetzt ins x 73 x 73 x 64 tief und wiederkommtsolution und wiederkommt solution und wieder maxpoolwir gehen runter von 17071auf 35x 35, das Bild ist jetzt nur noch eine Briefmarke dafür, dass ist jetzt 192tiefSchichten tief das Bild.geht jetzt so weiter. Jetzt gibt's ein paar raffinierte Geschichten,die parallel laufenman ein Evolutionund dann parallel noch mal zwei convolution,also noch mal 3 Konvolut Chance undhier wird noch mal Levelspule. Ich sag gleich, was diese Sachen bedeuten und conf zweiaber nur zeigen, dass sie sehen okay, das sieht die Operation die Vorkommen undschreiben einfach mit dieser Hypothek tensorflow und anderen Bibliotheken. Die sind zwischen gibt's schreiben Sie einfach in Paris, was sie haben wollen und hinter den Kulissensie mathematischen Monstrositätenhöchster Geschwindigkeit. Dielaufen da nicht in Peißen.da werden Sachen hier parallel gemacht kommt Blut und so weiter und parallel der hier und so geht das weiter und so geht das weiterendloswer endlos Schicht um Schicht Schicht um Schicht, wennich mal wieder selber maxpool conv2dconf 2D2D averagePool, wieviel Grad 2. DSist deep learning. Es ist eben sehr tief das ganze scheintgar kein Ende zu nehmen hiernoch nicht irgendwann nur jemals Ende Golf 2 Legos 2-D maxpool,2Dsage gleich, was das bedeuten soll undso weiter und so weiter ist ebensehr tief und irgendwann sind wir jetzt am Ende hier.kommt hierjedesNeuron ist mit jedem der Schicht davor verbundensoftmax unddas war's dann bitte an,sind die Operationen die Vorkommenbenutzen einfach so eine Geduld, ich werde jetzt tensorflow um das zu konfigurieren, was soll jetzt in welcher Reihenfolge bittewerden?hinter den Kulissender Rest dann praktisch vollautomatisch,was wird auf der Grafikkarte, wie gemachtschieben, was auf dem Server raus, waswird, die parallelisiertkann man einstellen, aber es ist sehr sehr sehr viel vollautomatischgemacht auch das rückwärts rechnen mit der Ableitung.steht jetzt nichts von Ableitungen, was auch immersoflo weiß, wie das Netz aufgebaut ist. Es weiß deshalb auch wie es rückwärts Ableitungen ausrechnen kann back-propagation machen kann, weildasim Hintergrund ohne dass wir uns großartigmachen müssen.wollte ich jetzt noch maleinzelnwas heißt das jetzt eigentlich was davor gekommen müsste sie die Bausteine aber gesehen haben, das sind die üblichen Bausteine, wie sie jetzt hier in Inception vorkommen mit dir aber auch sonst in den derzeitigenneuronalen Netzen vorkommen, die sind alle nicht tragisch, wir haben alle komische Namen zwar, aber die sind überhaupt nicht tragisch,kann man ziemlich schnell verstehen.naheliegendste dürfte? FC sein,kam ganz am Ende eben vor. FC heißt nichts anderes als fully-connected so stellt man sich eigentlich oder hat man sich sehr lange neuronaleNetze vorgestellt vollständig verbundenhaben eine Schichtsie haben eine Schicht,wir gerade zusammen bastelnMann gibt der jeweils an, welche Schicht gerade zusammengebastelt wird und fully connected heißt,hab mal drüber unsere Schicht unsere aktuelle Schicht unsere aktuelle Schicht, der gerade gebaut wird. Aktuelleconnected heißt es ist alles mit allem verbunden jederaus unserer aktuellen Schichtmit jedemder Schicht davor verbunden, was heißt das wird rechnerischteuer undwird auch von der Optimierungziemlich teuer.Dann haben siemassiv viele Gewichte.Anstellesowas, wenn man's wirklich zeichnen wollen würde sind ich kann ich anfangen sollen, das komplett so zeichnen.wäre jetztseinervollständig verbundene Schicht.Ich habe mal da vorher noch vorherigeSchichtSchichten kommen vor,dancer Flo schreiben Sie eine Zeile sowieso FCsie kriegen so eine StrukturSchichtdie Sie gerade da anlegen ist fully-connectedmit der Schicht darunter jedesNeuron ihreaktuellen Schicht ist mit allen drunter verbunden, das kam eben ganz am Ende vor.sie siescheint, also was dafür zu sein und die letzte Schicht die letzten Schichten zu bildendann machst du die.Intelligenz reinzubringen, das istnächst schwierigerist ja komplett.Nation Land geschriebenHängungwird nicht wirklich gerechnet.Das ist einfach nur so ein bisschen hin und her schieben,ja irgendwie so im Bildformat. Jeweils.zeig dir das mal so.Schichten die Folgen hier alle noch dem ganzen Bildschirm quadratischenRaster und ich das hier perspektivisch vorstellen, also einRaster ist in die Tiefe gehend vom Bild.Wenn sie jetzt mehreredavon haben,haben eine so eine Lage an Neuronen undhaben noch so eine Lage anNeuronen oder mehrere davon imselben Format,wir jetzt 3 x 5 im selben Format,ist concatenationdumm.hängt die einfach hintereinander und das gerechnet wird werden, die einfachgehängt die beiden,siestapeln. So banal ist, das dafür braucht man natürlich irgendwie eine Rechenoperation, das ist diese RechenoperationfürDas könnte ich bald mal gerade im Kot zeigen.das wirklich so banal ist, also keine weiteren Neuronen ist es jetzt einfachErgebnis gestapelt,jetzt mal wieder sehen. Sie konkret da wird was zusammen gestapelt,nehme meinBildin drei verschiedene Schichtenan Neuronen ein ist 64 tief dieist im Ausgang auch 460 die letzten zwei Schichten übereinander, die ist im Aufgang 64tief das sind drei übereinander diesen Ausgang 96tief unddiese hier ist im Ausgang 64tiefman die jetzt alle zusammen nimmt.haben hier 64alsoStapel aus 64 gebendendann aus dann vom selben Format noch mal 64vom selben formatierte sind hintereinander 96,raus.das sind zweiDa kommt 64 raus288aus dem ganzen Blog.com 288Schichten aus kompletteinfach die Schichten übereinander.gibt's mehrere kleineNetze sozusagen parallelin diesem Bereich kleinen Ärzte, die parallel laufen,er sich ja nureine Ebene dann zwei Ebenen übereinander drei Ebenen übereinander drei Schichten übereinander zwei Schichten übereinander allevom selben Format und die werden dann übereinander gestapelt aus dem Schluss hat man 288das macht dieseshier, wasist ziemlich banal?stapeltwenn das hier schon starke sind, aber das sind zwei Stapel und das ist ein Dreier Stapel im sehr gut, dann haben wir zum Schluss ein Fünfer Stapel,istgroße.dahinterflachmachen,ist genau super. Na, der kann Ende voreine Schicht haben hier.Bedeutet chatten, dass sie jetzt habe ich 12 da drin, XII Neuronen einfach hintereinander hängen, jetzt verliert seine Dimensionalität1012wieder einfach nurArchiv Arbeit. Es wird nicht gerechnet werden.diesen Euro und so betrachtet, als ob sie alle gleich fertig sind in einer Reihe stehen, das ist Flecken.eben weiter am Ende vorist auch eine banal Operation. Daserzähle ich um den klarzumachen, dass das meiste wirklich einfachist, dann passiert einigesist raffiniert, aber das meiste ist einfach nur hin und herschieben Formate anpassen,ist eigentlich zusammenpasst.So, jetzt wird er mal ein bisschen spannender max-pooling.und average poolingkam zwischendurchvor da wird jetzt mal gerechnet, aber nicht wirklich mit Neuronen.zusammenfassen offensichtlichdu etwas zusammengefasst, das können wir noch mal im Quellcode sehenSie kommen hier mit 147x 147nennen Pixel sozusagen an, so kann ich das Bild schon geworden 64 tiefgehend60 SchichtenResultaten und dannkommt ihr ein Max Pool 3 x 32sie in aha was rauskommt ist kleinermit Faktor 2 am Rand ist ein bisschen komisch, da muss ein bisschen gucken, was man mit dem Rand macht man den Rand behandelt, aber es ist ungefähr um Faktor 2 kleiner Bissen was weggefahren ich 147 / 2.Rand haben wir ganz weggeschnittendiesem Falldiedazudie Zahl der Punkte,die man in XY auflöst zu reduzieren.Das auf Bananehat genauso average Pool.Alsohabe eine Schicht in einer bestimmten Größe,nehme einfachheitshalber 4 x 4, sonstich zu dir nachdenken so 4 x 4nicht gezeichnet ihr das ist vorne,ist oben.habe so eine Schicht 4 x 4und ich will jetzt die Größe reduzieren.am einfachsten umFaktor 2 auf 2 x 2pooling der Name soll es ihnen sagen, was machen sie um von 4 x 4 auf 2 x 2 zu reduzierenalso ziemlich Banane werden, diesevier hier untenverrechnenundden Einwohnern bekommen und zwar bilden wir von denen das Maximummax-poolingoderden Durchschnitt,schreibe jetzt einfach soaverage pooling, was heißt average pooling sprechenfür die anderen?Wir werdenrechtsoben aus diesen Vieren bekommen,Durchschnittund so weiter für die anderenwas hübsch aussieht, zeigt nicht noch ein hierda oben.den unten natürlich entsprechendEs gab noch die Angabe Streitdie war hier zweiim englischen ja klar, was ist Scheid bedeutet an der Stelle?Schrittweiter, alsowie weit marschiereich jetzt weiter,ich umziehe ein Schrittmacher, was mache ich hier im Original im Original mache ichSchritte,ist der strijd.InRichtungen jetzt vertikalwie horizontal strahlt,ich im Zielein weitergehe,gehe ich im Original vondem ersten blauen zum ersten Grünstich im Original zwei Schritte weiter. So kann man es aufpassen, die könnten aber auch sagen, ok, das Resultatist um Faktor 2 kleiner in jede Dimension, also insgesamt um Faktor vier bei der Anzahl der kleiner.Rand, der muss man anders behandeln.Ergebnis ist in jeder Dimension um Faktor 2 kleinerSchicht mit den Ausgangs werden, das ist der Streitist seit an seit von 1 hätten dann wäre ich ihr von dem grünen der nächste würde hier aus den vieren gebildet mit demHandy fact 4 x 4was muss mit dem Rand undich würde in einerschritten dann weitergehensie gerade gesehen, das ist nicht was bei Inception an der Stelle passiert in der Stelle war zeitgleich zwei, abergab noch eine andere Angabe.großFläche sozusagen ist über die daoder Mittelwert gebildet werden, dass sie wäre zwei mal zwei.habe ja hierimmer zweimalzweiwären zweimal zweihatten wir im Kot da nicht, wenn ich mich recht erinnere,ist 3 x 3.du sie gehen überPunkte Holz Sonntag vertikal Bindemittelund dann geht die zwei Punkte weiter.ist ein bisschen raffinierter, diehaben mir zu gar keinen Überlack. Wenn du das mit dreien macheneinem Streit vondas heißt im Ergebnis werde ich dreimal drei erwartenvonden sechs Sonntagevertikal die Hälfte, deshalb dreimal drei nicht weniger dreimal drei,im Rand umgehen.ganzen hier oben.mache das mal so, ich kriege sie einfach ja ein, dassind dreimal drei, die werden verrechnet.Ergebnis im Zieldie nächsten drei mal drei, ich mache einen Schritt von zwei die nächsten drei mal drei, wo gehe ich hinund dann bin ich hier, dass sie die nächsten drei mal drei und soweiter da wie das weitergehen muss. Also das ist was da der selig dann passiert mitüberlappt dazwischen.Dasist Max pooling und average pooling.Jetzt an dem hauptsächlich dazu eingesetzt,der Neuronen drastisch zu verkleinern, siefangen ja schonrecht verkleinerten Bild an 299x 299dann wird es Schritt für Schritt kleiner insbesondere eben durch diese Schritteund erfüllt spuling wird es kleiner.sehe gerade in meiner Liste, dass ich einenQuellcode ebenhabe oder Pouch,der ist noch so lustig.überraschend, dass ich den erzählen will,out ausfallenund so will Hier haben wir ihnEndeso bisschen komisches fully-connected davorfetten. Lockout-tagout.Istdoch einer.raffiniert,haben eine vorherige Schichtwieder kommtirgendwie an und dieaktuelle Schicht, die sollsein.der Witz istWas man jetzt macht, istquasi mit Schrotgewehr da rein.diewerdensozusagen zufällig weggeschossen,ist dropout.Eingänge werdengelöschtmuss ja die anderen Eingänge bisschen justieren, aber ich will es nicht so weit treiben,ich erstmal die Grundidee war dropout.ist jetzt zufällig Eingänge wegnimmt undwieder andere das sollte dazu sagen, also nicht dieselben,sondern immer wieder andere das soll ich dazu schreiben immer wieder andereaus nicht das orange rot Gewehr auf dem Computer schießt sondern als ob sie ein Wackelkontakt hättentrifft es eher das Bild immer wieder andere Eingänge zufälliglöschen. Training zufälligdeutschenmachen sie nicht, wenn Sie das ausrechnen später anwenden das Netzbeim Training.führt das,ist das gut?Idee, sie kriegen einerseits so Zufall drauf,habennicht immer wiedergleichenmit denen sie an trainieren, sondern die werden zufällig verfälschteWerte, dann kommt natürlich auch einen Zufallswert insgesamt drauf hat ihren einfach Würfeln und irgendwie Zufallswerte drauf verlieren.Handy defekt haben.was hier passiert ist beim Lernenbeim Training beim Lernen lerntMaschine die daehrlich zusammengebaut wird beim Lernen beim Lernen lernt sie robust zu sein, Maschine lernt auch noch zu funktionieren, wenn jemand im Schrotgewehr drauf geschossen hat,haben sie nämlich so an trainiert, dass sie das ab kann, sie ist auf Robustheitjeden Fallder Sinn Regularisierung.Gegenteil von overfittinghaltetwas überraschende Maßnahmeauswerten das Netz dann wollen sie natürlich alle Verbindung haben, das istdropout.Dann haben wiran Bausteinen den Vorletzten,Dirigent häufig vorkommt convolution Faltungaber an dieser Stelle keiner Faltungsie sich mit Signalverarbeitungbefassenbei Bildernaudiosignalverarbeitungunderfüll mir aus die Signalverarbeitung vonSamples von der Netzspannung,stoßensie zwangsläufigIdee erst folgen,wenn ich ein Signal habe,bisschen Bild des Signal.die Zeit inSie messen gegenMillisekundeähnlich oder bei Audio müssen Sie 48000mal Sekunde z.b.Bildern haben sie das ganze zweidimensional wird ein bisschen schwieriger vorzustellen sehen wir gleich.ich habe ein Signal fürjeden Zeitpunktich einen Messwertfür jede Millisekunde, z.b. Wenn sie mit einem Kilohertz Abtastenhaben sie für jede Millisekunde einen Messwert.ist eine ziemlich banal Idee, wie man jetzt anfangen kann zu filtern.können sie jetzt hier bestimmt Frequenzen rausnehmen,wie kann sie bestimmte Frequenzen betonenBereiche in denen es rauscht rausschmeißenoder ihre 50Hertz, die sie absichtlich haben wollen, wie können Sie die alleine raus picken oder gerade die 50er als unterdrücken und festzustellen, was sie an Dreck drin haben,passiert üblicherweise mit Faltung, was man macht ist folgendesnimmt immer.ein Club von diesem werden wir z.b. Vier von diesen Werten undrechnet dann immer das ja irgendwannmal 5den ersten undminus zweimal denzweiten undden drei undmal den viertengibt ihnen ein Ergebnis und das merken Sie sich. alsErgebnisbekommtdannErgebnis rauswieder zumSchluss.sollte dir vielleicht sagen, Eingangssignalhier Ausgangs.diese neben uns die vier Werte und haben dann einenWert,diesen Wert manno, 15 x -2 den mal 3 und denmal -7 von mir aus gibt irgendwie einen neuen Wertder Stelle und das ziehen sie jetzt durch knallhart ziehen Sie das durch überall,nehmen sich die nächsten.unddamitden nächsten wertrechnen 0,5mal diesen - zweimal dem dreimal diesen - 7 Mal denbekommenden nächsten Wert und so weiter.Das istdas ist eine Art, die man filtern kann.sehr allgemeine Arzt oder gehört filtern kann ist die Idee hinter deralso ich erzeuge aus einem Eingangssignal ein Ausgangssignalrechne einfach so zu viel mal den ersten sonst viel mal den zweiten zum dritten und vierten gibt einenneuen Wert und dann rutsche ich eins weiter.DieselbenZahlenwertesonst immer den ersten Soße und so weiter geht meine Multiplikationen, also, das ist ja jetzt auch wieder.Der erste mal 0,5 hier fahren, jetzt ist aber ein anderer I und dann der nächste mal -2 und der nächste Mal drei und der nächste Mal -7 und so weiter gibt neuen Wert und so weiter so hübschen sie durch.ist Faltung.werden zweimiteinander gefaltet. Hier. Das Eingangssignal wird gefaltet mit diesem Herrnnennt sich das dann hat sich übertreibenwerden miteinander gefaltet.schaffen Sie es jetzt mit Hilfe einer Faltungunten die Ableitunggeschätzthier dieAbleitung und im Eingang Signal zu erzeugen.multiplizieren Seeeinfach Ableitung, sie nehmen einenund den nächsten Wert und sagen der nächste Wert mal einsunter Wert der vor-1Dann haben Sie diesen Wertvon dem ziehen Sie den red davor abteilensozusagen durch 1. Dann haben sie eine sindDurchsetzung der Ableitungdurch die Faltung kriegen sie nicht Heizung der Ableitung besser. Wäre folgendes im ersten Semester mal dran. Ich sag es. Sicherheitshalberich mal Ableitung numerisch haben wollen, machen Sie es bitte nicht so, sondernsie machen, dass metrisch.lassen einen frei,nehmenmal einhalb und sie nehmen den vorderenmal Minusan. Der beschreibt jetzt minus einhalb mal und der neue Wert kommt die denn bitte raus. SymmetrischeDifferenzen kann irgendwann mal im ersten Semester vorsich besser an ist auch tatsächlich besser. Also,dass sie zwei Schritte dazwischen habenvergleichen den und den bestimmen die Steigung.der gerade durch den und den undordnet die als Steigung diesem Punkt in der Mitte zu.was wir noch machen, zweite Ableitung und so weiter gehen auchUnterlagen aus dem ersten Semester dannkann man damit z.b. Machen und wenn sie Ableitung bilden können kann sich vorstellen. Okay, dann geht was damit,wir können auch alles möglich sicher filtern können zusammen. Ok 50Hertzbetont werden. Alles andere soll möglich stark unterdrückt werden,kriegt man auf diese Art hin.große Klasse von filtern Sie auf diese Art.mit Hilfe der Faltung.das ist der Gedanke dahinter, das ist also eine Art Filterungder Witz ist dass diese Filter jetzt gelernt werden dieseZahlen hier die an ist leicht schon, das sieht so aus wie Neuronihr diesen Euro und das jetzt irgendwas tut das Sindbad sich Gewichte ist, wenn noch was drauf addiert dieseFilter werden gelernt,ist die Idee diesen convolution Schicht es sindendlich malin Ruhe.Nach dem ganzen hinher Geschiebe mit Kletten undweiter concatenation.noch ruhen, aber auf ein etwas raffinierte Art mittelfaltungim zweidimensionalen oje.sehen, also, wir kommen mit.Ein Bild sozusagen an odereinen verkleinerten Bild mit so und so viel Schichtenin der Tiefe kommen wir aneine Faltung.Im zweidimensionalen manguckt sich diese Idee hier aus der eindimensionalenSignalverarbeitung an irgendwieein Signal Spannung gemessen oder sowas, die CD guckt man sich an und sagt sich das muss doch auch in zweidimensionalengehen tut es beider Bildverarbeitung kommt das mal sie vorin der Bildverarbeitung undjetzt hier bei den neuronalen Netzen undWenn ich z.b.3 x 3habe, ganzehrlich für eben bei Maxund average pooling, gucke mir 3 x 3 in der Schicht da voran zu B303in der Schicht davor an. Dieverrechne ich dasgibt einder nächsten Schicht,gucke mir.nächsten drei mal dreidrei hier.irgendwie so ja noch.Ich gucke mir die nächsten drei mal drei an.berechneich miteinander und bekomme den nächsten und dann gucke ich mir Überraschungdienächsten drei mal drei an diese drei,geht dann bis hierund ich bin nicht ganz fortwo und bekomme dendasselbe nach unten.Ich hoffe, Sie erkennen, dass das fürchterlich für die Faltung im eindimensionalen aussieht.Mangeht jetzt hiermit zum 3. Mal 3 Raster, wenn sie dreimal 3 Faltung ist geht man und 3 mal 3 Raster weiter,sehen die Schrittweite Schrittweite.Eins habe ich jetzt das ist die Schrittweite 1.gleich 1Die denke ich darüber entsprechendgehe ich nach unten,Wasser zu zeichnen wird. Hier wäre jetzt der nächste nach untenrunter, dann das kann ich lieber gar nicht an.sindNeuronen der nächsten Schicht verdrahtet.ist hier, was es an neuer und dahinter.hat nur an so einer Stelle maximum gebildet oder Durchschnitt gebildet, das ist banal, ihr setzen jetzt wirklich Neuro und dahinter mitz.b.Aktivierungsfunktion,bedeutet jetzt Faltung, was wissen Sie überVerbindungen hier?Die roten Verbindung die Grünen die blauen Verbindungen, was bedeutet jetzt Faltung,angenommen dieseroben dieser Wert wird mal 1,3 genommen als,31 Gewicht und dann der nächste ja dieser hier derwird vielleicht malgenommenso weiter, dann kommt noch ein PS4 draufkommtAktivierungsfunktionoder deine Turbo likus und das ist dann das Ergebnis von diesem Neuron.ich im eindimensionalen habenSie mir diesesSchema den ersten z.b. Mal einhalb das Verhalten bei -20 unddann rutschen sie ein zweiter den ersten Mal dann halt den ersten und so weiter immer dasselbe Schemadenselben Zahlen multipliziert und addiertist auch hier, auf die Bezeichnung Faltung,es ist ein prank mathematischhundertprozentigen Faltung, aber es fühlt sich an wie einezweite Punkt oben wird jetzt für das grüne Neuron auchmit dem gewicht 1,3 verrechnetund der nächste der kriegt das Gewicht 4,2 für das grüne weiterund so weiter fürdas blaue Neuronden das blaue neu runter oben bekommt, der kriegt das gewicht 1,3 dernächstedas. Mich jetzt sehr gruseliggezeichnet, der nächste wird das Gewicht 4,2 kriegen und so weiter. Diesesmusste an Gewichten rutscht einfach weitereben dieser kam im eindimensionalen weiter gerutscht ist wollte ich dir dieses Muster an Gewichten einfach durchNeuron hat.dieselbe Richtung dasselbeGewicht obenin der Mitte 4,2jedes Neuron hat diese Gewichte, die haben nicht verschiedene Gewichtemal zurück zu machen der Unterschied zu fully connected fully connected ist, was man sich klassisch vorstelltUnterarm neuronal Netz wo wasist was man sich vorstelltdiedie man aktuell baut ist,alle erdenklichen Arten mit der Schicht darunter verbundenundGewichtedie da jetzt hier was an den Verbindung stehenGewichte sind alle unabhängig.können dieses Gewichtdemeinstellen und dieses Gewicht von dem verschieden sind alle verschieden zu wählen. Die ganzen Gewichte,ist dieVorstellung.Und hier reduziert man das extrem.guckt nicht mehr, die gesamteSchicht darunter an, sondern hier z.b. Nur noch drei mal dreiin der Schichtsoll ich sagen, dass ich davor guck mal nur noch dreimal drei Punkte an die jetztbei 3 x 3 Faltung.die Gewichte sind auch nicht mehr alle frei wählbar.Der linke obere hat überall dasselbeGewicht, egal welches Neuron der in der Mitte hat, über das erwischt und so weiter, egal welches Neuron.warum ist das hilfreich, wie kommt man auf so einen Gedanken man könnte es ja auchkreuz und quer verbinden, warum ist das hilfreich das so zu machen.außer großer Vorteil ist es muss viel weniger gelernt werden. Hier haben sieWerte, die gelernt werden müssendavon, wie groß das Bild ist.weil das Gewicht für eine links oben das Gewicht für den oben in der Mitte und so weiter sind 9 Gewichte plus ein bayer Schwert,haben jamal Gewicht + Einkaufswert mal weg das Luxusgut bloß bei es wert und davon eine Aktivierungsfunktionjetzt also ziehen werde insgesamt zu lernen für diese ganze Konstruktion.SieVorteile?also egal, wo die Katze ist, die soll überall erkannt werden, ob Sie links oben müsst oder rechts unten, wie sieht der überall gleich aus und dann soll sie auch überall gleich erkannt werden, deshalb ergibt das ganz viel sind die können das etwas Loriots bezeichnen als TranslationenVarianz.das müssen sich erst was heißt transaktions irgendwie ganz egal, wo die Katze ist. soll Fans als Katze erkannt werden. Kannst ja Zion's Invarianz.hat noch sehr interessanten Nebeneffekt,lerntder Katze, egal wo sie ist, wenn sie gelernt haben, wie die Katze unten aussieht,sie automatisch gelernt für die Katze oben aussieht, weiles werden ja diese in diesem Fall ziehen zahlen an trainiert,lernen aus einem Bild.davon, wo jetzt das Objekt ist, wir werden das Objekt überall.lernen?gesamte Fläche verallgemeinert,ichmusste nicht eine ganze Dings oben lernen eine Katze wäscht unten lernen. Es reicht, wenn ich die Kasse rechts unten gelernt habe, sie ist sofort gesamt antrainiert, weil es nur eine Sorte anderen gibtaber für die connected wennsie nicht erzwingen, das war fully-connected die Gewichtesind, das macht man normalerweise nicht müssten dies alles noch mal neu lernen,hierbei fully connected erzwingt man normalerweise nicht, dassGewichte gleich sind,mal lässt alle frei und das heißt wenn Sie die Katze da gelernt haben, müsste die Kasseler und noch mal anlernen das natürlichviel Aufwand,könnte erzwingen, dass die Gewichte gleich sind macht man normalerweise aberokay, und ist der Vorteil ist dass dieses hier grandios ist, um es auf der Grafikkarte zu rechnet Filterauf einer 2D Ebene,ist was die Grafikkarte liebt,schreibe mal GPU dahinterOptimierung!gut auf dem Notebook IMMOFUX ist keine Grafikkarte, sondern der Grafik-Chip gibt es das kann mehr super schön solcheFaltungen.Läuft die Mehrzahl an Neuronen in diesem Inception undpraktisch allen neuronalenNetzen, die sich mit Bildern beschäftigen gehe noch mal zurück hier auf die oberen Ebenen,sehen Sieweit sind die über den Kopf 2 beim allerersten da sehen Sims 3 = 2 undes würde ziert sich die Seitenlänge auf die Hälfte beimnächsten Golf 2 DTS ist kein Streit angegeben und es geht dann von 149 auf 147müssen mit dem Rand irgendwie umgehen, wennsie mir schon dreimal drei Stempel umgehen,die müssen sie mit den Rand weiß machen, dass sie nicht über den Rand gehen Sie bitte wecken lassen sich zweiDixon am Randes geht weiter mit Konfetti hier zusammengefasstund dann geht's weiter mit 2DSchichten, das sind die die am häufigsten vorkommen in diesem Netz immer wenn Bildverarbeitunggeht.Faltung Schichten extrem häufig vorhierDas ist auch das was in der allerletzten Schicht stand. Softmax, derist ein bisschen komplizierterist.sie wollen ein weiches maximum,aber irgendwie geredet da keiner von weichem maximumheißtes dann einfach so als stehender Begriff.Softmaxsie sehen ja ganz am Ende.kommt als Paddock schon als vorhersage für rausdann sind wir fertig.letzte Schicht. Typischerweisedann die aller letzte Schicht mehr zu KlassifikationengehtSie bauen ein wie auch immer geartetes neuronalesNetz sie enden mit einer Schicht,das z.b. 1000 Klassen unterscheiden kann.schreibe mal letzte Schicht darüber letzte.ihr vor passiert irgendwas mehr oder minder fürchterlichesentschichten davorNeuron hier steht für eine Klasse, also der Reha und Karussell undoder wie auch immer jedes hier steht für eine einzelne Klasse.habe ich den Stress, dass das was hier aus der Neuronen rauskommtdas wilde Werte sind.Mitspannend,was ist mit redo, was kommt mit dir? Rede hier aus dem Neuron, wenn das Renault wäre hier die letzte Schicht, was käme dann an Werten Haus überhaupt, das könnt überhaupt rauskommen,mitreden wollten sie keine negativen aber beliebigpositive, wasist das letzte aber auch Tangens hyperbolicusjeden Fall können Sie sich nicht drauf verlassen. das was hier raus kommtirgendeiner Art wasWahrscheinlichkeit ist, ich schreib das mal hier so, was da jetzt rauskommt.sich nicht wie eine Wahrscheinlichkeit an.sind vielleicht sogar negative Zahlenüber 1 die Summe insgesamt ist nicht gleich 1, daspasst vorne und hinten nicht, wenn man jetzt die Wahrscheinlichkeit haben will ist fühlt sich nicht in Wahrscheinlichkeit anhätten wir gerne das haben sie eben gesehen indem dem Ohr.0%0% als ob sie benannt ist nicht so gut, wenn man jetzt ein anderer und jemand das scheint sich wohl auf 100% zu addieren.80%für das Billy 11% für Lakeside Inn, 91.2.Prozent für den Daumen, da sind wir bei 93%BauverbotHaus 94-95.Okay, das scheint also auf 100% wurde in auszulaufen, das sind die Top 5.den 1000 Klassen überall 1000 lassen zusammen genommen es wohl auch 100% hinauslaufen, man hätte gerne Werte zwischen 0 und 1, die sich zu eins summieren.Es soll aussehen wieWahrscheinlichkeit, wir kommen gleich drauf ist dann auch so halbwegs sind Wahrscheinlichkeit, was dann da rauskommt,wahrscheinlich ist, dass dass das Bild in der Klasse 1 Terrier ist, wie wahrscheinlich ist das Bild in der Klasse 2 nochim Turm ist sie wahrscheinlich Klasse 3 ist, dass das Bild der Klasseist und so weiter, ich hätte gerne Wahrscheinlichkeiten die Summe der Wahrscheinlichkeiten musseins ergebenjeweilsdie Wahrscheinlichkeiten liegen zwischen tun und einsallgemeine Ausgabe aus dem neu unter fehlt irgendwas intimus umgerechnet werden und softmax ist die übliche Art für umgerechnet. Wer ist so simpel ist das wie rechnen Siezwischen plus minus unendlichreellen Zahlen, die rechnen Sie so um dass sie zum Schluss etwas kriegendas wiekönnte man sich das vorstellen. Also es kommt jetzt noch eine Rechnung dazwischendas ist schlicht und ergreifend softmax.weiche maximum sind gleich auch wie so ein weiches maximum, was das mit Maximum zu tun und dann kriegen sie Werte raus, die sind vernünftig sowas, wie soll man den ersten 5% für den nächsten 90% und den nächstenProzentdann 2%und so weiter und in der Summe sind 100%klappt es fühlt es sich wieder Wahrscheinlichkeit an,man richtig an trainiert gleich mir dazues auch anpissen Wahrscheinlichkeitist der Job vonwir mal nur drei Zahlen, es ist leichterin mir die Ergebnisse mal UV.baue ich folgendesdrei Variablenkomm reinzwischen plus minus unendlich irgendwasundich hätte gerne uvwraus du VW sollen sich anfühlen, die Wahrscheinlichkeiteneins Zahl zwischen 0 und 1ich was vergessen die Formel hin und dann gucken wir, dass das hinhaut nehmeich alsKicks durch E hoch XE hoch y + E hochnehme ich als e hoch yEvo X + y+ E ^nehme ich als GOZplus.y +banal dismissalFunktion ist übel zu rechnen,ist es nicht ganz banal ein bisschen Rechenaufwand.doch eine Eigenschaft mit X extremnegativ ist tutsich bei Eriks nicht mehr viel und dann geht's sehr positiv ist explodiert. Leorics.Eigenschaften kriegt man aber unter Kontrolle.fühlen sich OVB wie Wahrscheinlichkeitenan? Wieso klappt das so einer Umrechnung?also sie sehen offensichtlichist die Summe von den 30 + V + W = 1haben schon den Hauptnenner Indianerstehen und dann tippt man sie hat ihre Theorie ist dass ihr Tipps was ihr auch Z im Zähler kürzlich mit dem Nenner die Summe ist einsoben dran, dasspositiv sind. Geofixwird nicht 0 wird nicht negativ er dichnur wichtig negativ unten,die drei werden alle nicht nur nicht negativ Teilen auch nicht durch 0 keine Probleme, damitZahlen eine positive Zahl durch eine positive Zahl überallAlle drei sind garantiert positivunddann sehen Sie automatisch.Das alles vom schreiben soll automatisch wird keine davon eins werden, als hättest Du ihm schreiben sollen. Nur ist garantiert kleiner als du und istgarantiert kleiner als Frau nur das garantiert kleiner alsist garantiert kleiner als 1a sehen Sie hier aufnehmen.etwas PositivesBus etwas Positives ist 1 dann kann nicht1 oder mehr sein, weil sie agieren was positives drauf und kriegen einmusst du kleiner sein als 1 und genauso muss V kleiner sein wird je kleiner sein als 1.fühlt sich als sie jetzt die Wahrscheinlichkeiten,eine simple Umrechnunges gibteinen witzigen Effekt.Wenn sie xy&zmal um 3 erhöhenNX Pension3y erhöhen Sie um 2:45Uhr, was passiert mit UVB?noch den Effekt, wennz.b.Alle um 3 größer machen X + 3x+ 3y + 3 + 3, dann sehen sie, dass sie überall ehoch3rausnehmen kann aus dem Zähler kann sie auch drei rausnehmenBuchtso weiter und kürzen über ehoch3 rauskommtdasselbe raus, also, wenn siesie auf ihre ausgehen überall dieselbe Zahl drauf hat kommter aus,das fühlt sich an.ist die übliche ArtFunktionen, die man da hinterher.Mietverhältnissen,also die Verhältnisse von xyz die gehen den Bach runter uvwhaben im allgemeinen ganz andere Verhältnisse als Xyz dieVerhältnisse von xyz, die sagen aber auch gar nicht soviel man sich vorstellen X = 2 und Epson ist -3 undhaben sie ein Verhältnis von -3 halbedas kriegen sie nicht in Wahrscheinlichkeitenübersetztaußer jetzt irgendwie mit einzahlfunktion,können kein Minuszeichen haben auch Verhältnisseübertragen direktzu übertragen.gibt wahrscheinlich nicht allzuviel.Monotonie daswollte ich auch noch sagen,sie X sinkenlassen y sinken lassen und Z wachsen lassen sich das hier an,Xsingt und Y singt und Z wächst, dannwird das richtig weh größer.einfachste begründet, die mir gerade einfällt ist folgende, siemal konkrete Zahlen dran,um 1 verringern hübsch um 1 verringern und z.eins erhöhen z.b. Dann soll die Abwehr aufgebensollteruntergehen V sollte runtergehen sonst etwas faul, das ist wirklich soeinfachste begründete mir gerade einfällt ist folgendeum 1 verringern. 1. Um 1 erhöhen wir wissen man kann alleerhöhenes passiert nichts, wennsie jetzt danach noch mal alle um dieselben erhöhen z.b. Um1 + 1 + 1 + 1,heißt alsoverringern Y1 verringern Z um eins erhöhen,sie das machen kriegen dieselben uvw, als wenn sie X zulassenhübsch und so lassen und Z um 2 erhöhen.steht eine 2. Okay,was passiert, wenn ich XO lasse Ybbs und so lasse Z und zwei erhöheXO lasseich so wirksam,dass ich so sad erhöhe ich um 2 Uhr, der Nennerwird größer wirdkleinerbeipassiert. Dasselbe beidu und V sinken die Summe ist, aber eins der muss wie wachsen.sie kriegen es dass sich nicht begründet, weil ich mit dem Pack raffiniertenKlimmzüge richtig wirklich begründet, dass es so eine Monotonie gibt, wenn Sie einen größer machen wird, der auchnachher hinten größere Prozentzahl bekommen, sondern quasi Wahrscheinlichkeitbekommen,ist die übliche ArtRechnung softmax.Begriff softmaxdem ist doch leichter haben warumEs ist ein bisschen gewagt ist es nicht wirklich ein Maximum,es sind recht ansatzweiseklar,man auf diesen Begriff jetzt kommt. Softmax.auf weiche Art softmaxerfahren auf welche Art welcher von den dreien XYZ jetzt bei den drei Variablen welche von den dreien der größte ist, wenn X deutlich größer ist als Y und Zhier eine große Zahl durch eine große Zahl und unten stehen noch zwei Zahlen, die relativ klein sieht,wird faktisch eins werden?ich soll dich größer ist, das Y und als ZVsteht eine Zahl, die viel kleiner ist als EUpraktisch null werden undda wird praktisch null werden, also, wenn Xgewinnt gegen YZ = 1 V = 0 W = 0 mehr oder minder weichfahre nicht, den wert des Maximums erfahren, wer das Maximum ist, sozusagen ein ArgumentMaximum,von den drei Zahlen ist, die größte das erfährt man eigentlich im Ergebnis meine fertig maximalemaximal haben.was ist das Maximum aus 13 und 42, dasist 42 das Maximum von 13:42Uhr, das ist nicht gemeint an der Stelle mit dem softmax sie erfahren, welcher der größte ist, wenn du gleich 1 istv und w. Deshalb hatte ich nur sind wissen sie X war der größte deutlich der größte und das auf weiche Haare zu weich überblendet,Ja, es ist irgendwie ein Maximum,ist die Funktion am Ende. Also wann hat die ganz normale letzte Schicht ich die Vorstellung und dann rechne dies ist natürlich dann nicht mitim Nenner, sondern den Sattel mit 1000 im Nenner auch. Da müssen wir noch bisschen raffinierter arbeiten,man wollen würde, aber im Prinzip istdasbis er steht davon malandkann es als Wahrscheinlichkeit interpretieren, aber sind es wirklich Wahrscheinlichkeitenallerletzte Maßnahme ist, das ganze so zu trainieren, ist man wirklich auch bisschenbessersagen kann, sind froh so eine Art Wahrscheinlichkeiten,sagen, dass ich jetzt zufällig zu 100 addierenund zwischen 0 und 100 fliegen,wäre der allerletzte Schritt.ist das schlimmste was von dem ganzen was davor kommt jetzt,dann kommt auch noch ein Logarithmus vorhernur eine Kommentarfunktion, sondern sogar einen Logarithmus, wie trainiere ich den softmax ich möchte jetzt hier tatsächlich, washaben, was wie Wahrscheinlichkeit aussieht,was ich mit guten Gewissen als Wahrscheinlichkeit verkaufen kann.Stichwort istcross-entropy.sich ganz schlimm an ist es gar nicht so schlimm eigentlich wie es sich anhört. Kreuzentropieloss function.Wenn sich ein Anlass war derzwischen korrektunddas Netz liefert.der Job war ja diezu minimieren,sie an dieseIdee einer Landkarte inMillionen Dimensionen,diehat nicht 2 Dimension Salix Millionen Dimensionen getragen,als für den los auf wie groß ist die Abweichung zwischendem was rauskommtund den was rauskommen solltewir würden jetzt gerne immer den Berg runter laufen immerden Berg runter laufen drauf und das Maintalwenn möglich tiefes Tal erwischenGegenrichtung von GradientenBerg runter laufen, das ist ja unsere Strategietrainieren.kommt der Trick aus. Los Funktion nimmt man nicht sowas wie den quadratischen Abstandden absoluten Abstand Airlines, sondern etwas was ich net kreuzentropiehat dann mit Wahrscheinlichkeitenzu tun.habe ich am Wahrscheinlichkeitand ich habe echte Wahrscheinlichkeiten,ich schreibe mal P1P2 P3echten Wahrscheinlichkeiten.Ich habe Ware hört sich Ware Wahrscheinlichkeiten,also,groß ist die Wahrscheinlichkeit, dass ist wirklich den Katze ist wie groß ist die Wahrscheinlichkeit, dass ist wirklich ein Hund ist Bild an und zeigt soll ich sagen Wahrscheinlichkeiten.ich nenne mal Q1und so weiter, was hinten aus dem softmax rauskommt.istfür eine Wahrscheinlichkeit.Schon jetzt geschätzte Wahrscheinlichkeiten,also das Ergebnisvom softmaxdas Ziel ist dass Funktion das Ziel ist, dass die gleich sind.möchte, dass das nicht die Wahrscheinlichkeit die reale Wahrscheinlichkeitjetzttrainieren, dass die Werte die aus dem softmax rauskommenNäherung gute Schätzungen für WahrscheinlichkeitensindB1 Q1 soll ungefähr gleich sein. Möchtest gut gleich sein. B2 gut 2 und so weiter sollen möglichstgut, gleich seines aber wahre Wahrscheinlichkeiten,welcheWaren Wahrscheinlichkeit and haben wir eigentlichdemSet,haben Millionen an Bildern,steht da jetzt ein wahrer Wahrscheinlichkeit dran nachherist esein besonderer Art von Katze 100%kein Autokein Karussel 0%0% oder es ist nicht. Also,den training setz,man üblicherweise benutztdie Wahrscheinlichkeiten,die meisten davon 99davon sind 0 und eine davon istnicht in die mit Strahl 70% Note undIchtun erstmal so als ob das hier so gleitende Werte wären zwischen 0 und heiß,habe also 1000dievorgegebensind quasi als Label ein Bild sollte lentförden 1000 Wahrscheinlichkeiten sind als Label vorgegebenaus dem Netz kriege ich tausend Werte raus und ich möchte, dass sie tausend Werte, die rauskommen1000 vorgegeben Wahrscheinlichkeiten bestmöglichwäre die dümmste Art an los Funktion, die sich hin schreiben können,wir eine ganz billige Adanos Funktionenwas man da ich probieren würde, wäre sowas für die quadratische Abweichung P1- Q1 ins Quadrat +D2- 2 ins Quadrat +und so weiter bisheute schon mal groß durch wird man es nicht machen,wäre die Summe der quadratischen Abweichung wird man so nicht machen, aber ist der playground von letzter Woche so ist der programmiert.der hat einfach Quadrate addiert und wie Sie sehen, wenn Sie das tunwann wird der los gleich 0 R kann ich kleiner werden als 0. Wann wird der los gleich null1 = Q 1 std zwei gleich kurz weiß und so weiter, dann wird er Lust gleich nur das wäre die einfachste atanos,benutzt man z.b. Für Regression, wennSie wollen, das P1genau den Q1 und so weiter, dann wäre das eine ArtRegression an trainiert,könnte man machen, das hat aber nichts mit Wahrscheinlichkeitenzu tun. Es stellt sich heraus, dass man sich wie Wahrscheinlichkeit wie viel raffinierter angehen kann und das ist dann die kreuzentropie wasman hin schreibt.Ausdruck sieht mandich völlig unmöglich aus. Ich hoffe erschrecktsie nicht ganz es kommt es besonders vor,man nimmt die erste wahre Wahrscheinlichkeitmal den zweierlogarithmus oder irgendein Logarithmus, ich habe nicht mal den zweier Logarithmusvon der ersten geschätzten Wahrscheinlichkeit -für die zweiteKlasse malden zweierlogarithmus wie ein Blitz jetzt weitergeht von Q2dieWahrscheinlichkeit für die dritte Klasse mal den zweierlogarithmus vonder geschätzten Wahrscheinlichkeit und so weiter, das nimmt sichda steht.erstmal Stimmen aus.allen Dingenwas ich fragen haltdas jetzt wirklichwennKuss gleich den PS sindgehen wir halt ne und dann wird das ja nicht 0 dann steht was fürchterlich ist da aber wendigos gleich gps sind wir das nicht nur genau, das wird da nicht null. Es wird minimal es wird nicht null,wird nur minimal es muss ja auch nicht unbedingt durch werden,los sollte minimal werden. Diese hier wird nicht null werden, diekreuzentropie als los, das ist das was man dann üblicherweise nimmt hinter demgleich noch erklären, warum das funktioniert, warum wird der wirklich minimalsieht nämlich überhaupt nicht danach aus, aberauf Anhieb können sich schon denken, was daran genial ist, wenn ich das nehmediedes Lernens einzuschätzenwissen sie noch nicht, wie gesagt, warum das minimal wird, wenn es klappt, aber es ist das tolle an diesem Ausdruck, wenn sie den nehmen Kuhkommt aus dem softmax, dieist vorgegeben.Was ist genial an diesem Ausdruck?diese PS sindja bis auf 10,wenn man ein Exemplar betrachtet man gucken wie man lernt jetzt Batch mäßig und so weiter, aber im Prinzip kann man sich schon mal vorstellen und gehe alles bis auf eins und null und eins ist eins. Na toll dann fliegen, also ganz viele von den Thermen Weg. kommt aus einem softmaxund an den bis II hier überlebt ist. Kuh kommt aus einem softmax entsteht dann die hoch irgendwas durch irgendwasbilden sie den Logarithmus der Logarithmus aus jedoch noch was durch dasvereinfacht sich massivLogarithmus und e hoch heben sich weg, was sollte man hier dann auch in natürlichen Logarithmus nehme, ich hab hier schonmal zweierlogarithmus geschrieben,damit ich ihn gleich erklären kann, wieso das funktioniert mit dem los.können ja auch die natürlichen oder von mir aus den Zehner nehmen ist ja alles nur Faktoren davor okaus jetzt haben sie schon mal die Idee, warum das eine geniale Funktion ist,ist er doch die große Frage, warum geht das überhaupt? Da muss ich mal bisschen weiter ausholen, warum funktioniert es überhaupt?der zweierlogarithmusnichts anderes alsviele Bits alsobzw. Nur von Bytes und Megabyte, wie viele Bits brauche ich zu sagen, dass das Ergebnis in Klasse 1 warein bisschen ausholen, warum dasdas ist es tatsächlich, wie viele Bitsichvergissnicht hin benötige ich.die InformationBild1 ist.ist - der zweierlogarithmus der WahrscheinlichkeitP1,versuche ich das mein Beispiel klarzumachen, ich habemal was aufgenommen zu Entropie.kommt das etwas länglicher vor stellen sich vorP1.war ein 256ist die Wahrscheinlichkeit, dassistKlasse warbrauchen Sie dann -den zweier Logarithmus von 21 56, umdiese Information zu übertragen, das war einwie hängt das zusammen156würde heißen, dass daswas sie herauskriegen.brauchen 8. Bit 12056daraus, der zweierlogarithmus ist -8 - davonsind 84 brauchen 8 Bitist am einfachsten vorzustellen,wenn sie wirklich 256Klassen hätten0KlasseverschiedeneKlassen, die alle gleich wahrscheinlich sind und256 ein256?zu sagen, es ist die Klasse 1.Ja, die Klasse 1, dann würden sie die Binärzahl00000001übertragen und so sagen, es ist die Klasse 255würden sie die Binärzahl 11111111übertr?so weiter sie bräuchten 8-Bit und mitzuteilen welche Klasse das istdie können auch keines der Witz weglassen,fehlt was an Informationen.acht Bits aber 8-Bit reichen auchman sich am einfachsten bei so einer Gleichverteilung überlegen, was ich jetzt nicht anfangen will, wenn siehaben, die häufige sind seltene habendas trotzdem ist hängt von der Wahrscheinlichkeit abgeht auch mit gebrochenen Beats, also,wenn Sie hier gebrochene bis10,3 Bit das ist okay.kriegt ein gebrochenes bit wenn man es noch einmal überträgt, man kriegt ein gebrochene Beziehung. Meines ist ja häufig macht und es Mittel bildetkriegt man auch. Dass ich dichalso das sagt, was über die Zahl der Bez, die ich brauche, der20. Und muss von P1 mit Minuszeichen davor sagt was über die Zeit der Witz, die ich brauche, um zu sagen ist ist die Klasse 1gewesen. Entsprechendfür die anderen, jetzt kann man sich überlegen, viel Bits man imbraucht.Siejetzt nehmen - P1mal dervonB1- B2 malder zweierlogarithmus von- P3der zweierlogarithmus vonund so weiter durch die ganze Reihe durch,haben wir brauchen wir im Mittelweniger geht nicht, das ist das Beste, was wir machen können. Weniger geht nicht.meine ich, damit habe ich jetzt nicht hin, weil ich zu bin, wie viel Bitswir Mitte obenich auch nicht hin und zu sagen, welche Klasse das ist, inwiefern.Ist das jetzt ein MittelMittelwert?noch etwas ich hier oben hingeschriebenhabedas hier.Ist das hier oben?Und das geht dann ja so weiter, dann kommt der nächste.Dieser hierso weiter,fern ist das hier ein MittelMittelwert.ist schon versteckter die vorbei dem P1 ständig vor durch die 30%nur, dreimal daswas da inrotist.geht das hier weiter p2plusB2 mal mit dem Minuslock und so weiter B2 =von 0,3 und hiersteht dann bloß vonmir aus 0,1mal undhier steht -9°muss und so weiter, dann sehen Sie das ist eine gewichtete Summe 30% von dem roten Wert + 40% oder was von diesemWert undso weitermittelsdie BIZ, die man für die einzelnen Klassen braucht.weiß, es ist etwas verborgen.und so viel Prozent des P1 von den Beats, die ich für Klasse 1 brauche und dann kommt bloß soundso viel Prozent von minus und so weiterwifi für Klasse 2 brauche und so weiter,ist zum Schluss das was man als Entropie bezeichnetviel Bits brauche ich im Mittel?ein gewichtete Summe über die Zahl der Witz sound jetzt kommt die kreuzentropiemischt jetzt zwei verschiedenehier kam ja nur p vor.kreuzentropie mischt jetzt diesen ganzen Kram und dieser hat -T1Loksind zweierlogarithmus oderirgendeinendann hat sie den Faktor davor -P2von- P3D-und so weiter, das heißt,haben sie auch eine Gewichtungnachdem Wahrscheinlichkeiten ti stehendavor,viel bitsy bräuchten, wenn die WahrscheinlichkeitenKuvert?Es kann man sich überlegen, ob das größerist oder kleiner als die Entropiepassiert. Siehaben eine andere Verteilung. Kuhhaben sie jetzt im drin Stadt.de diebitzbauensie mit Hilfe einer anderen Wahrscheinlichkeitsverteilungenund wichten dann.es mehr oder wird es weniger werden?dieder kann also allenfalls größer werden nett ist gleich der Entropie, wenn die Wahrscheinlichkeiten übereinstimmte E1 gleich kurz und so weiter, ansonstenist er größer als die Entropie, also, das heißt ich versuche wirklich die kreuzentropie zu minimieren es ergibtdie kreuzentropie als los zu benutzen, dann passe ich die Wahrscheinlichkeitenanmal die wie deine Begründung, warum das so ist.Sie die Zahl an Beats perfekt nehmen fürdie erste Klasse nehmen Sie soundsoviel Betz, wie die Wahrscheinlichkeit sagt für die zweite Klasse nehmen Sie so und so für PC wie die Wahrscheinlichkeit sagt und so weiter, dann haben Sie bitte soviel bis wie den Tobi sagt. Ok,werde ich meine bis nach einer anderen Verteilungbisschen mehr ein bisschen weniger auf jeden Fall nicht perfekt, das ist kein perfekter Code, ichbrauche beide nicht perfekt ist im Zweifelsfall mehr wirdwenn die Wahrscheinlichkeit übereinstimmen Q1 gleich P1 und so weiter, dann brauche ich genauso viel bit ich brauche im Zweifelsfall mehr wirdheißt das was hier raus kommt aus der kreuzentropie ist größer als die Entropie.das ist genau was ich von dem los Funktion haben will. Eine loss function habe ich jetzt die sich schön berechnen lässt, weil in Wirklichkeit sind ja diese Wahrscheinlichkeiten fast alle gleich null, die PS sind fast alle gleich null,Grützwurst ist sich wunderschön berechnen, weil in drin das Q ist ein e hoch irgendwas durchsehr genau stroke.waschfunktion hier bin ich dass es los Funktion nehme, die kreuzentropieder weiß ich eben, sie ist nur dann der Entropie,ich Perfektion habe.Das ist die übliche lochfunktion, die man daneben für Klassifikationmit softmaxan der Stelle schon etwas Gehirnschmalz drinnenfunktioniertjetzt haben sie alle Schichten gesehen, es gibt einige Tricks beim Lernenkann z.b. Vor.ist also kein Wunder, dass es erst vorbei Jahren erfunden worden ist, aber die große sich Zutaten sind relativ einfach zu verstehen.