[Playlisten] [Impressum und Datenschutzerklärung]

YOLOv3: Aufbau und Funktion


CC-BY-NC-SA 3.0

Tempo:

Anklickbares Transkript:

Version3 malwieder ein neuronales Netz, jetzt geht's zumdetection,soll ich noch mal erstmal erklären, alsohat man erstmal die Image classificationkönnten das zu sagen, das ist eine Katzedas ist ein Hundganzen Bild haben sozusagen, was ist das ein Katzen Hunden Autoist classification.ist eine sehr spannende Lösungobjectdetection.ist ein Schritt weiter als Image classificationsagen nicht nur das ist eine Katze, das ist ein Hund, das Netz siehtdrum,ist object detection und sag dann jeweils okay, das Katze undistzeig gleich noch mal diverse Beispiele,es dann wirklichkann Leben, aber das ist der Gedanke. Man hat nicht nur einauf dem Bild und so sagen dieses Bildder Arten Objekt Folge Klassenobjekt, sondern man solldrum ziehen. Bounding boxes,man imenglischen sind es nebenboxes begrenzungsBegrenzungsrahmen, wenn man so ein Dingbounding boxes plusgeht es nur als Bild in Klasse zu schreiben, sondernzu finden, ein zu graben im Bild unter Nordrhein zu schreiben, für eine Sorte an ist. geht es beinicht um Imagesondernobject detection,kann sich vorstellen, das braucht man für das autonome Fahrzeug und Zusagen AutoAuto Auto FußgängerFahrradfahrerdas kann man natürlich an tausend Ecken und Enden verwendetetags.istAbkürzung füronly look onceVerballhornung von die Ohren die Liv once you only look once.gabes Ansätze, wodiese bounding boxes.wurden sind musiziert worden sind, dann musste das Netz oderauch immer gerade gefragt waren Maschinen lernen. Musste dann jeweils pro Bounding Box noch mal einzeln nachgucken,ist denn in dieser Bounding Box drin und was ist denn in dieser bounding box denken zu lange gedauertheißt man gucktgesamte Bild an.100 + X bonnieboxx ist raus mit Klassen.muss ich nicht noch jemand die 10000 bauen die Box es einzeln angucken und jeweils in Klasse bestimmeni only look once.sollte eine Motorradtour Angabe machen, das ist vonPayPal zu yolo-reisen 3. Es gab also schondavor oder später nennt sichan Enkel Mantelund steht natürlich wieder auf AKF undso sonst bisher.was beiden geschrieben haben ist er ungenießbar, das wollte ich ihn nicht zeigen, das ist nämlich in C und incuda geschriebeneine SpracheNvidia,die GrafikkartenRechen zu benutzendas ist schwierig zu lesen und man erkennt auch die historische Entwicklung version1,dann gab sie Version 9000 undS Diversion 3,gibt eine.interessant Implementierungtensorflow,also der Bibliothek nämlich letzte Mal gesehen habendas ganze viel einfacher macht,ein DutzendVarianten davon inzwischen im Netztensorflow und anderen.Varianteflohdann natürlich mit Peißennicht mit C.auf die Tab.ist nicht nurin Peißen Sachen sind diverse anderediesen Objekterkennung in die man dann miteinander vergleichenkann, der Vorteil anderer Vorteil Listingaus dem internet die Daten des Netzes nachdie ganzen Neuronen, die bastelt man noch zu Fuß drindie ganzen darum brauchen wir dieund die Gewichte diese Daten. andere Werte, die davor kommen diese Daten Werte automatisch aus dem Netz einziges Mal und Cash sie auf dem Rechner,sinddrei sind das 240m, die werden nur einmal geladen und dann auf dem Rechnerdas kann man gerade mal angucken, wie simpel das ist, das ist das hübsche alsAnwenderinist bei mit wenigen Zahlen passen dann dabei.die üblichen Impfarzt ok, ich brauche ein und zu sagen,groß ist das was dann in das Netz reingeht 460x 416 sind sie gleich noch wieso so eine krumme Zahl, wie das zustande kommt und das Bild was reingeht ist 4 x 16 x 416Pixel großtief deshalb dreisagt man hätte gerne Yolo V3 cocoistTrainingsdatensatz.gebe ich ja mal aus, dass er sagt, wie viele Parameter hat und ähnlichesdann passiert nicht. Allzuviel. Ich sage welches Bild geladen werden soll, ich lade das Bildneue Stationwird gelassen aus. Der Session hole ich mir die Vorhersagendann kommt jetzt noch ein bisschen oben Sie wie das ist. Ja die Bildverarbeitungspielotheke kommt jetzt noch ein bisschen OpenCV und das zusammen zu stricken Damen zu zeichnen,das war es sind irgendwie mit dem halben Dutzend Zahlen praktisch am Zielgerade mal mal an, für dieses eine Bild rauskommtkann ich daserklären.nebenbei wir Ausgabe 62 Millionen Parameter das kommt hier von dem summary,62000000Gleitkommazahlen.in40 Megabyte Datei drin wieder geladen wird, das sind die Gewichte des Netzes, dieauswerte und so weiterdem Hits 62 Millionen zahlen müssen uns angucken, was hat ausgemacht hat.sieht das dann aus.dashabe ich ihr so eingerichtetdann mal zurückmit OpenCV.Farbe werde ich danachsicher sich das Netz ist,es sichals 0,2 ist, das ein Wert von null bis eins, wenn es sicherer als 0,2ist,nehme ich rot. DieFarben sind hier verdrehtOpen sie wie die ist nicht rot grün blau, sondern blau grün rot,es sich relativ sicher ist, nehme ich Ruth, sonst nehme ich grün.die roten Rahmen sind, die ernsthaftengesehen, hier ist eine Börsentag Antwort von hinten mit abgeschnittenen Bein der Rucksack, der mit bloßem Auge kaum erkennen ist ist erkannt worden. Hier ist eine völlig überbelichtete pherson erkannt worden. Ein etwas überbelichtetes weit entfernt ist Auto ist da Antwort,sind die Sachen, die sicher erkannt worden sind, hier ein Buchoffensichtlich kein Buch ist hätte hätte ja sein können Sie das ist grün, also das ist nicht ganz so sicher erkannt wordenAutoKopfstützeals Person erkannt worden, das ist schon spannend.Auto ist noch mal Truck erkannt worden mit leichtem Versatz und hier ist noch mal eine zweite Person erkannt worden nicht mehr müssten wir nicht als Person erkennen kann. auf diesem Rechner sind.Sekunden,Laden des Netzes dauert fast länger, als ist auszuwertendiesem Rechner hier,man das auf der richtigenGrafikkarte rechnendas Echtzeit durcher sprechen großen Grafikkarte,sie dasmit dem Film laufen und sehen im Film sofort,ich da allesmüsste eigentlich erkennen können. Hat er nicht erkannteiner von der Klasse hat er nicht erkannt. Lustigerweisezeig noch mal12.an andere Straßenszene. Ja, gesagt, die roten das sind die sicheren ist Auto rechts wurde gleich zweimal erkannt einmal als K und einmal erzeugt, aberdas ist ein Drittel von einem Auto und wird als Audio erkannt. Das Pferd wird wirklich als horse erkannt von hinten willst du das Haus erkanntReiter dann eben gerade davorso einen Bruchteil des Pferdes wird als Person hat Kant von nicht als werd erkannteine Person mit zwei handbags nicht 2 handbags, aber immerhin ein winziger handbag erkanntdem Shop ist.Person erkannt, aber nicht der FahrerHandy am Ohr ist nicht erkannt, aber der Beifahrer ist der Kanstein hinter das Auto dann auch wieder trakta gemischter noch ein Gas, dassich also auf demLaptop hier laufen lassen. dauert dann bisschen länger als auf der dicken Grafikkarte, aber das ist machbar, man kriegt das sichtlichResultatenoch ein letzter.aber das Festessensehen Sie 1LIVEFahrtmit der Bounding Box drumtable insgesamt die ganz große Bounding Box 1 dining table hier wird ein Bruchstückeines Stuhls scheinbar erkannt als Char,wir eine Tasse eine Flasche heißt, das eine Flasche, aber eine andere Kategorie gibt es nichtGlasgefäß hier.du die Mischung von bottle&aus dem Kopf wird, das ja grün ist nicht ganz so sicher erkannt, das war ein Glas hier rechts wirderkannt, dass aufrecht steht wird noch Bruchstück eines Stuhls erkannt und dann habe ich noch eine zweite Pizza.oben an Löffel ein querliegenderLöffel ein winziger querliegender Löffel und hier noch mal hin, dann ist er sich nicht einig tun oder ein Eis ist echt schwierig,zu unterscheiden, ob es gut oder knife Messer von dem man nur den Griff sieht wird erkannt und hier das Messer von dem man nur so ein ganz bisschen von dir schneide, sie auch erkannt.schon erstaunlichjetzt sagen, es wird eben nicht Box für bonnieboxx durchgegangenund nachgeguckt, was könnte das sein? Also es ist nicht das jetzt erst das letzlich überlegtObjekts 11. Ist dann weiter an irgendeinen weiterenTeil,entscheidet, ist das jetzt ein Hund oder eine Katze oder ein Messer,das Netz sieht fast das ganze Bild, was ich gleich noch mal erklären wieso das nicht sieht dann jeder verstelle fast das ganze Bildberücksichtigt,also auch die Umgebung. mit der Landesmesse erkannt seine in dieser Umgebung. Es ist mit einer Gabel und zwei Pizzen und noch zwei weitereauf dem Tisch,so viel wahrscheinlicher ein Messereine Handtasche oder ein Pferd.guckt sich nicht nur die eine bonnieboxx an, sondern praktisch das gesamte Bild,macht es auch noch mal robuster, es muss sich um ein Restaurant handeln. jetzt hier auf dem Tisch noch ein Pferd stünde, wäre es wahrscheinlich schwieriger, weil das gehört da nicht hin, das ist nicht angelernt worden.gibt solche Experimente mehr klebt dann einfach z.b. Das Bild eines Fahrrads da rein,geht typischerweise schief,der Kontext nicht stimmtder Pizza steht normalerweise keinen VerratBild was ankommtdas ist relativ groß,Bild was ankommt. Wird runter gerechnet auf 4 x 16 x 416ist ein sehr breites Bild.seitenfeld istauf Quadrat zusammengestaucht und x 16 x 64, damit geht man in das Netz rein dann wird hinten hat wiederdie schwierigste Teil ist kriegt man Rahmen drum gezogen undder Klassen angezeigt.eigentliche ist in wenigen Zeilen, der dir nicht Sie dutzendweise Anleitungen zu Internet, das wollte ich jetzt noch mal dem bisschen durch sprechen, wie denn das funktionieren kann,zwar also es geht ein Bild rein.mal das Bild man nur als Strich,ist mein Bild nicht ganz das Bild, sondern das ist wie gesagtskaliert auf 416x 416 Pixel, man könnte auch andere Abmessungen haben, aber das istYolo und haben sich die Autorenist das die Standardabmessungen16 x 64 Pixel so weit wie das Bild mit dem man reingehtman kommt raus mitals 10000 Bounding.Box ist kommt gleich eine monströse Maschine und aus dieser Maschineein paar Sachen raus.Nehme ichboxes auf verschiedenen.Auflösungengibtx 13 das gesamte Bild dann in 13 x 13+ das gesamte Bild in 26x 26 aufgelöst,also viermal so viele.hast das ganze Bildin 52 x 52aufgelöstquadratischen Maßstab fuhreinmalx 13 40 13 Zeichen dannso fein 26x 26 unddann noch mal doppelt so feinden Längen Auflösung doppelt zu fahren.viel erzählen kommen daraus auf drei verschiedenenwenn man so will Auflösungsstufenpro Zelledann jeweils boundingboxesZelle 3 bounding. Boxesjede Bounding Boxplus 1 plus 80 Werte drinvon 4 ++ 80 werden beschriebendas ist ein absolutes Zahlen Graf,ist insgesamt alles zusammenzählt hier die Zahl der Zellen und dann 3. Bounding boxesZelle,ist man beischönen krumme zahlenLiegeboxen.fallen raus auf einen Schlag, das Bild geht rein in das Netzzu Schicht durch von vorne nach hinten. Es geht kein Weg zurück. Zum es geht immer nur geht Ausgleichzum Schluss7647bauen mit Boxen rausjede bounding box.ihm geschrieben durchZahl plus eine Zahl plus 80 zahlen.Sieh an was die vier Zahlen sindDie ersten vier werden sowas sein, wie Breite Höhe XY,die Geometrieaufden kommt man auf ein ich nicht hier, deswegen der zweite Eintrag hier die +1.nennen die Autoren. ObjectnessObjekthaftigkeit der Zahl von 0 bis 1.Ist das Objekt Haftnicht? Was ich da habe, glaube ich dein Objekt zu sehen aus dem bekannten Kategoriendass eine Zahl von 0 bis 1da dann stehthier hinten die 80 Werte, das sind 80 Klassendie 80 Klassen gibt es dann jeweilsvon 0 bis 1.würden Siewas diese 80 Klassen angeht mit den Zahlen 0 bis 1da auch noch gelten.das habe ich schon erfasst lustigerweise die Summe von diesenWahrscheinlichkeitenfür die 80 Klassen. Muss nicht eins ergeben, hätte man anders machen können und dann wird die Autoren haben sich bewusst entschieden, das so zu machen, dassselig ein Objekt mehrere Klassen zugehören kann, wieso muss nicht eins ergebenein Video von mir Karma softmax vor genau, das findet nicht statt,achte Klasse, soll ich mal gerade zeigen, das istdas istnatürlich jetzt hier nachdie man zum trainieren benutzt was anderes.80. Klasse von Coco zeige ich gerade malist ja Trainingsdatensatz ihrdas sind die 80 Klassen.bicycle car motorbike aeroplaneund so weiter und so weiter hierfork knife spoon immer schon gesehen Bau. Habe nicht gesehen Banane Applelustigerweise auf dem ersten Bilddrauf wurde nicht erkannt Brokkolimeine wenn sie auswählen ist wirklich irre BananenÄpfelist ja bekannterweise auch Gemüse Brokkolikannist schon sehr quer durch den Garten und dann natürlich Pizza und Donut weiß denn auch sonstdiese 80 Klassen mit denen das an trainiert sind sindVaseher und Teddybär, der muss auch nochIdee haben, also man kann es damit an trainieren. Man kann es natürlich auch anders an trainieren, dann könnte es auch noch weiter trainieren. Es ist sie es mit diesemnehmen aus dem Netz fertig an trainieren, dann ist es auf diese 80 Klassen trainiert.können wir sagen auch lieber auch noch eine einen Narzissten 82 Klasse können wir das versuchen noch weiter zu trainieren?muss ich nicht ganz so viel lernen oder fange ich von vorne an und hab nur drei Klassen,ist jetzt zumindestausfallen 80 Klassen wieder eingebaut worden ist,Hydrant darf natürlich auch nicht fehlen unter Stoppzeichen,es ist schon eine sehrAuswahl,die man da hat.sind die 80 Klassen und für jede von diesen 80 Klassen gibt es danneine Wahrscheinlichkeit0 bis 1. Des dürfenmehrereWert 1 haben, tatsächlichz.b.haben Mensch und gibt es Kinder.noch obendrein, dann haben sie 100% Kind und 100% Menschso machbarOtto und ehrlich auch mal zum anlernen und das Anlernen zu verbessern.das muss noch haben, was heißt denn jetzt ein Objekt, wenn ich irgendwo?Eine von diesen zählen habe ich habe irgendwo eine von diesen Zellen,heißt jetzt, wenn diese eine Zelle sagt object Mistheißt das, das Netz glaubt den Anführungszeichen mir das nicht glauben könnte,eine Zelle im Zentrumeiner Bounding Box ist,ein wesentlicher Gedanke.Also, diese zählen hierZentrenplusminus,die bauen den Boxer ein bisschen hin und her rutschen aber nicht zuviel Zellen sindZentren von diesem bounding boxes und es spricht nur die eine Zelle an, das ist die Hoffnung spricht nur die eine Zelle an, glaubt wirklich ins Zentrum davon zu liegen, das ist diesesdie ZelleZentrum der Box zu seinwie groß die Zelle ist, die Boxen können und wissen hinterher verschoben werden, dafür sind die vier Zahlen da, sie können auch noch ein bisschen gedehntwerdenauch geschrumpft werden und beide Richtungen natürlich schon gedehnt und geschrumpft werden ein bisschenhaben Standardgrößevon diesen drei bounding boxes auf jeder dieser Hierarchie Stufen hat eine Standardgröße Henkernennt sich das in den paper.Standardgrößen sind vorher bestimmt worden, dass sie vernünftig sindden Trainingsdatensatz schon eher an, was man alles denken kannist Objekt des heißt daneben okay, die waren die Box in Standardgrößebisschen verschobeneskaliert und Richtungenliegt wohl immer noch mit dem Zentrum in unsere aktuellendas istUndso sieht diese 1060740 Ban inboxes zu verstehen, um jede von diesen zählen auf verschiedenenstufendaneben dreidie Box esdass überall object is null ist, dann weiß man man ganz vergessen für diese Zelle, da ist dann eben nichts drin gewesen.braucht man noch eine Bewertung.Bewertung multiplizieren Sie objectness undjeweiligealso, wenn Sie das wollen,groß ist die Wahrscheinlichkeit, ob sie orange war, dann ist die Orange die KlasseAhnung 23. Müssen wir nachts, wennden 23. Wert von den 80 multiplizierenObjektes.wäre dann hier in Diez,das Netz glaubtorange haben und wenn das jetzt eine bauen die Box um die Orange zieht, das dann das Zentrum von dieser bauen die Box in unserer ein Zelle liegt, die beiden werden miteinander multipliziertdann kriegen sie eine Bewertungbounding boxpro Klassediese bauen die Boxeine Orange da die beiden modifiziertes wollen wir nachher noch sieht es von außen aus. Es kommt ein Bild rein kleingerechnet 116ins Quadrat und esbounding boxes raus.müsste ihreFrage dann sein OK zehntausendnoch was bauen in boxes.müsste ja ganz schlimm aussehen, das müsste dann ja den Bildern, die ich eben gezeigt habe,das denn ja so aussehenbounding boxesgar nicht. Supi, zeichnenan, wie das aussehen müsstewäre offensichtlich die Katastrophe, was wird man tun, das man nicht 10.000 bonnieboxx ist? Hatsie schmeißen alle raus, bei denen die Bewertung, das war dieses Produktbei denen die Bewertung nicht hoch genug istsowieso aber das kann man später machen in diese Implementierung dich gerade gezeigt wird das lustigerweise spät irgendwiezurecht sagen. Das wesentliche Problem ist. Er dieses wenn er irgendwo eine Person steht,wird diese eine Person mit ganz vielen bounding boxes erkannt.hat man dannkann man seinem Fermentation schlecht umschalten, weil das ein kompliziert ist, aber wenn Sie das runterdrehendie Schwelle sozusagen runterdrehen,sie tatsächlichjedes Objektviele Bounding Box ist dann haben Sie hier eine Personhaben sie da eine Person und dann haben sie noch mal eine Person,ist das wesentliche Problem,möchte mandass das passiert so gut wie es gehtauf dieses Problem nennt sich die übliche Antwort nennt sich non-maximummaximum Unterdrückungkann man auf verschiedene Arten tunich sage mal wie das hier in diesem dementierungworden ist. Kann man sich dann ja tatsächlich in Peißen angucken, wie das dann gelöst worden ist.der Job ist diesem vielleicht Dutzend bauen inboxes einezu bauen.wir habenbounding boxes.sie schon mal aus zwei in eine bauen können,Sie das auch mitmachen.für ein sie tun, sie haben zwei bounding boxes, was würden Sie tun, um jetzt eine Entscheidung zu treffen?überleben soll in ihrem ErgebnisSchnittmenge bilden oder versuchen so ein Rahmen insgesamt drum zu ziehen, aber das wirklich ganz einfachviele Wecker von den 10.000.übrig bleibenden ändert man gar nicht.müssen Sie tun? Sie haben zwei bounding boxessoll vielleicht eine davon rausfliegen.ich sollte mir also nur eine Klasse hier was angucken, ich gucke mir nur die Bewertung für Orangen an und nur die Bewertung für gaben anfür Klasse gehe ich das durch.habe ich im sorry Code jede der 80.Klassen tue folgendes.ist wirklich eine for Schleife in den Programmcode, jede der 80. Klassen.was nun kommt,ich gucke mir z.b. Nur die Orange an.darf ich ja die 80 Werte von 1 bis 80, die 80 Wertemir aus ist die Nummer 23, das für die Orange multipliziereich mit dem objectnessbeiden modifiziere ichund Dentin Orangenwärt sozusagen und habe eine Bewertung,jetzt eine Bewertung für jede von diesem bauen den Boxen wie viel siediese eine Klasse.schon gesagt, es scheint dann um die Bewertungen zu gehen, aber nicht nur um die Bewertungen, was muss ich noch berücksichtigenzeige mal wann siebehalten wollen.waren sie beide behalten,die sich nicht genügend überlappen,ist das Kriterium Hause. Die Wahrscheinlichkeit habe ich scheinlichkeit schlechtes Wort aus. Die BewertungScoreist das eine der Überlack ist das spannende,will diesen überlappt bewerten wie stark.die überein diese beiden bounding boxes.ich gucke miralle bounding boxes an für jedes Paar anbauen inboxes.sind zwei for Schleifen.jedes Paar anbauen denfolgendesbestimme erstmalstark die überlappen, wie würden Sie dasin einer Zahl, wie stark dieFlächenLinke bonnieboxx Ballkleider gemacht und die können natürlichGrößen haben, die werden im Allgemeinen auch verschiedene Größen haben, sinnvollerweise sie sagen bildet man Flächenverhältnisund das Flächenverhältnis,dass manintersectionover Union.over UnionFläche der Schnittmenge /dieder Vereinigungsmenge,dienatürlich dieser Teil hier.gemeinsame Kästchendie Vereinigungsmengewas rot eingerahmt ist,ist die Vereinigungsmenge?over Union ist dann schlicht und ergreifendVerhältnis davonalso die Flächevon E durch die Fläche.noch so einen terminus technicus, der da auftauchtsich an so wie eineich schulde dirIOSover Union.der Sex schon durch. Fläche der Union,ist eine Zahl0 und 1die kann man als Kriterium nehmengrüne Fläche kann maximal so groß werden, wieFläche hat, dann kommt 1 rauswenn die beiden sich überhaupt nicht treffen, dann kommst du raus, also eine Zahl von 0 bis 10 schönstendann das benutzt manbanal,rechnet juhu ausder Übermittlung von eben guckt man an, ob das größer ist als 0,4,weiter imfehlenZahl album,wenn die= 0,4 ist.schmeiße ich diebox, die eine schlechtere Bewertung hat raus.ist effizienter, den ich rauszuschmeißen sondern setzt einfach die Bewertung auf null, wann hat sie ja schon man setzt einfach nur noch eine Zahl auf null setze Bewertungbewerteten Box auf nullsie sich rauslöschen die Box da muss erst einspeichernhergeschoben werden. Das nervt. Nur kann ja einfach die Bewertung dann auf null setzenSo geht das, also mander Klassen durch.sich jetztdie Wertung jeweils für Orangen an, also objectness malin Anführungszeichen Wahrscheinlichkeitfür Ranken für jede Bounding Boxguckt sich dann alle Paare von bounding box is an, nur was die Orange angeht.da die Klasse orange da drin unddiesen Vergleich hier, wer wird gewinnen, wenn die sich hinreichend überlappen.Prozent z.b.diesem Sinne von ahuhu,schmeißt man die Box raus, den schlechtere Bewertung hat die andere wird überleben und dann hat manweniger Boxen und zum Schluss kommt das was siezuerst gesagt haben kann man auch zuerst machen, aber in dieserhier wird es zuletzt gemacht,hat und ganz viele Bewertungen aufgesetzt hat.man zum Schluss alle Haus pfeffern, die nicht ordentlichbewertet sind,der Schritt nach diesen ganzen for-Schleifenalledie Box ist mit niedriger Bewertungangeben.sie mir nicht 10.000 noch was Boxenbounding box ohne Bewertung von 0 habendann unter der Schwelle liegenangezeigt werden, das habe ich da keinen gestört.istAußensichtsozusagen.rein undkommt eben 10647bounding boxes rausder Geometrie der Bounding BoxalsZahl und die 80 Klassen jeweils dann auch noch mit der Zahl von 0 bis 1 undeine Wahrscheinlichkeit anzugeben für die jeweilige Klassewas drinnen passiert,Blase hier, die ist gar nicht so schlimm,ich dir genauer angegucktist die entscheidende Datei auf diese Implementierung,gibt es nämlich istnämlichFunktion Yolo V3baut das Netz zusammen diese Funktion, jetztwir sich schon angucken,das alles zusammen spielt wird sich in dieses Detail hier sehen, das ist relativ übersichtlichgleich mal aufzeichnenden alten wie du schon mal vorGrößedie man bis dahin hat wird hier um2 in Breite und Höhe reduziert,ist ein ganzer Stapeldie da noch mal kommen hauptsächlich auch Konvolut den Box nur steht drinnen, wie viel ist denn sindviele jeweilsmal downsample noch mal das ganze in Länge und Breite Faktor 2 runtermal ein Stapel Aufschichten noch mal Downsamplingnoch mal.2 in Länge und Breitejetzt also 123nur noch beim 8L im Länge und Breite von denPixeln, die man mal hattejetzt muss er sich inzwischen Resultatmerkendieser Auflösung immer gleich noch mal. Hör auf Zeichen in dieser Auflösung merkte sich inzwischen Resultathier. DieseskommtDas kommt da unten gleich wieder vor. Die Verbindung sind wir gleich noch mal.es geht auch weiter. Es ist nicht nur dieses Benutzers als Zwischenresultat weiter nach unten geschoben wird, sonst kommt Asics das Video weitermal runter, jetzt hat man ein 16 in Länge und BreiteZwischenresultat nach ein paar Schichten P1,das wird auch unten wieder benutzt. Dieses Zwischenresultatnoch mal runter,das letzte Malist man alsomal Faktor2, also1 32ursprünglichenund Länge und dann kommen noch mal Staffel 1 Schichten ist3 oder steht da drüber? Die Funktion kann man sich nur noch mal angucken,viel Schichten jeweilsübereinander.dahin geht es runter, ganz viele Schichtenkleinerdann kommterste Teil der Ausgabe, da steht schon auth0 nochmaldas ist ein Teil der Ausgabe,ist die auf derauflösenden Stufe diese 13 x 13 Zellen, das ist diese Ausgabedeines gar normal auf, falls das schwierig zu verstehen ist, als das ist die Gabe aus der untersten Stufex 13 Celledann wird die Auflösung wieder verdoppelt, lustigerweise Länge und Breite x 2, das istSchicht ab Auflösung verdoppelt.wird das Zwischenergebnis von eben, das war P1Zwischenergebnismit derselben Auflösunger noch mal drangehängt und Kathi Nationdann geht'sdie nächste Schicht rein und es gibt auch eins,das ist die zweitniedrigste diese mittlere Auflösung Stufedasselbe passiert noch maldann kommt o2, das ist die höchste Auflösung Stufeden meisten Zellen und die Ausgabe insgesamt ist aber dass drei hintereinander alsodiese 13 x 13 +x 26 + 52 x 52ist in dieser Schreibweise relativerträglich, man muss ich ein bisschen eher durch Grafen ein paar Stunden lang, dann kann man das natürlich verstehen.versuch's mal gerade aufzuzeichnenist einfacher aus als hier,das mal dazwischen zu zeichnenlos mitSchicht im Originalformat.dann geht esFaktor 2.kommen mehrere Schichten die die Zahlen Schichtdicke Zeichen ist nichtzu viel Gestrüpp, es kommen ein paar Schichten mithalben Auflösung und dann geht's noch mal runter,kommen ein paar Schichten mit einemderdann komm noch mal Faktor 2ein paar SchichtenAchtel der Auflösung relativ viele Schichten sind das.geht noch mal Faktorrunter.16.Auflösung relativ viele Schichtendann kommt ein 32 für der Auflösung, das ist die kleinste Auflösung.überhaupt hat Schicht zu Schicht im neuronalen, jetzt weiter runter gerechnet.der ersten Verkleinerunghatte also 208x 208nach der zweiten Verkleinerung hat erx 104,hat er 52x 52 dieZahlen kennen sie schon dann hat er 26 x 26Theater 1313, also das ganze Bild was xx 64 Pixel hatte. Ist jetzt auf 13 mal 13 Zellengedampft, wenn man so viel an dieser Stellekommt jetzt die erste Ausgabe an dieser Stellex 13 kommt die erste Ausgabe, da haben wirjede von diesen 13 x 13 Zellen 3 bounding boxesgabs aber noch einen fähig, dass diese 13 x 13 wiederwerdenErgebnis von dieser Aufgabe wird noch mal aufgepustetauf 26x 26 in der Größevorgekommen, ist es heute mal ein zeichnen, also hier aus diesem Stapel nehmen wir uns eine Schicht unddie wiederFaktor 2 in Länge und Breite auf.man nimmt sichStapel davorder schon die richtige Größe hat auch eine Schicht,hat schon die richtige Größe.x 26hängt dann jetzt ein paar 26 x 26 erdahinter,gibt dann zum Schluss. 26 x 26den Trick macht man noch mal 2626 geht man auf die 52 x 52.sistem stapelt noch mal hochgerechnet aufx 52gab es eine Zwischenresultat hier 52 x 52, was man sich gemerkt hat,pflegt man noch mit ein.dann komm jetzt hier noch ein paar Schichten im Format 52x 52und gibt 52 was 52.Endresultat das ist die Struktur dieses Netzes und sind jetzt eben diese MillionenParametern verstecktin diesem ganzen Neuronen, die in den schwarzen Strichen steckendie Millionen an Parameternhaben sie ne Idee, warum macht man das so warum geht man hierPyramide runter,hat das für einen Sinn?ich doch weiter ausruhen,habe das Originalbildeben nicht mehr mit 64 x 64 fahre ich das Originalbild, sondernBild besteht quasi nur noch aus 13x 13 sind nicht 13 x 13, aber irgend sowas 13 x 13. Zellen.ist nicht das Bild. Es ist jetzt nicht blau oder grünoder rot, was ist 13 Zellen haben, sondern was sie 13 zählen haben? Ist jadurch die Mangel gedreht.Zellen haben wir schon eine Idee davon, ob das eine Szene mit Pizzen auf dem Tisch ist, oder ob das die Straßenszenemitfährt ister nicht ist, das wissen die zählen. Die wissen nicht nur rot blau grün.den Verbindungen hieralle möglichen Formation, der weiß ja nicht, ob ich jetzt mal erzählt man weiß ja nicht so genau weiß das Netz gelernt hat man kann versuchen zu visualisieren,höchstwahrscheinlich hat es genauso was gelernt,ich irgendwiemit Pizzen und das sind dann folgende Zahlen werden die dasDas haben sie darin. Sie haben nicht die einzelnen Farben mehr da drin,Farben hatte man ganz am Anfang.diese Konzeptedas Bild vom Strand diese Konzepteist eine Sonne. Da ist ein Strandkorb. Hierist blaues Meer diese Konzepte die sind auf diesem Gerät 13 mal 13 Raster 13 x 13, okFarben nicht Meer darzustellen sindPixel vs. Pixel dunkelblauesPixel wie auch immer, sie waren ganz ganz viele Pixel um zu sagen mehr,sie Farben darstellenhierin Anführungszeichen weiß das Netz mehrdiese Pixel dir sind mehr und diese Pixel sindEs kommt zum Schluss dann als Klassifikation daneben raus, wobei mir und Sonne nicht bei den 80 Klassen waren, aber würde auch funktionieren.diesen 13 x 13wenn man so will steckt mir ganz andere die tiefere Informationen drin als nur RGB-Werte odergar nicht mehr die RGB-Werte, sondern viel abstrakter ist die Informationen hier und dann reicht ihnen die Auflösung 13 x 13.mehrsie jetzt nicht jeden Pixel zu beschreiben, sondern sie müssen nur wissen. Naja in der Ecke grobin der Ecke grob Strandkorb64x 64 Pixel,ist der Gedanke hinter dieser Herr reichi. Es istmuss nichtSchlussAuflösung 416 x 4 x 16 haben, ich kann ganz weit runter gehenAnführungszeichen also das was ich gerade gesagt habe mehrStrandkorb.So ein Konzept brauche ich die Auflösung 560x 40 den erreicht 13 x 13 oder52 x 52,Biss runterrechnen.kann sparen sein. Könnte durchrechnen,ganzen Stapel hiermit sich richten könnte man durch rechnen mit416Rechenaufgabe, wie viel mal länger das dauernd würde es wird extrem viel länger dauern,diese Auflösung durchsuchen. Es lohnt sich nicht, dass sie diese Auflösung durchzurechnen,ein Konzept für Strandkorb,man sie dich pro Bichselx 13 oder 52 x 52 kommt hier besser hin,Ausdünnungzu eine Pyramide.es einen dann Luft diese Schichten ja richtigzu machen.gerade mein programm zeigen.sich das angucktSchichtenZahl hier 64 128, das ist sozusagen, wiedick die Schicht hier ist wie vielsitzen pro AnführungszeichenPixelwenn man so will, wie viele Neuronen sitzen am pro Zelle da drinnen 128zum 56024,also ganz weit runter geht 132 derAuflösung,die Schichten superdic1024werden die dickestenschlechter Begriff an der Stelledann jeder Schicht an ihrer Stelle 1024maroon.kann die Rechenleistung da dann rein steckendass man in die Breite g zuzusagen geht man in die Tiefe Vorwald und Tiefe Siri Begriffe sind hier mehrdeutigeBegriffe,ist die Schichten sind richtig Komplex Mandatgeht es um komplexeAm Anfang geht es um rot grün blau undhier geht es umGeschichten Orangenunddanngeht's wieder rückwärts, danach wird es wieder aufgeblasen. Also, was man hier raus gekriegt hat Konzeptenwieoderwas man hier in Konzepten rausgekriegt hat, wird dann lustigerweise wieder aufgeblasen mit Informationen aus dieserx 26. Schichterst dann wieder aufgeblasen auf 26 x 26die 26 x 26 erbauen inboxes, dass man da kleinere Objekte auch erkennen kann noch mal aufgeblasenzusammengenommenmitaus diesemdann die 52 x 52, also erst wird klein und dann wirds wieder groß lustigerweiseklein werden zumkondensieren,ich Rechenleistung spare.komplexe Schichten hier bauen kann und Konzepte darzustellen und geht's wieder groß gemacht,genaue reingucken zu können und die sind Formationen die nochauflösen Schichten kommen die Beine wieder mit rein gerechnet,ist der Gedanke dahinter.das isthier,warum der dünner wird und dann wiederwird,jetzt hier was gerechnet wird, dieNeuron, die da sitzen was rechnen, diees altbekannter. Das gab schon bei jetzt schon vor und den anderen alten Videos forFaltungdiedas ist das was hier wesentlich passiert bei Yolo.deutschen Faltung?Foyer vor und bei Fuß Antwortennicht in Sachen,man sich so ein zweidimensionaleseine zweidimensionale Schichtso und so viel mal sonst wie viel aufgeteilt 52 x 52 oderauch immer.jetzt möchte man mit diesen InformationenHier sitzt ein Neuron das wasund dieses neue undEingaben habenneue Pixel konnte das neue nehmenabend irgendwo ein anderes Neuron derselben Schicht daist für diese neue Pixel zuständig dieses Neuron,möchte manNeuronen zweivonmein Trainieren,würden sie sinnvollerweise annehmen,man diewie man die einstellt vor allen Dingen.sprechende Gewichte müssen also gleich groß sein mit dir oben orange ist muss das funktionieren, wenn der unten die selber eigentlich muss es auch funktionieren,braucht ja nicht mehrfach an zu trainieren.Gewicht muss derselbe sein,dasGewichtdieses Gewicht recht unten muss das gleiche sein, wie daso weiter für alle sprechen Gewichte, das ist dann convolutional net. Gehe mit denselben Stimpel sozusagen, sie gehen mit demselben Stempeldie ganze Fläche drüberdie ganze Fläche der Schicht darunter immerderselbe Stempel die gleichen Gewichte daran dieselbe bei dasganz viel Arbeitviel Arbeit beim Lernen,diesesGewicht getrennt eingestellt würde von demdas für jede von diesen zählendas extrem viel mehr lernen Arbeit und es bringt ja nichtoben im Bild passieren kann kann auch unten im Bild passieren.egal, wo sich lernenman gleich, das ist ein convolutional net, das kam ganz viel vordas noch mal im Quellcodebesteht aus ganz vielen von diesem seniaconfsteht Kopf und weiß Deck waschen 3, dass jeder Hauptbestandteil hier ist der Größenwahldiesem convolution SchichtenAnzahl hier schon gesagt 64heißt wie viel Neuronen in der Geschichte weißsitzen sozusagennur vier Stunden würdenalso in der nächsten SchichtNeuronenStempelgetrennt gelernten Gewichten, aber von einer Stelle zur nächsten wieder identischen Gewichten. Das wäre als wenn deine vier Stundenin der nächsten Schicht vier Neuronen, die diese Stelle war, kann diese Umgebung beackerneingezeichnet habe ist eine x 3Kästchen drei Kästchen, was ist eine 3 x 3 Halterung?gibt auch eine EinmaleinsFaltung, das sieht komisch aus.kommt aber auchYolo massivNeuronguckt sich quasinur eine Zelle an alles was davor ist in der einzige und dieses neue Runde untensich eine Zelle an. Das wärewirkt ein bisschen komisch, wenn man das macht undGewichte, also hiergleiche Gewichte, was ich da nicht nur eine FarbedreiHier könnt ihr mehr passieren als nur drei Komponenten. Hier wird mir passieren ist und drei Komponenten, aber dann sind die entsprechendengleich.sieht, dass man total komisch aus eine Einmaleins Faltungaber häufiger vor hiernoch mal in denrein ich bei diesen3.Inzest ist diesize-1Zeus. Normalerweiseist 3. Das steht da oben, das war der erste 3 x 3 undist die Körner scheiß einsübereinandergestapelt. Amerikanischer Science und dann wieder Köln S13eine Einmaleins Faltungen in der 3. X 3 Faltung immer übereinander gestapeltder Test Sichtigvormal zu Dustin gut sein, sollte eine Einmaleins Faltungergibt das Sinn?doch mal hier wieder die Idee ein, dass man ja nur 1 und dann haben kann in der nächstenhieß, dasja erstmal 44immer habenjede Zelle 4 Neuronen haben unddannda angucken, was sie derdavor passiert.können sie hier ja auch haben und wird es bei mir nicht sinnvoll.man hier mehr Neuronen hat und die können ja alle in die Schicht davor gucken, wenn ich sie aus der Schicht davor schon 512Zahlen rauskommen pro Zellediese Neuronen jetzt alle die 512 zahlen dann guckendann z.b. Das reduzieren auf nur 216.wird es typischerweise dann angewendet,ist noch eine weitere SchichtLernen, die guckt sich aber nicht die Nachbarschaft an so eine 1 x 1 gucktsich nicht die Nachbarschaft an, sondern istso eine Säule dann auf diesen einenja wie eine Säule dahinter noch nurin ab von den Pixel geht jetzt weiter gearbeiteter ist ja vielleicht 512oder sogar 1024tief diese eine Pixel ankönnen alle miteinander verrührt werden essen Einmaleins Faltung.drei guckt sich wirklich. Die Umgebung kannsich das doch mal genau überlegt, ob zurückgerechnet das wollte ich noch sagen, dassRezepte vielsieht das Netz überhauptdurch die Verkleinerung hierimmer Faktor 2 runter?es sowieso schon recht vielSally aus 13 mal 13 spricht, der im Original 32 x 32man sowieso schon recht groß ist, das Sichtfeld sozusagen und dann kommt jetzt ja immer noch Effekt, dass diesedie drei mal drei nicht einmal ein super Drummer 3 Konvolut ist es ja auch noch immer die Nachbarn angucken. Es wird wahnsinnig groß.du am Hagenau Nachrichten, aber der Witz ist das zum Schluss. Jede von diesen 13 x 13 cl nicht nurwas hier was in seiner Box ist,Sie praktisch das gesamte Bild,heißt, wennganze NachtmitundMesser aus sieht insgesamt dann wird er ein Messer erkannt als ein Pferd erkannt wird oder ein Fahrrad erkannt wird.ist das Windows active field was sieht hier eine von diesen Zellenist nicht so schlimm zu verstehen. HoffentlichTrick ist das erstmal zusammen zu basteln dasDing Haus Jahrund Nächte trainieren und verstehen sie wieder was und dann trainiert das Ding wieder Tage und Nächte und sie gucken ist es besser geworden und dann trainiert es wieder Tage und Nächte, das muss ja alles systematisch angegangen werden, das ist so fast wie Chemiewas realwissenschaft,diebisschen verändern und testen wir das ganze noch mal auf Zugfestigkeit.dann ist man das noch mal neu an und ist eines wieder auf Zugfestigkeit hier genauso das ein oder andere ändern hier noch mal eine Schicht da hinten da vorne dahinter wollen mehr Geschichten da rein, wie tief sind die Schichten, wieich das an mit welcherist das raffiniertegibt man das überhaupt an diese Architektur zu finden, wie trainiert manBilder zeigen sie in welcher Reihenfolgeman nicht nurnehmen, in denen jetzt die bonnieboxx ist von Menschen gesetzt worden sind kann man Bilder nehmen, mit den einfach nur Katzen Hunde zu sehen sind, das haben sich die Autoren auch überbounding box isloss function, wie misst man die Güte des Ergebnis ist, das ist auch raffiniert, die zeitlich lieber gar nicht den Sinn den paper, die osmanischen sieht schlimm aus,die Beurteilung derAbweichung zwischenwas das Bild laut Menschbounding boxes und dem was hinten rauskommt,sieht auch formidabel aus. steckt dann ganz viel Intelligenz drinnen.diese trennendes Netzes isteinfach und dieistrelativ einfach, das kriegt man in paar Stundendem Internet zusammenwie man jetzt damit umgehen muss.