[Playlisten] [Impressum und Datenschutzerklärung]

Maschinenlernen mit Python scikit-learn


CC-BY-NC-SA 3.0

Tempo:

Anklickbares Transkript:

einmalwas beißen wir jetzt hier Preisindex zwei Weisen Klammer auf X Komma Y Klammer zueingebaut hat bereits an MaschinenlernenEscapeist die Bibliotheksteht das alles drinwas jetzt mal zeige ist einen Datensatzdie man frei im Internet bekommen kann die Autoren möchten ein Zitat hier ist das Zitatfür den Datensatzund zwar haben die folgendes gemacht ?? die haben ihren TestpersoneneinSmartphonein die Tasche gesteckt oder so und dann aufgezeichnetzur Metadatenund so weiter und so weiter wie üblichKomma sind sie aber abgelegt es in den Daten die die bereitgestellthaben sind nicht nur die nackten Accelerometer Daten sondern was ich hier verwendesind Daten vor zum Beispiel gebildet worden ist das Maximumder X Beschleunigungoder der Mittelwertder Y Beschleunigungoder wie häufig es eine bestimmte Frequenz gewesenso Features daraus gebildet nicht die Zeitverläufegenommen sondernüber den ganzen Zeitverlauf Features gebildeter Städte in diesen Datensätzengerade diskutieren oder macht man das Warten Raum nämlich nicht zum Zeitverlaufzu vier hundert Sampleswarum sage ichdas für das Maximum das war das Minimumhier ist der Mittelwertimmer noch nur Foyertransformationensag was ist denn die häufigste Frequenz das ich vielleicht die häufigste Frequenzgibt als solche Werte an Hunderte sogar von solchen werdenBenutzer aber gar nicht dietatsächlichen Auslenkung hier also nach fünf Millisekunden was der Wert hundert sechs Millisekunden was der Wert was ist der Vorteil wenn ich solche Werte geben zu statt der Zeitabhängigkeitsowas ich bin das viel Ärger es im Zeitverlauf los ich hab hoffentlich weniger Daten zu speichern das auch aber in letzter Zeitverlauf da anfängtoder aber zehn Millisekunden später anfängt sind die Auslegung ?? drastisch verschiebenwie sie das wieder jemals zurückgerechnet müssen sie eben sich über den alles verschoben worden oder wenn das schneller passiertund es passiert schnellerwas es alles ganz fürchterlich eklig aus diese Änderungen im Zeitverlaufdie kann ich einfach vergessen indem ich solche Werte nehme Maximum Minimum was ist die häufigste Frequenzmich viel weniger Kopfschmerzenund obendrein Winterdaten das passiert ja aucheinen Datensatz sind auch die richtigen Messwerte alle enthalten aber ich nehme tatsächlich nur diese Featuresschon hast und nicht die eigentlichen Samplesdieser Datensatz hat vier TeileTrainingsdatenTestdatenmit den Trainingsdatender Name sagt lernt man dass der Gedanke dieser Mann anlernenund Ärger mit den Testdaten nachguckenob das was man ?? gebaut hat das Maschinenprogrammauf das richtige gelernt hat wie gut es ist sozusagendie Prüfung nicht das ?? ist die Vorlesung klein ist die Vorlesung diese TrainingsdatenderextremenText und weit schönen Text dessen die Daten die man lernen solltegibt es Test Datenbasis die Prüfung und ?? zu gucken wurde das Ines auch gelernt und sie jetzt aber noch mal diese Daten die dann zur Prüfung kommen Sie natürlichandere Daten als die Daten mit den gelernt worden ist es muss verallgemeinertwerden es lernen muss im verallgemeinern auch bestehende soll nicht nur diese Datenpunkte gelernt werden X sind dieminimal Maximalfrequenzenwas auch immer jeweilsals ASCII in eine Datei miteinandergeklatscht?? Y ist die Zuordnungdass sie was bedeutetSatteinsheißt gehenzwei heißt Treppe rauf drei als Treppe runter vier Eis sitzen fünf Eis stehen sechs Eis liegen das ist ein hier in der Y Tabelle drin jeweils zu diesem Datensatz wieder eingesammelt worden ist die Klassifizierunges geht also offensichtlich wieder Klassifizierungswellean die Klassifizierungdann habe ich Daten zum Testen was ich dann im waren die natürlich nicht habe ist wie die zu klassifizierensind die Daten zu testen ?? Liebe fehlt mir dieses Y Test jährlich netterweise besonders gegeben und kann gucken ob mein Verfahren wenn auch wirklich ordentlich gelernt hat war neben den Quelle Luft und müssen sich darauf verlassen wenn das Handy sacht der große Mandy sagt die Person geht wird sie hoffentlich auch keine andere Information mit jemanden immer nachgeguckt oder der Person gesagt ist jedoch ?? und dann habe ich dann wirklich Daten mit denen ich auch dann mal nachgucken kann die gut getarnt worden ist das es so üblich das Mandat als ?? zum trainieren einander zum Testentypischerweiseein kleiner Datensatz zum Testen ein größeres und trainierendas professionellste noch ?? dritten Datensatz haben zum veröffentlichenganze Zeit passen sie aber mit diesen beiden Datensätzen das Problem ist dass das Verfahren was sie auswählendarauf geeicht sein kann auf das wir getestet worden istScan sie auch sie bereiten sich auf die Klausur vorab genau die Aufgaben in der Klausur dran kommendem Phänomen jedes Argument üblicherweise dazu zur Veröffentlichung der wissenschaftlichenVeröffentlichungnoch einen dritten Datensatzden Application Datasetzu sagen sodass sie sehr ganz frisch und neu und nie gesehen des Problemes mal ernsthaftals die zwei Datensätze gebildet?? was zusammen stricken dass man Sachen und alle Daten die man hataber einen Daten Punkt zur Seitetrainiert mit N minus eins Daten guckt dann mit dem letzten immer zu seitigen Licht hat das wiederholt man für vieleweitere auch so machen?? Texte sehen wie das hier funktioniertbeißen hat eine Bibliothek namens number einemheißendecken sie ein Versagen des ?? Komma bitte die ganzen Zahlen aus der Datei fertig so simpel kann das Leben seinich gebe hier mal auswelches Format die Daten habenwir dann kommendes Zeichenist immer noch auskommentierenKomma leider an welchem Format die Datenbanksoextreme LizenzdatenXdie Kilometer sonst wieder Glück sondern die Labelsgroß X war das Interesse an Vektor ist besonderskleingeschriebenes Internetso bekommen ?? mit sieben tausend drei hundert zweiundfünfzigDatenpunktenwenn Sie so wollen und jeder hat fünf hundert einundsechzig Dimensionheute von diesen Geschichtenminimal X beschleunigungsgrößefrequenzblablablablahaben die sich fünf hundert einundsechzigWerte gestrickt ?? jedeBewegung?? mit fünf hundert einsichtig von diesen Wertenund nahmen sieben tausend drei hundert zwei fünfzig Bewegungen aufgenommen oder eben nicht Bewegungen aufgenommendass es in dem extremenalso zwei dimensional bei sieben tausend drei hundert noch was Zeilen jede Zeile fünf hundert einundsechzig SpaltenY die Lebenshilfe Netiquette sieben tausend hundert und fünfzig Labels für jede von diesen Bewegung gibt es ein Label von eins bis sechs gehenTreppe rauf stehen Ihnen wie auch immer das sind die Trainingsdaten die Tester sehen sie sind nurhalb so groß etwas größer als ?? zu viele zwei tausend und sieben vierzig Bewegungen als der Staat ?? nicht bewegen was es dann auf diese fünf hundert einundsechzigDimensionenund zwei tausend und sieben vierzig Labels für die Testdaten die aber natürlich ?? waren eben nicht die Labels hier muss ich ja aus meinem Programm erschließen hier kann ich jetzt zum Test im ?? gucken was würde mein Programm sagen und was weiß Beistrichwir fangen an mit mir müssen etwasganz klassischenSinn rekonstruieren es einfach Liebesnehmereinsden nächsten Nachbarndas schon alles Trainingsdaten ?? sowas eingebaut ich gebe nicht das gesamte ?? mit den Trainingsdatensoll ich sagen ich nehme mir von diesen fünf hundert einundsechzig Featureses viel zu gut würde keine Unterschiede sehen ?? fünf hundert ein sechzigist ja gemeinhin nur zwanzig davon nicht ignorieredass ich noch fünf hundert einundvierzig mehr habe ich nehme die ersten zwanzig von diesen Daten das mach ich hiermit also aus diesen Trainingsgerätnämlich alleZeilen an sieben tausend hundert und fünfzig Zeit aber ich nehme nureinsAutovermietungdurch Null stehen so von null bis ?? wieder verstehen so nimmt er jetzt tatsächlich zwanzig und null bis neunzehn ??zwanzig Features die einem den ?? die ersten zwanzig darüber ?? und effizienterrichtetdie Datenstrukturein für den Juristen etwas mit den Trainingsdatenjetzt kann ich eben direkt Fragenmeinen Newslettersdirekt fragen okaydas sind meine Testdaten jetzt sag mir mal was die nächsten Nachbarn sind was ist der Abstand zu den nächsten Nachbarn interessiert mich jetzt nicht so bei dieser Anwendungwo finde ich meine nächsten Nachbar das ist jetzt eine Liste von Indices?? Indices Check aus Versehen wie viele das sindRegister für jeden Testfall ein Index sein was ist die Nummervon demgelernten Fallund hier zähle ich jetzt einfach wie viele von meinen Testfällensind jetzt richtig erkannt wordendiese Liste Indices gibt jeweils an unter welcher Nummer der nächste Nachbar stehtruhig nach was war das Label von den nächsten Nachbarn und ist das im Fond des Nachbarn wirklich auch das Label gewesen von dem die nicht ausgewirkt habe von meinen TestfällenKomma in achtzigProzent der Prüfung sozusagen bestanden worden sindsie das jetzt aus das man hier was kommt raus Punkt IndicesShakefür den Testfall ein Index welcher war der nächste Nachbar sind Siehier ?? zwei tausend hundert sieben wir die Test Fällein einer Spalte runtergeschriebenund Medizin nachzählen die Firma hat's geklappt immer nicht geklappt?? zwei tausend und sieben wie die Testfälle in tausend acht hundert und zweites Training war das richtig das Ergebnisobwohl ich jetzt zwanzig Videos benutzewas schon in mehr als der Hälfte der Fälle das Ergebnis richtigsie sind jetzt vier hundert Dollar ?? hätte man nicht viel von dem Verfahren verstehen müssen des ?? des Organismus so ausführlich erzähltdie Bibliothek macht es extrem effizientund besser als sie und ich das Programmieren könnten in endlicher Zeitwir wissen etwasmitvier mehreren Juristen ?? was sind in der neuen Messe nach Bangkok ich immerdirekt hintendranzum Vergleich auch wieder nur mit zwanzig Features dessen was erkennen kann weil sonst wie zugute sondern sich auch wieder durch Indices einer Erweiterungbei neun nächsten Nachbarn ?? eine Mehrheitsabstimmungund natürlich kann heißen auch das sie können beißen Fragen was ist der häufigste ihr musst kommen PositionenKlasse namens Kauder die zählt wie häufig kommen die einzelnen vor ihnen sicher aus was ist der häufigstegibt mir eine Listeder häufigsten und zwei Ziffer den einen häufigsten sie können Sie auch die drei häufigsten oder was immer geben lassen ?? gibt mir die Liste mit einem häufigsten es ist die einzigeaus dieser Liste gibt mir den vordersten Eintragdiesem Eintrag steht dann jeweilswas ist der Wert was ist die Anzahlich hätte gerne den Wert und nicht die Anzahl deshalb steht jedoch die beiden nur in eckigen Klammern dahinter nicht ein Treffer habe ein mehrkann man sehen okay als Prinzenbisschen weiß das ich jetzt neue nächste Nachbarn habe aber der Unterschied ist nicht drastisch in diesem Fall geht es rauf von achtzehn hundert zwei Kennungenauf achtzehn hundert neunzigvon zwei tausend hundert siebenundvierzig ist nicht so richtig dramatisch in diesem Fall zumindestder letzte hier ist SupportvektorC Klasse Fall Superklassefeiernimmer einähnlicher Aufruf jetzt hierder Support Mittelklassefeierder braucht die TrainingstextDaten aus aufgenommenenBewegungsdatender braucht aber auch die Y Daten beim Support Vektor müssen sehr sagen großes A SSBbei den ersten Eberswalde zum anderen ihren nur die Bewegungsdatenerst dann können Sie nachguckenwas ist der nächste Nachbarwas Bewegung war das das kann ich weder nachguckenbeim Supportvektorfestefeiern müssen sofort schon die Trainingsdatengeben ?? nebenbei ich hatte eben wie beim Supportwetter habe erst mal nur in der Entscheidung ja neinjetzt habe ich aber sechs verschiedene Klassendas muss man sich aus mit lediglich mindestens zusammengebaut aus solchen Ja Nein Entscheidungen könnte das hierarchisch machen wie gehetzte rechte Hälftelinkes Viertel von der linken Heft und so weiterwas typischerweisemacht istdas man mehrerevon diesen SupportregimesaufbautKlasse eins gegen alle anderen dann noch als korrekte Maschine die Klasse zweigegen alle anderen alternativ könnte man auch eins gegen zwei und Erlangen ignorieren als gegen drei kleineund so weiter und so weiter bis in die ?? Funktion verstecktist man in der Dokumentation nachlesen was die jetzt im Detail machen das es zum Lernen und dann kommt jetzt die Vorhersageaus dem supportwetterfesteFeierdesschien zur KlassifizierungSie gebeneinwas denn die Bewegungsdatenfür die Testfälle sind auch wieder zurecht gestutzt dass ich alle Videos benutzesonst langweilig wird ?? Wasser zu gut sindund dass ich es eben mit wie gut war die Vorhersagewesentlichen Teil ?? alle drei Methoden durch mit Lernen und auswertenso das verifizieren sie sehr große Wortwechsel Maschine ist schlechter als mir bist nehme ich dazu habeinteressantbisschen rauf gehen wir maldas ?? nicht zwanzig Features nehmen sondern von den fünf hundert noch was Featureszwei hundert Features nehmenKomma guckenbisschen mehr mit Lernen beschäftigt zugegebenermaßen?? Komma Netz daneben Rückmarschin Informatik dann gut dran bastelnBeistrich zum Beispiel solche Abfragen schnell in ich suche die nächsten Nachbarn wie kann man das beschleunigen?? wie kann man diese Nachbarnsinnvoll speichernhier die News neben Regina wie schnellnurOrtsvektor doch als auch der Sinn ??bei der Zahl an Featureswas man es jetzt zwei hundert bei zwei hundert Featureskriecht der Supportvektorklassefeierzwei tausendsieben hundert zweiundsechzig von zwei tausend hundert sieben vierzig richtig klassifiziertund die anderen drunterals ich sie ?? überlegen wie viel Speicherplatz hat man die frechen Zeit hat mandieses Problem an die was kommt häufig vor was kommt seltener voroder Komma ?? exportierenist das hübsches Jahr mit in diese Bibliothek hier im heißenDutzend Verfahren mindestensdass sie einfach miteinander schreiben können und den Kontext kommentieren welches Verfahren passte noch mein Problem am besten was in dieser Version jetzt noch fehlt ist das Material besser schon in der nächsten Version ist es dabei man kann sich das schon in der Developer Version von dieser Bibliothek runterladenhatte tatsächlich auch die neuronalen Netze hiermit