[Playlisten] [Impressum und Datenschutzerklärung]
Reinforcement Learning in der Gebäudeautomation
Tempo:
Anklickbares Transkript:
for Speed learning, das ist so der nächste Schritt nach dem Motto predictive control – einen Schritt weiter allen Dingen, wenn es dann in Richtung – Netze geht, die printforce – medlearning von den tiefen neuronalen Netzen, – ist das war so – die Medien, da ist das – richtig schick und modern zu machen. – enforcement ist die Verstärkung – enforcement. – Verstärkung des lernen durch Verstärkung kennen sie – meinem Matheunterricht. Wenn es falsch ist gibt's was auf die Finger? Haha, – das – ist lernen durch mit belohnen und bestrafen. – tut was und – dann wird man dafür belohnt – oder bestraft ein – maschinenlernen – Verfahren – kann mal zurück zum Model predictive control, da – kam ja auch schon vielleicht mal maschinenlernen vor – bei dem Black Box – wurde ein Modell des – gelernt. – Maschinen dann ein Modell des – lernen in Anführungszeichen zu lernen. – es zu verstehen halt, – züglich – bei maschinenlernen – an trainierte neuronale Netz, das hat jetzt keine – von physikalischen – Gesetzen und von Türen und von Fenstern und also war es es kann irgendwelche Zahlen in irgendwelche Verbindungen bringen, – aber nicht, was da eigentlich Es hat dich wirklich – Sinne gelernt und schon gar nicht in dem Sinne verstanden. – man lernt dann Modell – Gebäudes – herumspielen – mehr – oder minder sinnvolles herumspielen an diesem Hotel – ein Optimum suchen. – anfasst Optimum typischerweise – in Forst mit Lernen geht ein – reinforcement – learning kurz – versucht nicht das Modell vom Gebäude zu dann nur noch mal sucht das Vorgehen zu lernen, – denn geregelt werden soll versucht man es lernen. – versucht Schachspielen zu deren übrigens erzählt ich dann ja auch in Zweifelsfall mit Windforce mit learning – Autofahren zu lernen – den Computer, – Ihr Computer das lernt Auto zu fahren. Der Roboter sollte man sagen gerade auf vier Rädern lernt Auto zu fahren, – ist typischerweise mit – medlearning. – das Vorgehen – lernen – Vorgehen – sich gerne Policey – die an der Politik – eine Stufe sozusagen nicht das Modell – dann mit dem Modell – was zu finden, sondern – den ganzen Kram zu der an. – muss denn jetzt getan werden? Hier kommen folgende Istwerte rein, was muss getan werden nicht anfangen, wenn ein Modell jetzt zu suchen, sondern – sofort sagen, dass muss jetzt getan, – ist jedenfalls mit ganz gut auch das wieder ohne dass er dich was zu verstehen – das spielt an den Stellgrößen RAW. – anfangszeichen versteht nicht, was er da tut, aber er findet trotzdem – Lösung dafür. – wie kann man das Vorgehen lernen? – Idee ist versuchen Tier tun – oder minder intelligente – Art. – spielt an den System rum mehr oder minder intelligent – was passiert – wenn was Schlechtes passiert – man es bitte so nicht noch mal und wenn was Gutes passiert macht man es noch mal so. – merkt man sich das wird gelernt. – versuche aus – als mir enforcement – führt versuche aus guckt – was passiert – lernst damit wie man – System behandeln muss. den Stellgrößen – oder minder systematisch – was in welcher Situation passiert. – es oder gibt es nicht? – gut geklappt hat. – an was nicht gut geklappt hat, aber mindestens lernen, was gut geklappt hat hängt – von dem – Verfahren, der was man dann – gut. – ja auch wieder definiert sein, was heißt eigentlich gut? Nun gibt es Belohnung eben – beim MPC – gab's – sozusagen – bei – in – Forst mit learning gibt's typischerweise eine Belohnung mit anderen Vorzeichen hätte mal andersrum machen können, aber hier gibt's typischerweise – Ersatzschrauben Höhe der Belohnung, das heißt gut. – der Belohnung – ist dann der Job Menschen diese Belohnung zu definieren. Das System lernt der hübsch von selbst, aber – sind die Belohnungen – vor Ort – es dann? – beheben main objective function bei – man die Funktion, die minimiert werden soll, die gibt es eine Belohnung wir – Wahrheit – irgendwer muss diese belohnungs – Funktion designt – haben, – auch gelernt wird, das richtige gelernt wird. – dann was gut geklappt hat, also das mit den – Belohnungen möchte – ich lernen. – ist – zu lernen tut und das muss damit wir auch getan werden – geklappt hat – häufiger. – hat – auch mehr und mehr machen. – ist die Grundidee – noch Anfang muss ein bisschen mehr herumspielen – Tier tun. – muss mal einfach ein bisschen mehr rumspielen, um überhaupt – was ich da habe, – die Modelleisenbahn funktioniert sozusagen oder – wie Schachspiel funktioniert oder das hat man gerne in der Forschung kommt gerne Atari Spiele alte Atari Spiele, – dann der Computer – soll auf diese Art lernen soll – gewinnen lernen soll. – erstmal damit herum um mit dir zu kriegen, was da passiert und mehr – und mehr an Lea nicht wie es funktioniert, – gut funktioniert soll ich sage ich mir lerne mehr und mehr was gut funktioniert und das mache ich dann auch tatsächlich sind – natürlich weiterhin wahrscheinlich – den weiteren immer noch ein bisschen ausprobiert. – Es könnte sich ja was ändern und Margot ja noch was lernen aus. Es wird weiterhin auch immer noch was eingebaut – hat ihm wie es ausgelegt ist – Experimente eingebaut – auch im späteren Verlauf, aber anfangen kann man da muss auf jeden Fall experimentiert – werden. – dann noch zwei – Anfang – das mal jetzt herumspielen natürlich nicht darum spielen, sondern alles wunderschön – gemacht. Am Anfang fühlte sich aber so an, als ob das System mehr herum spielt das Nancy exploring, – erforschen. – ist ja – zumindest jemals. – ich mag ist nichts an Physik oder eher nicht im eingebaut, das muss alles – werden exploring – musst – an dem System. – mehr – Ende mehr und mehr exploiting – wie es so schön heißt, hat doch einfach mehr herumspielen – statt – immer nur – bis – Aktion auszuführen – nennt sich exploiting, wenn man die Aktion ausführt, – für optimal gehalten – und ist weiß ja keiner was die optimale ist. – an wie enforcement – fängt an rum zu schrauben an den System herumzuspielen exploring. – sollte die ob es fertig machen von Autofahrten – Schachspiel gewinnen – das Gebäude unter Kontrolle haben. – soll das auch das hätte ich machen – sich also da Nachrichten was er jetzt gelernt hat. Er – gelernt, – Aktionen sind oder halbwegs optimale – sind danach – soll er sich dann irgendwann richten, aber wenn du immer nur das macht, – ist halt schwierig Neues zu lernen. Gibt dann auch Mittel und Wege sowas hinzukriegen, aber – Hardware eben dann aber und wieder ein bisschen weiter zu spielen, – man sich auf jeden Fall dran hält an das was man bis dahin gelernt hat, – ist dann exploiting – ausbeuten – sozusagen das Gelernte was man hat ausbeuten – wahrscheinlich dann die Leute ist exploiting genannt, weil es sich so – anhört viel exploring. – Florent ist – und exploiting wirklich das tun, was man da gelernt hat. – Mittel und Wege, wie diese – Konzepte dann gemischt werden. Am Anfang muss auf jeden Fall erstmal – bisschen – und her gestreut werden, dass man erfährt was das ist, die in der so tut überhaupt. – sie jetzt sehen das ist gibt kein Modell, das ist also – bei Black Box ist kein physikalisches – Modell aber – weiter noch es gibt wirklich – keinen Modell. – betrachtet, die Aktionen man betrachtet – und Aktionen, – gibt überhaupt kein Modell mehr. – ist so ein allgemeiner Trend – die Maschinen lernen, – man – mehr weg lässt, das ist eben solls einfach selbst – stellt man fest, das ist an vielen Stellen, die beste Lösung ist, wenn der Rechner alles mögliche selbst lernt, dass wir nicht mal das Modell vorgeben hier nicht mal die Struktur des Modells vorgeben, dass wir nicht mal geben, es optimiert werden sollen, genetisch – Partikeln oder was auch immer, – sich als man selbst überlegen direkt – ganze Problem lösen von A bis Z das ganze Problem lösen, das hier mit dem Hinweis – ganze Regler – gelernt. – lernen, was wir haben, das – realen Objekt – sich vorstellen, dass realobjekt ist ein Auto, du bist realobjekt auch mit zum Gebäude ist es reicht nicht so lustig, jetzt dieses Lernen stattfinden zu lassen. – der Gedanke, dass man dieses Lernen dann doch in einem virtuellen Raum verlegt – Simulation verlegt. – Da Simulation – an – werden – oder gefährlich, – sowas wie das – Auto – wollen nicht, dass das – autonome Auto was sie da bauen, das ist erst drei Mal vor die Wand fährt oder – noch – soll es gefälligst – gelernt haben und – so läuft es dann ja tatsächlich auch. – man – autonomen Autos – zumindest der Steuerung – Regelung offener bezeichnet wird, das – die vor die Tür setzt, – die lernt Auto zu fahren – lernt der Computer daran an, der war Simulation – fahren und dann kann er ruhig – den anstreifen fahren. Er kann auch Kollisionen – nichts außer Rechenzeit, – autonomes fahren möchte man definitiv nicht am real object lernen später dann wenn – hinreichend – viel gelernt, dass dann ganze auch im realen Objekt lernen vielleicht und wenn noch jemand dabei sitzt eingreifen kann – Steuer Tochter übernehmen kann, – erstmal fängt man mit einer an. – geht vielleicht auch fürs Gebäude – wollen nicht, – einfach mal überall – Grad Celsius einstellt zum ausprobieren oder – Grad Celsius einstellt zum Ausprobieren, das wäre jetzt auch nicht so lustig, das sollte man vielleicht auch in einer Simulation von wegen – wieder blöd ist, weil – braucht sie doch Modell nicht für die Simulation braucht er doch im Modell. – schreibe ich kein Modell Neuschönau – an trainieren, wenn es teurer wird oder gefährlich wird braucht man doch ein Modell, – überhaupt mal in die Gänge zu kommen. – Frage ist, ob man denn überhaupt am – gegebenenfalls – nicht am lernen. – bestehen die Daten nutzen nennt sich offline – Mitglieder einigen, – wir endlich mal die Fachbegriffe hier. – diese grundsätzliche Idee Versuch und Irrtum, scheint relativ simpel – zu sein, – umzusetzen – etwas ekliger. – gibt es diverse Lösung – Intelligenz. – ist der aktuell ein – Thema, deshalb – jetzt natürlich hunderte anläuten dran. Falls sogar tausende andeuten dran, die sich wie man so ein Problem angehen könnte, auch so einfach geht oder und go spielen geht oder um Autofahren – und die geht – kann die Maschine – durch Belohnungen – und Strafen – lernen, – etwas – spielen sozusagen Autofahren – zu spielen oder Gott spielen – Gebäude – Regeln spielen. – gibt's da ganz viele – ansetzen, die man das jetzt konkret machen kann. – Arbeit auch wieder in Überblicksarbeit – an – und – for Speed learning for building control – so weiter applied energy. – du auch wieder nur eine Nummer und keine Seitenzahlen – ist auch mal wieder so ein Vulpix Artikel und sie sehen okay für – dieses Spezialgebiet – wie iNFORCE mit learning for building controls darüber gibt es eine Zusammenfassung – der dann – du belegen 30 40 50 – Artikel referenziert werden. – da geht extrem viel – den vergangenen Jahren, da wird sehr viel zu geforscht, – man in der Industrie da draußen – bei TE – Reglern ist. – guten Grund. – es funktionieren – würde ich ihr dass sie in Forst mit Börnig, wenn es einfach so funktionieren würde, dann müsste man ja nicht viel verarschen, das ist also nicht ganz so leicht, das sage ich das wahrscheinlich – in der Praxis noch nicht anzutreffen, aber naja – gut die Autos fahren darf jetzt und nicht Computer und Schachcomputer arbeitet auch damit, – wird, aber was gehen irgendwann. – spannende Geschichte ist z.b. Wie viel Daten man zum Lernen braucht, das ist jetzt ja nicht nur dass ich ein Modell lerne, – muss ja das Vorgehen hier lernen, wo irgendwo das Modell drinnen steckt, ich muss das – lernen, dazu brauche ich im Zweifelsfall noch mal mehr Daten. – steht in diesem Artikel z.b. Drinnen, welche Datenmenge man zum benötigt, – ist leider nicht weiter aus buchstabiert, aber ist eine riesige Spanne – große Tabelle – dem Artikel drinnen und dann steht da drin, die einen Leute neben 20 Tage an Daten zum Lernen und andere Leute nehmen 30 Jahre – Daten Lernen und – den 30 Jahren ist da. Das stimmt natürlich dann einer – aus einer virtuellen Umgebung, sonst kommen sie ja nicht auf die 30 Jahre – virtuelle Umgebung, die können sie xmal Stelle als Echtzeit laufen lassen oder sogar parallelisieren, – reale Gebäude können sie nur in Echtzeit laufen lassen – könnte es fünfmal nebeneinander bauen, dann haben wir Faktor 5 drinnen, aber ansonsten – sie sich beschleunigen. Das reale Gebäude 20 – Tage – am real Gebäude gelernt sein. – CD – der Aufwand dann ist, also der Lernaufwand – den Service auch noch mal Nummer größer und – dieser Übersicht nennt man auch was für die üblichen Ansätze sind der – Ansatz – der traditionell es ist ja alles relativ jung, der traditioneller – Ansatz denen die meisten Leute verwenden – sich value-based. – passiert, – wird eine Bewertungsfunktion gelernt. – Irgendwas muss ja gelernt werden eben beim – Box Model vom Model predictive control, da wird das Gebäude das Verhalten des Gebäudes gelernt. – fährt – als gerne Kuh. – auf diese Funktion, die – nimmt zwei – nämlich einmal den Zustand, – in welchem Zustand ist das System gerade? – ganzen ist wertiger natürlich den Zustand rein, wegen Zustand ist das System – wenn ich jetzt folgende Aktion mache. – sinnvoll ist das? Also da rauskommt eine reelle Zahl – diese reelle Zahl soll sagen. – sind voll die Aktion in den Zustand ist – gut diese Aktion ist eine – nicht in Euro oder was und Fantasy Einheiten. – die guten – kriegen anhören Kuverts als die schlechten Aktionen, wie gut ist – Aktion – diesem Zustand? – der Wert der Aktion sozusagen – value based der Wert der Aktion – der ist, – ist 19 Grad Celsius. – die Aktion ist dieses oder jene Ventil auf zu drehen, das richtige Ventil auf zu drehen. – Dann soll da rauskommen. Das – ist als – bei der Aktion, wenn Sie die Kühlung – soll gelernt werden, – wie gut die verschiedenen Aktionen jeweiligen – Zustand – Ganzen – Funktion wird gelernt – kann sich vorstellen, was soll jetzt passiert – einem bestimmten Zustand bin ich und dann gucke ich mir an, welche Aktion soll ich jetzt machen? Naja. – bei ihr am meisten Auskunft – wie die nennt sich dass ich nehme immer die Aktion bei dir am meisten rauskommt, dann lerne ich aber nichts, was sollte ich hin und wieder auch mal irgendwas machen, – nennt sich dann epsilontv – die – vorstellen, wie das funktionieren wird, dann – ist also die Funktion – System soll er fassen, wie sehr sich eine Aktion lohnt – einem bestimmten Zustand und das soll gelernt werden durch – rumspielen mit dem System oder auch, dass er dich später im Betrieb gelernt werden noch weiter gelernt werden. – ich dann die man diese lernt? – wird dann durch ein neuronales Netz dargestellt, z.b. Heute typischerweise ja, – sie auch tabellarisch speichern. – Z.b. – zugeben, wie jung das alles ist. – learning – 1989 – klassischen Verfahren sind, wenn wir 20 Jahre alt – je moderner und Verfahren starb, – ja der letzten – zu diesem Thema – Gebiet ist noch sehr in Bewegung. – tut einiges – Nachhinein, es muss erstmal Thema drauf kommen, das was an Doktorarbeit – Schule und dann ist im Nachhinein – simpel, – Funktion habe ich bisher schon gelernt, – möchte ich jetzt ändern mit dem was passiert möchte – ich diese Funktion ändern, das möchte ich einbauen – diese Funktion ändere – bisher Gelernte – zwar merke ich mir das für den vorherigen Zustand – letzte Aktion, die ich gerade gemacht habe. – will ich den Wert von – pure – möchte ich lernen? Na, da war noch nicht ganz richtig, ich bin noch am lernen, – weiß noch nicht genau, wie – gut diese – Aktion, die ich gemacht habe im vorigen Zustand war – Wert ändere ich etwas – folgende Richtung – die Richtung Belohnung für den jüngsten Schritt. – das Maximum – dem was ich erwarte. – aktuelle Zustand in dem ich gerade gelandet bin, – alle Aktionen alles was ich bis dahin war es. – konnte man vor etwas mehr als 20 Jahren der Doktorarbeit dazu schreiben. Sie müssen natürlich – warum das so funktioniert, – warum das kein Unsinn liefert, warum das zum Schluss irgendetwas Sinnvolles hinausläuft, wenn man das ganz oft macht, – das ist im Prinzip der gern von dieser – weiß am Anfang gar nichts und dann justiere ich nach – ein bisschen nach – soll jetzt sein für den Zustand aus dem ich gekommen bin, – Aktion, die ich gerade gemacht habe, – C. Also, es war die Innentemperatur und – Aktion war – sie das Ventil auf 90% gestellt habe, – wir dann an hat sich das gelohnt oder – Und das was der jetzt rauskommt, ändere ich ein bisschen nicht addiere ein bisschen dazu die – die ich gekriegt habe für das was ich gerade gemacht habe, – dann die Bestrafung – das Maximum – was da jetzt – steht noch – fange am Anfang an, dass ich mit dem pure – Nebel bin sozusagen, das hat irgendwelche Werte, aber nicht das so immer bisschen ändere bei jedem Experiment, – dass ich mache mich das immer ein bisschen so ändere in diese Richtung, – ist das plausibel, dass das besser wird dadurch – Schätzung ✂ erste Teil die Belohnung für den letzten Schritt, das soll ich jetzt zuletzt gemacht. Habe die letzte Aktion hier in den vorigen Zustand, das – mit dem natürlich merken die – über heißt ich habe aufgefasst hat weh getan. Da möchte ich natürlich merken, dass es - 10000 – Belohnung war, also ein Strafe daneben war mit die mir schon merken, – was ich gemacht habe – in der Qualität runter gehen, – die Belohnung negativ war, oder wenn die Belohnung kleiner war, als das was man sonst Belohnung kriegt und ich soll hochgehen in der Bewertung, wenn ich eine hohe Belohnung gekriegt habe, für den – gemachten Schritt. – möchte aber auch in die Zukunft gucken. Es könnte sein bis dahin, dass ich mich in ein Labyrinth z.b. Manipuliert habe, ich bin vorwärts gekommen in dem Labyrinth. Habe vielleicht sogar ein Brotkrumen gefunden im Labor und gibt eine Belohnung, – ich komme nicht weiter – zweite Teil. Hier ist in die Zukunft zu gucken. Wie geht's denn dann weiter? Egal, was ich dann mache danach. – gut ist denn das überhaupt, was ich danach noch machen kann, – in welchem Zustand bin ich jetzt gelandet, – ich – Eintritt durchgeführt habe, mit der Belohnung oder Bestrafung welchem – Zustand bin ich jetzt gelandet, was – kann ich nun tun und – wie gut ist das insgesamt? Maximal, was – ist das beste was ich nur noch tun kann – die tiefer sie ins Labyrinth kommen? Desto – wird es hoffentlich da werden, – du mehr Bestrafung fütterst werden. – ja hinten nicht mehr weiter rauskommen, – ist der vorausschauende – teil. – Zustand ganz am Ende vom Labyrinth hier irgendwo ganz am Ende der Zustand vom Labyrinth, – werden sie rauskriegen halt blöd negativ, – weil ich muss umkehren – der Zustand davor wird das denn auch mitkriegen und dann wird der Zustand davor, dass er mir nicht mitkriegen, – man sich da in die Ecke manövriert, – ist der vorausschauende talsa zweite Teil, – ist julian, ich noch zwei drei – dazu, – ihren ist ein bisschen dann haben sie Schule an in das kann man das ja nicht in der Tabelle merken – dann jeweils – und Aktionen – das ist die in Anführungszeichen – Art mit gar nicht. Man lernt eine Bewertungsfunktion in – Zustand diese Aktion ausführen – alle Zustände alle Aktionen durchgenudelt hat – Bewertung – dann nimmt man typischerweise – Aktion mit der höchsten Bewertung – und wieder nimmt man vielleicht auch mal eine andere um noch mehr zu lernen. – Erbsland, wie die sich das dann ist der klassische – das sind bisher die meisten das kommt aus diesem Server raus ist bisher die – Art. Das liegt aber vielleicht daran, dass es die schon am längsten in Anführungszeichen – gibt. – noch gar nicht so verbreitet – man ganze Police lernt sie sehen, das ist ja noch gar nicht die ganze voll easy, ich habe hier eine Bewertungsfunktion und dann nehme ich Aktion mit der höchsten Bewertung, – ist noch nicht, dass ich die ganze Police gelernt habe – raffinierter wäre wirklich die ganze Ponys die zu lernen, – ist ein moderner Ansatz – auch ein paar Nachteile – sich nicht die Bewertungsfunktion an, sondern – Verhalten – ist hier die Politik, wenn Sie so wollen, – Policy Funktion die heißt NP was in der Weise Kufa – Dessau for cutie skottki eine – policy function P – musst natürlich auch wieder was verknüpfen. – sagt – netterweise auch eine – Wahrscheinlichkeit, – ich in einen bestimmten Zustand bin. – welcher Wahrscheinlichkeit – ich, welche Aktion – dazwischen tatsächlich eine bedingte Wahrscheinlichkeit – also eine Zahl zwischen 0 und 1 – Wahrscheinlichkeit? – Bedeutung ist – welcher bedingten Wahrscheinlichkeit? – diesem Zustand in dem wir geben Zustand – Aktion der Link steht ausführen. – dass ich jetzt zufällig ausdrücklich – ausdrücklich geführt – Wahrscheinlichkeiten, – wenn – Grad Celsius ist – eine Ventil auf 80% stellen und das andere auf 70% stellen – ich mit folgender Wahrscheinlichkeit oder dieses – Ventil auf 90% stellen – und das andere Mandy aus 10% stellen, mache ich mit folgender Wahrscheinlichkeit, – die Maschine also muss sie sogar den Bus jetzt alle tatsächlich Würfeln, was davon sie macht und das soll sie mir bestimmt Wahrscheinlichkeit werden. – das ganze – eleganter und auch von der Regelungstechnik her viel spannender, also, wenn sie es noch mal ausführen, – ganze noch mal – den ganzen Tag noch mal abspielen. Wird was anderes passieren, – ist dem hangelt – sich da zufällig – durch – zufallsprozess, – ist die Police die Funktion, also, – verhält sich unser Regler? – durch beschrieben, ich bin in einem bestimmten Zustand – bedingte Wahrscheinlichkeit sagt – mir dann welche Aktion nicht. machen Sie in diesem Zustand mit welcher Wahrscheinlichkeit? – wenn der an ist ich auch nicht die Aktion – Hand auf die Herdplatte zu legen mit einer Wahrscheinlichkeit von 0,000 – irgendwas machen. – ist nur zu lernen, so eine Funktion. – sehen – hoch der Absatz ions Grad ist, das ist jetzt wirklich eine – was – macht dieser Regler völlig abstrakt, die ist nicht mehr der Rede von – und – von – und was auch immer. Es ist völlig abstrakt – diese Art. – go spielen oder Schach spielen Autofahren oder – in Anführungszeichen und – ist dann überhaupt kein altes mehr dahinter, das kann man versuchen und dann wieder einzubauen, aber – ist da – an Verständnis von dem eigentlichen System dahinter, – wird auf ganz hohem Niveau – und damit geregelt, – Ponys die Funktion, die bildet man z.b. Durch ein Netz nicht nur aber – Sie gerne durch ein neuronales Netz und jetzt müssen Sie wissen, was sie es dem neuronalen Netz antun, – es das lernen kann, – muss ich jetzt im neuronalen Netz. – für die Gebäudeautomation – Neuronen, die verbunden sind – trainieren sie erstmal runter und jetzt an, sie müssen lernen, wie die Verbindung mit – die Verbindungen sind die Gewichte jetzt – noch buyers Werte – tausende – Lernwerte – einstellen – damit dieses neuronale Netz tut, was es ungefähr tun soll – um das hinzukriegen – man gradientenabstieg – die Frage ist welche Richtung man gehen soll, also muss ich die Parameter ändern – meinem neuronalen Netz, damit – hier optimal – wird. – ich vorstellen, da kommt einiges an Mathematik – nicht erzählen, ich heute drei Punkte – große Formen hin und dann kommt – Radiance Jurion. – gradientenabstieg – brauche also einen Gradienten – geht in die Richtung des steilsten – albermann – etwas hin und her rechnen findet man ein – gradient – einem sagt – man diesen Gradienten bestimmen kann durch – ist der Schlüssel dann zu diesem Verfahren – kommen – integrale vor. Es kommt Dorit muss vor alles mögliche erspar ich ihn hier mal gerade – ist halt doch ein bisschen – weg von der Gebäudeautomation – ist was aktuell so läuft bzw. – schon wieder – mehr, wo die ist oder gar nicht richtig Mode geworden ist und schon einen Schritt weiter, – aktuell – beliebte Ansatz ist actor-critic. – man auf dieser Zusammenfassung auch, die ich da eben schon aufgeschrieben hatte – die Schauspieler in – der Diakritika – ich ihn einfach mal so mit Begriffe jetzt ohne großartige Hintergrund, dass sie – man aus der Informatik und der Mathematik – auf solche Probleme das dann plötzlich ganz monströse Sachen entstehen. – gerade noch mal Forst – mit learning HDD – zu meckern zusammengefasst – haben, also, – wollte dir eh gar nicht mehr Physik – alten und das Gebäude meißeln, sondern versuche direkt. – Vorgehen – zu lernen – dieses Problem zu lösen, ist – Regel – zu lösen ist – zwar durch Versuch und Irrtum – oder minder systematisch auszuprobieren daran zu lernen. – gibt – natürlich an diese Belohnung jetzt bei uns auch wieder mit – zu tun und mit CO2 – ähnlichen, daran wird sich die Belohnung festgemacht werden. – Negative von eben der Zielfunktion eben. – wird versuchen Tier zum Ablaufen was ausprobieren, es gibt was auf die Finger oder es gibt ein – und – lernen wir für die Zukunft was für ein Zucker. – ist einfach hin zu schreiben, aber – hoffe, ich habe ihn ja andeuten können, – dann ernst wird, wenn es wirklich ausformuliert werden. Muss jetzt – mit neuronalen Netzen, ob die man jetzt noch in alle Netze ändert, die Gewichte und ballastschwert in neuronalen Netzen ändern, damit er sich was merken kann – dem Verein historische policy gradient, – wirds dann – haarig, – haben sie in der üblichen Software – so als – mal wieder diese ganz Sachen eintragen müssen, ganz viele Sachen einstellen müssen bevor sie das verwenden müssen, das erzähle ich einmal ja – das was ich jetzt gerade. – ersparter aber wie die Rechnung mit einem Detail sind, was da berücksichtigt wird und – ändert sich noch täglich, weil – Leute – hunderte Leute weiter auf 1000 Leute dann forschen – das alles noch nicht so richtig robust, – ist Thema Robustheit kam eben schon – natürlich noch mehr, – ich gar nicht mehr weiß über – eigentliche Gebäude – schon wieder Stabilität – Robustheit – was man typischerweise machen wird. Sicherheitshalber, – lässt den klassischen Regler einfach mit laufen. – ich ja, was mit den Raumtemperaturen und so weiter passiert, wenn die Istwerte bestimmte – Grenzen überschreiten, – und vernünftig werden. – einen klassischen Regler umschalten. – geht ja immer noch. – der Gebäudeautomation ist ja nicht so das Drama, wenn es dann also kalt ist oder ein zu warm wird oder alle im Dunkeln sitzen und – du musst jetzt ins Bett dann schon nicht so ungefährlich – du, das Problem wahrscheinlich das selbstfahrende Auto vor, – muss man natürlich ganz ganz viele – noch einbauen, – in Spezialfällen – die nicht gelernt worden sind, – nie gesehen worden sind. – an Leib und Leben – zum reinforced mitteilen