[Playlisten] [Impressum und Datenschutzerklärung]

Reinforcement Learning in der Gebäudeautomation


CC-BY-NC-SA 3.0

Tempo:

Anklickbares Transkript:

for Speed learning, das ist so der nächste Schritt nach dem Motto predictive controleinen Schritt weiter allen Dingen, wenn es dann in RichtungNetze geht, die printforcemedlearning von den tiefen neuronalen Netzen,ist das war sodie Medien, da ist dasrichtig schick und modern zu machen.enforcement ist die Verstärkungenforcement.Verstärkung des lernen durch Verstärkung kennen siemeinem Matheunterricht. Wenn es falsch ist gibt's was auf die Finger? Haha,dasist lernen durch mit belohnen und bestrafen.tut was unddann wird man dafür belohntoder bestraft einmaschinenlernenVerfahrenkann mal zurück zum Model predictive control, dakam ja auch schon vielleicht mal maschinenlernen vorbei dem Black Boxwurde ein Modell desgelernt.Maschinen dann ein Modell deslernen in Anführungszeichen zu lernen.es zu verstehen halt,züglichbei maschinenlernenan trainierte neuronale Netz, das hat jetzt keinevon physikalischenGesetzen und von Türen und von Fenstern und also war es es kann irgendwelche Zahlen in irgendwelche Verbindungen bringen,aber nicht, was da eigentlich Es hat dich wirklichSinne gelernt und schon gar nicht in dem Sinne verstanden.man lernt dann ModellGebäudesherumspielenmehroder minder sinnvolles herumspielen an diesem Hotelein Optimum suchen.anfasst Optimum typischerweisein Forst mit Lernen geht einreinforcementlearning kurzversucht nicht das Modell vom Gebäude zu dann nur noch mal sucht das Vorgehen zu lernen,denn geregelt werden soll versucht man es lernen.versucht Schachspielen zu deren übrigens erzählt ich dann ja auch in Zweifelsfall mit Windforce mit learningAutofahren zu lernenden Computer,Ihr Computer das lernt Auto zu fahren. Der Roboter sollte man sagen gerade auf vier Rädern lernt Auto zu fahren,ist typischerweise mitmedlearning.das VorgehenlernenVorgehensich gerne Policeydie an der Politikeine Stufe sozusagen nicht das Modelldann mit dem Modellwas zu finden, sondernden ganzen Kram zu der an.muss denn jetzt getan werden? Hier kommen folgende Istwerte rein, was muss getan werden nicht anfangen, wenn ein Modell jetzt zu suchen, sondernsofort sagen, dass muss jetzt getan,ist jedenfalls mit ganz gut auch das wieder ohne dass er dich was zu verstehendas spielt an den Stellgrößen RAW.anfangszeichen versteht nicht, was er da tut, aber er findet trotzdemLösung dafür.wie kann man das Vorgehen lernen?Idee ist versuchen Tier tunoder minder intelligenteArt.spielt an den System rum mehr oder minder intelligentwas passiertwenn was Schlechtes passiertman es bitte so nicht noch mal und wenn was Gutes passiert macht man es noch mal so.merkt man sich das wird gelernt.versuche ausals mir enforcementführt versuche aus gucktwas passiertlernst damit wie manSystem behandeln muss. den Stellgrößenoder minder systematischwas in welcher Situation passiert.es oder gibt es nicht?gut geklappt hat.an was nicht gut geklappt hat, aber mindestens lernen, was gut geklappt hat hängtvon demVerfahren, der was man danngut.ja auch wieder definiert sein, was heißt eigentlich gut? Nun gibt es Belohnung ebenbeim MPCgab'ssozusagenbeiinForst mit learning gibt's typischerweise eine Belohnung mit anderen Vorzeichen hätte mal andersrum machen können, aber hier gibt's typischerweiseErsatzschrauben Höhe der Belohnung, das heißt gut.der Belohnungist dann der Job Menschen diese Belohnung zu definieren. Das System lernt der hübsch von selbst, abersind die Belohnungenvor Ortes dann?beheben main objective function beiman die Funktion, die minimiert werden soll, die gibt es eine Belohnung wirWahrheitirgendwer muss diese belohnungsFunktion designthaben,auch gelernt wird, das richtige gelernt wird.dann was gut geklappt hat, also das mit denBelohnungen möchteich lernen.istzu lernen tut und das muss damit wir auch getan werdengeklappt hathäufiger.hatauch mehr und mehr machen.ist die Grundideenoch Anfang muss ein bisschen mehr herumspielenTier tun.muss mal einfach ein bisschen mehr rumspielen, um überhauptwas ich da habe,die Modelleisenbahn funktioniert sozusagen oderwie Schachspiel funktioniert oder das hat man gerne in der Forschung kommt gerne Atari Spiele alte Atari Spiele,dann der Computersoll auf diese Art lernen sollgewinnen lernen soll.erstmal damit herum um mit dir zu kriegen, was da passiert und mehrund mehr an Lea nicht wie es funktioniert,gut funktioniert soll ich sage ich mir lerne mehr und mehr was gut funktioniert und das mache ich dann auch tatsächlich sindnatürlich weiterhin wahrscheinlichden weiteren immer noch ein bisschen ausprobiert.Es könnte sich ja was ändern und Margot ja noch was lernen aus. Es wird weiterhin auch immer noch was eingebauthat ihm wie es ausgelegt istExperimente eingebautauch im späteren Verlauf, aber anfangen kann man da muss auf jeden Fall experimentiertwerden.dann noch zweiAnfangdas mal jetzt herumspielen natürlich nicht darum spielen, sondern alles wunderschöngemacht. Am Anfang fühlte sich aber so an, als ob das System mehr herum spielt das Nancy exploring,erforschen.ist jazumindest jemals.ich mag ist nichts an Physik oder eher nicht im eingebaut, das muss alleswerden exploringmusstan dem System.mehrEnde mehr und mehr exploitingwie es so schön heißt, hat doch einfach mehr herumspielenstattimmer nurbisAktion auszuführennennt sich exploiting, wenn man die Aktion ausführt,für optimal gehaltenund ist weiß ja keiner was die optimale ist.an wie enforcementfängt an rum zu schrauben an den System herumzuspielen exploring.sollte die ob es fertig machen von AutofahrtenSchachspiel gewinnendas Gebäude unter Kontrolle haben.soll das auch das hätte ich machensich also da Nachrichten was er jetzt gelernt hat. Ergelernt,Aktionen sind oder halbwegs optimalesind danachsoll er sich dann irgendwann richten, aber wenn du immer nur das macht,ist halt schwierig Neues zu lernen. Gibt dann auch Mittel und Wege sowas hinzukriegen, aberHardware eben dann aber und wieder ein bisschen weiter zu spielen,man sich auf jeden Fall dran hält an das was man bis dahin gelernt hat,ist dann exploitingausbeutensozusagen das Gelernte was man hat ausbeutenwahrscheinlich dann die Leute ist exploiting genannt, weil es sich soanhört viel exploring.Florent istund exploiting wirklich das tun, was man da gelernt hat.Mittel und Wege, wie dieseKonzepte dann gemischt werden. Am Anfang muss auf jeden Fall erstmalbisschenund her gestreut werden, dass man erfährt was das ist, die in der so tut überhaupt.sie jetzt sehen das ist gibt kein Modell, das ist alsobei Black Box ist kein physikalischesModell aberweiter noch es gibt wirklichkeinen Modell.betrachtet, die Aktionen man betrachtetund Aktionen,gibt überhaupt kein Modell mehr.ist so ein allgemeiner Trenddie Maschinen lernen,manmehr weg lässt, das ist eben solls einfach selbststellt man fest, das ist an vielen Stellen, die beste Lösung ist, wenn der Rechner alles mögliche selbst lernt, dass wir nicht mal das Modell vorgeben hier nicht mal die Struktur des Modells vorgeben, dass wir nicht mal geben, es optimiert werden sollen, genetischPartikeln oder was auch immer,sich als man selbst überlegen direktganze Problem lösen von A bis Z das ganze Problem lösen, das hier mit dem Hinweisganze Reglergelernt.lernen, was wir haben, dasrealen Objektsich vorstellen, dass realobjekt ist ein Auto, du bist realobjekt auch mit zum Gebäude ist es reicht nicht so lustig, jetzt dieses Lernen stattfinden zu lassen.der Gedanke, dass man dieses Lernen dann doch in einem virtuellen Raum verlegtSimulation verlegt.Da Simulationanwerdenoder gefährlich,sowas wie dasAutowollen nicht, dass dasautonome Auto was sie da bauen, das ist erst drei Mal vor die Wand fährt odernochsoll es gefälligstgelernt haben undso läuft es dann ja tatsächlich auch.manautonomen Autoszumindest der SteuerungRegelung offener bezeichnet wird, dasdie vor die Tür setzt,die lernt Auto zu fahrenlernt der Computer daran an, der war Simulationfahren und dann kann er ruhigden anstreifen fahren. Er kann auch Kollisionennichts außer Rechenzeit,autonomes fahren möchte man definitiv nicht am real object lernen später dann wennhinreichendviel gelernt, dass dann ganze auch im realen Objekt lernen vielleicht und wenn noch jemand dabei sitzt eingreifen kannSteuer Tochter übernehmen kann,erstmal fängt man mit einer an.geht vielleicht auch fürs Gebäudewollen nicht,einfach mal überallGrad Celsius einstellt zum ausprobieren oderGrad Celsius einstellt zum Ausprobieren, das wäre jetzt auch nicht so lustig, das sollte man vielleicht auch in einer Simulation von wegenwieder blöd ist, weilbraucht sie doch Modell nicht für die Simulation braucht er doch im Modell.schreibe ich kein Modell Neuschönauan trainieren, wenn es teurer wird oder gefährlich wird braucht man doch ein Modell,überhaupt mal in die Gänge zu kommen.Frage ist, ob man denn überhaupt amgegebenenfallsnicht am lernen.bestehen die Daten nutzen nennt sich offlineMitglieder einigen,wir endlich mal die Fachbegriffe hier.diese grundsätzliche Idee Versuch und Irrtum, scheint relativ simpelzu sein,umzusetzenetwas ekliger.gibt es diverse LösungIntelligenz.ist der aktuell einThema, deshalbjetzt natürlich hunderte anläuten dran. Falls sogar tausende andeuten dran, die sich wie man so ein Problem angehen könnte, auch so einfach geht oder und go spielen geht oder um Autofahrenund die gehtkann die Maschinedurch Belohnungenund Strafenlernen,etwasspielen sozusagen Autofahrenzu spielen oder Gott spielenGebäudeRegeln spielen.gibt's da ganz vieleansetzen, die man das jetzt konkret machen kann.Arbeit auch wieder in Überblicksarbeitanundfor Speed learning for building controlso weiter applied energy.du auch wieder nur eine Nummer und keine Seitenzahlenist auch mal wieder so ein Vulpix Artikel und sie sehen okay fürdieses Spezialgebietwie iNFORCE mit learning for building controls darüber gibt es eine Zusammenfassungder danndu belegen 30 40 50Artikel referenziert werden.da geht extrem vielden vergangenen Jahren, da wird sehr viel zu geforscht,man in der Industrie da draußenbei TEReglern ist.guten Grund.es funktionierenwürde ich ihr dass sie in Forst mit Börnig, wenn es einfach so funktionieren würde, dann müsste man ja nicht viel verarschen, das ist also nicht ganz so leicht, das sage ich das wahrscheinlichin der Praxis noch nicht anzutreffen, aber najagut die Autos fahren darf jetzt und nicht Computer und Schachcomputer arbeitet auch damit,wird, aber was gehen irgendwann.spannende Geschichte ist z.b. Wie viel Daten man zum Lernen braucht, das ist jetzt ja nicht nur dass ich ein Modell lerne,muss ja das Vorgehen hier lernen, wo irgendwo das Modell drinnen steckt, ich muss daslernen, dazu brauche ich im Zweifelsfall noch mal mehr Daten.steht in diesem Artikel z.b. Drinnen, welche Datenmenge man zum benötigt,ist leider nicht weiter aus buchstabiert, aber ist eine riesige Spannegroße Tabelledem Artikel drinnen und dann steht da drin, die einen Leute neben 20 Tage an Daten zum Lernen und andere Leute nehmen 30 JahreDaten Lernen undden 30 Jahren ist da. Das stimmt natürlich dann eineraus einer virtuellen Umgebung, sonst kommen sie ja nicht auf die 30 Jahrevirtuelle Umgebung, die können sie xmal Stelle als Echtzeit laufen lassen oder sogar parallelisieren,reale Gebäude können sie nur in Echtzeit laufen lassenkönnte es fünfmal nebeneinander bauen, dann haben wir Faktor 5 drinnen, aber ansonstensie sich beschleunigen. Das reale Gebäude 20Tageam real Gebäude gelernt sein.CDder Aufwand dann ist, also der Lernaufwandden Service auch noch mal Nummer größer unddieser Übersicht nennt man auch was für die üblichen Ansätze sind derAnsatzder traditionell es ist ja alles relativ jung, der traditionellerAnsatz denen die meisten Leute verwendensich value-based.passiert,wird eine Bewertungsfunktion gelernt.Irgendwas muss ja gelernt werden eben beimBox Model vom Model predictive control, da wird das Gebäude das Verhalten des Gebäudes gelernt.fährtals gerne Kuh.auf diese Funktion, dienimmt zweinämlich einmal den Zustand,in welchem Zustand ist das System gerade?ganzen ist wertiger natürlich den Zustand rein, wegen Zustand ist das Systemwenn ich jetzt folgende Aktion mache.sinnvoll ist das? Also da rauskommt eine reelle Zahldiese reelle Zahl soll sagen.sind voll die Aktion in den Zustand istgut diese Aktion ist einenicht in Euro oder was und Fantasy Einheiten.die gutenkriegen anhören Kuverts als die schlechten Aktionen, wie gut istAktiondiesem Zustand?der Wert der Aktion sozusagenvalue based der Wert der Aktionder ist,ist 19 Grad Celsius.die Aktion ist dieses oder jene Ventil auf zu drehen, das richtige Ventil auf zu drehen.Dann soll da rauskommen. Dasist alsbei der Aktion, wenn Sie die Kühlungsoll gelernt werden,wie gut die verschiedenen Aktionen jeweiligenZustandGanzenFunktion wird gelerntkann sich vorstellen, was soll jetzt passierteinem bestimmten Zustand bin ich und dann gucke ich mir an, welche Aktion soll ich jetzt machen? Naja.bei ihr am meisten Auskunftwie die nennt sich dass ich nehme immer die Aktion bei dir am meisten rauskommt, dann lerne ich aber nichts, was sollte ich hin und wieder auch mal irgendwas machen,nennt sich dann epsilontvdievorstellen, wie das funktionieren wird, dannist also die FunktionSystem soll er fassen, wie sehr sich eine Aktion lohnteinem bestimmten Zustand und das soll gelernt werden durchrumspielen mit dem System oder auch, dass er dich später im Betrieb gelernt werden noch weiter gelernt werden.ich dann die man diese lernt?wird dann durch ein neuronales Netz dargestellt, z.b. Heute typischerweise ja,sie auch tabellarisch speichern.Z.b.zugeben, wie jung das alles ist.learning1989klassischen Verfahren sind, wenn wir 20 Jahre altje moderner und Verfahren starb,ja der letztenzu diesem ThemaGebiet ist noch sehr in Bewegung.tut einigesNachhinein, es muss erstmal Thema drauf kommen, das was an DoktorarbeitSchule und dann ist im Nachhineinsimpel,Funktion habe ich bisher schon gelernt,möchte ich jetzt ändern mit dem was passiert möchteich diese Funktion ändern, das möchte ich einbauendiese Funktion änderebisher Gelerntezwar merke ich mir das für den vorherigen Zustandletzte Aktion, die ich gerade gemacht habe.will ich den Wert vonpuremöchte ich lernen? Na, da war noch nicht ganz richtig, ich bin noch am lernen,weiß noch nicht genau, wiegut dieseAktion, die ich gemacht habe im vorigen Zustand warWert ändere ich etwasfolgende Richtungdie Richtung Belohnung für den jüngsten Schritt.das Maximumdem was ich erwarte.aktuelle Zustand in dem ich gerade gelandet bin,alle Aktionen alles was ich bis dahin war es.konnte man vor etwas mehr als 20 Jahren der Doktorarbeit dazu schreiben. Sie müssen natürlichwarum das so funktioniert,warum das kein Unsinn liefert, warum das zum Schluss irgendetwas Sinnvolles hinausläuft, wenn man das ganz oft macht,das ist im Prinzip der gern von dieserweiß am Anfang gar nichts und dann justiere ich nachein bisschen nachsoll jetzt sein für den Zustand aus dem ich gekommen bin,Aktion, die ich gerade gemacht habe,C. Also, es war die Innentemperatur undAktion warsie das Ventil auf 90% gestellt habe,wir dann an hat sich das gelohnt oderUnd das was der jetzt rauskommt, ändere ich ein bisschen nicht addiere ein bisschen dazu diedie ich gekriegt habe für das was ich gerade gemacht habe,dann die Bestrafungdas Maximumwas da jetztsteht nochfange am Anfang an, dass ich mit dem pureNebel bin sozusagen, das hat irgendwelche Werte, aber nicht das so immer bisschen ändere bei jedem Experiment,dass ich mache mich das immer ein bisschen so ändere in diese Richtung,ist das plausibel, dass das besser wird dadurchSchätzungerste Teil die Belohnung für den letzten Schritt, das soll ich jetzt zuletzt gemacht. Habe die letzte Aktion hier in den vorigen Zustand, dasmit dem natürlich merken dieüber heißt ich habe aufgefasst hat weh getan. Da möchte ich natürlich merken, dass es - 10000Belohnung war, also ein Strafe daneben war mit die mir schon merken,was ich gemacht habein der Qualität runter gehen,die Belohnung negativ war, oder wenn die Belohnung kleiner war, als das was man sonst Belohnung kriegt und ich soll hochgehen in der Bewertung, wenn ich eine hohe Belohnung gekriegt habe, für dengemachten Schritt.möchte aber auch in die Zukunft gucken. Es könnte sein bis dahin, dass ich mich in ein Labyrinth z.b. Manipuliert habe, ich bin vorwärts gekommen in dem Labyrinth. Habe vielleicht sogar ein Brotkrumen gefunden im Labor und gibt eine Belohnung,ich komme nicht weiterzweite Teil. Hier ist in die Zukunft zu gucken. Wie geht's denn dann weiter? Egal, was ich dann mache danach.gut ist denn das überhaupt, was ich danach noch machen kann,in welchem Zustand bin ich jetzt gelandet,ichEintritt durchgeführt habe, mit der Belohnung oder Bestrafung welchemZustand bin ich jetzt gelandet, waskann ich nun tun undwie gut ist das insgesamt? Maximal, wasist das beste was ich nur noch tun kanndie tiefer sie ins Labyrinth kommen? Destowird es hoffentlich da werden,du mehr Bestrafung fütterst werden.ja hinten nicht mehr weiter rauskommen,ist der vorausschauendeteil.Zustand ganz am Ende vom Labyrinth hier irgendwo ganz am Ende der Zustand vom Labyrinth,werden sie rauskriegen halt blöd negativ,weil ich muss umkehrender Zustand davor wird das denn auch mitkriegen und dann wird der Zustand davor, dass er mir nicht mitkriegen,man sich da in die Ecke manövriert,ist der vorausschauende talsa zweite Teil,ist julian, ich noch zwei dreidazu,ihren ist ein bisschen dann haben sie Schule an in das kann man das ja nicht in der Tabelle merkendann jeweilsund Aktionendas ist die in AnführungszeichenArt mit gar nicht. Man lernt eine Bewertungsfunktion inZustand diese Aktion ausführenalle Zustände alle Aktionen durchgenudelt hatBewertungdann nimmt man typischerweiseAktion mit der höchsten Bewertungund wieder nimmt man vielleicht auch mal eine andere um noch mehr zu lernen.Erbsland, wie die sich das dann ist der klassischedas sind bisher die meisten das kommt aus diesem Server raus ist bisher dieArt. Das liegt aber vielleicht daran, dass es die schon am längsten in Anführungszeichengibt.noch gar nicht so verbreitetman ganze Police lernt sie sehen, das ist ja noch gar nicht die ganze voll easy, ich habe hier eine Bewertungsfunktion und dann nehme ich Aktion mit der höchsten Bewertung,ist noch nicht, dass ich die ganze Police gelernt haberaffinierter wäre wirklich die ganze Ponys die zu lernen,ist ein moderner Ansatzauch ein paar Nachteilesich nicht die Bewertungsfunktion an, sondernVerhaltenist hier die Politik, wenn Sie so wollen,Policy Funktion die heißt NP was in der Weise KufaDessau for cutie skottki einepolicy function Pmusst natürlich auch wieder was verknüpfen.sagtnetterweise auch eineWahrscheinlichkeit,ich in einen bestimmten Zustand bin.welcher Wahrscheinlichkeitich, welche Aktiondazwischen tatsächlich eine bedingte Wahrscheinlichkeitalso eine Zahl zwischen 0 und 1Wahrscheinlichkeit?Bedeutung istwelcher bedingten Wahrscheinlichkeit?diesem Zustand in dem wir geben ZustandAktion der Link steht ausführen.dass ich jetzt zufällig ausdrücklichausdrücklich geführtWahrscheinlichkeiten,wennGrad Celsius isteine Ventil auf 80% stellen und das andere auf 70% stellenich mit folgender Wahrscheinlichkeit oder diesesVentil auf 90% stellenund das andere Mandy aus 10% stellen, mache ich mit folgender Wahrscheinlichkeit,die Maschine also muss sie sogar den Bus jetzt alle tatsächlich Würfeln, was davon sie macht und das soll sie mir bestimmt Wahrscheinlichkeit werden.das ganzeeleganter und auch von der Regelungstechnik her viel spannender, also, wenn sie es noch mal ausführen,ganze noch malden ganzen Tag noch mal abspielen. Wird was anderes passieren,ist dem hangeltsich da zufälligdurchzufallsprozess,ist die Police die Funktion, also,verhält sich unser Regler?durch beschrieben, ich bin in einem bestimmten Zustandbedingte Wahrscheinlichkeit sagtmir dann welche Aktion nicht. machen Sie in diesem Zustand mit welcher Wahrscheinlichkeit?wenn der an ist ich auch nicht die AktionHand auf die Herdplatte zu legen mit einer Wahrscheinlichkeit von 0,000irgendwas machen.ist nur zu lernen, so eine Funktion.sehenhoch der Absatz ions Grad ist, das ist jetzt wirklich einewasmacht dieser Regler völlig abstrakt, die ist nicht mehr der Rede vonundvonund was auch immer. Es ist völlig abstraktdiese Art.go spielen oder Schach spielen Autofahren oderin Anführungszeichen undist dann überhaupt kein altes mehr dahinter, das kann man versuchen und dann wieder einzubauen, aberist daan Verständnis von dem eigentlichen System dahinter,wird auf ganz hohem Niveauund damit geregelt,Ponys die Funktion, die bildet man z.b. Durch ein Netz nicht nur aberSie gerne durch ein neuronales Netz und jetzt müssen Sie wissen, was sie es dem neuronalen Netz antun,es das lernen kann,muss ich jetzt im neuronalen Netz.für die GebäudeautomationNeuronen, die verbunden sindtrainieren sie erstmal runter und jetzt an, sie müssen lernen, wie die Verbindung mitdie Verbindungen sind die Gewichte jetztnoch buyers WertetausendeLernwerteeinstellendamit dieses neuronale Netz tut, was es ungefähr tun sollum das hinzukriegenman gradientenabstiegdie Frage ist welche Richtung man gehen soll, also muss ich die Parameter ändernmeinem neuronalen Netz, damithier optimalwird.ich vorstellen, da kommt einiges an Mathematiknicht erzählen, ich heute drei Punktegroße Formen hin und dann kommtRadiance Jurion.gradientenabstiegbrauche also einen Gradientengeht in die Richtung des steilstenalbermannetwas hin und her rechnen findet man eingradienteinem sagtman diesen Gradienten bestimmen kann durchist der Schlüssel dann zu diesem Verfahrenkommenintegrale vor. Es kommt Dorit muss vor alles mögliche erspar ich ihn hier mal geradeist halt doch ein bisschenweg von der Gebäudeautomationist was aktuell so läuft bzw.schon wiedermehr, wo die ist oder gar nicht richtig Mode geworden ist und schon einen Schritt weiter,aktuellbeliebte Ansatz ist actor-critic.man auf dieser Zusammenfassung auch, die ich da eben schon aufgeschrieben hattedie Schauspieler inder Diakritikaich ihn einfach mal so mit Begriffe jetzt ohne großartige Hintergrund, dass sieman aus der Informatik und der Mathematikauf solche Probleme das dann plötzlich ganz monströse Sachen entstehen.gerade noch mal Forstmit learning HDDzu meckern zusammengefassthaben, also,wollte dir eh gar nicht mehr Physikalten und das Gebäude meißeln, sondern versuche direkt.Vorgehenzu lernendieses Problem zu lösen, istRegelzu lösen istzwar durch Versuch und Irrtumoder minder systematisch auszuprobieren daran zu lernen.gibtnatürlich an diese Belohnung jetzt bei uns auch wieder mitzu tun und mit CO2ähnlichen, daran wird sich die Belohnung festgemacht werden.Negative von eben der Zielfunktion eben.wird versuchen Tier zum Ablaufen was ausprobieren, es gibt was auf die Finger oder es gibt einundlernen wir für die Zukunft was für ein Zucker.ist einfach hin zu schreiben, aberhoffe, ich habe ihn ja andeuten können,dann ernst wird, wenn es wirklich ausformuliert werden. Muss jetztmit neuronalen Netzen, ob die man jetzt noch in alle Netze ändert, die Gewichte und ballastschwert in neuronalen Netzen ändern, damit er sich was merken kanndem Verein historische policy gradient,wirds dannhaarig,haben sie in der üblichen Softwareso alsmal wieder diese ganz Sachen eintragen müssen, ganz viele Sachen einstellen müssen bevor sie das verwenden müssen, das erzähle ich einmal jadas was ich jetzt gerade.ersparter aber wie die Rechnung mit einem Detail sind, was da berücksichtigt wird undändert sich noch täglich, weilLeutehunderte Leute weiter auf 1000 Leute dann forschendas alles noch nicht so richtig robust,ist Thema Robustheit kam eben schonnatürlich noch mehr,ich gar nicht mehr weiß übereigentliche Gebäudeschon wieder StabilitätRobustheitwas man typischerweise machen wird. Sicherheitshalber,lässt den klassischen Regler einfach mit laufen.ich ja, was mit den Raumtemperaturen und so weiter passiert, wenn die Istwerte bestimmteGrenzen überschreiten,und vernünftig werden.einen klassischen Regler umschalten.geht ja immer noch.der Gebäudeautomation ist ja nicht so das Drama, wenn es dann also kalt ist oder ein zu warm wird oder alle im Dunkeln sitzen unddu musst jetzt ins Bett dann schon nicht so ungefährlichdu, das Problem wahrscheinlich das selbstfahrende Auto vor,muss man natürlich ganz ganz vielenoch einbauen,in Spezialfällendie nicht gelernt worden sind,nie gesehen worden sind.an Leib und Lebenzum reinforced mitteilen