Son zamanlarda Neural Networks ile Q-öğrenme hakkında çok şey okudum ve basit bir beslemeden oluşan bir santral kazanında mevcut bir eski optimizasyon sistemini güncellemeyi düşündüm- birçok duyusal girdiden bir çıktının yaklaştığı ileri nöral ağ. Çıktı daha sonra bir şekilde tekrar optimal bir eylem çıkaran lineer model tabanlı denetleyiciye bağlanır, böylece tüm model istenen bir hedefe yaklaşabilir.Eski bir sistemi Neural Networks ile Q-learning için güncelleme
Doğrusal modellerin tanımlanması, tüketen bir işlemdir. Her şeyi Q-fonksiyonunun Nöral Ağ yaklaşımı ile modelsiz Q-öğrenmeye yenilemeyi düşündüm. Doğru yolda olup olmadığımı sormak için bir diyagram çizdim.
sorum: Eğer ben de kavramını anlamış düşünüyorsanız, benim eğitim seti zorlamak için (Ben artan ödül var sanıyorum burada) bir tarafta ve Q_target - Q_current
gelen State Features vectors
oluşmalıdır Hedefe doğru bütün model mi yoksa bir şey mi eksik?
Not: Bu diyagram, üst kısımdaki eski sistem ile alt kısımdaki önerdiğim değişiklik arasındaki karşılaştırmayı göstermektedir.
DÜZENLEME: Bir Devlet Sinir Ağı, Deneyimi Yeniden Oynatmayı garanti eder mi?