7

Son zamanlarda Neural Networks ile Q-öğrenme hakkında çok şey okudum ve basit bir beslemeden oluşan bir santral kazanında mevcut bir eski optimizasyon sistemini güncellemeyi düşündüm- birçok duyusal girdiden bir çıktının yaklaştığı ileri nöral ağ. Çıktı daha sonra bir şekilde tekrar optimal bir eylem çıkaran lineer model tabanlı denetleyiciye bağlanır, böylece tüm model istenen bir hedefe yaklaşabilir.Eski bir sistemi Neural Networks ile Q-learning için güncelleme

Doğrusal modellerin tanımlanması, tüketen bir işlemdir. Her şeyi Q-fonksiyonunun Nöral Ağ yaklaşımı ile modelsiz Q-öğrenmeye yenilemeyi düşündüm. Doğru yolda olup olmadığımı sormak için bir diyagram çizdim.

model

sorum: Eğer ben de kavramını anlamış düşünüyorsanız, benim eğitim seti zorlamak için (Ben artan ödül var sanıyorum burada) bir tarafta ve Q_target - Q_current gelen State Features vectors oluşmalıdır Hedefe doğru bütün model mi yoksa bir şey mi eksik?

Not: Bu diyagram, üst kısımdaki eski sistem ile alt kısımdaki önerdiğim değişiklik arasındaki karşılaştırmayı göstermektedir.

DÜZENLEME: Bir Devlet Sinir Ağı, Deneyimi Yeniden Oynatmayı garanti eder mi?

cevap

1

Geçerli durumdaki tüm eylemlerin tüm Q değerini, ağınızdaki çıktı katmanı olarak kullanabilirsiniz. Kötü çizilen bir diyagram, bir seferde NN'nin birden fazla Q değeri verebilme yeteneğinden faydalanabilirsiniz. Bu nedenle, NN'nin birden fazla Q değerini çıkış yeteneğine sahip olabilirsiniz. Ardından, 'un çıkış katmanından kolayca hesaplanabildiği Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a) tarafından türetilen kayıpları kullanarak geri dönün.

Başka sorularınız olursa lütfen bize bildirin.