reinforcement-learning

0ısı

1cevap

kullanırken theano ile sinir ağları için degradeler nasıl hesaplanır Q-Learning'deki işlem değerlerinin temeli olarak standart tam bağlantılı bir sinir ağı kullanmaya çalışıyorum. Bir referans olarak,

7ısı

1cevap

Eski bir sistemi Neural Networks ile Q-learning için güncelleme

Son zamanlarda Neural Networks ile Q-öğrenme hakkında çok şey okudum ve basit bir beslemeden oluşan bir santral kazanında mevcut bir eski optimizasyon sistemini güncellemeyi düşündüm- birçok duyusal g

9ısı

2cevap

Q Tic Tac Toe için Öğrenme Algoritması

Tic Tac Toe oyunu için Q değerlerinin nasıl güncelleneceğini anlayamadım. Tüm bunları okudum ama nasıl yapılacağını hayal edemedim. Q değerinin oyunun sonunu güncellediğini okudum, ancak her bir eylem

13ısı

2cevap

optimal epsilon (ε-hırslı) değeri

ε-hırslı ilke Q'nun öğrenme algoritması keşif ve istismar arasında denge çalışmalıdır biliyoruz. Bu alanda yeni başladığımdan beri, keşif/sömürü davranışının basit bir versiyonunu uygulamak istedim. O

5ısı

3cevap

n-silahlı bandit simülasyonu R

Ben Sutton & Barto'nun ebook'unu kullanıyorum Takviye Öğrenme: Takviye öğrenmeyi incelemek için bir Giriş. Ben action-value page üzerinde sonuçları (araziler) taklit etmeye çalışan bazı sorunlar yaşıy

8ısı

2cevap

Tensorflow'da Async n-step DQNetwork güncellemesi için nasıl gradyanlar toplanır?

Asynchronous Methods for Deep Reinforcement Learning'u uygulamaya çalışıyorum ve adımlardan birini, gradyanları farklı adımlar üzerinde biriktirip sonra uygulayabilmenizi istiyorum. Tensorflow'da bunu

8ısı

1cevap

TensorFlow: Grafik Optimizasyonu (GPU - CPU Performansı)

Bu sorun ilk olarak Github #3320 adresinde yayınlanmıştır. O iş parçacığı ve hantal olan orijinal sorun hakkında daha fazla ayrıntı olduğu için orada başlamak iyi olurdu, bu yüzden StackOverflow'a yen

5ısı

1cevap

Güçlendirme öğrenme algoritmaları için verilerin verimli beslenmesi

Şu anda TensorFlow'da derin çift Q öğrenme algoritmasını uyguluyorum. NumPy dizilerine dayalı bir deneyim tekrar arabellek var. Ancak, bazı performans analizleri, NumPy dizilerinden verilerin feed_dic

0ısı

1cevap

Lineer fonksiyon yaklaşımı ile Q-öğrenme

Q-öğrenme algoritmasının işlev yaklaşımı ile nasıl kullanılacağı hakkında bazı yararlı talimatlar almak istiyorum. Temel Q-öğrenme algoritması için örnekler buldum ve sanırım onu anladım. Fonksiyon

5ısı

1cevap

Takviye öğrenimi için kerastaki ağırlıklar nasıl güncellenir?

Bir takviye öğrenme programında çalışıyorum ve bu makaleyi reference olarak kullanıyorum. Ben sinir ağı ve bu program için kullanıyorum sözde kod oluşturmak için keras (Theano) ile piton kullanıyorum