Context Navigation

EpsGreedyPolicy.cs

Timestamp:

01/02/15 16:08:21 (10 years ago)

Author:

gkronber

Message:

#2283: several major extensions for grammatical optimization

File:

-                      r11727
+                      r11730
       if (random.NextDouble() > eps) {
         // select best
         var maxReward = double.NegativeInfinity;
+        var bestQ = double.NegativeInfinity;
         int bestAction = -1;
         foreach (var a in Actions) {
           if (tries[a] == 0) return a;
           var avgReward = sumReward[a] / tries[a];
           if (maxReward < avgReward) {
             maxReward = avgReward;
+          var q = sumReward[a] / tries[a];
+          if (bestQ < q) {
+            bestQ = q;
             bestAction = a;
+          }
 …
       Array.Clear(sumReward, 0, sumReward.Length);
+    }
+    public override void PrintStats() {
+      for (int i = 0; i < sumReward.Length; i++) {
+        if (tries[i] >= 0) {
+          Console.Write(" {0,5:F2} {1}", sumReward[i] / tries[i], tries[i]);
+        } else {
+          Console.Write("-", "");
+        }
+      }
+      Console.WriteLine();
+    }
+    public override string ToString() {
+      return string.Format("EpsGreedyPolicy({0:F2})", eps);
+    }
+  }
+}

Note: See TracChangeset for help on using the changeset viewer.