Context Navigation

← Previous Change
Next Change →

TruncatedNormalBandit.cs

Timestamp:

01/02/15 16:08:21 (10 years ago)

Author:

gkronber

Message:

#2283: several major extensions for grammatical optimization

File:

: 1 edited

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Bandits/TruncatedNormalBandit.cs (modified) (4 diffs)

Legend:

: Unmodified
: Added
: Removed

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Bandits/TruncatedNormalBandit.cs

-                      r11711
+                      r11730
 using System.Text;
 using System.Threading.Tasks;
+using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
   public class TruncatedNormalBandit {
+  public class TruncatedNormalBandit : IBandit {
     public int NumArms { get; private set; }
     public double OptimalExpectedReward { get; private set; } // reward of the best arm, for calculating regret
+    public int OptimalExpectedRewardArm { get; private set; }
+    // the arm with highest expected reward also has the highest probability of return a reward of 1.0
+    public int OptimalMaximalRewardArm { get { return OptimalExpectedRewardArm; } }
     private readonly Random random;
     private readonly double[] expReward;
 …
       OptimalExpectedReward = double.NegativeInfinity;
       for (int i = 0; i < nArms; i++) {
+        expReward[i] = random.NextDouble();
+        if (expReward[i] > OptimalExpectedReward) OptimalExpectedReward = expReward[i];
+        expReward[i] = random.NextDouble() * 0.7;
+        if (expReward[i] > OptimalExpectedReward) {
+          OptimalExpectedReward = expReward[i];
+          OptimalExpectedRewardArm = i;
+        }
+      }
+    }
 …
       double x = 0;
       do {
         var z = Transform(random.NextDouble(), random.NextDouble());
+        var z = Rand.RandNormal(random);
         x = z * 0.1 + expReward[arm];
+      }
 …
       return x;
+    }
-    // box muller transform
-    private double Transform(double u1, double u2) {
-      return Math.Sqrt(-2 * Math.Log(u1)) * Math.Cos(2 * Math.PI * u2);
+    }
+  }
+}

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 11730 for branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Bandits/TruncatedNormalBandit.cs

Legend:

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Bandits/TruncatedNormalBandit.cs

Download in other formats: