Context Navigation

← Previous Change
Next Change →

HeuristicLab.Problems.Bandits

Timestamp:

08/17/15 19:13:19 (9 years ago)

Author:

gkronber

Message:

#2283: implemented first crude version of extreme hunter algorithm in branch

Location:

branches/HeuristicLab.Problems.GrammaticalOptimization-gkr/HeuristicLab.Problems.Bandits

Files:

: 1 added
: 3 edited

GaussianBandit.cs (modified) (3 diffs)
HeuristicLab.Problems.Bandits.csproj (modified) (1 diff)
IBandit.cs (modified) (1 diff)
ParetoBandit.cs (added)

Legend:

: Unmodified
: Added
: Removed

branches/HeuristicLab.Problems.GrammaticalOptimization-gkr/HeuristicLab.Problems.Bandits/GaussianBandit.cs

-                      r11849
+                      r12876
     public int OptimalExpectedRewardArm { get; private set; }
     public int OptimalMaximalRewardArm { get; private set; }
+    public double MaxReward { get; private set; }
+    public double MinReward { get; private set; }
     private readonly Random random;
     private readonly double[] exp;
     private readonly double[] stdDev;
+    public GaussianBandit(Random random, int nArms) {
+    public GaussianBandit(Random random, int nArms, double minReward = double.NegativeInfinity, double maxReward = double.PositiveInfinity) {
+      this.MaxReward = maxReward;
+      this.MinReward = minReward;
       this.random = random;
       this.NumArms = nArms;
 …
           OptimalExpectedRewardArm = i;
+        }
         var q = alglib.invnormaldistribution(0.99) * stdDev[i] + exp[i];
+        var q = alglib.invnormaldistribution(0.999) * stdDev[i] + exp[i];
         if (q > bestQ) {
           bestQ = q;
 …
+    }
     // pulling an arm results in a truncated normally distributed reward
     // with mean expReward[i] and std.dev 0.1
+    // pulling an arm results in a normally distributed reward
+    // with mean expReward[i] and std.dev
     public double Pull(int arm) {
+      var z = Rand.RandNormal(random);
+      var x = z * stdDev[arm] + exp[arm];
+      double x;
+      do {
+        var z = Rand.RandNormal(random);
+        x = z * stdDev[arm] + exp[arm];
+      } while (x <= MinReward || x > MaxReward);
       return x;
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization-gkr/HeuristicLab.Problems.Bandits/HeuristicLab.Problems.Bandits.csproj

r11981	r12876
41	41	<Compile Include="BanditHelper.cs" />
42	42	<Compile Include="BernoulliBandit.cs" />
	43	<Compile Include="ParetoBandit.cs" />
43	44	<Compile Include="GaussianBandit.cs" />
44	45	<Compile Include="GaussianMixtureBandit.cs" />

branches/HeuristicLab.Problems.GrammaticalOptimization-gkr/HeuristicLab.Problems.Bandits/IBandit.cs

r11849	r12876
12	12	int OptimalMaximalRewardArm { get; } // arm which is optimal for optimization of maximal reward
13	13
14		double Pull(int arm); // pulling an arm returns a re~~gret~~
	14	double Pull(int arm); // pulling an arm returns a reward
15	15	}
16	16	}

Note: See TracChangeset for help on using the changeset viewer.