Changeset 11742 for branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/BernoulliPolicyActionInfo.cs

-                      r11732
+                      r11742
 using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
   public class BernoulliPolicyActionInfo : IPolicyActionInfo {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class BernoulliPolicyActionInfo : IBanditPolicyActionInfo {
     public bool Disabled { get { return NumSuccess == -1; } }
     public int NumSuccess { get; private set; }
     public int NumFailure { get; private set; }
+    public int Tries { get { return NumSuccess + NumFailure; } }
+    public double Value { get { return NumSuccess / (double)(Tries); } }
     public void UpdateReward(double reward) {
       Debug.Assert(!Disabled);
 …
+    }
     public void PrintStats() {
       Console.WriteLine("expected value {0,5:F2} disabled {1}", NumSuccess / (double)NumFailure, Disabled);
+      Console.WriteLine("expected value {0,5:F2} disabled {1}", Value, Disabled);
+    }
+  }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/BernoulliThompsonSamplingPolicy.cs

-                      r11732
+                      r11742
 using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
   public class BernoulliThompsonSamplingPolicy : IPolicy {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class BernoulliThompsonSamplingPolicy : IBanditPolicy {
     // parameters of beta prior distribution
     private readonly double alpha = 1.0;
     private readonly double beta = 1.0;
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<BernoulliPolicyActionInfo>(); // TODO: performance
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
+      var myActionInfos = actionInfos.OfType<BernoulliPolicyActionInfo>();
       int bestAction = -1;
       double maxTheta = double.NegativeInfinity;
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new BernoulliPolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/BoltzmannExplorationPolicy.cs

-                      r11732
+                      r11742
 using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   // also called softmax policy
   public class BoltzmannExplorationPolicy : IPolicy {
+  public class BoltzmannExplorationPolicy : IBanditPolicy {
     private readonly double beta;
+    private readonly Func<DefaultPolicyActionInfo, double> valueFunction;
+    public BoltzmannExplorationPolicy(double beta) {
+    public BoltzmannExplorationPolicy(double eps) : this(eps, DefaultPolicyActionInfo.AverageReward) { }
+    public BoltzmannExplorationPolicy(double beta, Func<DefaultPolicyActionInfo, double> valueFunction) {
       if (beta < 0) throw new ArgumentException();
       this.beta = beta;
+      this.valueFunction = valueFunction;
+    }
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       Debug.Assert(actionInfos.Any());
       // select best
       var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>().ToArray(); // TODO: performance
+      var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>();
       Debug.Assert(myActionInfos.Any(a => !a.Disabled));
-      double[] w = new double[myActionInfos.Length];
+      for (int a = 0; a < myActionInfos.Length; a++) {
+        if (myActionInfos[a].Disabled) {
+          w[a] = 0; continue;
+        }
+        if (myActionInfos[a].Tries == 0) return a;
+        var sumReward = myActionInfos[a].SumReward;
+        var tries = myActionInfos[a].Tries;
+        var avgReward = sumReward / tries;
+        w[a] = Math.Exp(beta * avgReward);
+      }
+      var w = from aInfo in myActionInfos
+              select aInfo.Disabled
+                ? 0.0
+                : Math.Exp(beta * valueFunction(aInfo));
+      var bestAction = Enumerable.Range(0, w.Length).SampleProportional(random, w).First();
+      var bestAction = myActionInfos
+        .Select((aInfo, idx) => new { aInfo, idx })
+        .SampleProportional(random, w)
+        .Select(p => p.idx)
+        .First();
       Debug.Assert(bestAction >= 0);
-      Debug.Assert(bestAction < w.Length);
-      Debug.Assert(!myActionInfos[bestAction].Disabled);
       return bestAction;
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new DefaultPolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/ChernoffIntervalEstimationPolicy.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   /* see: Streeter and Smith: A simple distribution-free approach to the max k-armed bandit problem, Proceedings  of the 12th
 International Conference, CP 2006, Nantes, France, September 25-29, 2006. pp 560-574 */
   public class ChernoffIntervalEstimationPolicy : IPolicy {
+  public class ChernoffIntervalEstimationPolicy : IBanditPolicy {
     private readonly double delta;
 …
       this.delta = delta;
+    }
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       Debug.Assert(actionInfos.Any());
       // select best
       var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>().ToArray(); // TODO: performance
       int k = myActionInfos.Length;
+      var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>();
+      int k = myActionInfos.Count(a => !a.Disabled);
       int totalTries = myActionInfos.Where(a => !a.Disabled).Sum(a => a.Tries);
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
+      for (int a = 0; a < myActionInfos.Length; a++) {
+        if (myActionInfos[a].Disabled) continue;
+        if (myActionInfos[a].Tries == 0) return a;
+      var aIdx = -1;
+      foreach (var aInfo in myActionInfos) {
+        aIdx++;
+        if (aInfo.Disabled) continue;
+        if (aInfo.Tries == 0) return aIdx;
+        var sumReward = myActionInfos[a].SumReward;
+        var tries = myActionInfos[a].Tries;
+        var avgReward = sumReward / tries;
+        var avgReward = aInfo.SumReward / aInfo.Tries;
         // page 5 of "A simple distribution-free appraoch to the max k-armed bandit problem"
         // var alpha = Math.Log(2 * totalTries * k / delta);
         double alpha = Math.Log(2) + Math.Log(totalTries) + Math.Log(k) - Math.Log(delta); // total tries is max tries in the original paper
         var q = avgReward + (alpha + Math.Sqrt(2 * tries * avgReward * alpha + alpha * alpha)) / tries;
+        double alpha = Math.Log(2.0) + Math.Log(totalTries) + Math.Log(k) - Math.Log(delta); // total tries is max tries in the original paper
+        var q = avgReward + (alpha + Math.Sqrt(2 * aInfo.Tries * avgReward * alpha + alpha * alpha)) / aInfo.Tries;
         if (q > bestQ) {
           bestQ = q;
           bestAction = a;
+          bestAction = aIdx;
+        }
+      }
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new DefaultPolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/DefaultPolicyActionInfo.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   // stores information that is relevant for most of the policies
   public class DefaultPolicyActionInfo : IPolicyActionInfo {
+  public class DefaultPolicyActionInfo : IBanditPolicyActionInfo {
     public bool Disabled { get { return Tries == -1; } }
     public double SumReward { get; private set; }
+    public int Tries { get; private set; }
     public double MaxReward { get; private set; }
+    public int Tries { get; private set; }
+    public double Value { get { return SumReward / Tries; } }
     public DefaultPolicyActionInfo() {
       MaxReward = double.NegativeInfinity;
+      MaxReward = double.MinValue;
+    }
 …
       Console.WriteLine("avg reward {0,5:F2} disabled {1}", SumReward / Tries, Disabled);
+    }
+    public static Func<DefaultPolicyActionInfo, double> AverageReward {
+      get {
+        return (aInfo) =>
+          aInfo.Tries == 0 ?
+          double.PositiveInfinity :
+          aInfo.SumReward / (double)aInfo.Tries;
+      }
+    }
+  }
+}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/EmptyPolicyActionInfo.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
+namespace HeuristicLab.Algorithms.Bandits {
+  public class EmptyPolicyActionInfo : IPolicyActionInfo {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class EmptyPolicyActionInfo : IBanditPolicyActionInfo {
+    public double Value { get { return 0.0; } }
     public bool Disabled { get; private set; }
     public void UpdateReward(double reward) {

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/EpsGreedyPolicy.cs

-                      r11732
+                      r11742
 using System.Text;
 using System.Threading.Tasks;
+using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
   public class EpsGreedyPolicy : IPolicy {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class EpsGreedyPolicy : IBanditPolicy {
     private readonly double eps;
     private readonly RandomPolicy randomPolicy;
+    private readonly Func<DefaultPolicyActionInfo, double> valueFunction;
+    private readonly string desc;
+    public EpsGreedyPolicy(double eps) {
+    public EpsGreedyPolicy(double eps) : this(eps, DefaultPolicyActionInfo.AverageReward, string.Empty) { }
+    public EpsGreedyPolicy(double eps, Func<DefaultPolicyActionInfo, double> valueFunction, string desc) {
       this.eps = eps;
       this.randomPolicy = new RandomPolicy();
+      this.valueFunction = valueFunction;
+      this.desc = desc;
+    }
+    public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       Debug.Assert(actionInfos.Any());
       if (random.NextDouble() > eps) {
         // select best
         var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>();
         int bestAction = -1;
+        var bestActions = new List<int>();
         double bestQ = double.NegativeInfinity;
         int aIdx = -1;
         foreach (var aInfo in myActionInfos) {
           aIdx++;
           if (aInfo.Disabled) continue;
-          if (aInfo.Tries == 0) return aIdx;
+          var q = valueFunction(aInfo);
-          var avgReward = aInfo.SumReward / aInfo.Tries;
-          //var q = avgReward;
-          var q = aInfo.MaxReward;
           if (q > bestQ) {
+            bestActions.Clear();
+            bestActions.Add(aIdx);
             bestQ = q;
+            bestAction = aIdx;
+          } else if (q.IsAlmost(bestQ)) {
+            bestActions.Add(aIdx);
+          }
+        }
         Debug.Assert(bestAction >= 0);
         return bestAction;
+        Debug.Assert(bestActions.Any());
+        return bestActions.SelectRandom(random);
       } else {
         // select random
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new DefaultPolicyActionInfo();
+    }
 …
     public override string ToString() {
       return string.Format("EpsGreedyPolicy({0:F2})", eps);
+      return string.Format("EpsGreedyPolicy({0:F2},{1})", eps, desc);
+    }
+  }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/Exp3Policy.cs

r11730	r11742
6	6	using System.Threading.Tasks;
7	7
8		namespace HeuristicLab.Algorithms.Bandits {
	8	namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
9	9	public class Exp3Policy : BanditPolicy {
10	10	private readonly Random random;

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/GaussianThompsonSamplingPolicy.cs

-                      r11732
+                      r11742
 using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class GaussianThompsonSamplingPolicy : IPolicy {
+  [Obsolete("Replaced by GenericThompsonSamplingPolicy(GaussianModel(0.5, 1.0, 0.1))")]
+  public class GaussianThompsonSamplingPolicy : IBanditPolicy {
     private bool compatibility;
 …
+    }
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<MeanAndVariancePolicyActionInfo>();
       int bestAction = -1;
 …
         double theta;
         if (compatibility) {
+          // old code used for old experiments (preserved because it performed very well)
           if (tries < 2) return aIdx;
           var mu = sampleMean;
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new MeanAndVariancePolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/GenericThompsonSamplingPolicy.cs

r11732	r11742
7	7	using HeuristicLab.Common;
8	8
9		namespace HeuristicLab.Algorithms.Bandits {
10		public class GenericThompsonSamplingPolicy : IPolicy {
	9	namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
	10	public class GenericThompsonSamplingPolicy : IBanditPolicy {
11	11	private readonly IModel model;
12	12
…	…
15	15	}
16	16
17		public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
	17	public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
18	18	var myActionInfos = actionInfos.OfType<ModelPolicyActionInfo>();
19	19	int bestAction = -1;
…	…
34	34	}
35	35
36		public IPolicyActionInfo CreateActionInfo() {
	36	public IBanditPolicyActionInfo CreateActionInfo() {
37	37	return new ModelPolicyActionInfo((IModel)model.Clone());
38	38	}
39	39
40	40	public override string ToString() {
41		return string.Format("GenericThompsonSamplingPolicy(~~{0}~~)", model);
	41	return string.Format("GenericThompsonSamplingPolicy(\"{0}\")", model);
42	42	}
43	43	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/MeanAndVariancePolicyActionInfo.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 namespace HeuristicLab.Algorithms.Bandits {
   public class MeanAndVariancePolicyActionInfo : IPolicyActionInfo {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class MeanAndVariancePolicyActionInfo : IBanditPolicyActionInfo {
     private bool disabled;
     public bool Disabled { get { return disabled; } }
 …
     public double AvgReward { get { return estimator.Avg; } }
     public double RewardVariance { get { return estimator.Variance; } }
+    public double Value { get { return AvgReward; } }
     public void UpdateReward(double reward) {

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/ModelPolicyActionInfo.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   // uses a statistical model to sample and update posterior distribution p(Reward | Data)
   public class ModelPolicyActionInfo : IPolicyActionInfo {
+  public class ModelPolicyActionInfo : IBanditPolicyActionInfo {
     private readonly IModel model;
     public bool Disabled { get { return Tries == -1; } }
+    public double Value { get { return model.SampleExpectedReward(new Random()); } }
     public int Tries { get; private set; }
 …
       model.PrintStats();
+    }
+    public override string ToString() {
+      return string.Format("disabled {0} model {1}", Disabled, model);
+    }
+  }
+}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/RandomPolicy.cs

-                      r11732
+                      r11742
 using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
   public class RandomPolicy : IPolicy {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class RandomPolicy : IBanditPolicy {
     public override string ToString() {
 …
+    }
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       return actionInfos
         .Select((a, i) => Tuple.Create(a, i))
+        .Select((aInfo, idx) => Tuple.Create(aInfo, idx))
         .Where(p => !p.Item1.Disabled)
         .SelectRandom(random).Item2;
+    }
     public IPolicyActionInfo CreateActionInfo() {
       return new EmptyPolicyActionInfo();
+    public IBanditPolicyActionInfo CreateActionInfo() {
+      return new DefaultPolicyActionInfo();
+    }
+  }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/ThresholdAscentPolicy.cs

-                      r11730
+                      r11742
 using System.Text;
 using System.Threading.Tasks;
+using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   /* see: Streeter and Smith: A simple distribution-free approach to the max k-armed bandit problem, Proceedings  of the 12th
  International Conference, CP 2006, Nantes, France, September 25-29, 2006. pp 560-574 */
   public class ThresholdAscentPolicy : BanditPolicy {
     const int numBins = 101;
     const double binSize = 1.0 / (numBins - 1);
+  public class ThresholdAscentPolicy : IBanditPolicy {
+    public const int numBins = 101;
+    public const double binSize = 1.0 / (numBins - 1);
+    // for each arm store the number of observed rewards for each bin of size delta
+    // for delta = 0.01 we have 101 bins
+    // the first bin is freq of rewards  >= 0 // all
+    // the second bin is freq of rewards > 0
+    // the third bin is freq of rewards > 0.01
+    // the last bin is for rewards > 0.99
+    //
+    // (also see RewardBin function)
+    private readonly int[,] armRewardHistogram; // for performance reasons we store cumulative counts (freq of rewards > lower threshold)
+    private class ThresholdAscentActionInfo : IBanditPolicyActionInfo {
+      // for each arm store the number of observed rewards for each bin of size delta
+      // for delta = 0.01 we have 101 bins
+      // the first bin is freq of rewards  >= 0 // all
+      // the second bin is freq of rewards > 0
+      // the third bin is freq of rewards > 0.01
+      // the last bin is for rewards > 0.99
+      //
+      // (also see RewardBin function)
+      public int[] rewardHistogram = new int[numBins];    // for performance reasons we store cumulative counts (freq of rewards > lower threshold)
+      public int Tries { get; private set; }
+      public int thresholdBin = 1;
+      public double Value { get { return rewardHistogram[thresholdBin] / (double)Tries; } }
+    private readonly int[] tries;
+      public bool Disabled { get { return Tries == -1; } }
+      public void UpdateReward(double reward) {
+        Tries++;
+        for (var idx = thresholdBin; idx <= RewardBin(reward); idx++)
+          rewardHistogram[idx]++;
+      }
+      public void Disable() {
+        Tries = -1;
+      }
+      public void Reset() {
+        Tries = 0;
+        thresholdBin = 1;
+        Array.Clear(rewardHistogram, 0, rewardHistogram.Length);
+      }
+      public void PrintStats() {
+        if (Tries >= 0) {
+          Console.Write("{0,6}", Tries);
+        } else {
+          Console.Write("{0,6}", "");
+        }
+      }
+      // maps a reward value to it's bin
+      private static int RewardBin(double reward) {
+        Debug.Assert(reward >= 0 && reward <= 1.0);
+        // reward = 0 => 0
+        // ]0.00 .. 0.01] => 1
+        // ]0.01 .. 0.02] => 2
+        // ...
+        // ]0.99 .. 1.00] => 100
+        if (reward <= 0) return 0;
+        return (int)Math.Ceiling((reward / binSize));
+      }
+    }
     private readonly int s;
     private readonly double delta;
+    private int totalTries = 0;
+    private int thresholdBin; // bin index of current threshold
+    private const double maxTries = 1E6;
+    public ThresholdAscentPolicy(int numActions, int s = 100, double delta = 0.05)
+      : base(numActions) {
+      this.thresholdBin = 1; // first bin to check is bin idx 1 == freq of rewards > 0
+    public ThresholdAscentPolicy(int s = 100, double delta = 0.05) {
       this.s = s;
       this.delta = delta;
-      this.armRewardHistogram = new int[numActions, numBins];
-      this.tries = new int[numActions];
+    }
+    // maps a reward value to it's bin
+    private static int RewardBin(double reward) {
+      Debug.Assert(reward >= 0 && reward <= 1.0);
+      // reward = 0 => 0
+      // ]0.00 .. 0.01] => 1
+      // ]0.01 .. 0.02] => 2
+      // ...
+      // ]0.99 .. 1.00] => 100
+      if (reward <= 0) return 0;
+      return (int)Math.Ceiling((reward / binSize));
+    }
+    private double U(double mu, int n, int k) {
+    private double U(double mu, int totalTries, int n, int k) {
       //var alpha = Math.Log(2.0 * totalTries * k / delta);
       double alpha = Math.Log(2) + Math.Log(maxTries) + Math.Log(k) - Math.Log(delta); // totalTries is max iterations in original paper
+      double alpha = Math.Log(2) + Math.Log(totalTries) + Math.Log(k) - Math.Log(delta);
       return mu + (alpha + Math.Sqrt(2 * n * mu * alpha + alpha * alpha)) / n;
+    }
+    public override int SelectAction() {
+      Debug.Assert(Actions.Any());
+      UpdateThreshold();
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
+      Debug.Assert(actionInfos.Any());
+      var myActionInfos = actionInfos.OfType<ThresholdAscentActionInfo>();
+      UpdateThreshold(myActionInfos);
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
+      int k = Actions.Count();
+      foreach (var a in Actions) {
+        if (tries[a] == 0) return a;
+        double mu = armRewardHistogram[a, thresholdBin] / (double)tries[a]; // probability of rewards > T
+        double q = U(mu, tries[a], k);
+      int k = myActionInfos.Count(a => !a.Disabled);
+      var totalTries = myActionInfos.Where(a => !a.Disabled).Sum(a => a.Tries);
+      int aIdx = -1;
+      foreach (var aInfo in myActionInfos) {
+        aIdx++;
+        if (aInfo.Disabled) continue;
+        if (aInfo.Tries == 0) return aIdx;
+        double mu = aInfo.Value; // probability of rewards > T
+        double q = U(mu, totalTries, aInfo.Tries, k);          // totalTries is max iterations in original paper
         if (q > bestQ) {
           bestQ = q;
           bestAction = a;
+          bestAction = aIdx;
+        }
+      }
       Debug.Assert(Actions.Contains(bestAction));
+      Debug.Assert(bestAction > -1);
       return bestAction;
+    }
+    private void UpdateThreshold() {
+      while (thresholdBin < (numBins - 1) && Actions.Sum(a => armRewardHistogram[a, thresholdBin]) >= s) {
+    private void UpdateThreshold(IEnumerable<ThresholdAscentActionInfo> actionInfos) {
+      var thresholdBin = 1; // first bin to check is bin idx 1 == freq of rewards > 0
+      while (thresholdBin < (numBins - 1) && actionInfos.Sum(a => a.rewardHistogram[thresholdBin]) >= s) {
         thresholdBin++;
         // Console.WriteLine("New threshold {0:F2}", T);
+      }
+      foreach (var aInfo in actionInfos) {
+        aInfo.thresholdBin = thresholdBin;
+      }
+    }
+    public override void UpdateReward(int action, double reward) {
+      Debug.Assert(Actions.Contains(action));
+      totalTries++;
+      tries[action]++;
+      // efficiency: we can start at the current threshold bin because all bins below that are not accessed in select-action
+      for (var idx = thresholdBin; idx <= RewardBin(reward); idx++)
+        armRewardHistogram[action, idx]++;
+    public IBanditPolicyActionInfo CreateActionInfo() {
+      return new ThresholdAscentActionInfo();
+    }
-    public override void DisableAction(int action) {
-      base.DisableAction(action);
-      totalTries -= tries[action];
-      tries[action] = -1;
+    }
-    public override void Reset() {
-      base.Reset();
-      totalTries = 0;
-      thresholdBin = 1;
-      Array.Clear(tries, 0, tries.Length);
-      Array.Clear(armRewardHistogram, 0, armRewardHistogram.Length);
+    }
-    public override void PrintStats() {
-      for (int i = 0; i < tries.Length; i++) {
-        if (tries[i] >= 0) {
-          Console.Write("{0,6}", tries[i]);
-        } else {
-          Console.Write("{0,6}", "");
+        }
+      }
-      Console.WriteLine();
+    }
     public override string ToString() {
       return string.Format("ThresholdAscentPolicy({0},{1:F2})", s, delta);

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCB1Policy.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
+namespace HeuristicLab.Algorithms.Bandits {
+  public class UCB1Policy : IPolicy {
+    public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  // policy for k-armed bandit (see Auer et al. 2002)
+  public class UCB1Policy : IBanditPolicy {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>().ToArray(); // TODO: performance
       int bestAction = -1;
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new DefaultPolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCB1TunedPolicy.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
+namespace HeuristicLab.Algorithms.Bandits {
+  public class UCB1TunedPolicy : IPolicy {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  // policy for k-armed bandit (see Auer et al. 2002)
+  public class UCB1TunedPolicy : IBanditPolicy {
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<MeanAndVariancePolicyActionInfo>().ToArray(); // TODO: performance
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
+      var myActionInfos = actionInfos.OfType<MeanAndVariancePolicyActionInfo>();
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
       int totalTries = myActionInfos.Where(a => !a.Disabled).Sum(a => a.Tries);
+      for (int a = 0; a < myActionInfos.Length; a++) {
+        if (myActionInfos[a].Disabled) continue;
+        if (myActionInfos[a].Tries == 0) return a;
+      int aIdx = -1;
+      foreach (var aInfo in myActionInfos) {
+        aIdx++;
+        if (aInfo.Disabled) continue;
+        if (aInfo.Tries == 0) return aIdx;
         var sumReward = myActionInfos[a].SumReward;
         var tries = myActionInfos[a].Tries;
+        var sumReward = aInfo.SumReward;
+        var tries = aInfo.Tries;
         var avgReward = sumReward / tries;
         var q = avgReward + Math.Sqrt((Math.Log(totalTries) / tries) * Math.Min(1.0 / 4, V(myActionInfos[a], totalTries))); // 1/4 is upper bound of bernoulli distributed variable
+        var q = avgReward + Math.Sqrt((Math.Log(totalTries) / tries) * Math.Min(1.0 / 4, V(aInfo, totalTries))); // 1/4 is upper bound of bernoulli distributed variable
         if (q > bestQ) {
           bestQ = q;
           bestAction = a;
+          bestAction = aIdx;
+        }
+      }
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new MeanAndVariancePolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCBNormalPolicy.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 namespace HeuristicLab.Algorithms.Bandits {
   public class UCBNormalPolicy : IPolicy {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class UCBNormalPolicy : IBanditPolicy {
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<MeanAndVariancePolicyActionInfo>().ToArray(); // TODO: performance
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
+      var myActionInfos = actionInfos.OfType<MeanAndVariancePolicyActionInfo>();
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
       int totalTries = myActionInfos.Where(a => !a.Disabled).Sum(a => a.Tries);
+      int aIdx = -1;
+      foreach (var aInfo in myActionInfos) {
+        aIdx++;
+        if (aInfo.Disabled) continue;
+        if (totalTries <= 1 || aInfo.Tries <= 1 || aInfo.Tries <= Math.Ceiling(8 * Math.Log(totalTries))) return aIdx;
+      for (int a = 0; a < myActionInfos.Length; a++) {
+        if (myActionInfos[a].Disabled) continue;
+        if (totalTries <= 1 || myActionInfos[a].Tries <= 1 || myActionInfos[a].Tries <= Math.Ceiling(8 * Math.Log(totalTries))) return a;
+        var tries = myActionInfos[a].Tries;
+        var avgReward = myActionInfos[a].AvgReward;
+        var rewardVariance = myActionInfos[a].RewardVariance;
+        var estVariance = 16 * rewardVariance * (Math.Log(totalTries - 1) / tries);
+        if (estVariance < 0) estVariance = 0; // numerical problems
+        var q = avgReward
+          + Math.Sqrt(estVariance);
+        var tries = aInfo.Tries;
+        var avgReward = aInfo.AvgReward;
+        var rewardVariance = aInfo.RewardVariance;
+        var estVariance = 16.0 * rewardVariance * (Math.Log(totalTries - 1) / tries);
+        var q = avgReward + Math.Sqrt(estVariance);
         if (q > bestQ) {
           bestQ = q;
           bestAction = a;
+          bestAction = aIdx;
+        }
+      }
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new MeanAndVariancePolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCTPolicy.cs

-                      r11732
+                      r11742
 using System.Text;
 using System.Threading.Tasks;
+namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   /* Kocsis et al. Bandit based Monte-Carlo Planning */
   public class UCTPolicy : IPolicy {
+  public class UCTPolicy : IBanditPolicy {
     private readonly double c;
 …
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>().ToArray(); // TODO: performance
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
+      var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>();
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
       int totalTries = myActionInfos.Where(a => !a.Disabled).Sum(a => a.Tries);
+      for (int a = 0; a < myActionInfos.Length; a++) {
+        if (myActionInfos[a].Disabled) continue;
+        if (myActionInfos[a].Tries == 0) return a;
+        var q = myActionInfos[a].SumReward / myActionInfos[a].Tries + 2 * c * Math.Sqrt(Math.Log(totalTries) / myActionInfos[a].Tries);
+      int aIdx = -1;
+      foreach (var aInfo in myActionInfos) {
+        aIdx++;
+        if (aInfo.Disabled) continue;
+        if (aInfo.Tries == 0) return aIdx;
+        var q = aInfo.SumReward / aInfo.Tries + 2.0 * c * Math.Sqrt(Math.Log(totalTries) / aInfo.Tries);
         if (q > bestQ) {
           bestQ = q;
           bestAction = a;
+          bestAction = aIdx;
+        }
+      }
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new DefaultPolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/HeuristicLab.Algorithms.Bandits.csproj

-                      r11732
+                      r11742
   <ItemGroup>
     <Compile Include="BanditHelper.cs" />
+    <Compile Include="BanditPolicies\BernoulliPolicyActionInfo.cs" />
+    <Compile Include="BanditPolicies\BernoulliThompsonSamplingPolicy.cs" />
+    <Compile Include="BanditPolicies\BoltzmannExplorationPolicy.cs" />
+    <Compile Include="BanditPolicies\ChernoffIntervalEstimationPolicy.cs" />
+    <Compile Include="BanditPolicies\DefaultPolicyActionInfo.cs" />
+    <Compile Include="BanditPolicies\EpsGreedyPolicy.cs" />
+    <Compile Include="BanditPolicies\GaussianThompsonSamplingPolicy.cs" />
+    <Compile Include="BanditPolicies\GenericThompsonSamplingPolicy.cs" />
+    <Compile Include="BanditPolicies\MeanAndVariancePolicyActionInfo.cs" />
+    <Compile Include="BanditPolicies\ModelPolicyActionInfo.cs" />
+    <Compile Include="BanditPolicies\RandomPolicy.cs" />
+    <Compile Include="BanditPolicies\ThresholdAscentPolicy.cs" />
+    <Compile Include="BanditPolicies\UCB1Policy.cs" />
+    <Compile Include="BanditPolicies\UCB1TunedPolicy.cs" />
+    <Compile Include="BanditPolicies\UCBNormalPolicy.cs" />
+    <Compile Include="BanditPolicies\UCTPolicy.cs" />
     <Compile Include="Bandits\BernoulliBandit.cs" />
     <Compile Include="Bandits\GaussianBandit.cs" />
 …
     <Compile Include="Bandits\IBandit.cs" />
     <Compile Include="Bandits\TruncatedNormalBandit.cs" />
+    <Compile Include="GrammarPolicies\RandomPolicy.cs" />
+    <Compile Include="IPolicy.cs" />
+    <Compile Include="IBanditPolicy.cs" />
+    <Compile Include="IBanditPolicyActionInfo.cs" />
     <Compile Include="OnlineMeanAndVarianceEstimator.cs" />
-    <Compile Include="IPolicyActionInfo.cs" />
     <Compile Include="Models\BernoulliModel.cs" />
     <Compile Include="Models\GaussianModel.cs" />
     <Compile Include="Models\IModel.cs" />
-    <Compile Include="Policies\BernoulliThompsonSamplingPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\BoltzmannExplorationPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\ChernoffIntervalEstimationPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\BernoulliPolicyActionInfo.cs" />
-    <Compile Include="Policies\ModelPolicyActionInfo.cs" />
-    <Compile Include="Policies\EpsGreedyPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\GaussianThompsonSamplingPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\GenericThompsonSamplingPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\MeanAndVariancePolicyActionInfo.cs" />
-    <Compile Include="Policies\DefaultPolicyActionInfo.cs" />
-    <Compile Include="Policies\EmptyPolicyActionInfo.cs" />
-    <Compile Include="Policies\RandomPolicy.cs" />
-    <Compile Include="Policies\UCB1Policy.cs" />
-    <Compile Include="IPolicy.cs" />
-    <Compile Include="Policies\UCB1TunedPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\UCBNormalPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\UCTPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
     <Compile Include="Properties\AssemblyInfo.cs" />
   </ItemGroup>
 …
       <Project>{3A2FBBCB-F9DF-4970-87F3-F13337D941AD}</Project>
       <Name>HeuristicLab.Common</Name>
+    </ProjectReference>
+    <ProjectReference Include="..\HeuristicLab.Problems.GrammaticalOptimization\HeuristicLab.Problems.GrammaticalOptimization.csproj">
+      <Project>{cb9dccf6-667e-4a13-b82d-dbd6b45a045e}</Project>
+      <Name>HeuristicLab.Problems.GrammaticalOptimization</Name>
     </ProjectReference>
   </ItemGroup>

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/IBanditPolicy.cs

-                      r11737
+                      r11742
 namespace HeuristicLab.Algorithms.Bandits {
   // this interface represents a policy for reinforcement learning
   public interface IPolicy {
     int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos);
     IPolicyActionInfo CreateActionInfo();
+  // this interface represents a policy for bandit problems
+  public interface IBanditPolicy {
+    int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actions);
+    IBanditPolicyActionInfo CreateActionInfo();
+  }
+}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/IBanditPolicyActionInfo.cs

-                      r11737
+                      r11742
 namespace HeuristicLab.Algorithms.Bandits {
   public interface IPolicyActionInfo {
+  public interface IBanditPolicyActionInfo {
     bool Disabled { get; }
+    double Value { get; }
+    int Tries { get; }
     void UpdateReward(double reward);
     void Disable();

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Models/BernoulliModel.cs

r11732	r11742
9	9	namespace HeuristicLab.Algorithms.Bandits.Models {
10	10	public class BernoulliModel : IModel {
	11
11	12	private int success;
12	13	private int failure;
…	…
47	48	return new BernoulliModel() { failure = this.failure, success = this.success };
48	49	}
	50
	51	public override string ToString() {
	52	return string.Format("Bernoulli with Beta prior: mu={0:F2}", (success + alpha) / (success + alpha + failure + beta));
	53	}
49	54	}
50	55	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Models/GaussianModel.cs

-                      r11732
+                      r11742
   // 2) unknown mean and unknown variance
   public class GaussianModel : IModel {
     private OnlineMeanAndVarianceEstimator estimator = new OnlineMeanAndVarianceEstimator();
 …
+      }
       // sample from the posterior marginal for mu (expected value) equ. 91
       // p(µ|D) = T2αn (µ| µn, βn/(αnκn))
-      // sample from Tk distribution : http://stats.stackexchange.com/a/70270
       var t2alpha = alglib.invstudenttdistribution((int)(2 * posteriorAlpha), random.NextDouble());
 …
       return theta;
+      //return alglib.invnormaldistribution(random.NextDouble()) * + theta;
+      //return alglib.invstudenttdistribution((int)(2 * posteriorAlpha), 0.99) * (posteriorBeta*posteriorK + posteriorBeta) / (posteriorAlpha*posteriorK) + posteriorMean;
+      /*
+       * value function : 0.99-quantile
+      // sample posterior mean and posterior variance independently
+      var sampledPrec = Rand.GammaRand(random, posteriorAlpha) * posteriorBeta;
+      var t2alpha = alglib.invstudenttdistribution((int)(2 * posteriorAlpha), random.NextDouble());
+      var sampledMean = t2alpha * posteriorBeta / (posteriorAlpha * posteriorK) + posteriorMean;
+      return alglib.invnormaldistribution(0.99) / Math.Sqrt(sampledPrec) + sampledMean;
+       */
+    }
 …
         return new GaussianModel(meanPriorMu, meanPriorVariance, precisionPriorAlpha, precisionPriorBeta);
+    }
+    public override string ToString() {
+      if (knownVariance) {
+        var posteriorMeanVariance = 1.0 / (estimator.N / rewardVariance + 1.0 / meanPriorVariance);
+        var posteriorMeanMean = posteriorMeanVariance * (meanPriorMu / meanPriorVariance + estimator.Sum / rewardVariance);
+        return string.Format("Gaussian(mu, var=0.1), mu ~ Gaussian(mu'={0:F3}, var'={1:F3})", posteriorMeanMean, posteriorMeanVariance);
+      } else {
+        var posteriorMean = (priorK * meanPriorMu + estimator.Sum) / (priorK + estimator.N);
+        var posteriorK = priorK + estimator.N;
+        var posteriorAlpha = precisionPriorAlpha + estimator.N / 2.0;
+        double posteriorBeta;
+        if (estimator.N > 0) {
+          posteriorBeta = precisionPriorBeta + 0.5 * estimator.N * estimator.Variance + priorK * estimator.N * Math.Pow(estimator.Avg - meanPriorMu, 2) / (2.0 * (priorK + estimator.N));
+        } else {
+          posteriorBeta = precisionPriorBeta;
+        }
+        var nu = (int)(2 * posteriorAlpha);
+        var meanVariance = posteriorBeta / (posteriorAlpha * posteriorK) * (nu / (double)(nu - 2));
+        return string.Format("Gaussian(mu, var), mu ~ T{0}(mu'={1:F3}, var'={2:F3}), 1.0/var ~ Gamma(mu={3:F3}, var={4:F3})",
+          nu, posteriorMean, meanVariance,
+          posteriorAlpha / posteriorBeta, posteriorAlpha / (posteriorBeta * posteriorBeta));
+      }
+    }
+  }
+}

Context Navigation

Legend:

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/BernoulliPolicyActionInfo.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/BernoulliThompsonSamplingPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/BoltzmannExplorationPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/ChernoffIntervalEstimationPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/DefaultPolicyActionInfo.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/EmptyPolicyActionInfo.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/EpsGreedyPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/Exp3Policy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/GaussianThompsonSamplingPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/GenericThompsonSamplingPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/MeanAndVariancePolicyActionInfo.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/ModelPolicyActionInfo.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/RandomPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/ThresholdAscentPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCB1Policy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCB1TunedPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCBNormalPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCTPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/HeuristicLab.Algorithms.Bandits.csproj

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/IBanditPolicy.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/IBanditPolicyActionInfo.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Models/BernoulliModel.cs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Models/GaussianModel.cs

Download in other formats: