Context Navigation

← Previous Changeset
Next Changeset →

Changeset 11742

Timestamp:

01/09/15 14:57:28 (10 years ago)

Author:

gkronber

Message:

#2283 refactoring

Location:

branches/HeuristicLab.Problems.GrammaticalOptimization

Files:

: 4 added
: 1 deleted
: 41 edited
: 3 moved

HeuristicLab.Algorithms.Bandits/BanditPolicies (moved) (moved from branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Policies)
HeuristicLab.Algorithms.Bandits/BanditPolicies/BanditPolicy.cs (deleted)
HeuristicLab.Algorithms.Bandits/BanditPolicies/BernoulliPolicyActionInfo.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/BernoulliThompsonSamplingPolicy.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/BoltzmannExplorationPolicy.cs (modified) (1 diff)
HeuristicLab.Algorithms.Bandits/BanditPolicies/ChernoffIntervalEstimationPolicy.cs (modified) (3 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/DefaultPolicyActionInfo.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/EmptyPolicyActionInfo.cs (modified) (1 diff)
HeuristicLab.Algorithms.Bandits/BanditPolicies/EpsGreedyPolicy.cs (modified) (3 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/Exp3Policy.cs (modified) (1 diff)
HeuristicLab.Algorithms.Bandits/BanditPolicies/GaussianThompsonSamplingPolicy.cs (modified) (4 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/GenericThompsonSamplingPolicy.cs (modified) (3 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/MeanAndVariancePolicyActionInfo.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/ModelPolicyActionInfo.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/RandomPolicy.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/ThresholdAscentPolicy.cs (modified) (1 diff)
HeuristicLab.Algorithms.Bandits/BanditPolicies/UCB1Policy.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/UCB1TunedPolicy.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/UCBNormalPolicy.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/BanditPolicies/UCTPolicy.cs (modified) (3 diffs)
HeuristicLab.Algorithms.Bandits/GrammarPolicies (added)
HeuristicLab.Algorithms.Bandits/GrammarPolicies/RandomNoResamplingPolicy.cs (added)
HeuristicLab.Algorithms.Bandits/GrammarPolicies/RandomPolicy.cs (added)
HeuristicLab.Algorithms.Bandits/HeuristicLab.Algorithms.Bandits.csproj (modified) (3 diffs)
HeuristicLab.Algorithms.Bandits/IBanditPolicy.cs (moved) (moved from branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/IPolicy.cs) (1 diff)
HeuristicLab.Algorithms.Bandits/IBanditPolicyActionInfo.cs (moved) (moved from branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/IPolicyActionInfo.cs) (1 diff)
HeuristicLab.Algorithms.Bandits/Models/BernoulliModel.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/Models/GaussianModel.cs (modified) (4 diffs)
HeuristicLab.Algorithms.GrammaticalOptimization/AlternativesContextSampler.cs (modified) (3 diffs)
HeuristicLab.Algorithms.GrammaticalOptimization/AlternativesSampler.cs (modified) (2 diffs)
HeuristicLab.Algorithms.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization.csproj (modified) (1 diff)
HeuristicLab.Algorithms.GrammaticalOptimization/MctsContextualSampler.cs (added)
HeuristicLab.Algorithms.GrammaticalOptimization/MctsSampler.cs (modified) (11 diffs)
HeuristicLab.Common/Extensions.cs (modified) (2 diffs)
HeuristicLab.Problems.GrammaticalOptimization.SymbReg/SymbolicRegressionProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization.Test/TestBanditPolicies.cs (modified) (6 diffs)
HeuristicLab.Problems.GrammaticalOptimization/EvenParityProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/HardPalindromeProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/IProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/PalindromeProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/ReadonlySequence.cs (modified) (2 diffs)
HeuristicLab.Problems.GrammaticalOptimization/RoyalPairProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/RoyalRoadProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/RoyalSymbolProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/RoyalTreeProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/SantaFeAntProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/Sequence.cs (modified) (4 diffs)
HeuristicLab.Problems.GrammaticalOptimization/SymbolicRegressionPoly10Problem.cs (modified) (4 diffs)
Main/Program.cs (modified) (6 diffs)

Legend:

: Unmodified
: Added
: Removed

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/BernoulliPolicyActionInfo.cs

-                      r11732
+                      r11742
 using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
   public class BernoulliPolicyActionInfo : IPolicyActionInfo {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class BernoulliPolicyActionInfo : IBanditPolicyActionInfo {
     public bool Disabled { get { return NumSuccess == -1; } }
     public int NumSuccess { get; private set; }
     public int NumFailure { get; private set; }
+    public int Tries { get { return NumSuccess + NumFailure; } }
+    public double Value { get { return NumSuccess / (double)(Tries); } }
     public void UpdateReward(double reward) {
       Debug.Assert(!Disabled);
 …
+    }
     public void PrintStats() {
       Console.WriteLine("expected value {0,5:F2} disabled {1}", NumSuccess / (double)NumFailure, Disabled);
+      Console.WriteLine("expected value {0,5:F2} disabled {1}", Value, Disabled);
+    }
+  }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/BernoulliThompsonSamplingPolicy.cs

-                      r11732
+                      r11742
 using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
   public class BernoulliThompsonSamplingPolicy : IPolicy {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class BernoulliThompsonSamplingPolicy : IBanditPolicy {
     // parameters of beta prior distribution
     private readonly double alpha = 1.0;
     private readonly double beta = 1.0;
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<BernoulliPolicyActionInfo>(); // TODO: performance
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
+      var myActionInfos = actionInfos.OfType<BernoulliPolicyActionInfo>();
       int bestAction = -1;
       double maxTheta = double.NegativeInfinity;
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new BernoulliPolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/BoltzmannExplorationPolicy.cs

-                      r11732
+                      r11742
 using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   // also called softmax policy
   public class BoltzmannExplorationPolicy : IPolicy {
+  public class BoltzmannExplorationPolicy : IBanditPolicy {
     private readonly double beta;
+    private readonly Func<DefaultPolicyActionInfo, double> valueFunction;
+    public BoltzmannExplorationPolicy(double beta) {
+    public BoltzmannExplorationPolicy(double eps) : this(eps, DefaultPolicyActionInfo.AverageReward) { }
+    public BoltzmannExplorationPolicy(double beta, Func<DefaultPolicyActionInfo, double> valueFunction) {
       if (beta < 0) throw new ArgumentException();
       this.beta = beta;
+      this.valueFunction = valueFunction;
+    }
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       Debug.Assert(actionInfos.Any());
       // select best
       var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>().ToArray(); // TODO: performance
+      var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>();
       Debug.Assert(myActionInfos.Any(a => !a.Disabled));
-      double[] w = new double[myActionInfos.Length];
+      for (int a = 0; a < myActionInfos.Length; a++) {
+        if (myActionInfos[a].Disabled) {
+          w[a] = 0; continue;
+        }
+        if (myActionInfos[a].Tries == 0) return a;
+        var sumReward = myActionInfos[a].SumReward;
+        var tries = myActionInfos[a].Tries;
+        var avgReward = sumReward / tries;
+        w[a] = Math.Exp(beta * avgReward);
+      }
+      var w = from aInfo in myActionInfos
+              select aInfo.Disabled
+                ? 0.0
+                : Math.Exp(beta * valueFunction(aInfo));
+      var bestAction = Enumerable.Range(0, w.Length).SampleProportional(random, w).First();
+      var bestAction = myActionInfos
+        .Select((aInfo, idx) => new { aInfo, idx })
+        .SampleProportional(random, w)
+        .Select(p => p.idx)
+        .First();
       Debug.Assert(bestAction >= 0);
-      Debug.Assert(bestAction < w.Length);
-      Debug.Assert(!myActionInfos[bestAction].Disabled);
       return bestAction;
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new DefaultPolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/ChernoffIntervalEstimationPolicy.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   /* see: Streeter and Smith: A simple distribution-free approach to the max k-armed bandit problem, Proceedings  of the 12th
 International Conference, CP 2006, Nantes, France, September 25-29, 2006. pp 560-574 */
   public class ChernoffIntervalEstimationPolicy : IPolicy {
+  public class ChernoffIntervalEstimationPolicy : IBanditPolicy {
     private readonly double delta;
 …
       this.delta = delta;
+    }
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       Debug.Assert(actionInfos.Any());
       // select best
       var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>().ToArray(); // TODO: performance
       int k = myActionInfos.Length;
+      var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>();
+      int k = myActionInfos.Count(a => !a.Disabled);
       int totalTries = myActionInfos.Where(a => !a.Disabled).Sum(a => a.Tries);
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
+      for (int a = 0; a < myActionInfos.Length; a++) {
+        if (myActionInfos[a].Disabled) continue;
+        if (myActionInfos[a].Tries == 0) return a;
+      var aIdx = -1;
+      foreach (var aInfo in myActionInfos) {
+        aIdx++;
+        if (aInfo.Disabled) continue;
+        if (aInfo.Tries == 0) return aIdx;
+        var sumReward = myActionInfos[a].SumReward;
+        var tries = myActionInfos[a].Tries;
+        var avgReward = sumReward / tries;
+        var avgReward = aInfo.SumReward / aInfo.Tries;
         // page 5 of "A simple distribution-free appraoch to the max k-armed bandit problem"
         // var alpha = Math.Log(2 * totalTries * k / delta);
         double alpha = Math.Log(2) + Math.Log(totalTries) + Math.Log(k) - Math.Log(delta); // total tries is max tries in the original paper
         var q = avgReward + (alpha + Math.Sqrt(2 * tries * avgReward * alpha + alpha * alpha)) / tries;
+        double alpha = Math.Log(2.0) + Math.Log(totalTries) + Math.Log(k) - Math.Log(delta); // total tries is max tries in the original paper
+        var q = avgReward + (alpha + Math.Sqrt(2 * aInfo.Tries * avgReward * alpha + alpha * alpha)) / aInfo.Tries;
         if (q > bestQ) {
           bestQ = q;
           bestAction = a;
+          bestAction = aIdx;
+        }
+      }
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new DefaultPolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/DefaultPolicyActionInfo.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   // stores information that is relevant for most of the policies
   public class DefaultPolicyActionInfo : IPolicyActionInfo {
+  public class DefaultPolicyActionInfo : IBanditPolicyActionInfo {
     public bool Disabled { get { return Tries == -1; } }
     public double SumReward { get; private set; }
+    public int Tries { get; private set; }
     public double MaxReward { get; private set; }
+    public int Tries { get; private set; }
+    public double Value { get { return SumReward / Tries; } }
     public DefaultPolicyActionInfo() {
       MaxReward = double.NegativeInfinity;
+      MaxReward = double.MinValue;
+    }
 …
       Console.WriteLine("avg reward {0,5:F2} disabled {1}", SumReward / Tries, Disabled);
+    }
+    public static Func<DefaultPolicyActionInfo, double> AverageReward {
+      get {
+        return (aInfo) =>
+          aInfo.Tries == 0 ?
+          double.PositiveInfinity :
+          aInfo.SumReward / (double)aInfo.Tries;
+      }
+    }
+  }
+}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/EmptyPolicyActionInfo.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
+namespace HeuristicLab.Algorithms.Bandits {
+  public class EmptyPolicyActionInfo : IPolicyActionInfo {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class EmptyPolicyActionInfo : IBanditPolicyActionInfo {
+    public double Value { get { return 0.0; } }
     public bool Disabled { get; private set; }
     public void UpdateReward(double reward) {

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/EpsGreedyPolicy.cs

-                      r11732
+                      r11742
 using System.Text;
 using System.Threading.Tasks;
+using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
   public class EpsGreedyPolicy : IPolicy {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class EpsGreedyPolicy : IBanditPolicy {
     private readonly double eps;
     private readonly RandomPolicy randomPolicy;
+    private readonly Func<DefaultPolicyActionInfo, double> valueFunction;
+    private readonly string desc;
+    public EpsGreedyPolicy(double eps) {
+    public EpsGreedyPolicy(double eps) : this(eps, DefaultPolicyActionInfo.AverageReward, string.Empty) { }
+    public EpsGreedyPolicy(double eps, Func<DefaultPolicyActionInfo, double> valueFunction, string desc) {
       this.eps = eps;
       this.randomPolicy = new RandomPolicy();
+      this.valueFunction = valueFunction;
+      this.desc = desc;
+    }
+    public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       Debug.Assert(actionInfos.Any());
       if (random.NextDouble() > eps) {
         // select best
         var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>();
         int bestAction = -1;
+        var bestActions = new List<int>();
         double bestQ = double.NegativeInfinity;
         int aIdx = -1;
         foreach (var aInfo in myActionInfos) {
           aIdx++;
           if (aInfo.Disabled) continue;
-          if (aInfo.Tries == 0) return aIdx;
+          var q = valueFunction(aInfo);
-          var avgReward = aInfo.SumReward / aInfo.Tries;
-          //var q = avgReward;
-          var q = aInfo.MaxReward;
           if (q > bestQ) {
+            bestActions.Clear();
+            bestActions.Add(aIdx);
             bestQ = q;
+            bestAction = aIdx;
+          } else if (q.IsAlmost(bestQ)) {
+            bestActions.Add(aIdx);
+          }
+        }
         Debug.Assert(bestAction >= 0);
         return bestAction;
+        Debug.Assert(bestActions.Any());
+        return bestActions.SelectRandom(random);
       } else {
         // select random
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new DefaultPolicyActionInfo();
+    }
 …
     public override string ToString() {
       return string.Format("EpsGreedyPolicy({0:F2})", eps);
+      return string.Format("EpsGreedyPolicy({0:F2},{1})", eps, desc);
+    }
+  }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/Exp3Policy.cs

r11730	r11742
6	6	using System.Threading.Tasks;
7	7
8		namespace HeuristicLab.Algorithms.Bandits {
	8	namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
9	9	public class Exp3Policy : BanditPolicy {
10	10	private readonly Random random;

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/GaussianThompsonSamplingPolicy.cs

-                      r11732
+                      r11742
 using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class GaussianThompsonSamplingPolicy : IPolicy {
+  [Obsolete("Replaced by GenericThompsonSamplingPolicy(GaussianModel(0.5, 1.0, 0.1))")]
+  public class GaussianThompsonSamplingPolicy : IBanditPolicy {
     private bool compatibility;
 …
+    }
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<MeanAndVariancePolicyActionInfo>();
       int bestAction = -1;
 …
         double theta;
         if (compatibility) {
+          // old code used for old experiments (preserved because it performed very well)
           if (tries < 2) return aIdx;
           var mu = sampleMean;
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new MeanAndVariancePolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/GenericThompsonSamplingPolicy.cs

r11732	r11742
7	7	using HeuristicLab.Common;
8	8
9		namespace HeuristicLab.Algorithms.Bandits {
10		public class GenericThompsonSamplingPolicy : IPolicy {
	9	namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
	10	public class GenericThompsonSamplingPolicy : IBanditPolicy {
11	11	private readonly IModel model;
12	12
…	…
15	15	}
16	16
17		public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
	17	public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
18	18	var myActionInfos = actionInfos.OfType<ModelPolicyActionInfo>();
19	19	int bestAction = -1;
…	…
34	34	}
35	35
36		public IPolicyActionInfo CreateActionInfo() {
	36	public IBanditPolicyActionInfo CreateActionInfo() {
37	37	return new ModelPolicyActionInfo((IModel)model.Clone());
38	38	}
39	39
40	40	public override string ToString() {
41		return string.Format("GenericThompsonSamplingPolicy(~~{0}~~)", model);
	41	return string.Format("GenericThompsonSamplingPolicy(\"{0}\")", model);
42	42	}
43	43	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/MeanAndVariancePolicyActionInfo.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 namespace HeuristicLab.Algorithms.Bandits {
   public class MeanAndVariancePolicyActionInfo : IPolicyActionInfo {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class MeanAndVariancePolicyActionInfo : IBanditPolicyActionInfo {
     private bool disabled;
     public bool Disabled { get { return disabled; } }
 …
     public double AvgReward { get { return estimator.Avg; } }
     public double RewardVariance { get { return estimator.Variance; } }
+    public double Value { get { return AvgReward; } }
     public void UpdateReward(double reward) {

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/ModelPolicyActionInfo.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   // uses a statistical model to sample and update posterior distribution p(Reward | Data)
   public class ModelPolicyActionInfo : IPolicyActionInfo {
+  public class ModelPolicyActionInfo : IBanditPolicyActionInfo {
     private readonly IModel model;
     public bool Disabled { get { return Tries == -1; } }
+    public double Value { get { return model.SampleExpectedReward(new Random()); } }
     public int Tries { get; private set; }
 …
       model.PrintStats();
+    }
+    public override string ToString() {
+      return string.Format("disabled {0} model {1}", Disabled, model);
+    }
+  }
+}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/RandomPolicy.cs

-                      r11732
+                      r11742
 using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
   public class RandomPolicy : IPolicy {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class RandomPolicy : IBanditPolicy {
     public override string ToString() {
 …
+    }
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       return actionInfos
         .Select((a, i) => Tuple.Create(a, i))
+        .Select((aInfo, idx) => Tuple.Create(aInfo, idx))
         .Where(p => !p.Item1.Disabled)
         .SelectRandom(random).Item2;
+    }
     public IPolicyActionInfo CreateActionInfo() {
       return new EmptyPolicyActionInfo();
+    public IBanditPolicyActionInfo CreateActionInfo() {
+      return new DefaultPolicyActionInfo();
+    }
+  }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/ThresholdAscentPolicy.cs

-                      r11730
+                      r11742
 using System.Text;
 using System.Threading.Tasks;
+using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   /* see: Streeter and Smith: A simple distribution-free approach to the max k-armed bandit problem, Proceedings  of the 12th
  International Conference, CP 2006, Nantes, France, September 25-29, 2006. pp 560-574 */
   public class ThresholdAscentPolicy : BanditPolicy {
     const int numBins = 101;
     const double binSize = 1.0 / (numBins - 1);
+  public class ThresholdAscentPolicy : IBanditPolicy {
+    public const int numBins = 101;
+    public const double binSize = 1.0 / (numBins - 1);
+    // for each arm store the number of observed rewards for each bin of size delta
+    // for delta = 0.01 we have 101 bins
+    // the first bin is freq of rewards  >= 0 // all
+    // the second bin is freq of rewards > 0
+    // the third bin is freq of rewards > 0.01
+    // the last bin is for rewards > 0.99
+    //
+    // (also see RewardBin function)
+    private readonly int[,] armRewardHistogram; // for performance reasons we store cumulative counts (freq of rewards > lower threshold)
+    private class ThresholdAscentActionInfo : IBanditPolicyActionInfo {
+      // for each arm store the number of observed rewards for each bin of size delta
+      // for delta = 0.01 we have 101 bins
+      // the first bin is freq of rewards  >= 0 // all
+      // the second bin is freq of rewards > 0
+      // the third bin is freq of rewards > 0.01
+      // the last bin is for rewards > 0.99
+      //
+      // (also see RewardBin function)
+      public int[] rewardHistogram = new int[numBins];    // for performance reasons we store cumulative counts (freq of rewards > lower threshold)
+      public int Tries { get; private set; }
+      public int thresholdBin = 1;
+      public double Value { get { return rewardHistogram[thresholdBin] / (double)Tries; } }
+    private readonly int[] tries;
+      public bool Disabled { get { return Tries == -1; } }
+      public void UpdateReward(double reward) {
+        Tries++;
+        for (var idx = thresholdBin; idx <= RewardBin(reward); idx++)
+          rewardHistogram[idx]++;
+      }
+      public void Disable() {
+        Tries = -1;
+      }
+      public void Reset() {
+        Tries = 0;
+        thresholdBin = 1;
+        Array.Clear(rewardHistogram, 0, rewardHistogram.Length);
+      }
+      public void PrintStats() {
+        if (Tries >= 0) {
+          Console.Write("{0,6}", Tries);
+        } else {
+          Console.Write("{0,6}", "");
+        }
+      }
+      // maps a reward value to it's bin
+      private static int RewardBin(double reward) {
+        Debug.Assert(reward >= 0 && reward <= 1.0);
+        // reward = 0 => 0
+        // ]0.00 .. 0.01] => 1
+        // ]0.01 .. 0.02] => 2
+        // ...
+        // ]0.99 .. 1.00] => 100
+        if (reward <= 0) return 0;
+        return (int)Math.Ceiling((reward / binSize));
+      }
+    }
     private readonly int s;
     private readonly double delta;
+    private int totalTries = 0;
+    private int thresholdBin; // bin index of current threshold
+    private const double maxTries = 1E6;
+    public ThresholdAscentPolicy(int numActions, int s = 100, double delta = 0.05)
+      : base(numActions) {
+      this.thresholdBin = 1; // first bin to check is bin idx 1 == freq of rewards > 0
+    public ThresholdAscentPolicy(int s = 100, double delta = 0.05) {
       this.s = s;
       this.delta = delta;
-      this.armRewardHistogram = new int[numActions, numBins];
-      this.tries = new int[numActions];
+    }
+    // maps a reward value to it's bin
+    private static int RewardBin(double reward) {
+      Debug.Assert(reward >= 0 && reward <= 1.0);
+      // reward = 0 => 0
+      // ]0.00 .. 0.01] => 1
+      // ]0.01 .. 0.02] => 2
+      // ...
+      // ]0.99 .. 1.00] => 100
+      if (reward <= 0) return 0;
+      return (int)Math.Ceiling((reward / binSize));
+    }
+    private double U(double mu, int n, int k) {
+    private double U(double mu, int totalTries, int n, int k) {
       //var alpha = Math.Log(2.0 * totalTries * k / delta);
       double alpha = Math.Log(2) + Math.Log(maxTries) + Math.Log(k) - Math.Log(delta); // totalTries is max iterations in original paper
+      double alpha = Math.Log(2) + Math.Log(totalTries) + Math.Log(k) - Math.Log(delta);
       return mu + (alpha + Math.Sqrt(2 * n * mu * alpha + alpha * alpha)) / n;
+    }
+    public override int SelectAction() {
+      Debug.Assert(Actions.Any());
+      UpdateThreshold();
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
+      Debug.Assert(actionInfos.Any());
+      var myActionInfos = actionInfos.OfType<ThresholdAscentActionInfo>();
+      UpdateThreshold(myActionInfos);
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
+      int k = Actions.Count();
+      foreach (var a in Actions) {
+        if (tries[a] == 0) return a;
+        double mu = armRewardHistogram[a, thresholdBin] / (double)tries[a]; // probability of rewards > T
+        double q = U(mu, tries[a], k);
+      int k = myActionInfos.Count(a => !a.Disabled);
+      var totalTries = myActionInfos.Where(a => !a.Disabled).Sum(a => a.Tries);
+      int aIdx = -1;
+      foreach (var aInfo in myActionInfos) {
+        aIdx++;
+        if (aInfo.Disabled) continue;
+        if (aInfo.Tries == 0) return aIdx;
+        double mu = aInfo.Value; // probability of rewards > T
+        double q = U(mu, totalTries, aInfo.Tries, k);          // totalTries is max iterations in original paper
         if (q > bestQ) {
           bestQ = q;
           bestAction = a;
+          bestAction = aIdx;
+        }
+      }
       Debug.Assert(Actions.Contains(bestAction));
+      Debug.Assert(bestAction > -1);
       return bestAction;
+    }
+    private void UpdateThreshold() {
+      while (thresholdBin < (numBins - 1) && Actions.Sum(a => armRewardHistogram[a, thresholdBin]) >= s) {
+    private void UpdateThreshold(IEnumerable<ThresholdAscentActionInfo> actionInfos) {
+      var thresholdBin = 1; // first bin to check is bin idx 1 == freq of rewards > 0
+      while (thresholdBin < (numBins - 1) && actionInfos.Sum(a => a.rewardHistogram[thresholdBin]) >= s) {
         thresholdBin++;
         // Console.WriteLine("New threshold {0:F2}", T);
+      }
+      foreach (var aInfo in actionInfos) {
+        aInfo.thresholdBin = thresholdBin;
+      }
+    }
+    public override void UpdateReward(int action, double reward) {
+      Debug.Assert(Actions.Contains(action));
+      totalTries++;
+      tries[action]++;
+      // efficiency: we can start at the current threshold bin because all bins below that are not accessed in select-action
+      for (var idx = thresholdBin; idx <= RewardBin(reward); idx++)
+        armRewardHistogram[action, idx]++;
+    public IBanditPolicyActionInfo CreateActionInfo() {
+      return new ThresholdAscentActionInfo();
+    }
-    public override void DisableAction(int action) {
-      base.DisableAction(action);
-      totalTries -= tries[action];
-      tries[action] = -1;
+    }
-    public override void Reset() {
-      base.Reset();
-      totalTries = 0;
-      thresholdBin = 1;
-      Array.Clear(tries, 0, tries.Length);
-      Array.Clear(armRewardHistogram, 0, armRewardHistogram.Length);
+    }
-    public override void PrintStats() {
-      for (int i = 0; i < tries.Length; i++) {
-        if (tries[i] >= 0) {
-          Console.Write("{0,6}", tries[i]);
-        } else {
-          Console.Write("{0,6}", "");
+        }
+      }
-      Console.WriteLine();
+    }
     public override string ToString() {
       return string.Format("ThresholdAscentPolicy({0},{1:F2})", s, delta);

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCB1Policy.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
+namespace HeuristicLab.Algorithms.Bandits {
+  public class UCB1Policy : IPolicy {
+    public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  // policy for k-armed bandit (see Auer et al. 2002)
+  public class UCB1Policy : IBanditPolicy {
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>().ToArray(); // TODO: performance
       int bestAction = -1;
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new DefaultPolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCB1TunedPolicy.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
+namespace HeuristicLab.Algorithms.Bandits {
+  public class UCB1TunedPolicy : IPolicy {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  // policy for k-armed bandit (see Auer et al. 2002)
+  public class UCB1TunedPolicy : IBanditPolicy {
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<MeanAndVariancePolicyActionInfo>().ToArray(); // TODO: performance
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
+      var myActionInfos = actionInfos.OfType<MeanAndVariancePolicyActionInfo>();
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
       int totalTries = myActionInfos.Where(a => !a.Disabled).Sum(a => a.Tries);
+      for (int a = 0; a < myActionInfos.Length; a++) {
+        if (myActionInfos[a].Disabled) continue;
+        if (myActionInfos[a].Tries == 0) return a;
+      int aIdx = -1;
+      foreach (var aInfo in myActionInfos) {
+        aIdx++;
+        if (aInfo.Disabled) continue;
+        if (aInfo.Tries == 0) return aIdx;
         var sumReward = myActionInfos[a].SumReward;
         var tries = myActionInfos[a].Tries;
+        var sumReward = aInfo.SumReward;
+        var tries = aInfo.Tries;
         var avgReward = sumReward / tries;
         var q = avgReward + Math.Sqrt((Math.Log(totalTries) / tries) * Math.Min(1.0 / 4, V(myActionInfos[a], totalTries))); // 1/4 is upper bound of bernoulli distributed variable
+        var q = avgReward + Math.Sqrt((Math.Log(totalTries) / tries) * Math.Min(1.0 / 4, V(aInfo, totalTries))); // 1/4 is upper bound of bernoulli distributed variable
         if (q > bestQ) {
           bestQ = q;
           bestAction = a;
+          bestAction = aIdx;
+        }
+      }
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new MeanAndVariancePolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCBNormalPolicy.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 namespace HeuristicLab.Algorithms.Bandits {
   public class UCBNormalPolicy : IPolicy {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
+  public class UCBNormalPolicy : IBanditPolicy {
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<MeanAndVariancePolicyActionInfo>().ToArray(); // TODO: performance
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
+      var myActionInfos = actionInfos.OfType<MeanAndVariancePolicyActionInfo>();
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
       int totalTries = myActionInfos.Where(a => !a.Disabled).Sum(a => a.Tries);
+      int aIdx = -1;
+      foreach (var aInfo in myActionInfos) {
+        aIdx++;
+        if (aInfo.Disabled) continue;
+        if (totalTries <= 1 || aInfo.Tries <= 1 || aInfo.Tries <= Math.Ceiling(8 * Math.Log(totalTries))) return aIdx;
+      for (int a = 0; a < myActionInfos.Length; a++) {
+        if (myActionInfos[a].Disabled) continue;
+        if (totalTries <= 1 || myActionInfos[a].Tries <= 1 || myActionInfos[a].Tries <= Math.Ceiling(8 * Math.Log(totalTries))) return a;
+        var tries = myActionInfos[a].Tries;
+        var avgReward = myActionInfos[a].AvgReward;
+        var rewardVariance = myActionInfos[a].RewardVariance;
+        var estVariance = 16 * rewardVariance * (Math.Log(totalTries - 1) / tries);
+        if (estVariance < 0) estVariance = 0; // numerical problems
+        var q = avgReward
+          + Math.Sqrt(estVariance);
+        var tries = aInfo.Tries;
+        var avgReward = aInfo.AvgReward;
+        var rewardVariance = aInfo.RewardVariance;
+        var estVariance = 16.0 * rewardVariance * (Math.Log(totalTries - 1) / tries);
+        var q = avgReward + Math.Sqrt(estVariance);
         if (q > bestQ) {
           bestQ = q;
           bestAction = a;
+          bestAction = aIdx;
+        }
+      }
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new MeanAndVariancePolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/BanditPolicies/UCTPolicy.cs

-                      r11732
+                      r11742
 using System.Text;
 using System.Threading.Tasks;
+namespace HeuristicLab.Algorithms.Bandits {
+namespace HeuristicLab.Algorithms.Bandits.BanditPolicies {
   /* Kocsis et al. Bandit based Monte-Carlo Planning */
   public class UCTPolicy : IPolicy {
+  public class UCTPolicy : IBanditPolicy {
     private readonly double c;
 …
     public int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos) {
       var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>().ToArray(); // TODO: performance
+    public int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actionInfos) {
+      var myActionInfos = actionInfos.OfType<DefaultPolicyActionInfo>();
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
       int totalTries = myActionInfos.Where(a => !a.Disabled).Sum(a => a.Tries);
+      for (int a = 0; a < myActionInfos.Length; a++) {
+        if (myActionInfos[a].Disabled) continue;
+        if (myActionInfos[a].Tries == 0) return a;
+        var q = myActionInfos[a].SumReward / myActionInfos[a].Tries + 2 * c * Math.Sqrt(Math.Log(totalTries) / myActionInfos[a].Tries);
+      int aIdx = -1;
+      foreach (var aInfo in myActionInfos) {
+        aIdx++;
+        if (aInfo.Disabled) continue;
+        if (aInfo.Tries == 0) return aIdx;
+        var q = aInfo.SumReward / aInfo.Tries + 2.0 * c * Math.Sqrt(Math.Log(totalTries) / aInfo.Tries);
         if (q > bestQ) {
           bestQ = q;
           bestAction = a;
+          bestAction = aIdx;
+        }
+      }
 …
+    }
     public IPolicyActionInfo CreateActionInfo() {
+    public IBanditPolicyActionInfo CreateActionInfo() {
       return new DefaultPolicyActionInfo();
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/HeuristicLab.Algorithms.Bandits.csproj

-                      r11732
+                      r11742
   <ItemGroup>
     <Compile Include="BanditHelper.cs" />
+    <Compile Include="BanditPolicies\BernoulliPolicyActionInfo.cs" />
+    <Compile Include="BanditPolicies\BernoulliThompsonSamplingPolicy.cs" />
+    <Compile Include="BanditPolicies\BoltzmannExplorationPolicy.cs" />
+    <Compile Include="BanditPolicies\ChernoffIntervalEstimationPolicy.cs" />
+    <Compile Include="BanditPolicies\DefaultPolicyActionInfo.cs" />
+    <Compile Include="BanditPolicies\EpsGreedyPolicy.cs" />
+    <Compile Include="BanditPolicies\GaussianThompsonSamplingPolicy.cs" />
+    <Compile Include="BanditPolicies\GenericThompsonSamplingPolicy.cs" />
+    <Compile Include="BanditPolicies\MeanAndVariancePolicyActionInfo.cs" />
+    <Compile Include="BanditPolicies\ModelPolicyActionInfo.cs" />
+    <Compile Include="BanditPolicies\RandomPolicy.cs" />
+    <Compile Include="BanditPolicies\ThresholdAscentPolicy.cs" />
+    <Compile Include="BanditPolicies\UCB1Policy.cs" />
+    <Compile Include="BanditPolicies\UCB1TunedPolicy.cs" />
+    <Compile Include="BanditPolicies\UCBNormalPolicy.cs" />
+    <Compile Include="BanditPolicies\UCTPolicy.cs" />
     <Compile Include="Bandits\BernoulliBandit.cs" />
     <Compile Include="Bandits\GaussianBandit.cs" />
 …
     <Compile Include="Bandits\IBandit.cs" />
     <Compile Include="Bandits\TruncatedNormalBandit.cs" />
+    <Compile Include="GrammarPolicies\RandomPolicy.cs" />
+    <Compile Include="IPolicy.cs" />
+    <Compile Include="IBanditPolicy.cs" />
+    <Compile Include="IBanditPolicyActionInfo.cs" />
     <Compile Include="OnlineMeanAndVarianceEstimator.cs" />
-    <Compile Include="IPolicyActionInfo.cs" />
     <Compile Include="Models\BernoulliModel.cs" />
     <Compile Include="Models\GaussianModel.cs" />
     <Compile Include="Models\IModel.cs" />
-    <Compile Include="Policies\BernoulliThompsonSamplingPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\BoltzmannExplorationPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\ChernoffIntervalEstimationPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\BernoulliPolicyActionInfo.cs" />
-    <Compile Include="Policies\ModelPolicyActionInfo.cs" />
-    <Compile Include="Policies\EpsGreedyPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\GaussianThompsonSamplingPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\GenericThompsonSamplingPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\MeanAndVariancePolicyActionInfo.cs" />
-    <Compile Include="Policies\DefaultPolicyActionInfo.cs" />
-    <Compile Include="Policies\EmptyPolicyActionInfo.cs" />
-    <Compile Include="Policies\RandomPolicy.cs" />
-    <Compile Include="Policies\UCB1Policy.cs" />
-    <Compile Include="IPolicy.cs" />
-    <Compile Include="Policies\UCB1TunedPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\UCBNormalPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
-    <Compile Include="Policies\UCTPolicy.cs">
-      <SubType>Code</SubType>
-    </Compile>
     <Compile Include="Properties\AssemblyInfo.cs" />
   </ItemGroup>
 …
       <Project>{3A2FBBCB-F9DF-4970-87F3-F13337D941AD}</Project>
       <Name>HeuristicLab.Common</Name>
+    </ProjectReference>
+    <ProjectReference Include="..\HeuristicLab.Problems.GrammaticalOptimization\HeuristicLab.Problems.GrammaticalOptimization.csproj">
+      <Project>{cb9dccf6-667e-4a13-b82d-dbd6b45a045e}</Project>
+      <Name>HeuristicLab.Problems.GrammaticalOptimization</Name>
     </ProjectReference>
   </ItemGroup>

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/IBanditPolicy.cs

-                      r11737
+                      r11742
 namespace HeuristicLab.Algorithms.Bandits {
   // this interface represents a policy for reinforcement learning
   public interface IPolicy {
     int SelectAction(Random random, IEnumerable<IPolicyActionInfo> actionInfos);
     IPolicyActionInfo CreateActionInfo();
+  // this interface represents a policy for bandit problems
+  public interface IBanditPolicy {
+    int SelectAction(Random random, IEnumerable<IBanditPolicyActionInfo> actions);
+    IBanditPolicyActionInfo CreateActionInfo();
+  }
+}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/IBanditPolicyActionInfo.cs

-                      r11737
+                      r11742
 namespace HeuristicLab.Algorithms.Bandits {
   public interface IPolicyActionInfo {
+  public interface IBanditPolicyActionInfo {
     bool Disabled { get; }
+    double Value { get; }
+    int Tries { get; }
     void UpdateReward(double reward);
     void Disable();

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Models/BernoulliModel.cs

r11732	r11742
9	9	namespace HeuristicLab.Algorithms.Bandits.Models {
10	10	public class BernoulliModel : IModel {
	11
11	12	private int success;
12	13	private int failure;
…	…
47	48	return new BernoulliModel() { failure = this.failure, success = this.success };
48	49	}
	50
	51	public override string ToString() {
	52	return string.Format("Bernoulli with Beta prior: mu={0:F2}", (success + alpha) / (success + alpha + failure + beta));
	53	}
49	54	}
50	55	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Models/GaussianModel.cs

-                      r11732
+                      r11742
   // 2) unknown mean and unknown variance
   public class GaussianModel : IModel {
     private OnlineMeanAndVarianceEstimator estimator = new OnlineMeanAndVarianceEstimator();
 …
+      }
       // sample from the posterior marginal for mu (expected value) equ. 91
       // p(µ|D) = T2αn (µ| µn, βn/(αnκn))
-      // sample from Tk distribution : http://stats.stackexchange.com/a/70270
       var t2alpha = alglib.invstudenttdistribution((int)(2 * posteriorAlpha), random.NextDouble());
 …
       return theta;
+      //return alglib.invnormaldistribution(random.NextDouble()) * + theta;
+      //return alglib.invstudenttdistribution((int)(2 * posteriorAlpha), 0.99) * (posteriorBeta*posteriorK + posteriorBeta) / (posteriorAlpha*posteriorK) + posteriorMean;
+      /*
+       * value function : 0.99-quantile
+      // sample posterior mean and posterior variance independently
+      var sampledPrec = Rand.GammaRand(random, posteriorAlpha) * posteriorBeta;
+      var t2alpha = alglib.invstudenttdistribution((int)(2 * posteriorAlpha), random.NextDouble());
+      var sampledMean = t2alpha * posteriorBeta / (posteriorAlpha * posteriorK) + posteriorMean;
+      return alglib.invnormaldistribution(0.99) / Math.Sqrt(sampledPrec) + sampledMean;
+       */
+    }
 …
         return new GaussianModel(meanPriorMu, meanPriorVariance, precisionPriorAlpha, precisionPriorBeta);
+    }
+    public override string ToString() {
+      if (knownVariance) {
+        var posteriorMeanVariance = 1.0 / (estimator.N / rewardVariance + 1.0 / meanPriorVariance);
+        var posteriorMeanMean = posteriorMeanVariance * (meanPriorMu / meanPriorVariance + estimator.Sum / rewardVariance);
+        return string.Format("Gaussian(mu, var=0.1), mu ~ Gaussian(mu'={0:F3}, var'={1:F3})", posteriorMeanMean, posteriorMeanVariance);
+      } else {
+        var posteriorMean = (priorK * meanPriorMu + estimator.Sum) / (priorK + estimator.N);
+        var posteriorK = priorK + estimator.N;
+        var posteriorAlpha = precisionPriorAlpha + estimator.N / 2.0;
+        double posteriorBeta;
+        if (estimator.N > 0) {
+          posteriorBeta = precisionPriorBeta + 0.5 * estimator.N * estimator.Variance + priorK * estimator.N * Math.Pow(estimator.Avg - meanPriorMu, 2) / (2.0 * (priorK + estimator.N));
+        } else {
+          posteriorBeta = precisionPriorBeta;
+        }
+        var nu = (int)(2 * posteriorAlpha);
+        var meanVariance = posteriorBeta / (posteriorAlpha * posteriorK) * (nu / (double)(nu - 2));
+        return string.Format("Gaussian(mu, var), mu ~ T{0}(mu'={1:F3}, var'={2:F3}), 1.0/var ~ Gamma(mu={3:F3}, var={4:F3})",
+          nu, posteriorMean, meanVariance,
+          posteriorAlpha / posteriorBeta, posteriorAlpha / (posteriorBeta * posteriorBeta));
+      }
+    }
+  }
+}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization/AlternativesContextSampler.cs

-                      r11732
+                      r11742
     private readonly Random random;
     private readonly int contextLen;
     private readonly IPolicy policy;
+    private readonly IBanditPolicy policy;
     public AlternativesContextSampler(IProblem problem, Random random, int maxLen, int contextLen, IPolicy policy) {
+    public AlternativesContextSampler(IProblem problem, Random random, int maxLen, int contextLen, IBanditPolicy policy) {
       this.maxLen = maxLen;
       this.problem = problem;
 …
     private Dictionary<string, IPolicyActionInfo[]> contextActionInfos;
+    private Dictionary<string, IBanditPolicyActionInfo[]> contextActionInfos;
     private List<Tuple<string, int>> updateChain;
     private void InitPolicies(IGrammar grammar) {
       this.contextActionInfos = new Dictionary<string, IPolicyActionInfo[]>();
+      this.contextActionInfos = new Dictionary<string, IBanditPolicyActionInfo[]>();
       this.updateChain = new List<Tuple<string, int>>();
+    }
 …
           var endIdx = Math.Min(startIdx + contextLen, ntIdx);
           var lft = phrase.Subsequence(startIdx, endIdx - startIdx + 1).ToString();
           lft = problem.Hash(lft);
+          lft = problem.CanonicalRepresentation(lft);
           if (!contextActionInfos.ContainsKey(lft)) {
             contextActionInfos.Add(lft, g.GetAlternatives(nt).Select(_ => policy.CreateActionInfo()).ToArray());

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization/AlternativesSampler.cs

-                      r11732
+                      r11742
     private readonly Random random;
     private readonly IProblem problem;
     private readonly IPolicy policy;
+    private readonly IBanditPolicy policy;
     public AlternativesSampler(IProblem problem, IPolicy policy, int maxLen) {
+    public AlternativesSampler(IProblem problem, IBanditPolicy policy, int maxLen) {
       this.problem = problem;
       this.maxLen = maxLen;
 …
     private Dictionary<char, IPolicyActionInfo[]> ntActionInfos;
+    private Dictionary<char, IBanditPolicyActionInfo[]> ntActionInfos;
     private List<Tuple<char, int>> updateChain;
     private void InitPolicies(IGrammar grammar) {
       this.ntActionInfos = new Dictionary<char, IPolicyActionInfo[]>();
+      this.ntActionInfos = new Dictionary<char, IBanditPolicyActionInfo[]>();
       this.updateChain = new List<Tuple<char, int>>();
       foreach (var nt in grammar.NonTerminalSymbols) {

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization.csproj

-                      r11732
+                      r11742
     <Compile Include="AlternativesContextSampler.cs" />
     <Compile Include="ExhaustiveRandomFirstSearch.cs" />
+    <Compile Include="MctsContextualSampler.cs">
+      <SubType>Code</SubType>
+    </Compile>
     <Compile Include="MctsSampler.cs" />
     <Compile Include="ExhaustiveDepthFirstSearch.cs" />

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization/MctsSampler.cs

-                      r11732
+                      r11742
       public string ident;
       public int randomTries;
+      public int policyTries;
+      public IPolicyActionInfo actionInfo;
+      public IBanditPolicyActionInfo actionInfo;
       public TreeNode[] children;
       public bool done = false;
 …
       public override string ToString() {
         return string.Format("Node({0} tries: {1}, done: {2}, policy: {3})", ident, randomTries + policyTries, done, actionInfo);
+        return string.Format("Node({0} tries: {1}, done: {2}, policy: {3})", ident, actionInfo.Tries, done, actionInfo);
+      }
+    }
 …
     private readonly Random random;
     private readonly int randomTries;
     private readonly IPolicy policy;
+    private readonly IBanditPolicy policy;
     private List<TreeNode> updateChain;
 …
     // }
     public MctsSampler(IProblem problem, int maxLen, Random random, int randomTries, IPolicy policy) {
+    public MctsSampler(IProblem problem, int maxLen, Random random, int randomTries, IBanditPolicy policy) {
       this.maxLen = maxLen;
       this.problem = problem;
 …
     public void PrintStats() {
       var n = rootNode;
       Console.WriteLine("depth: {0,5} size: {1,10} root tries {2,10}", treeDepth, treeSize, rootNode.policyTries + rootNode.randomTries);
+      Console.WriteLine("depth: {0,5} size: {1,10} root tries {2,10}", treeDepth, treeSize, n.actionInfo.Tries);
       while (n.children != null) {
         Console.WriteLine();
         Console.WriteLine("{0,5}->{1,-50}", n.ident, string.Join(" ", n.children.Select(ch => string.Format("{0,4}", ch.ident))));
+        Console.WriteLine("{0,5}  {1,-50}", string.Empty, string.Join(" ", n.children.Select(ch => string.Format("{0,4}", ch.randomTries + ch.policyTries))));
+        Console.WriteLine("{0,5}  {1,-50}", string.Empty, string.Join(" ", n.children.Select(ch => string.Format("{0,4:F2}", ch.actionInfo.Value * 10))));
+        Console.WriteLine("{0,5}  {1,-50}", string.Empty, string.Join(" ", n.children.Select(ch => string.Format("{0,4}", ch.done ? "X" : ch.actionInfo.Tries.ToString()))));
         //n.policy.PrintStats();
         n = n.children.OrderByDescending(c => c.policyTries).First();
+        n = n.children.Where(ch => !ch.done).OrderByDescending(c => c.actionInfo.Value).First();
+      }
       Console.ReadLine();
 …
       if (g.MinPhraseLength(phrase) > maxLen) throw new ArgumentException();
       TreeNode n = rootNode;
-      bool done = phrase.IsTerminal;
       var curDepth = 0;
       while (!done) {
+      while (!phrase.IsTerminal) {
         updateChain.Add(n);
 …
           if (n.randomTries == randomTries && n.children == null) {
             n.children = alts.Select(alt => new TreeNode(alt.ToString())).ToArray(); // create a new node for each alternative
-            //n.children = alts.Select(alt => new TreeNode(string.Empty)).ToArray(); // create a new node for each alternative
             foreach (var ch in n.children) ch.actionInfo = policy.CreateActionInfo();
             treeSize += n.children.Length;
+          }
-          n.policyTries++;
           // => select using bandit policy
           int selectedAltIdx = policy.SelectAction(random, n.children.Select(c => c.actionInfo));
 …
           curDepth++;
-          done = phrase.IsTerminal;
           // prepare for next iteration
 …
       // the last node is a leaf node (sentence is done), so we never need to visit this node again
       n.done = true;
-      n.actionInfo.Disable();
       treeDepth = Math.Max(treeDepth, curDepth);
 …
       foreach (var e in updateChain) {
         var node = e;
+        if (node.done) node.actionInfo.Disable();
         if (node.children != null && node.children.All(c => c.done)) {
           node.done = true;
 …
         if (!node.done) {
           node.actionInfo.UpdateReward(reward);
-          //policy.UpdateReward(action, reward / updateChain.Count);
+        }
+      }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Common/Extensions.cs

-                      r11732
+                      r11742
   public static class Extensions {
     public static bool IsAlmost(this double x, double y) {
       return Math.Abs(x - y) < 1.0e-6;
+      return Math.Abs(x - y) < 1.0e-12;
+    }
 …
       var ssX = 0.0;
       var ssY = 0.0;
+      foreach (var p in xs.Zip(ys, (x, y) => new { x, y })) {
+        s += (p.x - meanX) * (p.y - meanY);
+        ssX += Math.Pow(p.x - meanX, 2);
+        ssY += Math.Pow(p.y - meanY, 2);
+      var xEnum = xs.GetEnumerator();
+      var yEnum = ys.GetEnumerator();
+      while (xEnum.MoveNext() & yEnum.MoveNext()) {
+        var x = xEnum.Current;
+        var y = yEnum.Current;
+        s += (x - meanX) * (y - meanY);
+        ssX += Math.Pow(x - meanX, 2);
+        ssY += Math.Pow(y - meanY, 2);
+      }
+      if (xEnum.MoveNext() | yEnum.MoveNext()) throw new ArgumentException("lengths are not equal");
       if (s.IsAlmost(0)) return 0;

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization.SymbReg/SymbolicRegressionProblem.cs

r11732	r11742
74	74
75	75	// right now only + and * is supported
76		public string ~~Hash~~(string terminalPhrase) {
	76	public string CanonicalRepresentation(string terminalPhrase) {
77	77	return terminalPhrase;
78	78	//var terms = terminalPhrase.Split('+');

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization.Test/TestBanditPolicies.cs

-                      r11732
+                      r11742
 using System.Globalization;
 using HeuristicLab.Algorithms.Bandits;
+using HeuristicLab.Algorithms.Bandits.BanditPolicies;
 using HeuristicLab.Algorithms.Bandits.Models;
 using Microsoft.VisualStudio.TestTools.UnitTesting;
 …
       var nArms = 20;
+      // Console.WriteLine("Threshold Ascent (20)"); TestPolicyGaussianUnknownVariance(randSeed, nArms, new ThresholdAscent(20, 0.01));
+      // Console.WriteLine("Threshold Ascent (100)"); TestPolicyGaussianUnknownVariance(randSeed, nArms, new ThresholdAscent(100, 0.01));
+      // Console.WriteLine("Threshold Ascent (500)"); TestPolicyGaussianUnknownVariance(randSeed, nArms, new ThresholdAscent(500, 0.01));
+      // Console.WriteLine("Threshold Ascent (1000)"); TestPolicyGaussianUnknownVariance(randSeed, nArms, new ThresholdAscent(1000, 0.01));
+      Console.WriteLine("Thompson (Gaussian fixed variance)"); TestPolicyGaussianUnknownVariance(randSeed, nArms, new GenericThompsonSamplingPolicy(new GaussianModel(0, 1, 1)));
+      Console.WriteLine("Thompson (Gaussian est variance)"); TestPolicyGaussianUnknownVariance(randSeed, nArms, new GenericThompsonSamplingPolicy(new GaussianModel(0, 1, 1, 0.1)));
+      // ThresholdAscent only works for rewards in [0..1] so far
+      Console.WriteLine("Thompson (Gaussian est variance)"); TestPolicyGaussianUnknownVariance(randSeed, nArms, new GenericThompsonSamplingPolicy(new GaussianModel(0, 1, 1, 1)));
+      Console.WriteLine("Thompson (Gaussian fixed variance)"); TestPolicyGaussianUnknownVariance(randSeed, nArms, new GenericThompsonSamplingPolicy(new GaussianModel(0, 1, 0.1)));
       Console.WriteLine("GaussianThompson (compat)"); TestPolicyGaussianUnknownVariance(randSeed, nArms, new GaussianThompsonSamplingPolicy(true));
       Console.WriteLine("GaussianThompson"); TestPolicyGaussianUnknownVariance(randSeed, nArms, new GaussianThompsonSamplingPolicy());
 …
       var randSeed = 31415;
       var nArms = 20;
+      Console.WriteLine("Threshold Ascent (20)"); TestPolicyGaussian(randSeed, nArms, new ThresholdAscentPolicy(20, 0.01));
+      Console.WriteLine("Threshold Ascent (100)"); TestPolicyGaussian(randSeed, nArms, new ThresholdAscentPolicy(100, 0.01));
+      Console.WriteLine("Threshold Ascent (500)"); TestPolicyGaussian(randSeed, nArms, new ThresholdAscentPolicy(500, 0.01));
+      Console.WriteLine("Threshold Ascent (1000)"); TestPolicyGaussian(randSeed, nArms, new ThresholdAscentPolicy(1000, 0.01));
+      Console.WriteLine("Generic Thompson (Gaussian fixed var)"); TestPolicyGaussian(randSeed, nArms, new GenericThompsonSamplingPolicy(new GaussianModel(0.5, 1)));
+      Console.WriteLine("Generic Thompson (Gaussian unknown var)"); TestPolicyGaussian(randSeed, nArms, new GenericThompsonSamplingPolicy(new GaussianModel(0.5, 1, 1, 1)));
       Console.WriteLine("Thompson (Gaussian orig)"); TestPolicyGaussian(randSeed, nArms, new GaussianThompsonSamplingPolicy(true));
       Console.WriteLine("Thompson (Gaussian new)"); TestPolicyGaussian(randSeed, nArms, new GaussianThompsonSamplingPolicy());
+      Console.WriteLine("Generic Thompson (Gaussian)"); TestPolicyGaussian(randSeed, nArms, new GenericThompsonSamplingPolicy(new GaussianModel(0.5, 1)));
       /*
       Console.WriteLine("Random"); TestPolicyNormal(randSeed, nArms, new RandomPolicy(new Random(seedForPolicy), nArms));
 …
       Console.WriteLine("ChernoffIntervalEstimationPolicy(0.01)"); TestPolicyNormal(randSeed, nArms, new ChernoffIntervalEstimationPolicy(nArms, 0.01));
       Console.WriteLine("ChernoffIntervalEstimationPolicy(0.05)"); TestPolicyNormal(randSeed, nArms, new ChernoffIntervalEstimationPolicy(nArms, 0.05));
       Console.WriteLine("ChernoffIntervalEstimationPolicy(0.1) "); TestPolicyNormal(randSeed, nArms, new ChernoffIntervalEstimationPolicy(nArms, 0.1));
+      Console.WriteLine("ChernoffIntervalEstimationPolicy(0.1) "); TestPolicyNormal(randSeed, nArms, new ChernoffIntervalEstimationPolicy(nArms, 0.1));
       Console.WriteLine("ThresholdAscent(10,0.01)  "); TestPolicyNormal(randSeed, nArms, new ThresholdAscentPolicy(nArms, 10, 0.01));
       Console.WriteLine("ThresholdAscent(10,0.05)  "); TestPolicyNormal(randSeed, nArms, new ThresholdAscentPolicy(nArms, 10, 0.05));
 …
       var randSeed = 31415;
       var nArms = 20;
+      Console.WriteLine("Threshold Ascent (20)"); TestPolicyGaussianMixture(randSeed, nArms, new ThresholdAscentPolicy(20, 0.01));
+      Console.WriteLine("Threshold Ascent (100)"); TestPolicyGaussianMixture(randSeed, nArms, new ThresholdAscentPolicy(100, 0.01));
+      Console.WriteLine("Threshold Ascent (500)"); TestPolicyGaussianMixture(randSeed, nArms, new ThresholdAscentPolicy(500, 0.01));
+      Console.WriteLine("Threshold Ascent (1000)"); TestPolicyGaussianMixture(randSeed, nArms, new ThresholdAscentPolicy(1000, 0.01));
       Console.WriteLine("Thompson (Gaussian orig)"); TestPolicyGaussianMixture(randSeed, nArms, new GaussianThompsonSamplingPolicy(true));
       Console.WriteLine("Thompson (Gaussian new)"); TestPolicyGaussianMixture(randSeed, nArms, new GaussianThompsonSamplingPolicy());
+      Console.WriteLine("Generic Thompson (Gaussian)"); TestPolicyGaussianMixture(randSeed, nArms, new GenericThompsonSamplingPolicy(new GaussianModel(0.5, 1)));
+      Console.WriteLine("Generic Thompson (Gaussian fixed variance)"); TestPolicyGaussianMixture(randSeed, nArms, new GenericThompsonSamplingPolicy(new GaussianModel(0.5, 1, 0.1)));
+      Console.WriteLine("Generic Thompson (Gaussian unknown variance)"); TestPolicyGaussianMixture(randSeed, nArms, new GenericThompsonSamplingPolicy(new GaussianModel(0.5, 1, 1, 1)));
       /*
 …
     private void TestPolicyBernoulli(int randSeed, int nArms, IPolicy policy) {
+    private void TestPolicyBernoulli(int randSeed, int nArms, IBanditPolicy policy) {
       TestPolicy(randSeed, nArms, policy, (banditRandom, nActions) => new BernoulliBandit(banditRandom, nActions));
+    }
     private void TestPolicyGaussian(int randSeed, int nArms, IPolicy policy) {
+    private void TestPolicyGaussian(int randSeed, int nArms, IBanditPolicy policy) {
       TestPolicy(randSeed, nArms, policy, (banditRandom, nActions) => new TruncatedNormalBandit(banditRandom, nActions));
+    }
     private void TestPolicyGaussianMixture(int randSeed, int nArms, IPolicy policy) {
+    private void TestPolicyGaussianMixture(int randSeed, int nArms, IBanditPolicy policy) {
       TestPolicy(randSeed, nArms, policy, (banditRandom, nActions) => new GaussianMixtureBandit(banditRandom, nActions));
+    }
     private void TestPolicyGaussianUnknownVariance(int randSeed, int nArms, IPolicy policy) {
+    private void TestPolicyGaussianUnknownVariance(int randSeed, int nArms, IBanditPolicy policy) {
       TestPolicy(randSeed, nArms, policy, (banditRandom, nActions) => new GaussianBandit(banditRandom, nActions));
+    }
     private void TestPolicy(int randSeed, int nArms, IPolicy policy, Func<Random, int, IBandit> banditFactory) {
+    private void TestPolicy(int randSeed, int nArms, IBanditPolicy policy, Func<Random, int, IBandit> banditFactory) {
       var maxIt = 1E5;
       var reps = 10; // independent runs

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/EvenParityProblem.cs

r11732	r11742
51	51	}
52	52
53		public string ~~Hash~~(string terminalPhrase) {
	53	public string CanonicalRepresentation(string terminalPhrase) {
54	54	return terminalPhrase;
55	55	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/HardPalindromeProblem.cs

r11732	r11742
39	39	}
40	40
41		public string ~~Hash~~(string terminalPhrase) {
	41	public string CanonicalRepresentation(string terminalPhrase) {
42	42	return terminalPhrase;
43	43	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/IProblem.cs

r11732	r11742
9	9	IGrammar Grammar { get; }
10	10	double Evaluate(string sentence);
11		string ~~Hash~~(string terminalPhrase);
	11	string CanonicalRepresentation(string terminalPhrase);
12	12	}
13	13	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/PalindromeProblem.cs

r11732	r11742
80	80	}
81	81
82		public string ~~Hash~~(string terminalPhrase) {
	82	public string CanonicalRepresentation(string terminalPhrase) {
83	83	return terminalPhrase;
84	84	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/ReadonlySequence.cs

-                      r11732
+                      r11742
   public class ReadonlySequence : Sequence {
     public ReadonlySequence(string s)
       : base(s) {
+      : base(s, s.Length) {
+    }
     public ReadonlySequence(char ch)
       : base(ch) {
+      : base(ch, 1) {
+    }
     public ReadonlySequence(Sequence s)
       : base(s) {
+      : base(s, s.Length) {
+    }
 …
     public override int GetHashCode() {
       int h = 31 * Length;
+      foreach (var ch in this) { h += 31 * (byte)h; }
+      for (int i = 0; i < Length; i++) {
+        h += 31 * (byte)this[i];
+      }
       return h;
+    }

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/RoyalPairProblem.cs

r11732	r11742
34	34	}
35	35
36		public string ~~Hash~~(string terminalPhrase) {
	36	public string CanonicalRepresentation(string terminalPhrase) {
37	37	return terminalPhrase;
38	38	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/RoyalRoadProblem.cs

r11732	r11742
29	29	throw new NotImplementedException();
30	30	}
31		public string ~~Hash~~(string terminalPhrase) {
	31	public string CanonicalRepresentation(string terminalPhrase) {
32	32	return terminalPhrase;
33	33	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/RoyalSymbolProblem.cs

r11732	r11742
33	33	return regex.Matches(sentence).Count;
34	34	}
35		public string ~~Hash~~(string terminalPhrase) {
	35	public string CanonicalRepresentation(string terminalPhrase) {
36	36	return terminalPhrase;
37	37	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/RoyalTreeProblem.cs

r11732	r11742
29	29	throw new NotImplementedException();
30	30	}
31		public string ~~Hash~~(string terminalPhrase) {
	31	public string CanonicalRepresentation(string terminalPhrase) {
32	32	return terminalPhrase;
33	33	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/SantaFeAntProblem.cs

r11732	r11742
98	98	}
99	99
100		public string ~~Hash~~(string terminalPhrase) {
	100	public string CanonicalRepresentation(string terminalPhrase) {
101	101	return terminalPhrase.Replace("rl", "").Replace("lr", "");
102	102	}

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/Sequence.cs

-                      r11732
+                      r11742
+    }
     private Sequence() {
       this.symbols = new char[maxIdx + 1];
+    private Sequence(int maxLength) {
+      this.symbols = new char[maxLength];
+    }
     // create a sequence from a character
     public Sequence(char ch)
+      : this() {
+      : this(ch, maxIdx + 1) {
+    }
+    protected Sequence(char ch, int maxLength)
+      : this(maxLength) {
       this.len = 1;
       symbols[0] = ch;
 …
     // create a sequence from a string
+    public Sequence(string s)
+      : this() {
+    public Sequence(string s) : this(s, maxIdx + 1) { }
+    protected Sequence(string s, int maxLength)
+      : this(maxLength) {
       if (string.IsNullOrEmpty(s)) throw new ArgumentException();
       if (s.Length > (maxIdx + 1)) throw new ArgumentException();
 …
     // cloning ctor
+    public Sequence(Sequence original)
+      : this() {
+    public Sequence(Sequence original) : this(original, maxIdx + 1) { }
+    protected Sequence(Sequence original, int maxLength)
+      : this(maxLength) {
       this.len = original.len;
       Array.Copy(original.symbols, this.symbols, len);
 …
       if (startIdx >= this.len) throw new ArgumentException();
       if (startIdx + len > this.len) throw new ArgumentException();
       var subsequence = new Sequence { len = len };
+      var subsequence = new Sequence(maxIdx + 1) { len = len };
       Array.Copy(this.symbols, startIdx, subsequence.symbols, 0, len);

branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/SymbolicRegressionPoly10Problem.cs

-                      r11732
+                      r11742
     private readonly IGrammar grammar;
-    private readonly ExpressionInterpreter interpreter;
     private readonly int N;
 …
     public SymbolicRegressionPoly10Problem() {
       this.grammar = new Grammar(grammarString);
-      this.interpreter = new ExpressionInterpreter();
       this.N = 500;
 …
     public double Evaluate(string sentence) {
+      var interpreter = new ExpressionInterpreter();
       return HeuristicLab.Common.Extensions.RSq(y, Enumerable.Range(0, N).Select(i => interpreter.Interpret(sentence, x[i])).ToArray());
+    }
 …
     // right now only + and * is supported
     public string Hash(string terminalPhrase) {
+    public string CanonicalRepresentation(string terminalPhrase) {
       var terms = terminalPhrase.Split('+');
       return string.Join("+", terms.Select(term => string.Join("", term.Replace("*", "").OrderBy(ch => ch)))

branches/HeuristicLab.Problems.GrammaticalOptimization/Main/Program.cs

-                      r11732
+                      r11742
 using System.Threading.Tasks;
 using HeuristicLab.Algorithms.Bandits;
+using HeuristicLab.Algorithms.Bandits.BanditPolicies;
 using HeuristicLab.Algorithms.Bandits.Models;
 using HeuristicLab.Algorithms.GrammaticalOptimization;
 …
       //var globalRandom = new Random(31415);
       var localRandSeed = 31415;
       var reps = 20;
       var policies = new Func<IPolicy>[]
+      var reps = 8;
+      var policies = new Func<IBanditPolicy>[]
+        {
+         () => new GaussianThompsonSamplingPolicy(),
+         () => new EpsGreedyPolicy(0.01, (aInfo)=> aInfo.MaxReward, "max"),
+         () => new EpsGreedyPolicy(0.05, (aInfo)=> aInfo.MaxReward, "max"),
+         () => new EpsGreedyPolicy(0.1, (aInfo)=> aInfo.MaxReward, "max"),
+         () => new EpsGreedyPolicy(0.2, (aInfo)=> aInfo.MaxReward, "max"),
+         //() => new GaussianThompsonSamplingPolicy(),
          () => new GaussianThompsonSamplingPolicy(true),
+         () => new GenericThompsonSamplingPolicy(new GaussianModel(0.5, 1)),
+         () => new BernoulliThompsonSamplingPolicy(),
+         () => new GenericThompsonSamplingPolicy(new GaussianModel(0.5, 10, 1)),
+         () => new GenericThompsonSamplingPolicy(new GaussianModel(0.5, 10, 1, 1)),
+         //() => new BernoulliThompsonSamplingPolicy(),
          () => new GenericThompsonSamplingPolicy(new BernoulliModel(1, 1)),
          () => new RandomPolicy(),
 …
          () => new ChernoffIntervalEstimationPolicy( 0.1),
          () => new ChernoffIntervalEstimationPolicy( 0.2),
          // (rand) => new ThresholdAscentPolicy(10, 0.01),
          // (rand) => new ThresholdAscentPolicy(10, 0.05),
          // (rand) => new ThresholdAscentPolicy(10, 0.1),
          // (rand) => new ThresholdAscentPolicy(10, 0.2),
          // (rand) => new ThresholdAscentPolicy(100, 0.01),
          // (rand) => new ThresholdAscentPolicy(100, 0.05),
          // (rand) => new ThresholdAscentPolicy(100, 0.1),
          // (rand) => new ThresholdAscentPolicy(100, 0.2),
          // (rand) => new ThresholdAscentPolicy(1000, 0.01),
          // (rand) => new ThresholdAscentPolicy(1000, 0.05),
          // (rand) => new ThresholdAscentPolicy(1000, 0.1),
          // (rand) => new ThresholdAscentPolicy(1000, 0.2),
          // (rand) => new ThresholdAscentPolicy(5000, 0.01),
          // (rand) => new ThresholdAscentPolicy(10000, 0.01),
+         () => new ThresholdAscentPolicy(10, 0.01),
+         () => new ThresholdAscentPolicy(10, 0.05),
+         () => new ThresholdAscentPolicy(10, 0.1),
+         () => new ThresholdAscentPolicy(10, 0.2),
+         () => new ThresholdAscentPolicy(100, 0.01),
+         () => new ThresholdAscentPolicy(100, 0.05),
+         () => new ThresholdAscentPolicy(100, 0.1),
+         () => new ThresholdAscentPolicy(100, 0.2),
+         () => new ThresholdAscentPolicy(1000, 0.01),
+         () => new ThresholdAscentPolicy(1000, 0.05),
+         () => new ThresholdAscentPolicy(1000, 0.1),
+         () => new ThresholdAscentPolicy(1000, 0.2),
+         () => new ThresholdAscentPolicy(5000, 0.01),
+         () => new ThresholdAscentPolicy(10000, 0.01),
         };
       foreach (var problem in new Tuple<IProblem, int>[]
+        {
           Tuple.Create((IProblem)new SantaFeAntProblem(), 17),
+          //Tuple.Create((IProblem)new SantaFeAntProblem(), 17),
           Tuple.Create((IProblem)new SymbolicRegressionPoly10Problem(), 23),
         })
 …
             var localRand = new Random(localRandSeed);
             var options = new ParallelOptions();
             options.MaxDegreeOfParallelism = 1;
+            options.MaxDegreeOfParallelism = 4;
             Parallel.For(0, reps, options, (i) => {
               //var t = Task.Run(() => {
 …
     private static void RunDemo() {
       // TODO: test with eps-greedy using max instead of average as value (seems to work well for symb-reg! explore further!)
-      // TODO: implement GaussianWithUnknownMeanAndVariance Model for Thompson Sampling (verify with unit test if correct mean and variance is identified)
       // TODO: separate value function from policy
-      // TODO: debug and verify implementation variants of Gaussian Thompson Sampling with unit test
-      // TODO: refactor Policies to use banditInfos (policies are factories for bandit infos and bandit info only has an update routine, each policy works only with it's type of banditinfo)
       // TODO: in contextual MCTS store a bandit info for each node in the _graph_ and also update all bandit infos of all parents
       // TODO: exhaustive search with priority list
       // TODO: warum funktioniert die alte Implementierung von GaussianThompson besser für SantaFe als alte? Siehe Vergleich: alte vs. neue implementierung GaussianThompsonSampling
+      // TODO: warum funktioniert die alte Implementierung von GaussianThompson besser für SantaFe als neue? Siehe Vergleich: alte vs. neue implementierung GaussianThompsonSampling
       // TODO: why does GaussianThompsonSampling work so well with MCTS for the artificial ant problem?
       // TODO: wie kann ich sampler noch vergleichen bzw. was kann man messen um die qualität des samplers abzuschätzen (bis auf qualität und iterationen bis zur besten lösung) => ziel schnellere iterationen zu gutem ergebnis
-      // TODO: likelihood für R=1 bei Gaussian oder GaussianMixture einfach berechenbar?
       // TODO: research thompson sampling for max bandit?
       // TODO: ausführlicher test von strategien für k-armed max bandit
       // TODO: verify TA implementation using example from the original paper
-      // TODO: compare results for different policies also for the symb-reg problem
       // TODO: separate policy from MCTS tree data structure to allow sharing of information over disconnected parts of the tree (semantic equivalence)
       // TODO: implement thompson sampling for gaussian mixture models
       // TODO: implement inspection for MCTS (eventuell interactive command line für statistiken aus dem baum anzeigen)
       // TODO: implement ACO-style bandit policy
-      // TODO: implement sequences that can be manipulated in-place (instead of strings), alternatives are also stored as sequences, for a sequence the index of the first NT-symb can be stored
       // TODO: gleichzeitige modellierung von transformierter zielvariable (y, 1/y, log(y), exp(y), sqrt(y), ...)
       // TODO: vergleich bei complete-randomly möglichst kurze sätze generieren vs. einfach zufällig alternativen wählen
 …
       var random = new Random();
+      var problem = new SymbolicRegressionPoly10Problem();
+      //var problem = new SantaFeAntProblem(); // good results e.g. with       var alg = new MctsSampler(problem, 17, random, 1, (rand, numActions) => new ThresholdAscentPolicy(numActions, 500, 0.01));
+      //var problem = new SymbolicRegressionProblem("Tower"); // very good results e.g. new EpsGreedyPolicy(0.2) using max reward as quality !!!
+      var problem = new SymbolicRegressionPoly10Problem();   // good results e.g. 10 randomtries and EpsGreedyPolicy(0.2, (aInfo)=>aInfo.MaxReward)
+      // Ant
+      // good results e.g. with       var alg = new MctsSampler(problem, 17, random, 1, (rand, numActions) => new ThresholdAscentPolicy(numActions, 500, 0.01));
+      // GaussianModelWithUnknownVariance (and Q= 0.99-quantil) also works well for Ant
+      //var problem = new SantaFeAntProblem();
+      //var problem = new SymbolicRegressionProblem("Tower");
       //var problem = new PalindromeProblem();
       //var problem = new HardPalindromeProblem();
       //var problem = new RoyalPairProblem();
       //var problem = new EvenParityProblem();
       var alg = new MctsSampler(problem, 23, random, 10, new EpsGreedyPolicy(0.2)); // GaussianModelWithUnknownVariance (and Q= 0.99-quantil) works well for Ant
+      var alg = new MctsSampler(problem, 25, random, 0, new GaussianThompsonSamplingPolicy(true));
       //var alg = new ExhaustiveBreadthFirstSearch(problem, 17);
       //var alg = new AlternativesContextSampler(problem, random, 17, 4, (rand, numActions) => new RandomPolicy(rand, numActions));

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 11742

Legend:

Download in other formats: