Context Navigation

← Previous Changeset
Next Changeset →

Changeset 11727

Timestamp:

12/29/14 11:02:36 (10 years ago)

Author:

gkronber

Message:

#2283: worked on grammatical optimization problem solvers (simple MCTS done)

Location:

branches/HeuristicLab.Problems.GrammaticalOptimization

Files:

: 12 added
: 29 edited
: 1 moved

GrammaticalOptimization.sln (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/HeuristicLab.Algorithms.Bandits.csproj (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/IPolicy.cs (modified) (1 diff)
HeuristicLab.Algorithms.Bandits/Policies/BanditPolicy.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/Policies/BernoulliThompsonSamplingPolicy.cs (added)
HeuristicLab.Algorithms.Bandits/Policies/EpsGreedyPolicy.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/Policies/Exp3Policy.cs (added)
HeuristicLab.Algorithms.Bandits/Policies/GaussianThompsonSamplingPolicy.cs (added)
HeuristicLab.Algorithms.Bandits/Policies/RandomPolicy.cs (modified) (2 diffs)
HeuristicLab.Algorithms.Bandits/Policies/UCB1Policy.cs (modified) (4 diffs)
HeuristicLab.Algorithms.Bandits/Policies/UCB1TunedPolicy.cs (modified) (5 diffs)
HeuristicLab.Algorithms.Bandits/Policies/UCBNormalPolicy.cs (modified) (4 diffs)
HeuristicLab.Algorithms.GrammaticalOptimization/AlternativesContextSampler.cs (added)
HeuristicLab.Algorithms.GrammaticalOptimization/AlternativesSampler.cs (added)
HeuristicLab.Algorithms.GrammaticalOptimization/ExhaustiveBreadthFirstSearch.cs (modified) (3 diffs)
HeuristicLab.Algorithms.GrammaticalOptimization/ExhaustiveDepthFirstSearch.cs (modified) (2 diffs)
HeuristicLab.Algorithms.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization.csproj (modified) (2 diffs)
HeuristicLab.Algorithms.GrammaticalOptimization/MctsSampler.cs (added)
HeuristicLab.Common (added)
HeuristicLab.Common/Extensions.cs (moved) (moved from branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/Extensions.cs) (1 diff)
HeuristicLab.Common/HeuristicLab.Common.csproj (added)
HeuristicLab.Common/Properties (added)
HeuristicLab.Common/Properties/AssemblyInfo.cs (added)
HeuristicLab.Common/Rand.cs (added)
HeuristicLab.Problems.GrammaticalOptimization.Test/TestBanditPolicies.cs (modified) (2 diffs)
HeuristicLab.Problems.GrammaticalOptimization.Test/TestSolvers.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/EvenParityProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/ExpressionInterpreter.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/Grammar.cs (modified) (3 diffs)
HeuristicLab.Problems.GrammaticalOptimization/HardPalindromeProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization.csproj (modified) (2 diffs)
HeuristicLab.Problems.GrammaticalOptimization/IProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/PalindromeProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/RoyalPairProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/RoyalRoadProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/RoyalSymbolProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/RoyalTreeProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/SantaFeAntProblem.cs (modified) (1 diff)
HeuristicLab.Problems.GrammaticalOptimization/SentenceSetStatistics.cs (added)
HeuristicLab.Problems.GrammaticalOptimization/SymbolicRegressionPoly10Problem.cs (modified) (2 diffs)
Main/Main.csproj (modified) (1 diff)
Main/Program.cs (modified) (4 diffs)

Legend:

: Unmodified
: Added
: Removed

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/GrammaticalOptimization.sln ¶

-                      r11708
+                      r11727
 EndProject
 Project("{FAE04EC0-301F-11D3-BF4B-00C04F79EFBC}") = "HeuristicLab.Algorithms.Bandits", "HeuristicLab.Algorithms.Bandits\HeuristicLab.Algorithms.Bandits.csproj", "{24408F7D-EE0F-4886-A08B-EC324D662E47}"
+EndProject
+Project("{FAE04EC0-301F-11D3-BF4B-00C04F79EFBC}") = "HeuristicLab.Common", "HeuristicLab.Common\HeuristicLab.Common.csproj", "{3A2FBBCB-F9DF-4970-87F3-F13337D941AD}"
 EndProject
 Global
 …
     {24408F7D-EE0F-4886-A08B-EC324D662E47}.Release|Any CPU.ActiveCfg = Release|Any CPU
     {24408F7D-EE0F-4886-A08B-EC324D662E47}.Release|Any CPU.Build.0 = Release|Any CPU
+    {3A2FBBCB-F9DF-4970-87F3-F13337D941AD}.Debug|Any CPU.ActiveCfg = Debug|Any CPU
+    {3A2FBBCB-F9DF-4970-87F3-F13337D941AD}.Debug|Any CPU.Build.0 = Debug|Any CPU
+    {3A2FBBCB-F9DF-4970-87F3-F13337D941AD}.Release|Any CPU.ActiveCfg = Release|Any CPU
+    {3A2FBBCB-F9DF-4970-87F3-F13337D941AD}.Release|Any CPU.Build.0 = Release|Any CPU
   EndGlobalSection
   GlobalSection(SolutionProperties) = preSolution
     HideSolutionNode = FALSE
   EndGlobalSection
+  GlobalSection(Performance) = preSolution
+    HasPerformanceSessions = true
+  EndGlobalSection
 EndGlobal

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/HeuristicLab.Algorithms.Bandits.csproj ¶

-                      r11711
+                      r11727
     <Compile Include="Bandits\TruncatedNormalBandit.cs" />
     <Compile Include="Policies\BanditPolicy.cs" />
+    <Compile Include="Policies\BernoulliThompsonSamplingPolicy.cs" />
+    <Compile Include="Policies\GaussianThompsonSamplingPolicy.cs" />
+    <Compile Include="Policies\Exp3Policy.cs" />
     <Compile Include="Policies\EpsGreedyPolicy.cs" />
     <Compile Include="Policies\RandomPolicy.cs" />
 …
     <Compile Include="Properties\AssemblyInfo.cs" />
   </ItemGroup>
+  <ItemGroup />
+  <ItemGroup>
+    <ProjectReference Include="..\HeuristicLab.Common\HeuristicLab.Common.csproj">
+      <Project>{3A2FBBCB-F9DF-4970-87F3-F13337D941AD}</Project>
+      <Name>HeuristicLab.Common</Name>
+    </ProjectReference>
+  </ItemGroup>
   <Import Project="$(MSBuildToolsPath)\Microsoft.CSharp.targets" />
   <!-- To modify your build process, add your task inside one of the targets below and uncomment it.

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/IPolicy.cs ¶

-                      r11708
+                      r11727
 namespace HeuristicLab.Algorithms.Bandits {
+  // this interface represents a policy for reinforcement learning
   public interface IPolicy {
+    int SelectAction();
+    void UpdateReward(int action, double reward);
+    IEnumerable<int> Actions { get; }
+    int SelectAction(); // action selection ...
+    void UpdateReward(int action, double reward); // ... and reward update are defined as usual
+    // policies must also support disabling of potential actions
+    // for instance if we know that an action in a state has a deterministic
+    // reward we need to sample it only once
+    // it is necessary to sample an action only once
+    void DisableAction(int action);
+    // reset causes the policy to be reinitialized to it's initial state (as after constructor-call)
     void Reset();
+  }

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Policies/BanditPolicy.cs ¶

-                      r11711
+                      r11727
 using System;
 using System.Collections.Generic;
+using System.Diagnostics;
 using System.Linq;
 using System.Text;
 …
 namespace HeuristicLab.Algorithms.Bandits {
   public abstract class BanditPolicy : IPolicy {
+    public int NumActions { get; private set; }
+    public BanditPolicy(int numActions) {
+      this.NumActions = numActions;
+    public IEnumerable<int> Actions { get; private set; }
+    private readonly int numInitialActions;
+    protected BanditPolicy(int numActions) {
+      this.numInitialActions = numActions;
+      Actions = Enumerable.Range(0, numActions).ToArray();
+    }
     public abstract int SelectAction();
     public abstract void UpdateReward(int action, double reward);
+    public abstract void Reset();
+    public virtual void DisableAction(int action) {
+      Debug.Assert(Actions.Contains(action));
+      Actions = Actions.Where(a => a != action).ToArray();
+    }
+    public virtual void Reset() {
+      Actions = Enumerable.Range(0, numInitialActions).ToArray();
+    }
+  }
+}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Policies/EpsGreedyPolicy.cs ¶

-                      r11711
+                      r11727
 using System;
 using System.Collections.Generic;
+using System.Diagnostics;
 using System.Linq;
 using System.Text;
 …
     private readonly int[] tries;
     private readonly double[] sumReward;
+    private readonly RandomPolicy randomPolicy;
     public EpsGreedyPolicy(Random random, int numActions, double eps)
       : base(numActions) {
       this.random = random;
       this.eps = eps;
+      this.tries = new int[NumActions];
+      this.sumReward = new double[NumActions];
+      this.randomPolicy = new RandomPolicy(random, numActions);
+      this.tries = new int[numActions];
+      this.sumReward = new double[numActions];
+    }
     public override int SelectAction() {
+      Debug.Assert(Actions.Any());
       if (random.NextDouble() > eps) {
         // select best
         var maxReward = double.NegativeInfinity;
         int bestAction = -1;
         for (int i = 0; i < NumActions; i++) {
           if (tries[i] == 0) return i;
           var avgReward = sumReward[i] / tries[i];
+        foreach (var a in Actions) {
+          if (tries[a] == 0) return a;
+          var avgReward = sumReward[a] / tries[a];
           if (maxReward < avgReward) {
             maxReward = avgReward;
             bestAction = i;
+            bestAction = a;
+          }
+        }
+        Debug.Assert(bestAction >= 0);
         return bestAction;
       } else {
         // select random
         return random.Next(NumActions);
+        return randomPolicy.SelectAction();
+      }
+    }
     public override void UpdateReward(int action, double reward) {
+      Debug.Assert(Actions.Contains(action));
+      randomPolicy.UpdateReward(action, reward); // does nothing
       tries[action]++;
       sumReward[action] += reward;
+    }
+    public override void DisableAction(int action) {
+      base.DisableAction(action);
+      randomPolicy.DisableAction(action);
+      sumReward[action] = 0;
+      tries[action] = -1;
+    }
     public override void Reset() {
+      base.Reset();
+      randomPolicy.Reset();
       Array.Clear(tries, 0, tries.Length);
       Array.Clear(sumReward, 0, sumReward.Length);

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Policies/RandomPolicy.cs ¶

-                      r11711
+                      r11727
 using System;
 using System.Collections.Generic;
+using System.Diagnostics;
 using System.Linq;
 using System.Text;
 using System.Threading.Tasks;
+using HeuristicLab.Common;
 namespace HeuristicLab.Algorithms.Bandits {
   public class RandomPolicy : BanditPolicy {
     private readonly Random random;
     public RandomPolicy(Random random, int numActions)
       : base(numActions) {
 …
     public override int SelectAction() {
+      return random.Next(NumActions);
+      Debug.Assert(Actions.Any());
+      return Actions.SelectRandom(random);
+    }
     public override void UpdateReward(int action, double reward) {
       // do nothing
+    }
+    public override void Reset() {
+      // do nothing
+    }
+  }
+}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Policies/UCB1Policy.cs ¶

-                      r11711
+                      r11727
 using System;
 using System.Collections.Generic;
+using System.Diagnostics;
 using System.Linq;
 using System.Text;
 …
     public UCB1Policy(int numActions)
       : base(numActions) {
       this.tries = new int[NumActions];
       this.sumReward = new double[NumActions];
+      this.tries = new int[numActions];
+      this.sumReward = new double[numActions];
+    }
 …
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
       for (int i = 0; i < NumActions; i++) {
         if (tries[i] == 0) return i;
         var q = sumReward[i] / tries[i] + Math.Sqrt((2 * Math.Log(totalTries)) / tries[i]);
+      foreach (var a in Actions) {
+        if (tries[a] == 0) return a;
+        var q = sumReward[a] / tries[a] + Math.Sqrt((2 * Math.Log(totalTries)) / tries[a]);
         if (q > bestQ) {
           bestQ = q;
           bestAction = i;
+          bestAction = a;
+        }
+      }
 …
+    }
     public override void UpdateReward(int action, double reward) {
+      Debug.Assert(Actions.Contains(action));
       totalTries++;
       tries[action]++;
       sumReward[action] += reward;
+    }
+    public override void DisableAction(int action) {
+      base.DisableAction(action);
+      totalTries -= tries[action];
+      tries[action] = -1;
+      sumReward[action] = 0;
+    }
     public override void Reset() {
+      base.Reset();
       totalTries = 0;
       Array.Clear(tries, 0, tries.Length);

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Policies/UCB1TunedPolicy.cs ¶

-                      r11711
+                      r11727
 using System;
 using System.Collections.Generic;
+using System.Diagnostics;
 using System.Linq;
 using System.Text;
 …
     public UCB1TunedPolicy(int numActions)
       : base(numActions) {
       this.tries = new int[NumActions];
       this.sumReward = new double[NumActions];
       this.sumSqrReward = new double[NumActions];
+      this.tries = new int[numActions];
+      this.sumReward = new double[numActions];
+      this.sumSqrReward = new double[numActions];
+    }
 …
     public override int SelectAction() {
+      Debug.Assert(Actions.Any());
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
       for (int i = 0; i < NumActions; i++) {
         if (tries[i] == 0) return i;
         var q = sumReward[i] / tries[i] + Math.Sqrt((Math.Log(totalTries) / tries[i]) * Math.Min(1.0 / 4, V(i))); // 1/4 is upper bound of bernoulli distributed variable
+      foreach (var a in Actions) {
+        if (tries[a] == 0) return a;
+        var q = sumReward[a] / tries[a] + Math.Sqrt((Math.Log(totalTries) / tries[a]) * Math.Min(1.0 / 4, V(a))); // 1/4 is upper bound of bernoulli distributed variable
         if (q > bestQ) {
           bestQ = q;
           bestAction = i;
+          bestAction = a;
+        }
+      }
 …
+    }
     public override void UpdateReward(int action, double reward) {
+      Debug.Assert(Actions.Contains(action));
       totalTries++;
       tries[action]++;
 …
       sumSqrReward[action] += reward * reward;
+    }
+    public override void DisableAction(int action) {
+      base.DisableAction(action);
+      totalTries -= tries[action];
+      tries[action] = -1;
+      sumReward[action] = 0;
+      sumSqrReward[action] = 0;
+    }
     public override void Reset() {
+      base.Reset();
       totalTries = 0;
       Array.Clear(tries, 0, tries.Length);

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.Bandits/Policies/UCBNormalPolicy.cs ¶

-                      r11711
+                      r11727
 using System;
 using System.Collections.Generic;
+using System.Diagnostics;
 using System.Linq;
 using System.Text;
 …
     public UCBNormalPolicy(int numActions)
       : base(numActions) {
       this.tries = new int[NumActions];
       this.sumReward = new double[NumActions];
       this.sumSqrReward = new double[NumActions];
+      this.tries = new int[numActions];
+      this.sumReward = new double[numActions];
+      this.sumSqrReward = new double[numActions];
+    }
-    private double V(int arm) {
-      var s = tries[arm];
-      return sumSqrReward[arm] / s - Math.Pow(sumReward[arm] / s, 2) + Math.Sqrt(2 * Math.Log(totalTries) / s);
+    }
     public override int SelectAction() {
+      Debug.Assert(Actions.Any());
       int bestAction = -1;
       double bestQ = double.NegativeInfinity;
       for (int i = 0; i < NumActions; i++) {
         if (totalTries == 0 || tries[i] == 0 || tries[i] < Math.Ceiling(8 * Math.Log(totalTries))) return i;
         var avgReward = sumReward[i] / tries[i];
+      foreach (var a in Actions) {
+        if (totalTries == 0 || tries[a] == 0 || tries[a] < Math.Ceiling(8 * Math.Log(totalTries))) return a;
+        var avgReward = sumReward[a] / tries[a];
         var q = avgReward
           + Math.Sqrt(16 * ((sumSqrReward[i] - tries[i] * Math.Pow(avgReward, 2)) / (tries[i] - 1)) * (Math.Log(totalTries - 1) / tries[i]));
+          + Math.Sqrt(16 * ((sumSqrReward[a] - tries[a] * Math.Pow(avgReward, 2)) / (tries[a] - 1)) * (Math.Log(totalTries - 1) / tries[a]));
         if (q > bestQ) {
           bestQ = q;
           bestAction = i;
+          bestAction = a;
+        }
+      }
 …
+    }
     public override void UpdateReward(int action, double reward) {
+      Debug.Assert(Actions.Contains(action));
       totalTries++;
       tries[action]++;
 …
       sumSqrReward[action] += reward * reward;
+    }
+    public override void DisableAction(int action) {
+      base.DisableAction(action);
+      totalTries -= tries[action];
+      tries[action] = -1;
+      sumReward[action] = 0;
+      sumSqrReward[action] = 0;
+    }
     public override void Reset() {
+      base.Reset();
       totalTries = 0;
       Array.Clear(tries, 0, tries.Length);

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization/ExhaustiveBreadthFirstSearch.cs ¶

-                      r11708
+                      r11727
     private readonly int maxLen;
     private readonly Queue<string> bfsQueue = new Queue<string>();
+    private readonly IProblem problem;
+    public ExhaustiveBreadthFirstSearch(int maxLen) {
+    public ExhaustiveBreadthFirstSearch(IProblem problem, int maxLen) {
+      this.problem = problem;
       this.maxLen = maxLen;
+    }
     public void Run(IProblem problem, int maxIterations) {
+    public void Run(int maxIterations) {
       double bestQuality = double.MinValue;
       bfsQueue.Enqueue(problem.Grammar.SentenceSymbol.ToString());
 …
       for (int i = 0; sentenceEnumerator.MoveNext() && i < maxIterations; i++) {
         var sentence = sentenceEnumerator.Current;
         var quality = problem.Evaluate(sentence);
+        var quality = problem.Evaluate(sentence) / problem.GetBestKnownQuality(maxLen);
         RaiseSolutionEvaluated(sentence, quality);
 …
         var phrase = bfsQueue.Dequeue();
+        var nt = phrase.First(grammar.IsNonTerminal);
+        var ntIdx = phrase.IndexOf(nt); // TODO perf
+        char nt;
+        int ntIdx;
+        Grammar.FindFirstNonTerminal(grammar, phrase, out nt, out ntIdx);
         var alts = grammar.GetAlternatives(nt);
         foreach (var alt in alts) {

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization/ExhaustiveDepthFirstSearch.cs ¶

-                      r11708
+                      r11727
       for (int i = 0; sentenceEnumerator.MoveNext() && i < maxIterations; i++) {
         var sentence = sentenceEnumerator.Current;
         var quality = problem.Evaluate(sentence);
+        var quality = problem.Evaluate(sentence) / problem.GetBestKnownQuality(maxLen);
         RaiseSolutionEvaluated(sentence, quality);
 …
         var phrase = stack.Pop();
+        var nt = phrase.First(grammar.IsNonTerminal);
+        var ntIdx = phrase.IndexOf(nt); // TODO perf
+        char nt;
+        int ntIdx;
+        Grammar.FindFirstNonTerminal(grammar, phrase, out nt, out ntIdx);
         var alts = grammar.GetAlternatives(nt);
         foreach (var alt in alts) {

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization/HeuristicLab.Algorithms.GrammaticalOptimization.csproj ¶

-                      r11690
+                      r11727
   </ItemGroup>
   <ItemGroup>
+    <Compile Include="AlternativesSampler.cs" />
+    <Compile Include="AlternativesContextSampler.cs" />
+    <Compile Include="MctsSampler.cs" />
     <Compile Include="ExhaustiveDepthFirstSearch.cs" />
     <Compile Include="ExhaustiveBreadthFirstSearch.cs" />
 …
   </ItemGroup>
   <ItemGroup>
+    <ProjectReference Include="..\HeuristicLab.Algorithms.Bandits\HeuristicLab.Algorithms.Bandits.csproj">
+      <Project>{24408F7D-EE0F-4886-A08B-EC324D662E47}</Project>
+      <Name>HeuristicLab.Algorithms.Bandits</Name>
+    </ProjectReference>
+    <ProjectReference Include="..\HeuristicLab.Common\HeuristicLab.Common.csproj">
+      <Project>{3A2FBBCB-F9DF-4970-87F3-F13337D941AD}</Project>
+      <Name>HeuristicLab.Common</Name>
+    </ProjectReference>
     <ProjectReference Include="..\HeuristicLab.Problems.GrammaticalOptimization\HeuristicLab.Problems.GrammaticalOptimization.csproj">
       <Project>{cb9dccf6-667e-4a13-b82d-dbd6b45a045e}</Project>

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Common/Extensions.cs ¶

r11689	r11727
5	5	using System.Threading.Tasks;
6	6
7		namespace HeuristicLab.~~Problems.GrammaticalOptimizati~~on {
	7	namespace HeuristicLab.Common {
8	8	public static class Extensions {
9	9	public static bool IsAlmost(this double x, double y) {

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization.Test/TestBanditPolicies.cs ¶

-                      r11710
+                      r11727
       var seedForPolicy = globalRand.Next();
       var nArms = 10;
+      //Console.WriteLine("Exp3 (gamma=0.01)");
+      //TestPolicyBernoulli(globalRand, nArms, new Exp3Policy(new Random(seedForPolicy), nArms, 1));
+      //Console.WriteLine("Exp3 (gamma=0.05)");
+      //estPolicyBernoulli(globalRand, nArms, new Exp3Policy(new Random(seedForPolicy), nArms, 1));
+      Console.WriteLine("Thompson (Bernoulli)");
+      TestPolicyBernoulli(globalRand, nArms, new BernoulliThompsonSamplingPolicy(new Random(seedForPolicy), nArms));
       Console.WriteLine("Random");
       TestPolicyBernoulli(globalRand, nArms, new RandomPolicy(new Random(seedForPolicy), 10));
+      TestPolicyBernoulli(globalRand, nArms, new RandomPolicy(new Random(seedForPolicy), nArms));
       Console.WriteLine("UCB1");
       TestPolicyBernoulli(globalRand, nArms, new UCB1Policy(10));
+      TestPolicyBernoulli(globalRand, nArms, new UCB1Policy(nArms));
       Console.WriteLine("UCB1Tuned");
       TestPolicyBernoulli(globalRand, nArms, new UCB1TunedPolicy(10));
+      TestPolicyBernoulli(globalRand, nArms, new UCB1TunedPolicy(nArms));
       Console.WriteLine("UCB1Normal");
       TestPolicyBernoulli(globalRand, nArms, new UCBNormalPolicy(10));
+      TestPolicyBernoulli(globalRand, nArms, new UCBNormalPolicy(nArms));
       Console.WriteLine("Eps(0.01)");
       TestPolicyBernoulli(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), 10, 0.01));
+      TestPolicyBernoulli(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), nArms, 0.01));
       Console.WriteLine("Eps(0.05)");
       TestPolicyBernoulli(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), 10, 0.05));
       Console.WriteLine("Eps(0.1)");
       TestPolicyBernoulli(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), 10, 0.1));
       Console.WriteLine("Eps(0.2)");
       TestPolicyBernoulli(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), 10, 0.2));
       Console.WriteLine("Eps(0.5)");
       TestPolicyBernoulli(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), 10, 0.5));
+      TestPolicyBernoulli(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), nArms, 0.05));
+      //Console.WriteLine("Eps(0.1)");
+      //TestPolicyBernoulli(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), nArms, 0.1));
+      //Console.WriteLine("Eps(0.2)");
+      //TestPolicyBernoulli(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), nArms, 0.2));
+      //Console.WriteLine("Eps(0.5)");
+      //TestPolicyBernoulli(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), nArms, 0.5));
+    }
     [TestMethod]
 …
       var seedForPolicy = globalRand.Next();
       var nArms = 10;
+      Console.WriteLine("Thompson (Gaussian)");
+      TestPolicyNormal(globalRand, nArms, new GaussianThompsonSamplingPolicy(new Random(seedForPolicy), nArms));
       Console.WriteLine("Random");
       TestPolicyNormal(globalRand, nArms, new RandomPolicy(new Random(seedForPolicy), 10));
+      TestPolicyNormal(globalRand, nArms, new RandomPolicy(new Random(seedForPolicy), nArms));
       Console.WriteLine("UCB1");
       TestPolicyNormal(globalRand, nArms, new UCB1Policy(10));
+      TestPolicyNormal(globalRand, nArms, new UCB1Policy(nArms));
       Console.WriteLine("UCB1Tuned");
       TestPolicyNormal(globalRand, nArms, new UCB1TunedPolicy(10));
+      TestPolicyNormal(globalRand, nArms, new UCB1TunedPolicy(nArms));
       Console.WriteLine("UCB1Normal");
+      TestPolicyNormal(globalRand, nArms, new UCBNormalPolicy(10));
+      TestPolicyNormal(globalRand, nArms, new UCBNormalPolicy(nArms));
+      //Console.WriteLine("Exp3 (gamma=0.01)");
+      //TestPolicyNormal(globalRand, nArms, new Exp3Policy(new Random(seedForPolicy), nArms, 0.01));
+      //Console.WriteLine("Exp3 (gamma=0.05)");
+      //TestPolicyNormal(globalRand, nArms, new Exp3Policy(new Random(seedForPolicy), nArms, 0.05));
       Console.WriteLine("Eps(0.01)");
       TestPolicyNormal(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), 10, 0.01));
+      TestPolicyNormal(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), nArms, 0.01));
       Console.WriteLine("Eps(0.05)");
       TestPolicyNormal(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), 10, 0.05));
       Console.WriteLine("Eps(0.1)");
       TestPolicyNormal(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), 10, 0.1));
       Console.WriteLine("Eps(0.2)");
       TestPolicyNormal(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), 10, 0.2));
       Console.WriteLine("Eps(0.5)");
       TestPolicyNormal(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), 10, 0.5));
+      TestPolicyNormal(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), nArms, 0.05));
+      //Console.WriteLine("Eps(0.1)");
+      //TestPolicyNormal(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), nArms, 0.1));
+      //Console.WriteLine("Eps(0.2)");
+      //TestPolicyNormal(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), nArms, 0.2));
+      //Console.WriteLine("Eps(0.5)");
+      //TestPolicyNormal(globalRand, nArms, new EpsGreedyPolicy(new Random(seedForPolicy), nArms, 0.5));
+    }

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization.Test/TestSolvers.cs ¶

-                      r11708
+                      r11727
     private void TestBFS(IProblem prob, int len, int numExpectedSols) {
       var solver = new ExhaustiveBreadthFirstSearch(len);
+      var solver = new ExhaustiveBreadthFirstSearch(prob, len);
       int numSols = 0;
       solver.SolutionEvaluated += (s, d) => { numSols++; };
       solver.Run(prob, int.MaxValue);
+      solver.Run(int.MaxValue);
       Assert.AreEqual(numExpectedSols, numSols);
+    }

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/EvenParityProblem.cs ¶

r11659	r11727
50	50	return nCorrect;
51	51	}
	52
	53	public string Hash(string terminalPhrase) {
	54	return terminalPhrase;
	55	}
52	56	}
53	57	}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/ExpressionInterpreter.cs ¶

r11659	r11727
6	6	using System.Text;
7	7	using System.Threading.Tasks;
	8	using HeuristicLab.Common;
8	9
9	10	namespace HeuristicLab.Problems.GrammaticalOptimization {

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/Grammar.cs ¶

-                      r11659
+                      r11727
 using System.Text.RegularExpressions;
 using System.Xml.Linq;
+using HeuristicLab.Common;
 namespace HeuristicLab.Problems.GrammaticalOptimization {
 …
       while (!done) {
         int ntIdx; char nt;
         FindFirstNonTerminal(phrase, out nt, out ntIdx);
+        FindFirstNonTerminal(this, phrase, out nt, out ntIdx);
         int maxLenOfReplacement = maxLen - (phrase.Length - 1); // replacing aAb with maxLen 4 means we can only use alternatives with a minPhraseLen <= 2
 …
+    }
     private void FindFirstNonTerminal(string phrase, out char nt, out int ntIdx) {
+    public static void FindFirstNonTerminal(IGrammar g, string phrase, out char nt, out int ntIdx) {
       ntIdx = 0;
       while (ntIdx < phrase.Length && IsTerminal(phrase[ntIdx])) ntIdx++;
+      while (ntIdx < phrase.Length && g.IsTerminal(phrase[ntIdx])) ntIdx++;
       if (ntIdx >= phrase.Length) {
         ntIdx = -1;

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/HardPalindromeProblem.cs ¶

r11659	r11727
39	39	}
40	40
	41	public string Hash(string terminalPhrase) {
	42	return terminalPhrase;
	43	}
41	44	}
42	45	}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization.csproj ¶

-                      r11659
+                      r11727
   <ItemGroup>
     <Compile Include="ExpressionInterpreter.cs" />
-    <Compile Include="Extensions.cs" />
     <Compile Include="Grammar.cs" />
     <Compile Include="EvenParityProblem.cs" />
+    <Compile Include="SentenceSetStatistics.cs" />
     <Compile Include="SymbolicRegressionPoly10Problem.cs" />
     <Compile Include="SantaFeAntProblem.cs" />
 …
     <Compile Include="RoyalTreeProblem.cs" />
   </ItemGroup>
+  <ItemGroup>
+    <ProjectReference Include="..\HeuristicLab.Common\HeuristicLab.Common.csproj">
+      <Project>{3A2FBBCB-F9DF-4970-87F3-F13337D941AD}</Project>
+      <Name>HeuristicLab.Common</Name>
+    </ProjectReference>
+  </ItemGroup>
   <Import Project="$(MSBuildToolsPath)\Microsoft.CSharp.targets" />
   <!-- To modify your build process, add your task inside one of the targets below and uncomment it.

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/IProblem.cs ¶

r11659	r11727
9	9	IGrammar Grammar { get; }
10	10	double Evaluate(string sentence);
	11	string Hash(string terminalPhrase);
11	12	}
12	13	}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/PalindromeProblem.cs ¶

r11659	r11727
79	79	return result.ToString();
80	80	}
	81
	82	public string Hash(string terminalPhrase) {
	83	return terminalPhrase;
	84	}
81	85	}
82	86	}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/RoyalPairProblem.cs ¶

r11659	r11727
33	33	return regex.Matches(sentence).Count;
34	34	}
	35
	36	public string Hash(string terminalPhrase) {
	37	return terminalPhrase;
	38	}
35	39	}
36	40	}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/RoyalRoadProblem.cs ¶

r11659	r11727
29	29	throw new NotImplementedException();
30	30	}
	31	public string Hash(string terminalPhrase) {
	32	return terminalPhrase;
	33	}
31	34
32	35	}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/RoyalSymbolProblem.cs ¶

r11659	r11727
33	33	return regex.Matches(sentence).Count;
34	34	}
	35	public string Hash(string terminalPhrase) {
	36	return terminalPhrase;
	37	}
	38
35	39	}
36	40	}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/RoyalTreeProblem.cs ¶

r11659	r11727
29	29	throw new NotImplementedException();
30	30	}
	31	public string Hash(string terminalPhrase) {
	32	return terminalPhrase;
	33	}
31	34
32	35	}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/SantaFeAntProblem.cs ¶

r11708	r11727
96	96	p++;
97	97	}
	98	}
	99
	100	public string Hash(string terminalPhrase) {
	101	return terminalPhrase.Replace("rl", "").Replace("lr", "");
98	102	}
99	103	}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/HeuristicLab.Problems.GrammaticalOptimization/SymbolicRegressionPoly10Problem.cs ¶

-                      r11708
+                      r11727
 using System.Security.AccessControl;
 using System.Text;
+using HeuristicLab.Common;
 namespace HeuristicLab.Problems.GrammaticalOptimization {
   public class SymbolicRegressionPoly10Problem : IProblem {
+    //    private const string grammarString = @"
+    //    G(E):
+    //    E -> V | V+E | V-E | V*E | (E)
+    //    V -> a .. j
+    //    ";
     private const string grammarString = @"
+G(E):
+E -> V | V+E | V-E | V*E | V/E | (E)
+V -> a .. j
+";
+    G(E):
+    E -> a | b | c | d | e | f | g | h | j | a+E | b+E | c+E | d+E | e+E | f+E | g+E | h+E | j+E | a*E | b*E | c*E | d*E | e*E | f*E | g*E | h*E | j*E
+    ";
 …
       return s * s / (ssX * ssY);
+    }
+    // right now only + and * is supported
+    public string Hash(string terminalPhrase) {
+      var terms = terminalPhrase.Split('+');
+      return string.Join("+", terms.Select(term => string.Join("", term.Replace("*", "").OrderBy(ch => ch)))
+        .OrderBy(term => term));
+    }
+  }
+}

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/Main/Main.csproj ¶

-                      r11659
+                      r11727
   </ItemGroup>
   <ItemGroup>
+    <ProjectReference Include="..\HeuristicLab.Algorithms.Bandits\HeuristicLab.Algorithms.Bandits.csproj">
+      <Project>{24408F7D-EE0F-4886-A08B-EC324D662E47}</Project>
+      <Name>HeuristicLab.Algorithms.Bandits</Name>
+    </ProjectReference>
     <ProjectReference Include="..\HeuristicLab.Algorithms.GrammaticalOptimization\HeuristicLab.Algorithms.GrammaticalOptimization.csproj">
       <Project>{eea07488-1a51-412a-a52c-53b754a628b3}</Project>

TabularUnified branches/HeuristicLab.Problems.GrammaticalOptimization/Main/Program.cs ¶

-                      r11690
+                      r11727
 using System;
 using System.Collections.Generic;
+using System.Data;
 using System.Diagnostics;
 using System.Linq;
 using System.Text;
+using System.Threading.Tasks;
+using HeuristicLab.Algorithms.Bandits;
 using HeuristicLab.Algorithms.GrammaticalOptimization;
 using HeuristicLab.Problems.GrammaticalOptimization;
 …
   class Program {
     static void Main(string[] args) {
+      // RunDemo();
+      RunGridTest();
+    }
+    private static void RunGridTest() {
+      int maxIterations = 150000;
+      var globalRandom = new Random(31415);
+      var reps = 10;
+      Parallel.ForEach(new int[] { 1, 5, 10, 100, 500, 1000 }, (randomTries) => {
+        Random localRand;
+        lock (globalRandom) {
+          localRand = new Random(globalRandom.Next());
+        }
+        var policyFactories = new Func<int, IPolicy>[]
+        {
+          (numActions) => new RandomPolicy(localRand, numActions),
+          (numActions) => new UCB1Policy(numActions),
+          (numActions) => new UCB1TunedPolicy(numActions),
+          (numActions) => new UCBNormalPolicy(numActions),
+          (numActions) => new EpsGreedyPolicy(localRand, numActions, 0.01),
+          (numActions) => new EpsGreedyPolicy(localRand, numActions, 0.05),
+          (numActions) => new EpsGreedyPolicy(localRand, numActions, 0.1),
+          (numActions) => new EpsGreedyPolicy(localRand, numActions, 0.2),
+          (numActions) => new EpsGreedyPolicy(localRand, numActions, 0.5),
+          (numActions) => new GaussianThompsonSamplingPolicy(localRand, numActions),
+          (numActions) => new BernoulliThompsonSamplingPolicy(localRand, numActions)
+        };
+        foreach (var policyFactory in policyFactories)
+          for (int i = 0; i < reps; i++) {
+            int iterations = 0;
+            var sw = new Stopwatch();
+            var globalStatistics = new SentenceSetStatistics();
+            // var problem = new SymbolicRegressionPoly10Problem();
+            var problem = new SantaFeAntProblem();
+            //var problem = new PalindromeProblem();
+            //var problem = new HardPalindromeProblem();
+            //var problem = new RoyalPairProblem();
+            //var problem = new EvenParityProblem();
+            var alg = new MctsSampler(problem, 17, localRand, randomTries, policyFactory);
+            //var alg = new ExhaustiveBreadthFirstSearch(problem, 25);
+            //var alg = new AlternativesContextSampler(problem, 25);
+            alg.SolutionEvaluated += (sentence, quality) => {
+              iterations++;
+              globalStatistics.AddSentence(sentence, quality);
+              if (iterations % 10000 == 0) {
+                Console.WriteLine("{0} {1} {2}", randomTries, policyFactory(1), globalStatistics);
+              }
+            };
+            sw.Start();
+            alg.Run(maxIterations);
+            sw.Stop();
+          }
+      });
+    }
+    private static void RunDemo() {
+      // TODO: implement threshold ascent
+      // TODO: implement inspection for MCTS
       int maxIterations = 10000000;
       int iterations = 0;
 …
       double bestQuality = 0;
       string bestSentence = "";
+      var globalStatistics = new SentenceSetStatistics();
+      var random = new Random(31415);
+      var rs = new ExhaustiveDepthFirstSearch(17);
+      // var problem = new SymbolicRegressionPoly10Problem();
+      var problem = new SantaFeAntProblem();
+      //var problem = new PalindromeProblem();
+      //var problem = new HardPalindromeProblem();
+      //var problem = new RoyalPairProblem();
+      //var problem = new EvenParityProblem();
+      var alg = new MctsSampler(problem, 17, random);
+      //var alg = new ExhaustiveBreadthFirstSearch(problem, 25);
+      //var alg = new AlternativesContextSampler(problem, 25);
       rs.FoundNewBestSolution += (sentence, quality) => {
+      alg.FoundNewBestSolution += (sentence, quality) => {
         bestQuality = quality;
         bestSentence = sentence;
         Console.WriteLine("{0,10} {1,10:F5} {2,10:F5} {3}", iterations, bestQuality, quality, sentence);
       };
       rs.SolutionEvaluated += (sentence, quality) => {
+      alg.SolutionEvaluated += (sentence, quality) => {
         iterations++;
+        globalStatistics.AddSentence(sentence, quality);
         if (iterations % 10000 == 0) {
+          Console.WriteLine("{0,10} {1,10:F5} {2,10:F5} {3}", iterations, bestQuality, quality, sentence);
+          //Console.WriteLine("{0,10} {1,10:F5} {2,10:F5} {3}", iterations, bestQuality, quality, sentence);
+          Console.WriteLine(globalStatistics.ToString());
+        }
       };
 …
       sw.Start();
       rs.Run(new SymbolicRegressionPoly10Problem(), maxIterations);
+      alg.Run(maxIterations);
       sw.Stop();

Note: See TracChangeset for help on using the changeset viewer.