Bayesian Optimization Nando de Freitas

Size: px

Start display at page:

Download "Bayesian Optimization Nando de Freitas"

Cynthia Farmer
5 years ago
Views:

1 Bayesian Optimization Nando de Freitas Eric Brochu, Ruben Martinez-Cantin, Matt Hoffman, Ziyu Wang,

2 More resources This talk follows the presentation in the following review paper available fro Oxford website.

3 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

4 Black-box optimization / design

6 Automatic machine learning [Hoffman, Shahriari & df, 2013]

7 Information extraction / concept learning I love silence of the lambs. It s a scary movie. The confit de canard was delish! Expert tuning by Hector Garcia-Molina et al: Towards The Web Of Concepts: Extracting Concepts from Large Datasets [Ziyu Wang et al, 2014]

8 Automatic (Adaptive) Monte Carlo samplers [Wang, Mohamed & df, 2013]

9 Analytics, dynamic creative content and A/B testing [Steve Scott on Bayesian bandits at Google]

10 animation session target [Brochu, Ghosh & df, Brochu, Brochu, df, 2010] Winner of the SRC competition - SIGGRAPH

11 Tuning NP hard problem solvers lpsolve is a mixed integer programming solver, downloaded over 40,000 times last year. 47 discrete parameters (choices)

12 [Denil et al 2012]

13 GP Policy for tracking Digits Experiment: Face Experiment: 13

14 Hierarchical reinforcement learning High-level model-based learning for deciding when to navigate, park, pickup and dropoff passengers. Mid-level active path learning for navigating a topological map. Low-level active policy optimizer to learn control of continuous non-linear vehicle dynamics.

15 Active Path Finding in Middle Level Navigate policy generates sequence of waypoints on a topological map to navigate from a location to a destination.

16 Low-Level: Trajectory following TORCS: 3D game engine that implements complex vehicle dynamics complete with manual and automatic transmission, engine, clutch, tire, and suspension models.

17 Bayesian optimization was used to find the neural net low-level policy and the value function for the upper levels

18 Many other applications Robotics, control, reinforcement learning, SAT solvers, scheduling, planning Configuration of ad-centers, compilers, hardware, software Programming by optimization

19 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

20 Bayesian parametric optimization

21 Beta-Bernoulli Bayesian optimization Consider the following K-armed bandit setting. money!

22 Beta-Bernoulli Bayesian optimization Specify a Beta prior on each arm:

23 Beta-Bernoulli Bayesian optimization

24 Thompson sampling At each iteration, draw a sample from the poster Pick the action of highest expected return

25 Thompson sampling

26 Linear bandits Introduce correlations among the arms Use standard conjugate Normal Inverse Gamma p

27 Linear bandits The posterior mean and covariance are analytical Once again, it is straightforward to do Thompson

28 Being linear in features It is trivial to extend the linear model using feature Features can be RBFs, sinusoids Or even popular deep networks

29 One reason for Bayes The predictive distribution at a test point x is: Z p(yjx; D; ¾ 2) = N (yjxµ; ¾ 2)N (µjµn ; V n )dµ = N (yjxµn ; ¾ 2 + xv n xt ) The variance in this prediction, ¾n2 (x), depends on two terms: the servation noise with variance ¾ 2, and the parameter uncertainty xv this latter term varies depending on how close x is to the training D. The error bars get larger as we move away from the training po representing increased uncertainty. By contrast, the plugin approximation has constant sized error bars, Z ^ ¾ 2) p(yjx; D; ¾ 2) ¼ N (yjxµ; ¾ 2)±µ^(µ)dµ = p(yjxµ;

30 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

31 From linear models to Gaussian processes

32 Gaussian processes

33 Gaussian processes

34 GP log marginal likelihood And GP hyper-parameters

35 Trees for regression [Criminisi et al, 2011]

36 Regression trees [Criminisi et al, 2011]

37 Regression forests [Criminisi et al, 2011]

38 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

39 Bayesian experimental design Uses the principle of maximum expected utility: Example 1: active learning Example 2: sequential decision making with discou

40 Some acquisition functions

41 Thompson sampling with GPs Posterior over location of the minimum: Thompson: Mechanism:

42 Randomized Thompson sampling Bochner s lemma tell us that: With sampling and this lemma, we can construct a feature based approximation that is amenable to computing. Then do linear Bayesian optimization with sinuso

43 Entropy search and variants Posterior over location of the minimum: Utility: minimize uncertainty of location of minimum

44 The choice of utility in practice [Hoffman, Shahriari & df, 2013]

45 The choice of utility in practice

46 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

47 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

48 Hyper-parameters and robustness Learning the hyper-parameters of the GP is important. The tuning method must be automatic! One of the best ways to manage the GP hyper-parameters is to integrate them out, e.g. with slice sampling as in Spearmint. But this is still dangerous!

49 Hyper-parameters and robustness

50 Spearmint Slice sampling Ziyu Wang & NdF 2014 Theory bounds

51 Spearmint Slice sampling Ziyu Wang & NdF 2014 Theory bounds

52 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

53 Analysis of Bayes Opt Proposition 1 (Variance Bound) : Theorem 2 (Vanishing regret) : [df, Zoghi & Smola, 2012]

55 Multi-scale optimistic optimization [Remi Munos - SOO, UCT] [Ziyu Wang et al, 2014]

56 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

57 Conditional parameters A big problem in deep learning (see Torch 7)

58 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

59 Input warping [Jasper Snoek, Kevin Swersky, Rich Zemel, Ryan Adams,

60 Treed BayesOpt [Assael, Wang and NdF Rob Gramacy has may papers using trees and GPs ]

62 Treed BayesOpt

63 Treed BayesOpt

64 Treed BayesOpt Aggregate to deal with paucity of data in leaves to estimate the hyper-parameters

65 Warping + trees

66 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

67 Parallelization Talk to David Ginsbourger. Essentially, augment the observations for finished runs with predicted observations for unfinished runs. E.g.,

68 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

69 Constraints and cost sensitivity There are many approaches (Gramacy, Snoek, ). Could use a GP with binary observations h(.) that indicate the probability of the constraint being satisfied: Often trivial scaling is used to deal with time.

70 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

71 Random Embedding Bayesian Optimization [Wang, Zoghi, Matheson, Hutter & df, IJCAI 2013 Distinguished paper award]

73 Scaling to over a billion dimensions

74 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

75 Multi-task Define a kernel over tasks (ouputs) and inputs. E. Can also do BayesOpt with many parametric approaches to contextual / multi-task regression. E.g. context could be features of

76 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

77 Freeze-thaw learning curve prediction [Kevin Swersky et al, See also work of David Ginsbourger and Frank Hutter]

78 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

79 Unknown optimization boundary [Bobak Shahriari et al, 2015

80 Unknown optimization boundary [Bobak Shahriari et al, 2015

81 Outline Some applications Parametric Bayesian optimization Beta-Bernoulli bandit models Linear bandit models Neural network and other feature-based models Non-Parametric Bayesian optimization Gaussian processes Random forests Acquisition functions A huge bag of problems Hyper-parameters and robustness Optimizing acquisition functions Conditional spaces Non-stationarity Parallelization Constraints and cost sensitivity High-dimensions Multi-task / context Freeze-thaw / early stopping Unknown optimization regions Empirical hardness models and variants

82 Empirical Hardness Models Formally, given a set of particular problem instances, p P, and an algorithm, a A (with free-parameters), the objective of performance prediction is to build a model that predicts the performance of a when run on an arbitrary p P. See work of Kevin Leyton-Brown and Holger Hoos.

83 Thank you

arxiv: v1 [cs.lg] 29 May 2014

arxiv: v1 [cs.lg] 29 May 2014 BayesOpt: A Bayesian Optimization Library for Nonlinear Optimization, Experimental Design and Bandits arxiv:1405.7430v1 [cs.lg] 29 May 2014 Ruben Martinez-Cantin rmcantin@unizar.es May 30, 2014 Abstract