Versuche

5.000 €

Budget

Unbekannte Funktion

Können Sie das Optimum finden?

Bayes’sche Optimierung
in der Materialsynthese

Kevin Maik Jablonka

mail@kjablonka.com

Lernziele

Am Ende dieser Einheit können Sie …

… erklären, warum sequentielle Optimierung effizienter ist als Rastersuche.

… die Komponenten eines Gauß-Prozesses (μ, σ, Kernel) benennen und interpretieren.

… die Acquisition Function Expected Improvement in eigenen Worten beschreiben.

Das Szenario

Keramik-Beschichtung. Härte = f(Temperatur).
500 €/Exp., 8h/Exp. Budget: 10 Versuche. Black-Box.

Wo setzen Sie Ihre 10 Versuche?

Rastersuche — drei Samplings, drei Budgets

… und es wird schlimmer

Fluch der Dimensionalität — kombinatorische Explosion bei jedem zusätzlichen Parameter

1 Parameter

2 Parameter

3 Parameter

125

10 Parameter

9.765.625

5¹ = 5→5² = 25→5³ = 125→···→5ⁿ

Budget: 10 Versuche

✗ Budget blind verteilt — keine Informationsgrundlage

✗ Alle Investitionen vorab — kein Dazulernen

Wir können den Raum nicht abtasten. Wir müssen gezielt investieren.

Dazulernen: Bayes’sche Optimierung

Jeden Versuch gezielt investieren — auf Basis des bisherigen Wissens

Messen

→

Modellieren

μ + σ

→

Entscheiden

Wo?

↻ Wiederholen

Schritt 2: Surrogatmodell

Ohne Modell

Zwischen Messpunkten: raten.

Surrogatmodell

Billiges Ersatzmodell.
Vorhersage überall.
Millisekunden statt Stunden.

Muss liefern:

μ(x) = erwartete Härte + σ(x) = wie sicher?

Gauß-Prozess

Verteilung über Funktionen: μ und σ analytisch. Annahmen im Kernel.

ℓ = Reichweite. Slider → Effekt:

ℹ Alternativen: Matérn, RF, TPE, BNN.

GPR in Aktion Interaktiv

Klicken = Experiment. Nach 3: wo würden Sie messen?

ℹ μ = gewichtete Summe der Messwerte. Gewichte aus dem Kernel.

Wo investieren wir den nächsten Versuch?

Exploitation (ausnutzen)

Wo μ maximal → lokales Optimum

Exploration (erkunden)

Wo σ maximal → unbekannte Regionen

Welche Strategie gewinnt? Umschalten:

Kandidat bewerten — zwei Signale Interaktiv

Schieben Sie μ (Position) und σ (Unsicherheit) der GP-Vorhersage. Wann dominiert die Fläche, wann die Höhe?

Expected Improvement

EI ist die gewichtete Summe der beiden Signale

Φ = Fläche unter der Kurve rechts von f_best · φ = Höhe der Kurve bei f_best

BO wählt den Kandidaten mit dem höchsten EI aus allen Optionen.

ℹ EI=0 an gemessenen Punkten. Alt.: UCB, PI, Knowledge Gradient.

Der komplette BO-Kreislauf Interaktiv

Messen → Modellieren → Investieren → Wiederholen

Was nehmen Sie mit?

Wann BO?

Experiment teuer + Black-Box + wenige Durchläufe

Kernidee

Jedes Experiment ist eine Investition. GP liefert μ + σ. Die Acquisition Function maximiert den erwarteten Fortschritt pro Versuch.

Nächste Woche

Wie wählt man ℓ? · Batch-BO · Multi-Objective · BoTorch, Ax

Raten

Investieren

Jeder Versuch ist eine Investition.
Bayes'sche Optimierung maximiert den Fortschritt zum Optimum.

Kevin Maik Jablonka

mail@kjablonka.com

Anonymes Feedback

admonymous.co/kjappelbaum

Backup

Zusatzmaterial für die Diskussion

17 — Posterior im Detail (μ, σ²-Formel)

18 — Verwandte Arbeiten aus meiner Forschung

19 — BO vs. Active Learning vs. DoE

20 — Kernel-Familie & Hyperparameter

21 — Erweiterungen: Batch, Multi-Objective, Hochdim.

22 — Tools & Literatur

Posterior im Detail Backup

μ ist eine gewichtete Summe der Messwerte — die Gewichte kommen aus dem Kernel

μ(x*)=Nähe×Korrektur×Messwerte

μ(x*) = k*ᵀ (K+σ²I)⁻¹ y

k* — Nähe von x* zu jedem Messpunkt (1 = drauf, 0 = weit weg)
(K+σ²I)⁻¹ — Redundanzkorrektur. Nahe Messungen teilen sich das Gewicht, statt doppelt zu zählen. Gelöst wie Ax = b in LinAlg.
y — Messwerte. Gewichtete Summe → Interpolation.

σ²(x*) = k(x*,x*) − k*ᵀ(K+σ²I)⁻¹k* — Anfangsunsicherheit minus Information aus nahen Messpunkten.

BO vs. Active Learning vs. DoE Backup

Design of Experiments

Ziel: Screening
Strategie: alle Punkte vorab
Nicht sequentiell
Latin Hypercube, vollfaktoriell

Active Learning

Ziel: das Modell
Strategie: max. σ-Reduktion
Sequentiell
Funktion verstehen