Procrustes analysis

Gleichzeitige Analyse von zwei Datensätzen bei der Analyse der Olivendaten
RSTAT
BIOSTATISTICS
PAP
Author

Gerd Welzl

Published

March 3, 2023

1 Einleitung

Die Visualisierung von multivariaten Daten stellt ein wichtiges statistisches Problem dar.

Multivariate Daten liefern Datensätze, die auf vielfältige Weise organisiert sein können. Eine besonders einfachen Organisationsform ist eine Datenmatrix - genannt tidy data (Wickham 2014), wobei die Daten von n Stichproben und m Variablen dargestellt werden. Es soll gelten:

  • Jede Variable hat eine eigene Spalte.
  • Jede Stichprobe hat eine eigene Reihe.
  • Jeder Messwert hat eine eigene Zelle.

Biplots erlauben einen Blick auf diese Form von Datenmatrizen mit Informationen sowohl über die Stichproben als auch über die Variablen. Diese gemeinsame Präsentation von Stichproben und Variablen erlaubt beides: die Interpretation von Stichprobenclustern als auch die Beschreibung der Relationen zwischen Variablen bzw. zwischen Variablen und Objekten (siehe auch dieser Blog: Calibrated biplots - looking at tidy data).

Eine etwas andere Ausgangssituation liegt vor, wenn zwei Datenmatrizen gleichzeitig analysiert werden sollen. Folgende Situation sei zugrunde gelegt: die zwei Datensätze entstehen dadurch, dass zwei unterschiedlichen Variablensätze an den gleichen Stichproben gemessen werden. Neben der Visualisierung dieser Datenmatrizen mittels kalibrierter Biplots sind insbesondere die Korrelationen zwischen den beiden Variablensätzen von Interesse. Zur gemeinsamen Analyse werden üblicherweise zwei verschiedene Vorgehensweisen - beide basierend auf Hauptkomponentenanalysen - vorgeschlagen:

  • Procrustes Analyse
  • Kanonische Korrelationsanalyse.

2 Beschreibung der Olivenöl Daten

Als klassisches Beispiel für eine derartige Problemstellung wird in der Literatur häufig ein Datensatz über \(\color{orange}{Olivenöl}\)stichprobenDaten verwendet. Bei 16 Stichproben aus drei verschiedenen Ländern wurden sechs sensorische Eigenschaften abgefragt und fünf physikalisch-chemische Parameter ermittelt.

2.1 Beschreibung der sensorischen Daten - kalibrierte Biplots

Die sensorischen Merkmale der Olivenöldaten beziehen sich einmal auf die Farbe der Stichprobe (grün, gelb, braun), zum anderen auf optische Eigenschaften (glänzend, sirupartig, durchsichtig).

Bei der statistischen Analyse können Merkmale sowohl univariat (z.B durch Histogramme), bivariat durch sog. Scatterplots für jeweils zwei Variable als auch multivariat beschrieben werden. Eine multivariate Auswertung durch die sog. Hauptkomponentenanalyse (principal component analysis, PCA) erlaubt die gleichzeitige Berücksichtigung mehrerer Variabler. Allerdings steht dabei häufig die Konstruktion (und häufig recht willkürliche) Interpretation der latenten Variablen im Vordergrund. Erst die Möglichkeit der Konstruktion von kalibrierten Biplots (Understandig Biplots (Gower, Lubbe, and le Roux 2011)) ermöglicht eine erweiterte Deskription der Daten. Dabei werden die Achsen, die die latenten Variablen repräsentieren nicht gezeigt (in Standardbiplots meist mit PC1 und PC2 bezeichnet); sie bilden lediglich eine Art Gerüst auf dessen Grundlage der Biplot aufgebaut ist. Zu berücksichtigen ist, dass durch die Darstellung im zweidimensionalen Raum Information verlorengeht.

In der folgenden Abbildung sind die sensorischen Daten für die 16 Olivenölproben dargestellt. Allgemein lässt sich erkennen, dass die Stichproben der spanischen und griechischen Öle einheitlicher sensorisch bewertet werden, wobei bei griechischen Olivenölen eher die Farbe grün, bei spanischen eher die Farbe gelb dominiert. Die Verwendung kalibrierter Achsen läßt auch einen Rückschluss auf die Originalwerte zu. Beispielsweise liegen die Transparenzwerte für die spanischen Öle alle über den Wert 82. Durch Projektion auf die kalibrierten Achsen lassen sich diese Werte ablesen. In der Abbildung sind diese Werte für eine Stichprobe (I5) eingezeichnet (z.B. für brown der Wert 24.4 - Originalwert 28.4, für syrup der Wert 52.8 - Originalwert 52.8).

Die Darstellung eines kalibrierten Biplots ist nicht eindeutig. Die Achsen können sowohl durch Rotation als auch durch orthogonale Verschiebung verändert werden (Die auf die Achsen projezierten Werte bleiben dabei erhalten).

Figure 1: Biplot (kalibriert) mit sensorischen Variablen

2.2 Beschreibung der chemischen-physikalischen Daten - kalibrierte Biplots

Die Liste der erhobenen chemisch-physikalischen Parameter umfasst folgende Merkmale:

  • Peroxide
  • K232
  • Säuregehalt
  • K270
  • delta K-Wert (DΚ)

Die Peroxidzahl (in mmol/kg) gibt einen Hinweis darauf, ob das Olivenöl der Oxidation ausgesetzt war.

Ein erhöhter K232-Wert deutet auch auf Oxidationsprozesse im Olivenöl hin.

Der K270-Wert verrät, wie frisch das Olivenöl ist.

Der delta K-Wert (DΚ) wird aus den Werten K266, K270 und K274 berechnet und dient als Vergleichswert.

Die folgende Abbildung zeigt, dass die italienischen Öle in der Stichprobe höhere Peroxid und K232 Werte aufweisen (zwei Merkmale, die nach Definition Ähnliches messen). Außerdem sind zwei Stichproben (G2 und G3) untypisch bezüglich ihres DK-Wertes in Relation zu den übrigen Stichproben griechischer Öle.

Figure 2: Biplot (kalibriert) mit chemischen Varaiblen

3 Gemeinsame Analyse von sensorischen und physikalisch-chemischen Olivenöldaten

Nach der getrennten Analyse der beiden Datenmatrizen stellt sich die Frage nach einer gemeinsamen Analyse mit der Möglichkeit, Zusammenhänge zwischen den sensorischen und physikalisch-chemischen Merkmalen zu erkennen.

Wird eine symmetrische Betrachtungsweise zugrunde gelegt (und nicht etwa eine response - predictor Relation, wobei in einer Matrix die response- in der zweiten die predictor-Mermale zusammengefasst sind), so werden zwei verschiedene Vorgehensweisen - beide basierend auf Hauptkomponentenanalysen - vorgeschlagen:

  • Procrustes Analyse
  • Kanonische Korrelationsanalyse

3.1 Procrustes Analyse

Kleiner Ausflug in die griechische Mythologie:

Prokrustes war ein grausamer Gutsbesitzer, der in Korydallos in Attika lebte, in der Nähe des Weges, der von der Stadt Athen nach Eleusis führte, dem Ort der Mysterienspiele. Prokrustes hatte eine eigenartige Auffassung von Gastfreundschaft: Er entführte Reisende, setzte ihnen ein üppiges Nachtmahl vor und lud sie dann ein, die Nacht in einem höchst wunderbaren Bett zu verbringen. Er wollte Gast und Bett unter allen Umständen passend machen. Zu großen Männern wurden deshalb die Beine mit einer scharfen Axt abgehackt; die zu kleinen wurden auf die richtige Länge gedehnt. (der eigentliche Name des grausamen Wirts soll Damastes oder Polyphemon gewesen sein. “Prokrustes” ist ein Beiname und bedeutet “der Strecker”.) In einem Akt wahrer poetischer Gerechtigkeit wurde Prokrustes dann aber mit seinen eigenen Waffen geschlagen. Einer der Wanderer war der furchtlose Theseus, der im weiteren Verlauf seiner Heldenkarriere den Minotaurus besiegen sollte. Nach dem üblichen Abendessen zwang Theseus Prokrustes in das Bett. Um in in gewohnter Perfektion einzupassen, schlug Theseus dem Prokrustes den Kopf ab, womit er der Vorgehensweise von Kerkules folgte, Vergehen mit gleicher Münze heimzuzahlen. ((Taleb 2010) und Figure 3).

Figure 3: Theseus und Prokrustes: Detail einer Schale im British Museum

Die Analogie zu statistischen Verfahren ist weniger blutrünstig: Auf der Basis je einer Haupkomponentenanalyse (PCA) für jede der Datenmatrizen entstehen Punktmuster für die Biplotpunkte (in den ersten beiden Abbildungen mit G1 - G5, I1 - I5 und S1 - S6 gekennzeichnet). Ziel der Prokrustes Analyse ist es, PCAs so zu bestimmen, dass deren Biplotpunkte durch Rotation, Reflexion und Skalierung (Prokrustes´ Spezialität) möglichst zur Deckung gebracht werden können.

Vergleicht man Figure 1 mit Figure 2 so sind bereits (zugegebenermaßen nach etwas Spiegelung und Drehung) einige Übereinstimmungen zu erkennen (Spanische Stichproben - mitte links, italienische - rechts oben, griechische mitte unten). Bei den punktweisen Vergleichen kommt es jedoch zu mehr oder minder großen Fehlern. Ziel der Prokrustes Analyse ist, die Summe dieser Fehlerquadrate zu minimieren.

3.1.1 Analyse mit dem Programm procuste (library ade4 aus R)

Zur konkreten Durchführung der Prokrustes Analyse steht das Programm procuste (library ade4 aus R (Dray and Dufour 2007)) zur Verfügung. Im Gegensatz zu dem Vorgehen von Prokrustes kann die Analyse natürlich auch zu unbefriediegenden Ergebnissen führen kann (wenn kaum eine Überdeckung möglich ist). Um dies zu überprüfen gibt es die Möglichkeit, einen Randomisierungstest durchzuführen (procuste.randtest), um zu bestimmen, ob die beobachtete Summe der Fehlerquadrate kleiner ist als die zufällig zu erwartende.

Der Monte-Carlo Test für die Olivenöldaten ergibt eine Ablehnung der Nullhypothese von keinem Zusammenhang zwischen sensorischen und chemischen Variablen. Die beobachtete Testgröße (markiert mit Quadrat) ist unter der Nullhypothese sehr unwahrscheinlich (Figure 4, p < 0.01).

Monte-Carlo test
Call: procuste.randtest(df1 = pca1$tab, df2 = pca2$tab, nrepet = 9999)

Observation: 0.7055048 

Based on 5138 replicates
Simulated p-value: 0.0001945904 
Alternative hypothesis: greater 

    Std.Obs Expectation    Variance 
4.270302855 0.384326696 0.005656847 

Figure 4: Monte-Carlo Test

Einen Eindruck über die Güte der Überdeckung vermittelt auch die gemeinsame Darstellung der Biplotpunkte (samples) der beiden PCAs, die durch einen Pfeil verbunden sind. Figure 5 lässt erkennen, dass die Übereinstimmung bei den spanischen Stichproben am größten ist, zwei griechische Stichproben (G2 und G3) aber größere Abweichungen aufweisen.

Figure 5: Vergleich der PCAs

Der eigentliche Vergleich der beiden Parametergruppen ergibt sich aus dem Vergleich der Biplotvektoren der beiden PCAs nächste Abbildung (Figure 6). Am augenscheinlichsten düfte der Zusammenhang der Bewertungen braun und syrupartig mit den Werten von Peroxid und K232 sein.

(a) sensorisch

(b) physikalisch-chemisch

Figure 6: Biplotvectors

3.1.2 Analyse mit symmetrischer singular value decomposition der Korrelationsmatrix

Es zeigt sich, dass sich die Lösung des Optimierungsproblems bei der Prokrustes Analyse auch direkt aus der Kovarianzmatrix der beiden Ausgangsmatrizen ableiten läßt. Eine symmetrische singular value decomposition der Kovarianzmatrix liefert direkt Biplotpunkte und Biplotvektoren (wegen symmetrischer Analyse vertauschbar). Das in Figure 7 gezeigte Ergebnis ist identisch zu dem in der vorherigen Abbildung gezeigtem Ergebnis (mit Programm procuste erzeugt).

Figure 7: Biplotvectors - Procrustes analysis

Diese direkte Analyse der Korrelationsmatrix hat den Vorteil, dass mittels kalibrierter Biplots alle (approximierten) Korrelationskoeffizienten abgelesen werden können. So zeigt folgende Abbildung z.B. Korrelationskoeffizienten für die Beziehung zwischen der Eigenschaft brown und den Peroxid- und K232-Werten von über 0.8 bzw. über 0.75, wobei die rot eingezeichneten Korrelationen signifikant (Pearson Korrelation, alpha = 0.05, adjustiert nach der Methode von Holm) von Null verschieden sind.

Figure 8: Kalibrierte physikalisch-chemische Biplotvectors: Prokrustes analysis

References

Dray, S, and A Dufour. 2007. “The Ade4 Package. Implementing the Duality Diagram for Ecologists.” Journal of Statistical Software 22: 1–20. https://doi.org/10.18637/jss.v022.i04.
Gower, John, Sugnet Lubbe, and Niëll le Roux. 2011. Understanding Biplots. Wiley. https://onlinelibrary.wiley.com/doi/pdf/10.1002/9780470973196.fmatter.
Taleb, Nassim Nicholas. 2010. Kleines Handbuch Für Den Umgang Mit Unwissen. Random House GmbH.
Wickham, Hadley. 2014. “Tidy Data.” http://www.jstatsoft.org/v59/i10/paper.