XML Path Language
Definition
Die XML Path Language (XPath) ist eine Abfragesprache, die XML-Fragmente als Baum interpretiert und daraus eine Selektion einer Knotenmenge ermöglicht (Lokalisierung).
XPath wird im Rahmen des W3C-Konsortiums gemeinsam durch die XSL Working Group und XML Linking Working Group als Standard spezifiziert. Die aktuelle Version XPath 2.0 und Vorgänger tragen den finalen Status der W3C Empfehlung. XPath gilt als essentielles Fundament für weitere XML-basierte W3C-Standards wie XQuery, XSLT oder XForms.
Bemerkungen
XPath ermöglicht praktisch filternde Sichten auf unveränderte Eingabedokumente, die nur interessierende XML-Knoten und deren Inhalt umfasst.
Datenmodell
Als Datenmodell dient eine logische Interpretation geparster XML-Dokumente als baumartig geordnete Sequenz von Einheiten. Über die Ordnung bestimmen Verschachtelung und Dokumentreihenfolge. Die Einheiten heißen Knoten und können an Blattpositionen Werte atomaren Typs tragen.
Die Knotentypen umfassen:
- Wurzelknoten (root nodes)
- Elementknoten (element nodes)
- Textknoten (text nodes)
- Attributknoten (attribut nodes)
- Namensraumknoten (namespace nodes)
- Verarbeitungsanweisungs-Knoten (processing instruction nodes)
- Kommentarknoten (comment nodes)
Als Wertetypen dienen:
- XML Schema Datentypen (z.B. integer, string, ...)
- Weitere fünf XPath-Typen (z.B. anyAtomicType, untyped, ...)
Alle Knoteneigenschaften können über Quasifunktionen (Accessors) ausgelesen werden, die z.B. den qualifizierten Namen, getragene Typ und Wert oder Eltern und Kinder in der Ordnung zurückgeben. Das Datenmodell wird mittlerweile als XQuery 1.0 and XPath 2.0 Data Model eigenständig standardisiert.
Lokalisierung
Ein XPath-Lokalisierungspfad ist nun ein Ausdruck, der eine Menge von 0 bis n Knoten aus diesem Baum auswählt, welche hinsichtlich sukzessiver, durch / separierter Lokalisierungskriterien übereinstimmen. Beginnt der Pfad bereits mit einem Schrägstrich, so ist er absolut d.h. beginnend von der Wurzel auszuwerten, andernfalls relativ zum Kontext. Jeder Lokalisierungsschritt präzisiert die Selektion und hat die folgende Syntax:
/<Achse>::<Knotentest><Prädikat>*
Achse
Achsen werden stets vom aktuellen Kontextknoten angelegt und grenzen die Auswahl für den nächsten Schritt auf eine Untermenge ein, die in einer bestimmten Beziehung zum Kontextknoten stehen. Diese erinnern oft an Familienbeziehungen und resultieren aus der Baumstruktur:
- self: der Knoten selber
- child: Kinder des Knotens
- parent: Eltern des Knotens
- descendant: Kinder und Kindeskinder des Knotens
- ancestors: Eltern und Vorfahren des Knotens
- attribute: Attribute des Knotens
- preceding: Vorhergehend in Dokumentrichtung
- following: Nachfolgend in Dokumentrichtung
- Einige Kombinationen stehen auch bereit wie z.B. descendant-or-self
Knotentest
Ein Knotentest wählt nun aus der durch die Achse eingeschränkten Menge diejenigen Knoten aus, die den Knotentest bestehen. Zur Prüfung kann man folgende Alternativen wählen:
- Knotenname: Formulierung durch die Angabe eines Knotennamens (* dient als Wildcard).
- Knotentyp: Formulierung durch die Angabe einer XPath-Funktion, die den Typ zurückgibt (z.B. text() für Textknoten, attribute() für Attributknoten).
Prädikate
Prädikate werden in eckige Klammern gefasst und können beliebig oft angehängt werden. Sie filtern die Knotenmenge erneut über zwei mögliche Arten:
- Listenindex: Wählt für den Listenindex n aus der Knotenmenge nur den n-ten Knoten aus ([1] entspricht dem ersten).
- Boolscher Ausdruck: Wählt aus der Knotenmenge nur diejenigen, die den Ausdruck auf true auswerten.
Achsenabkürzungen
Um den Schreibaufwand zu reduzieren wurden angeregt von Navigationsschematas aus Dateisystemen einige Abkürzungen für häufige Achsenschritte eingeführt:
child::
=/
descendant-or-self::
=//
self::
=.
parent::
=..
attribute::
=@
Beispiele
child::absatz[position = 2]
Dieser Ausdruck wählt das zweite absatz-Kindelement des gegenwärtigen Knotensattribute::*
Alle Attribute des gegenwärtigen Knotens werden gesucht.absatz[@typ="neu"][1]
Wählt das erste absatz-Kindelement, das als Atttribut typ mit dem Wert neu hat
Quellen
Bitte die Regeln der GlossarWiki-Quellenformatierung beachten.
Der Inhalt sollte sprachlich verbessert werden.
Die Aussagen sollten inhaltlich verbessert bzw. präzisiert werden.