Strukturiertes Informationsmanagement

Strukturiertes Informationsmanagement mit XML (Extensible Markup Language) bringt nachweislich viele Vorteile. Diese sind ausreichend benannt und können inzwischen als bekannt vorausgesetzt werden. Dem steht jedoch der Nachteil gegenüber, dass reine XML-Daten weder Formatierung noch Layout-Angaben beinhalten. Der folgende Beitrag beschreibt die Möglichkeiten, XML-Inhalte mit aktuellen Technologien zu paginieren und zu publizieren.

Formatneutralität von XML

XML-Inhalte sind grundsätzlich formatneutral. Erst beim Publizieren wird die gewünschte Stilvorlage ausgewählt und damit die konkrete Formatierung hinzugefügt. Dieser Vorgang wird auch als »Rendering« bezeichnet. Dank der enthaltenen generischen Textmarken wie z.B. <warnhinweis> kann ein einzelnes XML-Fragment gleichermaßen als Label für eine Maschine wie auch als PDF für eine Papierdokumentation layoutet werden. Die Darstellung ist für alle Vorkommen dank XML und der verwendeten Stilvorlage einheitlich sichergestellt.Es ist nicht notwendig, an jeder Stelle im Text eine spezifische Formatauszeichnung zu hinterlegen; dies war noch in den 60er- und 70er-Jahren in der Druckvorstufe üblich.

Voraussetzung für das Publizieren eines Dokuments ist ein ganzes Dokument als komplette XML-Instanz. Zielformat für paginierte XML-Inhalte ist praktisch ausnahmslos das Portable Document Format von Adobe (PDF).

Kriterien für XML-basiertes Publizieren

Kriterien für XML-basiertes Publizieren sind die erwünschte Satzqualität,der erreichbare Automatisierungsgrad und die Möglichkeit, manuell zu korrigieren. Sind manuelle Eingriffe möglich, so stellt sich zusätzlich die Frage, ob die XML-Inhalte valide bleiben, also ob sie sich nach XML exportieren lassen. Dies wird auch als »round tripping« bezeichnet.

Vollautomatisch: XSL-FO

XSL-FO steht für »Extensible Stylesheet Language – Formatting Objects« und ist ein W3C-Standard (WorldWide Web Consortium). Mit Hilfe von XSL-FO kann ein XSL-FO Prozessor aus einem XML-Dokument ein PDF erzeugen. Der Renderingvorgang läuft lokal oder zentral auf dem Server ab. Dadurch ist er hinsichtlich der Textmenge und der Durchlaufzeit ausgezeichnet zu steuern, bis hin zu einer so genannten Render-Farm aus mehreren zusammenarbeitenden Servern. Neben dem frei erhältlichen, aber deutlich eingeschränkten »Apache FOP« sind »Antennahouse« und »RenderX« zwei bewährte Optionen.

Die Satzqualität hängt vom XSL-FO-Stylesheet ab, das die Satzregeln enthält.Allerdings zeigen sich bei höheren oder gar höchsten Ansprüchen an die Satzqualität rasch die Grenzen der technischen Machbarkeit. Eine Optimierung durch manuelle Eingriffe – und sei es nur um Kleinigkeiten zu korrigieren – ist nur durch eine Anpassung des Regelwerks im Stylesheet möglich, im Einzelfall deshalb nicht ratsam. Einfache manuelle und lokale Eingriffe in das Layout im WYSIWYG-Modus (»What You See Is What You Get«) sind dadurch konzeptionell ausgeschlossen. Da XSL-FO-Stylesheets aus abstrakten Satzregeln bestehen, werden sie in der Regel auf Grund einer Layoutspezifikation bzw. an Hand von Referenzdokumenten definiert.

Halbautomatisch: Desktop Publishing

Bei diesem Ansatz wird eine Desktop-Publishing-Software genutzt, die XML-fähig ist. Ein bekannter Vertreter ist »Adobe FrameMaker«, der durch eigene Mapping-Dateien und Stylesheets die direkte WYSIWYG-Bearbeitung von XML-Inhalten ermöglicht. FrameMaker ist das klassische Satzwerkzeug für Mengensatz und unterstützt seit der Version 8 auch Unicode.

Nach der Entwicklung der Mapping-Dateien und Stylesheets können XML-Inhalte direkt eingelesen und deren Textauszeichnungen auch für Textfunktionen wie lebende Kolumnentitel, Verlinkung, automatische Erzeugung von Inhaltsverzeichnissen oder Indizes genutzt werden. Der erreichbare Automatisierungsgrad ist fast so hoch wie bei XSL-FO. Konsequenterweise ist auch ein serverseitiger Einsatz möglich. Im normalen Einsatz als Desktop-Programm kann das konkrete Layout eines Dokuments visuell überprüft und interaktiv korrigiert werden.

Kreativsatz mit XML?

Inzwischen werben auch ursprünglich für den Kreativsatz entstandene DTP-Programme wie »Adobe InDesign« oder »Quark Xpress« mit XML-Unterstützung. Die umfangreichen gestalterischen Möglichkeiten dieser Programme können dadurch auch für XML-Inhalte genutzt werden. Diese Programme verfolgen aber das gegenläufige Konzept des »specific coding«: Üblicherweise ist eine Menge einzelner Textrahmen vorhanden, die einzeln angeordnet und in denen die einzelnen Textstellen individuell formatiert werden müssen, um die gewünschte Wirkung zu erzielen. Der erzielbare Automatisierungsgrad ist deshalb bei weitem nicht so hoch.

Automatisierungslösungen (wie »InBetween« oder »SusoPublisher«) bieten hier Abhilfe. Der XML-Input wird durch weitere Stilvorlagen und hinterlegte Regeln für die Ausgabe im Satzprogramm vorbereitet und der Inhalt direkt im Dateiformat des Satzprogramms ausgegeben. Dort kann das Druckwerk manuell fertig layoutet und publiziert werden. Die funktionalen Beschränkungen der Zielsoftware bleiben aber bestehen und müssen mit einem relativ hohen Investitionsaufwand für die automatische Vorbereitung der XML-Inhalte erkauft werden.

Eine solche Lösung fügt zudem im XML-Dokument Formatierungsinformationen hinzu bzw. wandelt es in das proprietäre Format des Satzprogramms um. Ein abschließender Export der finalen Version in das ursprüngliche XML-Format (»round tripping«) ist deshalb nicht mehr oder nur bedingt möglich.

Export nach Word

Auch beim Export in das XML-Format von Word, der »Wordprocessing ML«, werden Layoutinformationen hinzugefügt und es wird ein XML-basiertes Word-Dokument ausgegeben. Wenngleich die Wordprocessing ML inzwischen zur »Office Open XML« weiterentwickelt und standardisiert wurde, so ist es aufgrund der Vielzahl an semantikfreien Textmarken nur mit hohem Aufwand möglich, ein solches Dokument wieder in einen semantisch orientierten XML-Dokumententyp zurückzukonvertieren. Damit werden so genannte »Last-Minute-Korrekturen« nur für die aktuelle Zielpublikation, nicht aber für die zentrale Datenbasis wirksam. Eine bemerkenswerte Ausnahme bildet »UltraXML«, ein DTP-Werkzeug von WebX-Systems.

UltraXML ist ein DTP-Werkzeug für XML-Inhalte. Mit Hilfe der XPath-Syntax können Layoutinformationen als so genannte XML-Processing-Instructions im WYSIWYG-Modus in XML-Dokumente eingefügt werden. Die Validität der XML-Inhalte bleibt unangetastet und wird laufend, wie bei einem XML-Editor, von einem Parser überprüft. Für die Layoutierung nutzt UltraXML ein reichhaltiges Featureset, das sich an die früher etablierte Publishinglösung “3B2” anlehnt. Der Befehlsumfang übersteigt den von XSL-FO deutlich, ist deshalb leider nicht standardisiert. Die so erstellten Stylesheets werden als offene Textdateien abgelegt und sind automatisch anpassbar. Als weitere Besonderheit kann ein Fließtextmodus gewählt oder ein rahmenbezogener Modus genutzt werden. Stylesheets können zentral abgelegt und lokale Abweichungen für das konkrete Dokument zugelassen werden. Trotz der Mächtigkeit der Satzgestaltung bleibt die Validität der XML-Inhalte unangetastet. UltraXML stellt somit eine Symbiose von regelorientierten Ansätzen und den Möglichkeiten kreativer Layoutprogramme dar. Eine Servervariante ist verfügbar.

XML-Publishing im Redaktions-Workflow

Zu beachten ist, dass für den optimalen Einsatz der dargestellten Publishing-Lösungen auch auf den Redaktions-Workflow Bezug genommen werden muss. Da Textkorrekturen auf Papier erfahrungsgemäß leichter als am Bildschirm durchführbar sind, empfiehlt sich sowohl für einzelne Textbausteine als auch für Gesamtdokumente Reviewmöglichkeiten auf PDF-Basis vorzusehen. Neben der funktionalen Unterstützung durch Redaktionssysteme bietet die Acrobat-Professional-Software eine einfache Funktionalität.

Fazit

XML-Inhalte können vollautomatisch gesetzt werden. Die Vorteile einer solchen regelgetriebenen Satzgestaltung von XML-Inhalten müssen mit Restriktionen hinsichtlich Satzqualität und Flexibilität erkauft werden. Individueller, kreativer Satz ermöglicht zwar optimale Satzergebnisse, aber eine Automatisierung setzt aufwändige Vorbereitungen voraus. Inhaltliche Änderungen lassen sich zudem nur bedingt wieder in die Datenbasis zurückschreiben. XML-orientierte Werkzeuge wie FrameMaker oder das innovative UltraXML nehmen eine Mittelstellung ein. Eine optimale Lösung berücksichtigt die Anforderungen des Redaktions- sowie des Reviewprozesses.
Peter Ebenhoch

Autor

Peter Ebenhoch

Tanner AG

http://www.tanner.de