Logo

To the homepage of Prof. Dr. Walther Umstätter - / - List of publications 1970 - 1985 - / - List of publications 1986 - 1990
List of publications 1991 - 1995 - / - List of publications 1996 - 2000 - / - List of lectures


Lecture held at the Humboldt-University in Berlin. WORKSHOP Dissertationen Online at 17. - 18. Mach 1997

Die Archivierung von Dissertationen in SGML

Walther Umstätter

Wir haben der DFG unter dem Titel "Erfassung, Speicherung, Bereitstellung und Archivierung von Dissertationen auf der Basis von Document Type Definitions (DTD) in SGML" den Vorschlag gemacht ein brauchbares Archiv-Format für deutsche Dissertationen zu entwickeln. Während der intensiven Diskussionen darüber war festzustellen, daß in den USA, im Rahmen des Elektronic Thesis and Dissertation Projektes (ETD), bereits eine DTD (man achte auf die phonetische Unterscheidung) für amerikanische Dissertationen vorgeschlagen worden ist. Das hat uns natürlich in unserer Ansicht bestärkt, daß wir auf dem richtigen Wege sind. Außerdem entstand selbstverständlich die Frage, ob wir diesem amerikanischen Vorbild nicht uneingeschränkt folgen sollten. Die USA sind uns auf dem Gebiet der Digitalen Bibliothek zweifellos weit voraus. Um so wichtiger schien es uns, daraus zu lernen und nach einer geeigneten deutschen Lösung zu suchen.

Meine Damen und Herren, als ich diesen kurzen Vortrag meinem Computer diktierte, wurde mir mit wachsender Erfahrung, übrigens sowohl auf der Seite des Computers als auch auf meiner Seite, klar, daß immer mehr Dissertationen auf diesem Wege entstehen. Es dürfte in Deutschland heute kaum noch eine Dissertation eingereicht werden, die nicht in digitaler Form vorliegt. Die Archivierung dieser Dissertationen auf Papier unterliegt aus bibliothekswissenschaftlicher Sicht auf drei verbreiteten Fehleinschätzung.

1. Papier ist heute nicht mehr das beste Archivmedium das wir kennen. Die Tatsache, daß wir trotzdem noch immer am liebsten Texte auf Papier lesen und insbesondere genauer studieren, widerspricht dieser Erkenntnis keinesfalls. Im Gegenteil, sie macht deutlich, daß das Papier als Abnutzungs- und Ausgabemedium für das gesprochene und digital erfaßte Wort eine steigende Bedeutung hat. Dagegen archivieren wir schon längst im digitalen Bereich. Am deutlichsten erkennen Sie dies im Verlagswesen. Neu- und Teilauflagen von Büchern und CD-ROMs werden längst aus den vorhandenen digitalen Archiven heraus erzeugt und nicht mehr wie früher durch Kopisten in Bibliotheken. Auch das Publikationswesen in den Universitäten folgt diesem Trend durch die Nutzung von Internet und HTML. Wir archivieren damit, soweit möglich, durch das hunderttausendfach bis millionenfach erleichterte digitale Kopieren auf CD-ROM und Magnetplatte. Die Formel für die Archivierung lautet nicht mehr so einfach wie früher:

Lagerung von Büchern für 1000 Jahre möglichst kühl und dunkel, sondern unter informetrischen Gesichtspunkten

Berücksichtigung der Zeichenverluste pro Zeit und Speichermedium, Kosten für Lagerung, Kosten für die Reduplikation, Fehlerrate bei der Reduplikation, Kosten für die notwendige Redundanz, Kosten für die Zugänglichmachung.

Im Gegenteil wir lagern diese in Randregionen unserer Städte aus.

Nachdem die Library of Congress die Problematik des Papiernzerfalls erkannte, hat sie ihre Gelder verstärkt aus den alten Buch-Konservierungsprojekten herausgezogen und ihr aufwendiges "National Digital Library Project"; begonnen, bei dem sie bis zum Jahr 2000 5 Millionen Seiten digitalisiert haben will. Bereits vor 12 Jahren veröffentlichte die "Information Systems Consultants Inc.in diesem Zusammenhang den "Report zum Thema "Videodisc and optical digital disk technologies and their applications in libraries".

In Ergänzung dazu hat die NSF (National Science Foundation) 1994 Gelder in Höhe von 24.4 Millionen Dollar für die DIGITAL LIBRARY Forschung bereitgestellt. An die

  • Carnegie Mellon University, gingen - - - -  4.8 Millionen Dollar
  • University of California, Berkeley, - - - - - 4.0 Millionen Dollar
  • University of Michigan, - - - - - - - - - - -  4.0 Millionen Dollar
  • University of California, Santa Barbara, -   4.0 Millionen Dollar
  • Stanford University, - - - - - - - - - - - - -  3.6 Millionen Dollar
  • University of Illinois, - - - - - - - - - - - - -  4.0 Millionen Dollar

  •  

     

    Die Digitale Bibliothek wurde als nationale Herausforderung im Rahmen der Informationsinfrastruktur erkannt, die als "universal" library die Global Information Infrastructure (GII) vorbereitet. Die Library of Congress, die National Archives, die New York Public Library, die Commission on Preservation and Access und die Leiter von 12 Universitätsbibliotheken der USA arbeiten seit Mai 1995 in der National Digital Library Federation zusammen. Die Trennung von Information, Dokumentation, Archiv und Bibliothek hat in der digitalen Konvergenz der Archivierung ihre Bedeutung verloren.

    SGML markierte vor zehn Jahren, historisch betrachtet, die Trennung von Archiv- und Ausgabemedium. Das Buch hat früher diese beiden Eigenschaften in sich vereint. Nun erfahren wir, im Gegensatz zur allgemein verbreiteten Ansicht, daß das Buch als Archivmedium bereits an Bedeutung verloren hat, während es als Ausgabemedium seine Bedeutung sogar ausbaut.

    2. Dissertationen haben eine weitaus höhere Bedeutung in der Wissenschaft als gemeinhin angenommen wird. Der größte Teil dieses Wissens ist unzureichend gesichert und nur schwer verfügbar, weil er in besonders hohem Maße dem Zerfall preisgegeben ist. In Deutschland werden jährlich 20.000 Dissertationen nachgewiesen. In den USA sind es jährlich 400.000 Theses and Dissertations. Die Humboldt-Universität zu Berlin hat mit 1,3 Mio. Dissertationen die größte Sammlung in Deutschland. Es folgt die DB in Leipzig mit 853.362 und die in Frankfurt/M. mit 567.860. Der größte Teil dieser Arbeiten wird verlorengehen, wenn er nicht bald digitalisiert wird.

    3. Die wichtigste Leistung einer Universität ist nicht die "Produktion" von Studierenden, wie es heute oft den Anschein hat, sondern die Produktion und Organisation von Wissen. Dieses Wissen wird publizier, archiviert und insbesondere durch die Absolventen transportiert bzw. verbreitet. In den wichtigsten Zeitschriften der Welt stammen 71% aller Publikationen aus Deutschland, aus den Universitäten.

    Herr Bunzel hat in einem Vortrag zum Thema "Neue Informations-Infrastrukturen fuer Forschung und Lehre" vor einem Jahr, der im Internet zu finden ist, davon gesprochen, daß Managament Strukturen an den Hochschulen geschaffen werden müssen, und daß das Informations-Management auch einen entsprechenden Stellenwert auf der Ebene der Hochschulleitung und der Fachbereiche bekommen muß.

    Ich spreche in diesem Zusammenhang lieber von Wissenschafts- und Wissensmanagement, denn was gibt es wichtigeres in einer Universität, als Wissensmanagement auf der Basis eines Wissenschaftsmanagements zu betreiben. Die Scientometrie lehrt uns, daß im Rahmen der heutigen Big Science Wissenschaft keine Domäne einer geistigen Elite, wie im vorigen Jahrhundert, mehr ist, sondern Spitzenforschung nur durch ein ausgefeiltes Wissenschaftsmanagement mit Workgroupcomputing und Knowledge Management realisiert werden kann. In diesem Zusammenhang erwähnte Herr Bunzel auch, daß definierte Publikationskonzepte der Hochschulen, z.B. Richtlinien für die Veröffentlichung von Dissertationen in elektronischer Form gebraucht werden.

    Genau dieses wollen wir liefern. Daß dies allerdings nur auf der Basis von SGML erfolgen kann, muß man Wissen. Wer die Diskussion im Internet bisher verfolgt hat, konnte dies auch erkennen. TEX, PDF, RTF, Postscript, Winword, Framemaker und all die anderen Formate sind hier kein Ersatz. HTML als weitaus wichtigste DTD im Rahmen von SGML hat ohnehin seine Vormachtstellung in den letzten Jahren längst erkämpft. Darüber hinaus existieren auf dieser Ebene Suchmaschinen wie Altavista, HotBot oder Lycos. Auch die Idee einer Common Command Language, mit der wir hier in Deutschland bald 20 Jahre Online-Retrieval-Erfahrung haben, feiert im Rahmen von Z39.58 ihr großes Come Back.

    "In England sind heute schon in 60 % der Hochschulen Bibliotheken und Rechenzentren in gemeinsamen organisatorischen Einheiten, den Information Service Centern, zusammengeführt worden." schreibt Herr Bunzel. Ich habe diese Entwicklung mit großem Interesse verfolgt. Als ich 1983 bei einer Tagung der Rechenzentrumsleiter der Bundesrepublik einen Vorschlag in die Richtung einer verstärkten Zusammenarbeit zwischen Universitätsbibliothek und Rechenzentrum machte, war die Reaktion dort sehr verhalten. Auch der Versuch in Ulm ein Informations- und Kommunikationszentrum (IKZ) aufzubauen muß aus meiner Sicht als bedauerlich gescheitert angesehen werden. Um so wichtiger scheint mir daher nun eine Zusammenarbeit zwischen UB und RZ, wie wir sie im Rahmen der Projektplanung erreicht haben. Aus meiner neutralen Sicht eines Institutsprofessors, der am Institut für Bibliothekswissenschaft für Datenverarbeitung zuständig ist, ist sie hervorragend.

    Meine Besuche bei der Bibliotheksleiterin Mrs Jean M. Sykes im Polytechnic of Central London (heute University of Central London) die einen erheblichen Anteil an der Entwicklung in England hatte, haben mir gezeigt, wie diese Zusammenarbeit von UB und RZ u.a. das bekannte Bibliotheksprojekt namens OKAPI bzw. Libertas hervorbrachte.

    Seit 1994 gibt es in den USA elektronisch verfügbare Disserationen, da das bereits erwähnte "Electronic Theses and Dissertation Program (ETD) damals begann. Nun ist das Ziel eine "National Digital Library of Theses and Dissertations" (NDLTD) aufzubauen, die im Volltext recherchiert werden können soll. Die Kosten betragen $20 für die Archivierung, und $50 für UMI. In den USA, anders als im urheberrechtgeprägten Deutschland, gehört das Copyright einer Dissertation zunächst dem Autor. Wenn die Universität Rechte geltend machen will, muß sie sich diese vertraglich beim Autor sichern. Das Copyright in den USA wurde im July 1996 den neuen Gegebenheiten angepaßt. In Deutschland gehören den Universitätsbibliotheken festgelegte Mengen an Kopien, die durch das Promotionsrecht fixiert sind. Bei ETD kann zusätzlich zum Vermerk "Copyright 1997 by Jack Miller" das ©-Zeichen angebracht werden, wenn der Autor über das UMI die Registrierungskosten entrichtet.

    In Deutschland gibt es zunehmend Internetangebote, die das ©-Zeichen tragen. Ich habe Zweifel, daß das berechtigt ist.

    Beim ETD- Programm heißt es: "SGML was designed to encode electronic documents that are portable across platforms. It is the logical solution for the long-term problem of preparing and archiving electronic documents." "By using SGML, you will - guarantee the longest life for your ETD, one that will survive the vagaries of Web publishing, - have full-text search of all the body matter in your ETD (not just the title and abstract), - have the most powerful hypermedia encoding technology available today, - prepare yourself for the future of electronic publishing, and - not worry about any details of page-based publishing and be able to concentrate solely on preparing and presenting the information of your ETD."

    Sozusagen im Rahmen von HTML-Files (d.h. SGML) werden Postscript, PDF-, DVI- (TeX oder LaTeX) und eine Reihe weiterer Bild- und Ton-Dateien akzeptiert.

    Für die DTD von amerikanischen Dissertationen beansprucht inzwischen Neill A. Kipp (Virginia Polytechnic Institute and State University) und das ETD Project seit September 1996 bereits das Copyright. Nähere Angaben dazu finden sich selbstverständlich im Internet.

    In Deutschland sprießen allerorten die Diplom-, Magister- und Promotionsarbeiten hervor die im Internet verfügbar sind. Aachen, Augsburg, Berlin, Duisburg, Frankfurt, Göttingen, Kassel, Marburg, Osnabrück, München, Potsdam und sicher auch andere Universitäten beschäftigen sich mit dem Gedanken der digitalen Verfügbarkeit von Dissertationen, allerdings in äußerst verschiedenen Formaten. Die TU Chemnitz hat sich im letzten Jahr sogar dadurch einen Namen gemacht, daß sie in ihrer Promotionsordnung die Veröffentlichung der Dissertationen "durch eine andere von der Fakultät genehmigte Methode" erstmals offiziell erlaubt hat. Das ist erfreulich, aber in seiner Allgemeinheit für das Bibliothekswesen auch gefährlich. Sechs dieser Dissertationen im Postskript Format waren meines wissens 1996 im Netz. In Konstanz waren im selben Jahr drei Dissertationen im HTML-Format verfügbar. Soweit ich weiß hat Göttingen naheliegenderweise Winword-Files akzeptiert, während natürlich Physiker und Mathematiker auf TEX schwören. Nach einer Befragung haben im letzten Jahr acht Universitäten die Rechtsgrundlage für elektronische Dissertationen geprüft. Prof. Drobnik aus Frankfurt hat ein DFG-Projekt, bei dem 300 sog. "urheberrechtsfreie" Dissertationen eingescannt und in einer "SGML-Datei" gespeichert werden sollten. Meines Wissens ist aber von einer DTD-Entwicklung keine Rede, so daß es sich wohl eher um HTML-Files handelt. Unklar bleibt dabei auch, wieso die "Möglichkeit der Volltextrecherche durch SGML-Elemente eingeschränkt ist.

    In der Zwischenzeit haben OCLC und NCSA (National Center for Supercomputing Applications) den Metadata Workshop im März 1995 in Dublin (Ohio) initiiert um eine einfache Gruppe von Feldelementen zu definieren, mit denen elektronische Quellen (document-like objects = DLOs) identifizierbar sind. Unter dem Kürzel "Dublin Core" sind zunächst die 13 wichtigsten Elemente für ein SGML-Dokument festgelegt worden: Subject, Title, Author, Publisher, OtherAgent (Editor und Übersetzer), Date (of publication), ObjectType (wie "novel", "poem", "dictionary"), Form ("Postscript file", "Windows executable file"), Identifier (für jedes einzelne Objekt), Relation (zu anderen Objekten"), Source (woher dieses Objekt stammt), Language und Coverage (räumlich und zeitlich). Am 3-5. März hat in der National Library of Australia, Canberra der vierte Dublin Core Metadata Workshop stattgefunden.

    Es ist einer der wichtigen Vorzüge von SGML, daß diese und beliebig weitere Metadaten zur charakterisierung von Objekten erzeugt werden können. Sie sind alle auf ASCII-Ebene realisierbar und können bis hin zu Wissensbankverknüpfungen geführt werden. Es sei hier nur an Java erinnert. Die Nutzung von Thesauri kann über sog. Qualifier festgelegt werden. An USMARC, TEI (Text Encoding and Interchange) oder FGDC (Federal Geographic Data Committee) ist ebenfalls gedacht.

    Daß Dissertationen nicht nur in digitaler Form entstehen, sondern auch archiviert werden steht weitgehend außer Zweifel. Es besteht zur Zeit allerdings die erhebliche Gefahr, daß etwa 80 verschiedene Dateiformate nebeneinader engesetzt werden, von denen die meisten in kurzer Zeit nicht mehr gelesen werden können. Dies ist aus bibliothekswissenschaftlicher Sicht inakzeptabel.


    Dieser kurze Vortrag ist im Internet unter der Adresse: http://hub.ib.hu-berlin.de/~wumsta/lecte.html zu finden.
     

    Last update: 25. January 2000 © by Walther Umstaetter