nur mal schnell Daten importieren

Die Aufgabe schien simpel: Wir haben eine gedruckte Bibliographie zu den Werken einer Autorin und wollen die Daten für eine Projektbibliographie nutzen. Der Ausgangspunkt sind gescannte Seiten, das Ergebnis die Aufnahme der einzelnen Werke in unsere zotero-Gruppenbibliothek. Die zentrale Gruppenbibliothek wiederum kann für andere Arbeiten genutzt werden (digitale Edition, gemeinsames Wiki).

Mein erster Gedanke: Vielleicht umgehe ich einfach das Bereinigen der gescannten Seiten und importiere schnell Trefferlisten aus Bibliothekskatalogen. Dann müsste ich ja alle Werke erwischen. Ich bin Bibliothekarin und habe großes Vertrauen in Daten aus unseren Systemen. (Für die Screenshots aus den Bibliothekskatalogen habe ich verschwiegen aus welchem sie stammen. Es geht mir hier nicht um die Kritik an einzelnen Bibliothekskatalogen.)

Problem 1: Was zählen wir?

Die gedruckte Bibliographie zu Amalia Schoppe listet 274 Einträge. Warum zeigen Kataloge jedoch nur einen kleinen Teil? Der erste Eintrag zeigt bereits ein Problem:

„Hertha. Roman. 1815/ 16. Ungedruckt. (Vgl. Nr. 25)“

Um die Frage zu beantworten, welche Werke Amalia Schoppe verfasst hat, wäre dieser Eintrag wichtig. Dass er nicht in Bibliothekskatalogen auftaucht, erklärt sich von selbst (Ausnahme wäre die Aufnahme eines Manuskripts). Einige Bibliothekskataloge zählen Amalia Schoppe als beteiligte Autorin, wenn eine Edition rezensiert wird, in der Briefe von ihr erschienen sind. Das wäre nicht mein Verständnis von Autorinnenschaft, es bleibt nur das Ausblenden von Rezensionen, um die Treffermenge passender zu fassen.

as5

Ist Amalia Schoppe Autorin einer Rezension einer Edition, in der Briefe von ihr enthalten sind?

Problem 2: Wen zählen wir?

Je nach Bibliothekskatalog haben wir mehrere Personeneinträge, die zutreffen könnten. Manches ist bereinigt, manches nicht. Im Detail kann ich nicht genau feststellen, ob alle Treffer dann tatsächlich mit dem Personendatensatz verknüpft sind. Doppelte GND-Einträge treten auf, sind nicht so dramatisch, wie wir manchmal glauben, können aber bei einigen Fragestellungen hinderlich sein.

Problem 3: Warum zählen wir?

K10Plus zeigt die ersten zehn Einträge nicht, die ich in meiner gedruckten Liste habe. Die vorhandenen Katalogisate sind recht sparsam. Die Gründe sind vielfältig für solche Phänomene. Das Projekt widmet sich acht Schriftsteller*innen, die vor etwa 200 Jahren einen gewissen Erfolg hatten, deren Werke aber entweder nicht prominent verlegt wurden oder in Vergessenheit geraten sind. Die sparsamen Angaben in unseren Bibliothekskatalogen sind ein Ergebnis dieser Entwicklung und unser Ziel ist u.a. diese Angaben zu verbessern. Dass zu Beginn unseres Projekts die Katalogisate teilweise nicht vorhanden oder nur unvollständig sind, zeigt also nur das Forschungsdesiderat.

Lösungsweg: Excel –> Bibtex –> Zotero

Mein erster Gedanke: Ich nehme die Textdatei, trenne die einzelnen Datensätze und dann die Felder, die ich für eine Bibtex-Datei brauche. Zunächst versuchte ich es mit OpenRefine, gab aber entnervt auf, da das Auftrennen nach Feldern länger dauerte als mit LibreOffice Calc oder Excel. OpenRefine nutze ich eigentlich immer erst, wenn ich eine gewisse Ordnung, eine richtige Tabelle habe. Zum Auftrennen auf Felder ist es mir zu unpraktisch.

Schritt 1: Trennen der einzelnen Datensätze

Ich kopiere die Textdatei aus dem Scan in Excel. Zum Glück sind die Zeilenumbrüche, die einen neuen Eintrag kennzeichnen gut zu erkennen, da in der gedruckten Bibliographie in der Auflistung eine Ordnungszahl verwendet wurde. Da sie mit einer Klammer abschließt – also „1)“ … „2)“ … „3) – scheint es einfach, zu erkennen, wo ein neuer Eintrag anfängt. Die erkennbare Regel wäre „Zeilenumbruch + Zahl + geschlossene Klammer“ = startet einen neuen Datensatz. Keine Regel ohne Ausnahme, aber so dürfte es klappen.

Schritt 2: Auftrennen in Felder

Zunächst schaue ich mir die erforderlichen Bibtex-Felder für den EntryType books an. Die Angaben sind auf jeden Fall in der gedruckten Bibliographie enthalten. Frohen Mutes beginne ich. Mein erster Schritt ist immer, die allgemeinsten Regeln zu entdecken.

Hier ein sehr einfaches Beispiel:

„11) Antonie, oder Liebe und Entsagung. Leipzig: Carl Pocke, 1826.“

in bibtex würde ich es so ausdrücken:

@book{11, Schoppe1826,

author = {Amalia Schoppe},

title = {Antonie, oder Liebe und Entsagung. Roman},

publisher = {Pocke},

year = {1826},

address = {Leipzig}

note = {}

key = {11}

}

Leider gibt es nur sehr wenige dieser einfachen Beispiele. Häufiger sind es solche Einträge:

„26) Sagenbibliothek, oder Volkssagen, Legenden und Mährchen der freien Reichsstädte Hamburg, Lübeck, Bremen und deren Umgehungen, nach mündlichen Ueberlieferungen und alten Chroniken. Hamburg 2. vermehrte u verbesserte Aufl. 2 Bde. Leipzig: C. L. Fritzsche, 1851. 3. (Titel-)Aufl. 2 Bde. Leipzig: C. F. Schmidt, 1866.“

In der gedruckten Ausgabe ist für jeden Menschen klar erkennbar, welche Informationen zu welchen Feldern gehören. Für eine semiautomatische Übernahme ist das eine völlig unstrukturierte Aussage. Auch für Bibliothekar*innen nicht ganz einfach zu verdauen. Für die Übernahme in die Zotero-Gruppenbibliothek ist es zunächst wichtig, die einzelnen Auflagen zu trennen, die in drei verschiedenen Verlagen zu unterschiedlichen Zeiten erschienen sind.

Schritt 3: Exportieren als Bibtex, Importieren in Zotero

Dieser Schritt dauerte etwa zwei Minuten.

Fazit

  1. Nur mal schnell eben funktioniert nie. Ich lerne das immer wieder.
  2. Auf den ersten Blick scheinen bibliographische Angaben strukturiert. Sie sind es nicht.
  3. Der letzte Schritt dauerte zwei Minuten. Über die Dauer der anderen Schritte schweige ich. Was hätte ich berichtet? Wahrscheinlich eine Heldingeschichte: „Das habe ich schnell in bibtex umgewandelt und importiert.“
  4. Ich stelle alle meine bibliographischen Angaben für alle anderen in einer strukturierten digitalen Version zur Verfügung. Niemand sollte diese Schritte immer wieder von vorn beginnen.
  5. Ich will unbedingt diese Werke von Amalia Schoppe lesen.

Update

Ein sehr guter Hinweis kam bereits einige Stunden nach dem Blogpost von Dr. Nicole High-Steskal:

Jetzt habe ich mein Vorgehen angepasst, spare etwas Zeit, erhöhe den Spaß-Faktor und helfe, ein Modell zur automatischen Erkennung zu trainieren.

Schritt 1: Trennen der einzelnen Datensätze

Händisch korrigiere ich die Zeilenumbrüche im Textdokument, um die einzelnen Datensätze sauber zu trennen. Die „Zeilenumbruch+Zahl+Klammer-Regel“ war zu fehleranfällig. Händisch ist es hier genauer, es geht recht fix.

Schritt 2: Auftrennen in Felder

Hierfür nutze ich nun https://anystyle.io/. Das Tool versucht im ersten Schritt, korrekte Zuweisungen vorzunehmen, im zweiten Schritt kann ich korrigieren, dann als Bibtex exportieren. Wenn der Input etwas vorbereitet wird, geh es schneller als der vorherige Weg. Danke für den Tipp!

Schritt 3: Ergänzen der Autorin

Sehr quick and dirty ist meine Art, die Autorin bei den Werken zuzuordnen. Alle Werke in der gedruckten Bibliographie sind von Amalia Schoppe, ich ergänze es im Notepad. Da jeder Eintrag einen Titel hat, ersetze ich „title“ durch „\r author = {Schoppe, Amalia},\r title“

Schritt n: Auflagen auftrennen

Ich habe die verschiedenen Auflagen zunächst in das Feld „note“ übernommen. Darum kümmere ich mich später. Irgendwann. Das geht bestimmt ganz schnell.


Banner: Von Amalia Schoppe. – Die Helden und Götter des Nordens, oder Das Buch der sagen. G. Gropius., Gemeinfrei, https://commons.wikimedia.org/w/index.php?curid=5158622

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.