Wikisource:Internet Archive

Kürzel: WS:IA

Internet Archive, englisch für Internet-Archiv, (WS-Kürzel: WS:IA oder WS:Archive) auch archive.org oder IA genannt, ist ein gemeinnütziges Projekt zur Langzeitarchivierung digitaler Daten. Es wurde 1996 von Brewster Kahle in San Francisco gegründet und ist führendes Mitglied der Open Content Alliance. Das Archiv ist vom Bundesstaat Kalifornien seit Anfang Mai 2007 offiziell als Bibliothek anerkannt.

Für Wikisource ist besonders der Bereich Texts interessant, der Bücher digitalisiert, die nach Ablaufen des Copyrights oder aus anderen Gründen gemeinfrei geworden sind, und sie in verschiedenen Dateiformaten, darunter DjVu und PDF, zum Download zur Verfügung stellt. Von einigen Uploads von Privatpersonen abgesehen, wird auch immer ein Standard-OCR-Text (djvu.txt) mit angeboten, dessen Qualität jedoch eher schlecht und bei Frakturschriften völlig unbrauchbar ist. Es können auch Privatpersonen Beiträge in das Internet Archive einstellen. Neben dem Textarchiv gibt es ein umfangreiches Audio- und Videoarchiv, das zum Beispiel für gesprochene Texte oder Filme von Veranstaltungen in Frage kommt.

Der Anteil deutschsprachiger Texte auf archive.org wächst beständig. Diese Seite soll praktische Informationen für Wikisource-Mitarbeiter und andere Interessierte zur Veröffentlichung gemeinfreier Bücher auf archive.org bieten. Neben Wikimedia Commons bietet sich das IA auch als Alternative für Texte an, die auf Grund der Überlastung der Wikisource-Mitarbeiter vorläufig nicht transkribiert bzw. deren OCR korrigiert werden kann. Das gleiche gilt auch für wichtige Google-Bücher, entweder weil sie nur über einen Proxy zugänglich sind oder um das Risiko zu vermeiden, dass sie bei Google wieder verschwinden, was häufiger vorkommt.

Bei privaten Uploads von Google-Büchern bitte wegen der Suchfunktion immer die Google-Buch-ID irgendwo in den Metadaten angeben. (Beispiel: hYFMAAAAMAAJ bei http://www.archive.org/details/physikalischeze01unkngoog) Es ist bei fast einer Million Google-Büchern im IA nicht nötig, die Herkunft zu verschleiern. Auch die Google-Hinweisseite im PDF sollte nicht entfernt werden, da sie einen Link mit der Buch-ID enthält, der allerdings erst nach dem Download im PDF-Viewer auszulesen ist. Ein bestimmtes Google-Buch wird in der IA-Suche auch gefunden, wenn bei Uploads anderer Nutzer die Google-ID im Kommentarfeld nachgetragen wird.

Übersicht Textangebot

Texts ist die Hauptseite dieser Sparte mit RSS-Feed für Neueingänge sowie ganz weit unten das Text Archive Forum, ebenfalls mit RSS. (Der Gesamtbestand, Stand 20. Jan 2016, liegt bei knapp 9 Millionen Titel, darunter jedoch sehr viele US-Regierungsdokumente, Zeitschriftenaufsätze und andere „Nicht-Bücher“.) Hinweis: Nach dem Upload von fast 1 Million Google-Kopien vor einigen Jahren durch User "tpb" läuft seit 2014 (häufig mit monatelangen Unterbrechungen, Zukunft wohl ungewiss) das Tool BUB-Upload mit Einzelupload für Jedermann und Mass-Upload für längere ID-Listen nach Rücksprache. Der Unterschied zu den Alt-Uploads von "tpb" besteht darin, dass nicht die Google-PDF heruntergeladen wird, sondern die Einzelseiten der Lesedarstellung, welche als Bildpaket zur Weiterverarbeitung an das IA geliefert werden. Die Schrift ist nicht ganz so grauslich und vor allem werden die Abbildungen im Online-Reader immer dargestellt, was bei den Alt-Uploads häufig nicht der Fall ist (In der PDF zum Download sind die Bilder jedoch vorhanden). Inzwischen ist auch häufig die Qualität bei Google nachgebessert worden. Daher lohnt sich auch der Reupload insbesondere eben bei illustrierten Werken.

Deutschsprachige Titel, Sortierung nach neu eingestellten Titel zuerst:

Gesamtliste einschließlich aller Google-Kopien (Stand 20. Jan 2016: 352,571 Titel) Sucheinschränkung: "language:ger OR language:German". Die Google-Kopien darunter sind bereits in der Übersicht vom Uploader tpb gekennzeichnet. Das Kürzel tpb ist auch zum aus- oder einschließen der Google-Kopien geeignet.

Liste aller neueren Google-Kopien per BUB-Upload) (Stand 20. Jan 2016: 101,573 Titel) (subject:"bub_upload") AND (language:ger OR language:German)

Liste ohne Google-Kopien (Alt-Uploads von tpb) (Stand 20. Jan 2016: 219,905 Titel) Zusätzliche Sucheinschränkung "NOT tpb"

Liste nur der Google-Kopien (Alt-Uploads von tpb) (Stand 20. Jan 2016: 132,666 Titel) Zusätzliche Sucheinschränkung "AND tpb"

Alle Titel, Sortierung nach neu eingestellte Titel zuerst:

Gesamtliste einschließlich aller Google-Kopien (Stand 20. Jan 2016: 8,850,747 Titel)

Liste aller neueren Google-Kopien per BUB-Upload) (Stand 20. Jan 2016: 219,098 Titel) subject:"bub_upload"

Liste nur der Google-Kopien (Alt-Uploads von tpb) (Stand 20. Jan 2016: 918,298 Titel) Sucheinschränkung "AND tpb"

Liste ohne Google-Kopien (Alt-Uploads von tpb) (Stand 20. Jan 2016: 7,932,449 Titel) Sucheinschränkung "NOT tpb"

Anwendung für Wikisource

Verlinkung von WS zum Internet Archive

Für IA-Links siehe Vorlage Diskussion:IA und Vorlage Diskussion:IA2. Es besteht die Möglichkeit, beim Verlinken bestimmte Seiten anzusteuern, ähnlich wie von der Google-Vorlage bekannt. Wie man diese verlinkt, ist bei der Vorlage:IA detailliert erklärt.

Auffinden von Google-Books-Kopien im IA

Das IA archiviert bereits von sehr vielen Google-Titeln Kopien der PDF-Dateien, darunter auch die vor weniger als 140 Jahren (=1873 für 2014) ausserhalb der USA erschienenen Titel, deren Vollansicht für Europäer nur sehr umständlich über einen US-Proxyserver möglich ist (siehe WS:GOOGLE). Die Kopien im IA sind dagegen immer weltweit frei zugänglich.

Es kann in der Suche im Bereich Texte nach der Google-Buch-ID gesucht werden. Allerdings unterschiedet das IA nicht Groß- und Kleinbuchstaben: sHQLAAAAQAAJ und shQLAAAAQAAJ sind z. B. zwei verschiedene Google-Digitalisate.

Achtung: Die Suche im IA endet stets mit einer Fehlermeldung, wenn die Google-ID einen vorangestellten Bindestrich enthält. Diesen einfach weglassen, was unter Umständen zwar mehr andere Titel anzeigt, aber nicht so viele, dass man ihn nicht noch leicht heraussuchen könnte.

Herunterladen der Google-Books-PDF im IA

Im Gegensatz zu den Titeln anderer IA-Beiträger sind die Google-PDF-Kopien jedoch nicht direkt in der Dateien-Box in der Hauptansicht (Bild 1) verlinkt, sondern nur über die Dateienliste „All Files: HTTP“ (Bild 2) erreichbar.

Der „PDF on Google.com“-Link in der Dateienliste leitet auf das (gegebenenfalls nur mit US-Proxy herunterladbare) Google-PDF weiter!

Vom Internet Archive zu Wikisource

Für das Hochladen von gescannten Seiten aus dem IA auf Wikimedia Commons und die Abschrift von Texten auf Wikisource gelten grundsätzlich die jeweiligen Regeln zur Beachtung des Urheberrechts.

Es hat eine genaue Prüfung vor der Übernahme jedes Textes voranzugehen. Fragen können im Wikisource:Skriptorium gestellt werden.

Vor allem bei Ausgaben älterer gemeinfreier Autoren muss untersucht werden, ob die konkrete Textgestalt urheberrechtlich geschützt ist.

Hochladen ins Internet Archive

Das Hochladen ins Internet Archive funktioniert nur nach Anmeldung, dafür wird die Angabe einer E-Mail-Adresse benötigt. Es empfiehlt sich, eine Adresse nur für diesen Zweck einzurichten, es sei denn man bekommt gern Post ;-). Die E-Mail-Adresse wird Bestandteil der Metadaten und lässt sich nachträglich auch nicht mehr löschen.

Die Dateien können in beliebigem Format, je Stück bis 500 MB, hochgeladen werden. Nach Eingabe des Titels, Autors, einer Beschreibung und der Schlagworte kann der Upload mit share my file(s) gestartet werden. Die Dateien sind meist nach ungefähr 24 Stunden öffentlich erreichbar, nachdem OCR und andere Formate generiert wurden. In dieser Zeit ist kein Zugriff auf die Metadaten möglich.

Das Internet Archive eignet sich aufgrund des US-Standorts zum Hochladen von deutschen Büchern, die nach deutschem Recht noch geschützt und daher auf Wikimedia Commons nicht zulässig, aber in den USA Public Domain sind (vor 1923 erschienen).

Auffinden von Büchern

Bücher und Volltexte sind oft über die Google-Websuche auffindbar.

Über die OAI-Schnittstelle werden Meta-Daten bereitgestellt.

Zu nennen ist auch die ebenfalls vom Internet Archive betriebene Open Library:

http://openlibrary.org/

Leider sind hier die Titel des Internet Archive nicht komplett vorhanden.

Es wird eine Volltext-Suche in den Büchern des Internet Archive angeboten:

http://openlibrary.org/search/inside

Möglich ist auch folgende Google-Suche, die alle von Google erfassten (OCR-)txt-Dateien im Internet Archive umfasst:

IA-Volltext-Suche via Google (Hierzu das Sternchen * im Eingabefeld mit dem gewünschten Suchbegriff ersetzen und auf Suche klicken)

Beide Suchen (Open Library, Google) sind heranzuziehen, da beide nicht den Gesamtbestand der Volltexte erfassen.

University of Toronto

Der von den Libraries der University of Toronto gelieferte Teil der IA-Digitalisate kann über

http://onesearch.library.utoronto.ca/

durchsucht werden (Häkchen bei ‚limit to online‘). Auch hier werden anscheinend manche Titel nicht angezeigt. Das Suchergebnis bietet Links zum IA und außerdem über ‚Print on Demand‘ die Möglichkeit, auf utoronto.ca gespiegelte PDF-Dateien direkt herunterzuladen, wahlweise im Original oder in einer Black&White-Version. Die bei den Download-Links angegebene Größe der PDF-Dateien wird derzeit (Oktober 2014) nicht korrekt angezeigt.

Eine weitere Suchmöglichkeit bietet das ebenfalls von den Libraries der University of Toronto betriebene Scholars Portal:

http://books1.scholarsportal.info/

Online lesen

Im Modus „Read Online“ lassen sich Bücher vergleichsweise unkompliziert aufschlagen und durchblättern. Jede einzelne Seite kann verlinkt werden, so dass sich Literaturverweise (insbesondere auf Lexika) von Wikisource-Themenseiten direkt nachschlagen lassen (am Fall Sekundärliteratur zu Wasielewski einmal exemplarisch durchgeführt).

Mängel der Scans und der OCR

Bei Büchern, die nicht aus Google Books stammen, sind selten Seiten schlecht gescannt oder fehlen ganz, die Qualität ist in aller Regel sehr viel besser als bei Google Books. Partner des Internet Archive scannen jedoch ebenfalls wie Google keine ausklappbaren Falttafeln.

Die Schrifterkennung (OCR) ist bei deutschsprachigen Texten kaum brauchbar, bei Frakturschriften unbrauchbar. Die (mittlerweile oft gute) OCR von Google Books wird nicht übernommen.

Tipps für das Suchen in Texten: a.) Großbuchstaben in Fraktur werden sehr schlecht erkannt. Klein geschriebene Worte werden eher gefunden. b.) Das lange s der Fraktur wird oft als „f“ erkannt. So wird etwa aus „sonst“ „fonft“ oder „sonft“. Manchmal wird es auch so gelesen und abgeschrieben und ist dann allgemein im Internet zu finden. c.) Bei Umlauten das Zeichen durch die Nicht-Umlaut-Version ersetzen. Also nicht nur nach „Österreich“, sondern auch nach „Osterreich“ suchen. d.) Generell wird in historischen Dokumenten manchmal die Version mit angehängtem „e“ verwendet, also „Oesterreich“. Oder bei „t“ ein „h“ angehängt wie etwa bei „Thier“ oder „Christenthum“. Ganz früh wurde auch kein „ie“ geschrieben, sondern nur „i“. e.) Generell wird bei englischsprachiger OCR von deutschen Texten „ü“ des Öfteren als „ii“ erkannt und manchmal auch so in Arbeiten aufgenommen. Es ist im Internet einiges über den „Fiihrer“ zu finden. Aber auch in Fraktur gesetztes „ll“ und „tt“ sind unter „ii“ zu finden.

Mängel der Metadaten

Häufig sind die bibliographischen Angaben zu den Büchern falsch oder lückenhaft.

Weblinks

Englisch:

Internet Archive: Text Archive (Official Website)
Frequently Asked Questions (FAQ): Text and Books
Unofficial archive.org/text FAQ by Stephen Balbach
Archive Forum “Open Source Books” (RSS)
The Open Library Blog
Uploading E-Books to the Internet Archive

Deutsch: