Warum Nachrichtenverleger den Zugriff von KI auf Internetarchive blockieren

Rund 245 globale Nachrichtenorganisationen in neun Ländern versuchen, die Crawler des Internetarchivs zu blockieren. Dabei handelt es sich um automatisierte Software-Bots, die Inhalte von Webseiten in der öffentlich zugänglichen Schnittstelle des Internet Archives, der Wayback Machine, erfassen, anzeigen und archivieren.

Das Archiv umfasst über eine Billion Webseiten aus dem Jahr 1996 und ist damit eine der größten kollektiven öffentlichen Informationsressourcen der Welt. Dazu gehören frühere Artikel von großen Nachrichtenorganisationen wie CNN, The New York Times, The Guardian und USA Today.

Diese Webseiten werden für verschiedene Zwecke verwendet, beispielsweise als Primärquellen für Historiker oder zum Nachweis von Änderungen nach der Veröffentlichung.

Mehrere Nachrichtenorganisationen drängen nun darauf, die Crawler zu blockieren, da KI-Unternehmen nun die Inhalte des Archivs verwenden, um Large Language Models (LLMs) zu trainieren, ohne eine faire Bezahlung anzubieten oder eine Erlaubnis einzuholen.

Laut einer Analyse des KI-Erkennungsunternehmens Originality AI blockieren bereits mehr als 20 große Nachrichtenorganisationen ia_archiverbot, den wichtigsten Webcrawler, den das Internet Archive für die Wayback Machine verwendet.

Allerdings wird mindestens einer der vier Crawling-Bots des Archivs von 241 globalen Nachrichtenseiten blockiert. Ein großer Teil davon blockierte Seiten ist im Besitz von USA Today Co, dem größten Zeitungsverlag der USA. Das bedeutet, dass Hunderte lokaler Publikationen praktisch aus den historischen Aufzeichnungen entfernt wurden.

Die Risiken der Verwendung von Archivinhalten zum Trainieren von KI

Archivierte Nachrichteninhalte bieten riesige Mengen hochwertiger Texte und Bilder für groß angelegte Schulungen KI-Modelle in menschlicherem Schreiben. Dies ist über eine URL- und API-Schnittstelle verfügbar, die es unterschiedlicher Software ermöglicht, miteinander zu kommunizieren und Daten anzufordern und so als Brücke zwischen Systemen zu fungieren.

Dadurch wird es für KI-Unternehmen noch einfacher, auf archivierte Daten zuzugreifen und Modelle zu trainieren.

Ein weiterer Vorteil besteht darin, dass die Inhalte im Internet Archive bereits strukturiert, zugeordnet und datiert sind.

Ein Großteil der Daten des Internetarchivs wurde bereits in wichtigen KI-Trainingsdatensätzen gefunden. Dies ist jedoch eine große Schwäche für Nachrichtenorganisationen, die bereits KI-Unternehmen wie z Verwirrung Und OpenAI auf mögliche Urheberrechtsverletzungen.

„Das Problem besteht darin, dass Inhalte der Times im Internetarchiv von KI-Unternehmen unter Verletzung des Urheberrechts verwendet werden, um direkt mit uns zu konkurrieren“, sagte Graham James, ein Sprecher der Zeitung The New York Times, wie von The Next Web zitiert.

„Die Times investiert enorme Ressourcen in die Produktion von Originaljournalismus, und diese Arbeit sollte nicht ohne unsere Erlaubnis verwendet werden.“

Andere Organisationen, wie zum Beispiel The Guardian, haben einen konservativeren Ansatz gewählt, indem sie den Zugriff auf das Archiv eher eingeschränkt als vollständig blockiert haben.

Internet Archive behauptet, es handele sich um „Kollateralschaden“

Der Direktor der Wayback Machine, Mark Graham, hat behauptet, dass es sich lediglich um „Kollateralschäden“ handele und dass die wahren Schuldigen die KI-Unternehmen seien, die über die Schnittstellen des Archivs auf frühere Inhalte zugreifen.

Das Archiv hat jedoch eigene Maßnahmen ergriffen, um dies einzuschränken. Dazu gehört die Verhinderung umfangreicher Downloads einiger Website-Materialien und die Einschränkung der automatischen Extraktion in bestimmten Fällen.

Graham betonte, dass das Archiv eine Schlüsselmethode zur Bewahrung darstellt. Ohne diese Möglichkeit können nicht archivierte Artikel ohne Berechtigung oder Verantwortung bearbeitet werden. Dies kann alles sein, von der Änderung oder Entfernung von Zitaten über die Berichtigung von Fehlern bis hin zur Umleitung von Ansprüchen und offiziellen Erklärungen.

Derzeit werden diese Änderungen von der Wayback Machine verfolgt.

Dies hat dazu geführt, dass einige Nachrichtenorganisationen versucht haben, mit dem Internet Archive zusammenzuarbeiten, um akzeptable Kompromisse oder Problemumgehungen zu finden, die eher eine Zugriffsbeschränkung als harte Blockierungen beinhalten.

In ähnlicher Weise hat auch die gemeinnützige Interessengruppe für digitale Rechte, Fight for the Future, eine Petition gestartet, die bereits von 100 aktuellen Journalisten unterzeichnet wurde, um gegen diese Sperrung zu protestieren. Dies gilt insbesondere in einer Zeit, in der öffentliche Aufzeichnungen und die Geschichte zunehmend umstritten sind.