Liste der Initiativen zur Webarchivierung - List of Web archiving initiatives

Dieser Artikel enthält eine Liste von Webarchivierungsinitiativen weltweit. Zur besseren Lesbarkeit sind die Informationen in drei Tabellen unterteilt: Initiativen zur Webarchivierung, archivierte Daten und Zugriffsmethoden.

Karte der weltweiten Initiativen zur Webarchivierung im April 2021. Daten

Diese Wikipedia-Seite wurde ursprünglich aus den Ergebnissen des Forschungspapiers Eine Umfrage zu Webarchivierungsinitiativen erstellt, das vom Team Arquivo.pt (dem portugiesischen Webarchiv) veröffentlicht wurde.

Initiativen zur Webarchivierung

Name Land Entstehungsjahr Technologien Anzahl der Angestellten Kommentare
Vollzeit Teilzeit
Ende der Laufzeit Webarchiv Vereinigte Staaten 2008 Heritrix , Wayback 6-10 Das End of Term Web Archive erfasst und speichert Websites der US-Regierung ( .gov , .mil usw.) in der Legislative, Exekutive oder Judikative der Regierung am Ende der Präsidentschaftsverwaltungen. Ab 2008 hat das EOT bisher Websites vor Verwaltungsänderungen in den Jahren 2008, 2012 und 2016 bewahrt und bereitet sich derzeit auf den Übergang 2020 vor. Zu den Projektpartnern zählen CA Digital Library , Internet Archive, Library of Congress, George Washington University, Stanford University, University of North Texas und das US Government Publishing Office.
Archiv.st Vereinigte Staaten 2017 Archive.st benutzerdefinierte Programmierung bereitgestellt von US Support LLC >1 0 Archive.st bietet eine kostenlose Online-Webarchivierung in Form eines .JPG- und HTML-Archivs.
EU-Webarchiv europäische Union 2013 Heritrix , Rückweg 1 Das EU-Webarchiv enthält die wichtigsten Websites der EU-Institutionen , die auf der europäischen .eu- Domain und Subdomains gehostet werden . Ziel ist es, EU-Webinhalte langfristig zu erhalten und für die Öffentlichkeit zugänglich zu machen.
Alabama State Government and Politics Website und Social Media Archives Vereinigte Staaten 2005 Archive-it-Service
Australiens Webarchiv Australien 1996 PANDORA Digitales Archivierungssystem (PANDAS) , Heritrix, Bamboo, NLA Trove , HTTrack , Webrecorder, outbackCDX. 4 >10 Die National Library of Australia leitet die 'PANDORA'-Komponente des australischen Webarchivs, die einen selektiven Ansatz verfolgt und ein Gemeinschaftsprogramm von 10 Agenturen ist, die kuratorischen Input liefern. PANDORA verwendet das Workflow-System PANDAS (das Ende der 1990er Jahre von der NLA entwickelt wurde) mit HTTrack als Standard-Harvester. Die National Library of Australia führt auch das Sammeln von Websites der australischen Regierung (das Webarchiv der australischen Regierung) durch, indem sie den Heritrix-Harvester und den Webrecorder mit einer Backend-Infrastruktur (bezeichnet als „Bamboo“) verwendet, um Inhalte zu organisieren, und das von der NLA entwickelte outbackCDX-Tool zur Verwaltung der Indexierung Zugriffsbeschränkungen für Inhalte. Zusätzlich zu diesen Ansätzen führt die Nationalbibliothek auch jährliche Ernten der gesamten .au-Domain durch, die in Zusammenarbeit mit dem Internet Archive mit Heritrix und Wayback durchgeführt werden . Im Jahr 2019 wurden PANDORA, das Webarchiv der australischen Regierung und die gesamte Domain-Ernte über den Trove-Discovery-Service der NLA in ein neues einziges Discovery- und Delivery-Portal integriert.
PROMISE-Projekt Belgien 2017 Heritrix , PyWB 7 Das PROMISE-Projekt war ein zweijähriges Projekt (2017-2019), das die politischen, rechtlichen, technischen und wissenschaftlichen Fragen im Zusammenhang mit der Archivierung des belgischen Webs untersuchte. Ziel des Projekts war es, a) bewährte Verfahren im Bereich der Webarchivierung zu ermitteln, b) eine Strategie zur Erhaltung des belgischen Internets zu entwickeln, c) ein Pilotprojekt für die Erhaltung und Bereitstellung des Zugangs zum archivierten belgischen Internet einzurichten und d) Empfehlungen auszusprechen für die Implementierung eines nachhaltigen Web-Archivierungsdienstes. Das Projekt wurde von der Königlichen Bibliothek von Belgien und dem Staatsarchiv von Belgien in Zusammenarbeit mit der Universität Gent (Forschungsgruppe für Medien, Innovation und Kommunikation und Zentrum für digitale Geisteswissenschaften Gent), der Université de Namur (Forschungszentrum für Information, Recht und Gesellschaft) ins Leben gerufen ) und Haute-École Bruxelles-Brabant (Unité de Recherche et de Formation en Sciences de l'Information et de la Documentation). Im Oktober 2019 fand bei KBR das Abschlusskolloquium „Das Web retten: Das Versprechen eines belgischen Webarchivs“ statt. In diesem Kolloquium wurden die wichtigsten Forschungsergebnisse präsentiert.
KBR-Webarchiv Belgien 2020 1 Das KBR oder die Belgische Königliche Bibliothek entwickelt ein funktionsfähiges Webarchiv basierend auf den Ergebnissen des PROMISE-Forschungsprojekts PROMISE-Forschungsprojekt (2017-2019). Auf der Grundlage der im PROMISE-Projekt skizzierten Strategie werden operative Richtlinien und technische Infrastruktur entwickelt.
MT.GOV Connect Vereinigte Staaten 2007 Archive-It-Dienst 1 Montana State Library Sammlung staatlicher Behörden-Websites aus dem Jahr 1996 in teilweiser Erfüllung des gesetzlichen Auftrags, staatliche Veröffentlichungen zu identifizieren, zu erwerben, zu beschreiben und dauerhaft öffentlich zugänglich zu machen. Digitalisierte historische Staatspublikationen verfügbar unter https://archive.org/details/MontanaStateLibrary
Stillio Weltweit 2011 Puppenspieler, V8-Motor , Gecko , WebKit , Amazon Web Services 3 4 SaaS-Lösung für die periodische Website- und Social-Media- Archivierung. Bietet Screenshot-Archivierung von statischen und dynamischen Webseiten in einer festen Dauer, die je nach Bedarf angepasst werden kann. Hilft bei der Einhaltung gesetzlicher Vorschriften, Trendverfolgung, Überprüfung von Werbebannern, Versionsänderungen.
PageFreezer .com Weltweit 2009 Deep Web Crawler von PageFreezer, Hadoop , Cassandra, Elastic Search 60 SaaS-Lösung für Website- und Social-Media-Archivierung. Bietet automatische Erfassung, Wiedergabe, Volltextsuche und Datenexport von Websites, Blogs, sozialen Medien und Plattformen für die Zusammenarbeit von Unternehmen für eDiscovery und die Einhaltung von Vorschriften von FDA, FINRA , FSA, SEC, Federal Rules of Evidence, FOIA und Records Management-Gesetzen.
WebPreserver.com Weltweit 2015 WebPreserver Chrome-Webbrowser-Plugin und webbasierter Dienst zum Sammeln authentifizierter, rechtlich zulässiger Webseiten und Social-Media-Seiten für eDiscovery. Web-Snapshots können in EDRM-XML, WARC, PDF und nativem HTML exportiert werden. Die Dienste von WebPreserver.com ermöglichen es Rechtsteams, die mit dem WebPreserver-Tool erfassten digitalen Beweise zu organisieren, zu kennzeichnen und zusammenzuarbeiten.
OoCities — GeoCities Archiv / GeoCities Mirror Deutschland 2009
Webarchiv Österreich Österreich 2008 NetarchiveSuite, Heritrix , OpenWayback 1
Deutsche Nationalbibliothek Deutschland 2012 Werkzeuge der oia GmbH 3 Das Crawling für das selektive Webarchiv erfolgt durch die deutsche Firma oia GmbH. Der Zugang ist auf die Lesesäle der Deutschen Nationalbibliothek beschränkt.
DILIMAG (Digitale Literaturzeitschriften) Österreich 2007 WebKurator 2 Ein Techniker, einer zum Sammeln und Metadaten.
Bibliothèque et Archives nationales du Québec (BAnQ) Kanada 2012 Heritrix , Wayback . 2
Webarchivierungsprogramm bei Library and Archives Canada Kanada 2005 Archive-It-Dienst 4 3 Webarchivierung in Kanada ist eine gesetzliche Aktivität, die zu Zwecken der digitalen Archivierung gemäß Abschnitt 8 (2) des Library and Archives of Canada Act durchgeführt wird . An dem Programm arbeiten vier Vollzeitkräfte und drei Teilzeitkräfte. Web Archivierung bei Library and Archives Canada wird auch Wirkung genutzt Legal Deposit .
Sammlung und Bewahrung von Webinformationen - WICP (Chinesisches Webarchiv) China 2003 Heritrix , Wayback und NutchWAX .
Kroatisches Webarchiv (Hrvatski arhiv weba - HAW) Kroatien 2004 Crawl: DAMP-Software, Heritrix

Zugang: Wayback , Lucene

2 2 Das Kroatische Webarchiv (HAW) ist eine Sammlung von Inhalten aus dem Internet. Im Jahr 2004 begann das Archiv als Konzept der selektiven Erfassung von Webressourcen. Seit 2011 werden jährlich ganze .hr-Domain-Harvests sowie thematische/Event-Harvesting für Veranstaltungen von nationalem Interesse durchgeführt. Der Inhalt des Archivs ist über die HAW-Website öffentlich zugänglich. (2 Bibliothekare in Vollzeit, 1 Bibliothekar in Teilzeit, NUL ), 2 IT-Fachkräfte in Teilzeit (SRCE - University of Zagreb, University Computing Center )
Webarchiv ( Nationalbibliothek der Tschechischen Republik ) Tschechien 2000 Heritrix , Wayback und Seeder . 5 2 Das tschechische Webarchiv ( Webarchiv ), das von der Nationalbibliothek der Tschechischen Republik verwaltet wird, konzentriert sich auf die Archivierung des tschechischen nationalen Webs. Die Akquisitionspolitik besteht aus drei Linien: Selective Harvests (Sammlung von Ressourcen auf der Grundlage von Auswahlkriterien), Themensammlungen (mit Schwerpunkt auf wichtigen Themen im Bereich des tschechischen Webs) und umfassende Harvests (automatische Sammlungen von Inhalten im nationalen Bereich). Das Personal besteht aus 1 Manager, 3,5 Kuratoren + 1,5 technischen Mitarbeitern.
Netarkivet / Das dänische Webarchiv (Royal Danish Library) Dänemark 2005 NetarchiveSuite , Heritrix , Freitextsuche mit Apache Solr , Blacklight und Wayback für die Wiedergabe. Entwicklung des Such-Frontends und der Playback-Engine SolrWayback . 1 5.5 VZÄ Seit 2005 ist die Sammlung und Bewahrung des dänischen Teils des Internets im dänischen Pflichtexemplargesetz enthalten. Die Aufgabe wird von der Königlich Dänischen Bibliothek übernommen .

Das dänische Webarchiv ist nicht öffentlich zugänglich. Das Archiv ist nur für Forscher zugänglich, die eine Sondergenehmigung zur Nutzung der Sammlung für bestimmte Forschungszwecke beantragt und erhalten haben.

Diese Website, Netarkivet.dk, soll Forscher, Websitebesitzer und andere interessierte Parteien über das dänische Webarchiv informieren. Zur Zeit ist der größte Teil der Website auf Dänisch.

Estnisches Webarchiv Estland 2010 Heritrix , Squidwarc , PhantomJS und Puppeteer für Screenshots der Startseiten von Websites, Pywb , Custom Curator Tool. 3 1 Seit 2006 erlaubt das Gesetz zur Pflichtablieferung der Estnischen Nationalbibliothek , estnische Websites als Pflichtexemplare zu sammeln. Das Web Harvesting wird durchgeführt und das Archiv wird von der Estnischen Nationalbibliothek verwaltet.
Finnisches Webarchiv Finnland 2008 Heritrix , Solr , Wayback . 2 >2 Verwaltet von der Finnischen Nationalbibliothek . Jährlich werden alle *.fi-Domains sowie Webserver in Finnland geerntet. Außerhalb dieser Ernten wählt die Bibliothek relevante Websites manuell aus.
BnF - BnF Web-Legal Deposit Frankreich 2006 Heritrix , Wayback , NutchWAX , NetarchiveSuite , BCWeb. 10
Ina (Institut National de l'Audiovisuel) Frankreich 2009 Crawl: PhagoSite , Crocket basierend auf Firefox , Fantomas basierend auf PhantomJS / Access: Vortex / Suche: Dowser basierend auf Elasticsearch 7
Bibliotheksservice-Zentrum Baden-Württemberg Deutschland 2003 Archive-It-Dienst 0,5 Die Webseiten von etwa 20 Städten, Gemeinden, Kreisen und angeschlossenen Körperschaften sowie Landesbibliotheken werden vom BSZ im Auftrag in verschiedenen Archive-It-Sammlungen gesammelt. Öffentlicher Zugang. Datenspeicherung: San Francisco (Archive-It) sowie Backup mit baden-württembergischer Speicherinfrastruktur.
Webarchiv des Deutschen Bundestages Deutschland 2005
Ungarische Webarchivierungsinitiative Ungarn 2017 Heritrix , Wayback, PyWb, Brozzler, Webrecorder , WCT 3 2 Von April 2017 bis Dezember 2019 führte die Nationalbibliothek Széchényi im Rahmen ihres umfassenden Entwicklungsprogramms für die IT-Infrastruktur ein Pilotprojekt zur Webarchivierung durch. Im Jahr 2020 wurde die Webarchivierung zu einem ständigen Service der Nationalbibliothek Széchényi. Ab 2021 haben sich die gesetzlichen Rahmenbedingungen geschaffen und das Webarchiv arbeitet nach den geänderten Paragrafen des Kulturgesetzes und der entsprechenden Regierungsverordnung. Wir führen thematische, ereignisbasierte und Domain-Harvests durch. Wir haben eine kleine Demosammlung mit Metadaten- und Volltextsuchfunktionen. Der Rest des Archivs ist nicht öffentlich zugänglich.
Island Island 2004 Heritrix , OpenWayback
Webarchiv der irischen Nationalbibliothek Irland 2011 Archive-it-Service 1 0,5 FTE Die National Library of Ireland archiviert über ihr NLI Selective Web Archive selektiv irische Websites von wissenschaftlicher, kultureller und politischer Bedeutung .
Israelisches Webarchiv Israel 2011 Heritrix , Web-Kurator-Tool , Wayback , Rosetta 1 >3 Nationalbibliothek von Israel sammelt '.IL'-Domains, 1 Projektmanager in Teilzeit, 1 Technischer Leiter in Vollzeit, 1 Bibliothekar in Teilzeit, 1 IT-Infrastruktur in Teilzeit
Nationale Zentralbibliothek von Florenz Italien 2018 Archive-it-Service Ziel des Projekts ist die Sammlung und Archivierung digitaler Dokumente und Websites mit "kulturellem Interesse" für die italienische Geschichte und Kultur nach den Grundsätzen des nationalen Pflichtexemplargesetzes. Die Archive-it-Sammlung ist öffentlich zugänglich.
Web Archiving Project (WARP), The National Diet Library , Japan Japan 2002 Heritrix , OpenWayback, Solr 7 2 Das Web Archiving Project (WARP) archiviert seit 2002 Websites. Das 2009 überarbeitete und im April 2010 in Kraft getretene National Diet Library Law erlaubt es dem NDL, die Websites offizieller japanischer Institutionen zu archivieren: Regierung, Landtag, Gerichte, lokale Regierungen, unabhängige Verwaltungsorganisationen und Universitäten. Websites von kulturellen und internationalen Veranstaltungen, die in Japan abgehalten werden, und solche, die sich auf Online-Zeitschriften beziehen, werden ebenfalls mit Genehmigung ihrer Webmaster archiviert.
Koreanische Nationalbibliothek - OASIS (Online-Archivierung und Suche in Internetquellen) Korea 2001 Eigenes System basierend auf Oracle DBMS und spezialisierter Suchmaschine (IRS), die Datenverwaltung und Suchfunktion durchführt. 3 11
Bibliothèque nationale du Luxembourg Luxemburg 2015 Heritrix , Wayback 2 Die luxemburgische Nationalbibliothek führt halbjährlich breite Crawls für die .lu-Domain sowie selektive und ereignisbasierte Crawls durch.

Die im Luxemburger Webarchiv gesammelten Websites bereichern die Patrimonialsammlungen der Nationalbibliothek, was die Bewahrung digitaler Publikationen für zukünftige Generationen ermöglicht.

Webarchive.lu ist die Informations- und Beteiligungsplattform des Luxemburger Webarchivs.

Koninklijke Bibliotheek Niederlande 2007 Heritrix 3.2, Web Curator Tool 3.0, Wayback , KB e-Depot-System ~10 1 Crawl Engineer, 1 Softwareentwickler und 9 Inkassospezialisten, alle in Teilzeit (entspricht etwa 4 Vollzeit). Die KB sammelt selektiv niederländische Forschungs- und Kulturstätten.
Lettische Nationalbibliothek Lettland 2005 Web-Curator-Tool und Wayback 1 Derzeit nur zur Aufbewahrung archiviert, öffentlich zugänglich in Entwicklung (ETA Juni 2012). Der lettische Begriff für Web Harvesting ist "rasmošana".
Neuseeland Webarchiv Neuseeland 1999 Web Curator Tool , Heritrix3 , Webrecorder , OpenWayback , OutbackCDX , Rosetta 4 >10 Nationale Domain-Harvests werden seit 2008 und seit 2015 jährlich in Zusammenarbeit mit dem Internet Archive durchgeführt. Die selektive Sammlung wird von der National Library of New Zealand mit dem Web Curator Tool durchgeführt. Drei Vollzeitmitarbeiter sammeln Websites und eine Reihe von Mitarbeitern mit Dienstplan sammeln HTML-Serien oder HTML-Monographien. Unterstützt von einem dedizierten Webarchivierungsingenieur und einem breiteren ITMS der Abteilung. Fragen der digitalen Aufbewahrung werden von Mitarbeitern bearbeitet, die mit Rosetta zusammenarbeiten.
Die Norwegische Nationalbibliothek Norwegen 2001
Arquivo.pt Portugal 2007 Eigenentwicklung , Heritrix , Wayback , NutchWAX , Pywb , Apache Solr , Brozzler 7 1 Arquivo.pt ist eine Forschungsinfrastruktur, die seit 1996 aus dem Internet gesammelte Informationen speichert und einen öffentlichen Suchdienst für diese Sammlung bereitstellt. Arquivo.pt bewahrt Websites in mehreren Sprachen und bietet Benutzeroberflächen in englischer Sprache. Die archivierten Daten können über eine verteilte Verarbeitungsplattform oder über Application Programming Interfaces, die die Entwicklung von Mehrwertanwendungen erleichtern, automatisch verarbeitet werden, um Big-Data-Recherchen durchzuführen. Das Team von Arquivo.pt hat auch mit über 40 wissenschaftlichen und technischen Artikeln zur Webarchivierung beigetragen, die im Open Access veröffentlicht wurden.
Webarchiv von Cacak Serbien 2009 HTTrack 1
Webarchiv Singapur Singapur 2006 Wayback , Heritrix , Solr 3 Das Webarchiv Singapur wird vom National Library Board , Singapur (NLB) verwaltet. NLB führt Domain- und selektive Archivierung von Websites mit Schwerpunkt auf Singapur-Inhalten durch. Die Sammlung ist in der Nationalbibliothek in Singapur einsehbar. Ausgewählte Inhalte, die von Urheberrechtsinhabern freigegeben wurden, sind online verfügbar.
Digitale Ressourcen ( Universitätsbibliothek Bratislava ) Slowakische Republik 2015 Heritrix 3.2.0, Wayback 2.2.0, Solr 5.2.1, Invenio , Custom Curator Tool 4 1 Die Universitätsbibliothek Bratislava (ULIB) führte 2008-2009 die ersten Experimente zum Webharvesting durch. Im Jahr 2015 hat ULIB eine Plattform für Web- und E-Born-Archivierung in Betrieb genommen (während der Umsetzung des nationalen Projekts "Digitale Ressourcen", das vom Europäischen Fonds für regionale Entwicklung unterstützt wurde) - www.webdepozit.sk/ ).
Slowenisches Webarchiv Slowenien 2007 Heritrix , Wayback 1
Archivo de la Web Española Spanien 2009 NetarchiveSuite , OpenWayback , Solr 3+Betreuer 2 Verwaltet von der Spanischen Nationalbibliothek in Zusammenarbeit mit regionalen Bibliotheken. Verwendet einen gemischten Ansatz aus selektiven und breiten Ernten. Ganze .es Domain Harvests werden seit 2009 bis 2013 jährlich in Zusammenarbeit mit dem Internet Archive mit Heritrix und Wayback durchgeführt. Seit 2014 werden selektive Ernten von der Spanischen Nationalbibliothek mit NetarchiveSuite durchgeführt. Nationalbibliothek = 3 Bibliothekare in Vollzeit, 2 Crawling Engineers in Teilzeit. Regionalbibliotheken = mehrere Bibliothekare in Teilzeit. Seit dem 26. Oktober 2015 erlaubt das Gesetz zur Pflichtablieferung der Spanischen Nationalbibliothek und den Regionalbibliotheken, spanische Websites als Teil der Pflichtablieferung zu sammeln und der Öffentlichkeit unter Beachtung der Regeln des Urheberrechts zur Verfügung zu stellen.
PADICAT: Das Webarchiv von Katalonien Spanien 2005 Heritrix , Wayback , WERA, NutchWAX , Web Curator und CAT . 2 PADICAT ist das Open-Access-Webarchiv von Katalonien, das von der Biblioteca de Catalunya erstellt wurde : der öffentlichen Einrichtung, die für die Sammlung, Erhaltung und Verbreitung des bibliographischen Erbes Kataloniens in Spanien verantwortlich ist.
ONDARENET - Baskisches digitales Kulturerbe-Archiv Spanien 2008 Heritrix , Wayback , NutchWAX und Web Curator . 1
Schweden (Kulturarw3) Schweden 1996 NetarchiveSuite , Heritrix . Inhouse-System für Lagerung, Wartung und Zugriff, aber Umstellung auf OpenWayback oder pywb . 1,25 Das schwedische Web-Harvesting-Projekt begann 1996 und die erste Ernte wurde 1997 durchgeführt. 2002 kamen die täglichen Ernten bestimmter Zeitungswebsites hinzu. Es gab eine Betriebspause November 2009 - Mai 2011, aber eine Ernte für 2010 wurde mit Hilfe des Internetarchivs gemacht. In den Jahren 2016, 2018 und 2019 wurden aufgrund von Problemen mit der Harvesting-Plattform keine Domain-Harvests durchgeführt. Die tägliche Ernte von Zeitungswebsites wurde zwischen Mai 2017 und Dezember 2018 pausiert, wurde aber auf alle schwedischen Zeitungswebsites täglich ausgeweitet. Seit April 2013 erhält die Schwedische Nationalbibliothek auch Online-Material über das Gesetz zur Pflichtablieferung für elektronisches Material.
Aleph-Archiv Schweiz, USA 2010 Webarchivierungsplattform, Erfassung von Domainnamen, Hochleistungssuchmaschine, Indizierung nahezu in Echtzeit, Webüberwachungstools >10 Automatische Webarchivierungsplattform der Enterprise-Klasse für die Online-Erfassung und -Aufbewahrung. Unterstützen Sie eDiscovery mit leistungsstarker und qualitativer Technologie.

Richtet sich an Unternehmen, Institutionen und Agenturen, die ihre Webinhalte erfassen, bewahren und nutzen möchten; dynamische Websites, Wikis, soziale Medien, Foren, Kommentare, Haftungsausschlüsse und Anzeigen für Compliance (FDA, FINRA , FSA, SEC, FOIA), Marketing oder reine Aufbewahrungszwecke.

Expatriate Archive Center Blog-Archiv Den Haag, Niederlande 2019 Archive-It-Dienst Im Mittelpunkt dieses Projekts stehen Blogs von Personen, die im Ausland gelebt haben. Wir bewahren diese Blogs und ihre Inhalte, weil wir ihren kulturellen und historischen Wert anerkennen. Die Aufnahme eines Blog-Archivs in unsere Sammlung wird die Forschungsmöglichkeiten für Studierende und andere Akademiker, die uns als Studienort wählen, bereichern. Die archivierten Blogs werden nach ganz bestimmten Kriterien ausgewählt und regelmäßig auf ihre Qualität überprüft.
Webarchivierungs-Bucket Schweiz, USA, Kanada 2012 WARC Software Development Kit, Kobalt, Holon-Webserver Der "Web Archiving Bucket" ist eine Initiative von Aleph Archives, um Daten zu bewahren und Bibliotheken und Organisationen kostenlos nutzbare Webarchivierungstools und -komponenten zur Verfügung zu stellen.

Der Web Archiving Bucket bietet eine Reihe von Tools, die Archivaren und Fachleuten bei ihrer täglichen Arbeit helfen.

Webarchiv Schweiz Schweiz 2008 Heritrix , Wayback , Webrecorder 6 2 Crawl-Ingenieure, 3 Personen für die Qualitätssicherung (mit weniger als 1 Vollzeitbeschäftigung), 1 Koordinator. Die Kuratoren, die die Auswahl treffen, sind Partnerbibliotheken in der ganzen Schweiz.
NTU Web-Archivierungssystem, NTUWAS Taiwan 2007 Lucene 3
Webarchiv Taiwan Taiwan 2007
Das britische Webarchiv Vereinigtes Königreich 2004 Heritrix , Web Curator Tool , Wayback , Solr für die Suche.
Webarchiv der britischen Regierung (UKGWA) Vereinigtes Königreich 2003 SpiegelWeb 7 1 Das UK Government Web Archive (UKGWA) der UK National Archives ist ein vollständig offenes Webarchiv. Es umfasst über 5.000 Websites der Zentralregierung und soziale Medien, die in regelmäßigen Abständen (1996 bis heute) aufgenommen werden. Der Geltungsbereich von UKGWA ist im OSP27- Dokument beschrieben. Die technische Seite des Webarchivierungsbetriebs wird von MirrorWeb bereitgestellt .
Webarchiv des britischen Parlaments Vereinigtes Königreich 2009 SpiegelWeb 1 2 Das Webarchiv des britischen Parlaments erfasst, bewahrt und macht im Internet veröffentlichte Informationen des britischen Parlaments zugänglich. Das Webarchiv umfasst Websites und Social Media von 2009 bis heute. Die technische Seite der Webarchivierung wird von MirrorWeb bereitgestellt .
EU Exit Webarchiv Vereinigtes Königreich 2020 SpiegelWeb Das EU Exit Web Archive der UK National Archives ist ein vollständig offenes Webarchiv. Es enthält eine breite Auswahl von Dokumenten aus EUR-Lex (der Website für europäische Gesetzgebung), darunter Verträge, Gesetzgebungsdokumente, das Amtsblatt der EU, Rechtsprechung und andere unterstützende Materialien sowie Urteile des Europäischen Gerichtshofs in englischer Sprache, Französisch und Deutsch. Die Sammlung enthält alle Inhalte, die bis zum Abschluss des Umsetzungszeitraums, am 31. Dezember 2020, 23:00 Uhr GMT, veröffentlicht wurden.

Es bietet einen umfassenden und offiziellen britischen Referenzpunkt für das EU-Recht, wie es am Ende des Umsetzungszeitraums stand.

Die technische Seite der Webarchivierung wird von MirrorWeb bereitgestellt .

SpiegelWeb Weltweit 2012 Heritrix , PYWB für öffentliche Archive, benutzerdefinierte Wiedergabe für Archive innerhalb der MirrorWeb-Plattform. Benutzerdefinierte Social-Media-Archivierungstools. 40 MirrorWeb bietet eine Website und eine Social-Media-Archivierungsplattform für Finanzdienstleistungen und Einrichtungen des öffentlichen Sektors. Sie betreiben eine Reihe von öffentlichen Archiven, von denen zwei umfassen; das Webarchiv der britischen Regierung und das Webarchiv des britischen Parlaments .
Internetarchiv (bietet Archive-it-Dienst) Vereinigte Staaten 1996 Heritrix , Wayback , NutchWAX und andere vom Internet Archive entwickelte Tools 150 Die Wayback Machine von Internet Archive ist das größte und älteste Webarchiv der Welt und geht auf das Jahr 1996 zurück. Internet Archive bietet auch verschiedene Webarchivierungsdienste an, darunter Archive-IT , Save Page Now und Domain-Level-Contract-Crawls. Die Wayback Machine ist der öffentlich zugängliche Zugangsdienst zu Internet Archive und den Sammlungen von Partnern.
Reed Tech-Archiv Vereinigte Staaten 2010 TrueArchive-Technologie Reed Tech Archives bietet Unterstützung für Information Governance, Prozessschutz, Compliance, e-Discovery und Social Media Management. Die Lösung bietet sowohl einen automatisierten Ansatz als auch eine manuelle Erfassung. Für die automatisierte Erfassung von Websites und sozialen Medien erfasst die Anwendung Websites in einer wiederkehrenden Frequenz und in einem wiederkehrenden Intervall. Die gesamte Site wird innerhalb des Archivs vollständig neu erstellt, um genau die Benutzererfahrung zu bieten, die im Live-Web geboten wird. Ein Benutzer hat die Möglichkeit, von einer Reihe von URLs oder innerhalb der sichtbaren archivierten Site auf der Site zu navigieren. Im Allgemeinen unterstützt dieser Ansatz Compliance und Risiko

Minderung sowie die rechtliche Funktion. Die manuelle On-Demand-Erfassung bietet Kunden die Möglichkeit, bei Bedarf über das Reed Tech Web Preserver-Plug-in eine voll funktionsfähige Seite oder eine Reihe von Seiten einer Website oder eines sozialen Netzwerks zu erfassen. Dieser Ansatz wird in der Regel zur Unterstützung der Rechts-, Marketing- und Competitive Intelligence-Funktionen verwendet.

Bibliotheken der Stanford University Vereinigte Staaten 2007 Heritrix , HTTrack , Wayback , CDL- Webarchivierungsdienst, Internet Archive Archive-It 2 5 Stanford University Libraries wurde engagiert Web - Archivierung seit 2007 Projekte und begann eine Gründung Web - Archivierung ist Programm im Jahr 2013 Kollektionen dass SUL beschäftigt in umfassen Stanford University Archives , Bay Area Regierungen , Congressional Research Service (CRS) Berichte , Freedom of Information Act ( FOIA) , Fugitive US Executive Agencies und viele mehr. SUL ist auch an kollaborativen Webarchivierungsprojekten wie dem Archive of the California Government Domain, CA.gov, mit Bibliotheken der University of California und der CA State Library, dem End of Term Web Archive und der Ivy Plus Libraries Confederation beteiligt .
Bibliotheken der Columbia University Vereinigte Staaten 2009 Archive-it-Service 2 >1 Das Programm zum Sammeln von Webressourcen der Columbia University Libraries (CUL) archiviert ausgewählte Websites in thematischen Bereichen, die den bestehenden CUL-Sammelstärken entsprechen, Websites, die von verbundenen Unternehmen der Columbia University erstellt wurden, und Websites von Organisationen oder Einzelpersonen, deren Papiere oder Aufzeichnungen in den physischen Archiven der CUL aufbewahrt werden. 2008 mit der Webarchivierung begonnen.
Universitätsbibliothek Cornell Vereinigte Staaten 2011 Archive-it-Service 1 >1
Archiv der Website der Regierung des Bundesstaates North Carolina Vereinigte Staaten 2005 Archive-it-Service 3
Lateinamerikanisches Webarchivierungsprojekt Vereinigte Staaten 2005 Archive-it-Service
Webarchivierungsprojekt für die pazifischen Inseln Vereinigte Staaten 2009 Archive-it-Service 4
Webarchiv der Kongressbibliothek Vereinigte Staaten 2000 Heritrix , Wayback und das DigiBoard, ein internes kuratorisches/Berechtigungstool 6 80 Die Teilzeitkräfte verbringen im Durchschnitt einige Stunden pro Monat damit, Inhalte für die Kollektionen auszuwählen.
Harvard-Bibliothek Vereinigte Staaten 2006 Archiv-It >10 Die Websammlungen der Harvard Library bestehen aus den Sammlungen von 10 kuratorischen Einheiten , wobei variable Mitarbeiter sowohl zu technischen als auch zu kuratorischen Aktivitäten beitragen. Harvard ist über die Ivy Plus Libraries Confederation auch am kollaborativen Web-Collecting beteiligt .


Die Harvard Library startete 2006 Webarchivierungsaktivitäten mit einem selbst entwickelten Web Archive Collection Service (WAX) und wechselte 2017 zu Archive-It.  

Webarchivierungsdienst der California Digital Library (WAS-Dienst) Vereinigte Staaten 2005 Heritrix , Wayback , NutchWAX 4 >1 Die Anzahl der Stunden, die Kuratoren für den Dienst aufwenden, ist sehr unterschiedlich.
Bentley Historical Library (University of Michigan) Webarchiv Vereinigte Staaten 2000 HTTrack , Teleport Pro, WAS-Dienst (2010-) 2
Webarchiv der Universität von Texas in San Antonio Vereinigte Staaten 2009 Archiv-It 3 Die Anzahl der Stunden hängt davon ab, wie die Crawls geplant sind.
qumram Schweiz 2010 qumram Webarchivierung / Web Information Governance Software Suite Kommerzielle Webarchivierungs-/Webinformations-Governance-Softwaresuite. Bietet sowohl Remote-Harvesting als auch transaktionale Webarchivierung. Ermöglicht Integrationen mit jeder möglichen Webanwendung (WCMS, Portal, Sharepoint, eShop, benutzerdefinierte Anwendungen) sowie Repository (Datenbank, Dateisystem, elektronisches Archiv oder Records Management System, Cloud-basierte Lösung). Ermöglicht die Erfassung und Wiedergabe öffentlicher Informationen sowie spezifischer Benutzerinteraktionen.
SAPERION Deutschland 2011 SAPERION ECM Web Content Archiv Die kommerzielle Enterprise Content Management Suite ist auf die Einhaltung gesetzlicher Vorschriften spezialisiert. Das Produkt bietet sowohl Harvesting als auch transaktionale Webarchivierung basierend auf der Integration der Chronos Web Archiving Software Suite von qumram. Webinhalte sind nur ein weiterer Kanal, über den Inhalte zu SAPERION gelangen. Andere können Scanner, Fax, E-Mail, mobile Geräte, Office-Suiten oder andere Systeme sein, die Inhalte wie ERP- Systeme erstellen.
Internetarchiv der Bibliotheca Alexandrina Ägypten 2002 Heritrix , OpenWayback , WARCrefs 3 Aktuelle Crawling-Interessen: Ägypten über den 25. Januar hinaus, ccTLDs der Arabischen Liga

Deduplizierung: Verwenden des WARCrefs-Tools zum Deduplizieren von Webarchivinhalten im BA-Cluster
OpenWayback: Handhabung der Big-Data-Indizierung durch Verwendung von ZipNumCluster zum Auffinden einer bestimmten URI in komprimierten CDX-Dateien

AUEB Webarchiv Griechenland 2010 Heritrix , Wayback und NutchWAX . 1 1 Dieses Projekt ist Teil der Funktion der Universitätsbibliothek.
Webarchiv der Weltbank Vereinigte Staaten 2007 HTTrack- Crawler, Oracle RDBMS, Google Search Appliance 0 3
Russisches nationales digitales Archiv Russland 2010 wpull , grab-site , HTTrack- Crawler, Ad-hoc-Skripte, die für die Archivierung in sozialen Medien entwickelt wurden. Experimentieren: Heritrix , Wayback Etwa 5000 Regierungswebsites gesammelt (Mai 2018) mit wpull und als Archiv zum Herunterladen bereitgestellt.
Archiv-Team Weltweit 2009 wpull , Ad-hoc-Skripte 1 ~100 Freiwilligengruppe. Sie archivierten teilweise GeoCities , Yahoo! Videos , Google Video und andere.
WikiTeam Weltweit 2011 Ad-hoc-Skripte 0 0 Freiwilligengruppe. Über 20.000 Wikis erhalten.
CyberFriedhof der University of North Texas Vereinigte Staaten 1997 Heritrix , Wayback ; früher HTTrack 2 Der CyberCemetery ist ein Archiv von Regierungswebsites, die ihren Betrieb eingestellt haben (normalerweise Websites von nicht mehr existierenden Regierungsbehörden und Kommissionen, die einen Abschlussbericht herausgegeben haben). Diese Sammlung enthält eine Vielzahl von Themen, die auf den breiten Charakter von Regierungsinformationen hinweisen. Diese Sammlung enthält insbesondere Websites, die Themen behandeln, die das Curriculum der Universität und besondere Stärken des Programms unterstützen.
Archiv.is Weltweit 2012 Apache Accumulo , HDFS , Chromium , Ad-hoc-Skripte 1 1 Speichert externe Links von Community-Websites (Wikis, Foren, Blogs, ...). Kann Snapshots von Web 2.0-Seiten speichern.
Tamiment Library und Robert F. Wagner Labor Archives an der New York University Vereinigte Staaten 2007 WAS-Service 1 1 Archiviert Websites, die sich auf New York City und National Labour and Left Movements beziehen. Projekte umfassen: Alternative Massenmedien / Nachrichten; Anarchismus; Tierrechte; Kunst- und Kulturlinke; Bürgerrechte und Bürgerrechte; Kommunismus, Sozialismus, Trotzkismus; Wirtschaftliche und soziale Gerechtigkeit (einschließlich Occupy Wall Street); Bildung und Studentenbewegungen; Wahlpolitik und Parteien / Politische Aktion (US-Linke); Umweltschutz / Grüne Bewegung; Feminismus und Frauenbewegungen; Guantanamo Bay Internierungslager & Kriegsverbrechen (USA); Gehäuse; Internet/Cyberspace-Demokratie; Jüdische amerikanische progressive & linke Aktivität; Gewerkschaften und Organisationen (USA); Linke Wissenschaft und Theorie, Intellektuelle und andere Persönlichkeiten; LGBT-Rechte; Anderer linker Aktivismus; Friedensbewegungen; Rechte von Gefangenen und politische Gefangene; Fortschrittliche Politik/ Bildungsorganisationen.
Preservica Weltweit 2012 Heritrix , Preservica-Kernprodukt, Wayback Cloudbasierter heterogener Archivierungsdienst, der die Aufnahme aus mehreren Quellen ermöglicht (einschließlich Webarchivierungsaufnahme über Heritrix). Möglichkeit, Inhalte in WARC-Dateien zu migrieren und in Wayback zu rendern. Ingest wird als Workflow ausgeführt, sodass für die Ausführung nur sehr wenig Aufwand erforderlich ist. Entwickelt, unterstützt und betrieben von Preservica.
Zentrales elektronisches Staatsarchiv der Ukraine Ukraine 2007 HTTrack , Wget 2 Archive, die daran interessiert sind, Websites zu führen und thematische Sammlungen solcher Websites zu erstellen, Befindet sich derzeit im Archiv Sammlungen von Websites, die das Thema Präsidentschaftswahlen in der Ukraine von 2010 bis heute, über die Katastrophe von Tschornobyl, die Kommunalwahlen, der Euro 2012 in Ukraine, UNESCO-Welterbestätten in der Ukraine, 200. Geburtstag von Taras Schewtschenko.
Bibliotheken der York University , York University Digital. Bücherei Kanada 2012 Heritrix , Wget , Islandora , OpenWayback 1 0
New Yorker Kunstressourcen-Konsortium (NYARC) Vereinigte Staaten 2012 Archive-It-Dienst 1 ~3 Zusammenarbeit zwischen der Frick Art Reference Library , der Brooklyn Museum Library & Archives und der Museum of Modern Art (MoMA) Library zur Archivierung spezieller kunsthistorischer Webressourcen.
Webarchiv des Niederländischen Instituts für Ton und Bild (Ton und Bild) Niederlande 2011 Heritrix , Elasticsearch für Volltextindex, Drupal für Frontend ~7 Sound and Vision ist seit 2008 an Webarchivierungsprojekten beteiligt, beginnend mit dem EU-Forschungsprojekt LiWA. Nach einigen Pilotversuchen wurden 2014 Webarchivierungsprojekte skaliert.
Rhizom (Organisation) Vereinigte Staaten 1999 ArtBase , Webrecorder , Oldweb.Today 3 1 Rhizome betreibt unter der Leitung von Dragan Espenschied ein Programm zur digitalen Archivierung, das sich auf die Entwicklung kostenloser Open-Source-Softwaretools konzentriert, um die Webarchivierung und die Softwarearchivierungspraktiken zu dezentralisieren und den Zugang zu seinen Sammlungen digitaler Kunst zu gewährleisten. Oldweb.Today und Webrecorder sind seine Tools, die sich speziell auf die Webarchivierung konzentrieren.
University of Texas at Austin Libraries, Human Rights Documentation Initiative Vereinigte Staaten 2009 Archive-It-Dienst 1 1 Die Human Rights Documentation Initiative (HRDI) der Universität von Texas Libraries erfasst die Websites von Menschenrechtsorganisationen, um einen sicheren Zugriff auf Menschenrechtsdokumentation für den Fall zu ermöglichen, dass diese oft fragilen Websites abgeschaltet werden.
Kentucky Abteilung für Bibliotheken und Archive Vereinigte Staaten 2009 Archiv-it , Wayback >1 0 Diese Sammlung umfasst Erfassungen von Websites für staatliche Behörden von Kentucky in den Bereichen Exekutive, Legislative und Justiz. Es werden auch eigenständige Websites für Vorstände, Räte, Ausschüsse, quasi-staatliche Agenturen und Agenturprogramme archiviert. Captures für Websites aus den Jahren 2000-2008 werden in diese Sammlung durch eine Überweisung von der Wayback Machine auf unser Konto aufgenommen.
Universität von Kalifornien, San Francisco Library Vereinigte Staaten 2007 Archive-it , Wayback , CDL WAS Service >1 0 Diese Sammlung dokumentiert die Webpräsenzen der UCSF sowie die größeren gesundheitswissenschaftlichen Schwerpunkte der AIDS-Geschichte; Anästhesiologie; Biotechnologie und biomedizinische Forschung; Tabakkontrolle und -regulierung; Neurowissenschaften; und Computermedizin. Das Personal ist ein Vollzeit-Digitalarchivar mit verschiedenen Verantwortlichkeiten zusätzlich zu den Web-Archiven.
Ivy Plus Libraries Confederation Vereinigte Staaten 2013 Archive-It , Nadelbaum 1 1 Das Web Resources Collection Program der Ivy Plus Libraries Confederation ist eine gemeinsame Anstrengung zur Sammlungsentwicklung, um kuratierte, thematische Sammlungen von frei verfügbaren, aber gefährdeten Webinhalten aufzubauen, um die Forschung in den teilnehmenden Bibliotheken und darüber hinaus zu unterstützen. Teilnehmende Bibliotheken sind: Brown , Chicago , Columbia , Cornell , Dartmouth , Duke , Harvard , Johns Hopkins , MIT , Penn , Princeton , Stanford und Yale . Sammlungen sind über Archive-It zugänglich .
Webarchiv der malaysischen Regierung (MyGWA) Malaysia 2017 Wayback, WGET , WPULL >1 0 Das National Archive of Malaysia hat seit 2017 damit begonnen, Websites des öffentlichen Sektors in Malaysia zu archivieren.
HTTP-Archiv Crawlt beliebte Websites zur Datenanalyse
Nationalbibliothek für Medizin (USA) Vereinigte Staaten 2009 Archive-It, Nadelbaum ~8 Das NLM-Websammeln richtet sich nach den Richtlinien zur Sammlungsentwicklung der National Library of Medicine und anderen strategischen Sammelbemühungen. Zu den Sammlungen gehören Global Health Events, die Opioid-Epidemie, HIV/AIDS, Gesundheits- und Medizin-Blogs und die eigene Webpräsenz von NLM.
Smithsonian-Bibliotheken und -Archive (USA) Vereinigte Staaten 2000 Heritrix , Archive-It , Webrecorder , Nadelbaum , Browsertrix , Sonstiges 5 Die Smithsonian Libraries and Archives sammeln Websites und Social-Media-Konten, die die Geschichte der Institution dokumentieren.

Archivierte Daten

Name Archivierte Inhalte (Millionen) belegter Speicherplatz (TB) Archivformat TLD/Breite Crawls Selektive Crawls (Ja/Nein) Kommentare
EU-Webarchiv 35 (ca.) WARC .EU Ja .EU 80 Websites in europa.eu-Domain und Subdomains, einmal pro Quartal gecrawlt + Ad-hoc-Crawls auf Anfrage der Website-Inhaber (selektive Crawls). Stand Februar 2019.
Australiens Webarchiv 11000 600 WARC .AU Ja .AU- Crawls (1996-2018): 10,15 Milliarden Dateien (530 TB). Selektive Crawls (1996-2019): 755 Millionen Dateien (44 TB). AGWA (2011-2018): 525 Millionen Dateien (58 TB).
Unsere digitale Insel, ein tasmanisches Webarchiv 0,336 HTTrack Ja Bewahrt Online-Inhalte mit Bezug zu Tasmanien. ODI hat seit seiner Gründung unter der Annahme betrieben, dass Websites unter die Definition von 'Buch' im Tasmanian Library Act 1984 fallen. Daher ist keine Genehmigung von Verlagen zur Erfassung erforderlich.
Webarchiv Österreich 4095 164 BOGEN .AT , .wien , .tirol Ja Eine Kopie der Daten wird in einer Hochsicherheitsdatenspeichereinheit gespeichert.
Deutsche Nationalbibliothek WARC .DE Ja Nur ein experimenteller TLD-Crawl.
DILIMAG (Digitale Literaturzeitschriften) 0,03 0,996 BOGEN Projekt vom 01.03.2007 bis 23.12.2010. Das Projekt DILIMAG zum Sammeln, Beschreiben und Archivieren digitaler deutscher Literaturzeitschriften.
Bibliothèque et Archives nationales du Québec (BAnQ) 167 31 ARC / WARC Ja Die Ernte begann 2009. Selektives Durchsuchen von Quebec-Websites.
Webarchiv der kanadischen Regierung (GCWA) 1750 70 ARC / WARC .GC.CA Ja Die Webarchivierung bei Library and Archives Canada (LAC) begann 2005 und konzentrierte sich auf die Erfassung der Internetpräsenz der Bundesregierung und die Erfassung der Bundestagswahlen, der Olympischen Spiele und kanadischer Gedenkveranstaltungen. Seit 2009 werden thematische Websammlungen von Canadiana-Forschungsinteresse als fortlaufende Programmaktivität kuratiert.
Sammlung und Bewahrung von Webinformationen - WICP (Chinesisches Webarchiv) .GOV.CN Ja Sammlung der Webseiten über die Ereignisse, die großen Einfluss auf die Gesellschaft, Wirtschaft usw. haben, und die Seiten in der Domäne 'gov.cn'.
Kroatisches Webarchiv (Hrvatski arhiv weba - HAW) 231 13 Spiegel, WARC .HR Ja Seit 2004 selektives Harvesting von über 5000 Webressourcen. Seit 2011 jährliches Harvesting der nationalen .hr-Domain sowie thematisches Harvesting. Alle archivierten Inhalte sind über die HAW-Website öffentlich zugänglich.
Webarchiv ( Nationalbibliothek der Tschechischen Republik ) 9412 350 ARC / WARC .CZ Ja Die Ernte begann 2001.
Netarkivet/ Das dänische Webarchiv (Royal Danish Library) 36000 634 ARC / WARC .DK Ja +36 Milliarden Objekte:
  • html: 19077101525
  • Bild : 5859756918
  • andere : 4080719309
  • Text: 757030275
  • pdf: 97318057
  • Audio: 8166680
  • Video: 7085143
  • Wort: 47510
  • Powerpoint: 5660
  • übertreffen: 4721


  • Schnappschuss-Ernte
  • Selektive Ernte
  • Event-Harvesting
  • Sonderernte


Estnisches Webarchiv 874 56 ARC / WARC .EE Ja Das Archiv besteht seit 2010 aus selektiven, ereignis- und themenbezogenen Crawls. Seit 2015 werden jährlich ganze nationale Domain-Crawls durchgeführt. Neben der TLD .ee werden estnische Webinhalte von anderen TLDs wie .eu, .org, .com usw. geerntet.
Finnisches Webarchiv 494 23 .FI , .AX Ja Crawlt auch Inhalte, die auf Maschinen gehostet werden, die sich physisch in Finnland befinden, unabhängig von ihrer Domäne.
BnF - BnF Web-Legal Deposit 18800 370 ARC / WARC .FR + alle in Frankreich gehosteten Websites Ja BnF erstellt vollständige Kopien aller Sites in der .FR TLD sowie aller in Frankreich gehosteten Sites, wobei sowohl der Robots-Ausschlussstandard als auch die Lizenzen der Dokumente ignoriert werden .
BnL Web-Archiv 543 41 WARC .LU Ja Die BnL führt 2 Domain-Crawls pro Jahr sowie ereignisbasierte und selektive Crawls durch.
Ina (Institut National de l'Audiovisuel) 105800 2359 DAFF Ja Stand 2021-03-08

DAFF übernimmt die vollständige Inhaltsdeduplizierung, daher berücksichtigt die Größe auf der Festplatte die Komprimierung und Deduplizierung; der äquivalente Plattenspeicher im komprimierten ARC-Format würde ungefähr 10 PB . betragen

E-Diaspora (Télécom ParisTech, FMSH) 1030 13 DAFF Ja DAFF übernimmt die vollständige Inhaltsdeduplizierung, daher berücksichtigt die Größe auf der Festplatte die Komprimierung und Deduplizierung; der äquivalente Plattenspeicher im komprimierten ARC-Format würde ungefähr 51 TB betragen
Internet Memory Foundation 180 WARC Kann von Partnern durchgeführt werden Ja Ehemals Europäisches Archiv. Zusammenarbeit mit Internet Memory Research, das den ArchiveTheNet-Dienst (ATN-Dienst) bereitstellt. Selektive Crawls (140 TB), Domain-Crawls (40 TB), voraussichtlich 1 PB im Jahr 2012. Neues Rechenzentrum und neuer Crawler im Jahr 2012.
Bibliotheksservice-Zentrum Baden-Württemberg 9 WARC Ja Websites von ca. 20 Städten, Gemeinden, Kreisen + deren angeschlossenen Körperschaften und Landesbibliotheken werden vom BSZ im Auftrag in verschiedenen Archive-It-Sammlungen gesammelt. Öffentlicher Zugang. Datenspeicherung: San Francisco (Archive-It) sowie Backup mit baden-württembergischer Speicherinfrastruktur.
Webarchiv des Deutschen Bundestages Ja Deutscher Bundestag. Selektiv. In regelmäßigen Abständen oder bei bestimmten Veranstaltungen werden Momentaufnahmen (Snapshots) von www.bundestag.de und anderen Webauftritten des Deutschen Bundestages angefertigt. Diese stehen im Webarchiv bis dato zur Verfügung.
Island
Israelisches Webarchiv ARC / WARC .IL Ja .IL- Crawls (2006-2011): Pilots Crawls (500 GB). Selektive Crawls (1996, 2011)
Web Archiving Project (WARP), The National Diet Library, Japan 7358 1403 WARC - Ja Stand März 2019
15 TB selektive Crawls basierend auf Erlaubnis (2002–2010). Beginn der Webarchivierung offizieller Institutionenseiten auf der Grundlage des Gesetzes vom April 2010.
Koreanische Nationalbibliothek - OASIS (Internet-Ressource für Online-Archivierung und -Suche) 24 Ja Erfordert Zustimmung vor der Archivierung. Zielt auf 56.401 Websites. Die Webarchivierung wird unter Digital Resource Management Systemen verwaltet. Im Jahr 2011 wird das Web-Archivierungssystem umgebaut.
Koninklijke Bibliotheek 407 36 BOGEN Ja Selektive Crawls (jährlich) von ca. 20.400 Standorte (Dezember 2020)
Neuseeland Webarchiv 2946 137 ARC / WARC .NZ Ja .NZ-Crawls (2008-2020): 3 Milliarden URLs (137 TB). Selektives Crawlen von 33.500 Websites (ca. 9 TB). Die gesetzliche Kaution umfasst geborene digitales Material (einschließlich Websites).
Die Norwegische Nationalbibliothek
Arquivo.pt – das portugiesische Webarchiv 10 780 721 ARC / WARC Fokussiert auf .PT aber auch andere Domains Ja .PT-Domain-Crawls und Einbindung externer Sammlungen seit 2007 und tägliches Crawling einer Auswahl von Online-Publikationen seit 2010. Selektive Crawls im Zusammenhang mit nationalen Veranstaltungen wie Wahlen oder internationalen wissenschaftsbezogenen Inhalten wie Websites zu Forschungs- und Entwicklungsprojekten, die von der . gefördert werden Europäische Union.
Webarchiv von Cacak 0,255 0,013 HTTrack Ja Selektive Crawls von 130 Websites mit Bezug zur Stadt Cacak. Zusammenarbeit mit dem Webarchiv- Team der Nationalbibliothek der Tschechischen Republik.
Webarchiv Singapur WARC .SG Ja Selektives Durchsuchen von Websites mit Bezug zu Singapur und Archivierung von .SG- Domains.
Digitale Ressourcen ( Universitätsbibliothek Bratislava ) 1514 68 WARC .SK Ja Das Sammeln des slowakischen Webs begann im Jahr 2015. Seitdem hat die ULB fünf (2016 - 2020) vollständige Domain-Ernte (Ernte der nationalen .SK-Domain), mehrere selektive Crawls und thematische Crawls (themenzentrierte und ereignisbezogene Kampagnen) durchgeführt.
Slowenisches Webarchiv 30 WARC Selektive Crawls seit 2007, nationale Domain-Crawls seit 2014.
Archivo de la Web Española 2539 117 WARC .ES Ja Domain .ES crawlt (2009-2013): 2.421 Millionen Dateien (111 TB) in Zusammenarbeit mit Internet Archive. Selektive Crawls (2014-2015): 119 Millionen Dateien (6 TB). Etwa 30 Nachrichtenmedien-Sites werden täglich gecrawlt. Noch nicht öffentlich gestartet.
PADICAT : Das Webarchiv von Katalonien 620 32,5 ARC / WARC .KATZE Ja Dem allgemeinen Trend folgend ist das Archivmodell ein hybrides System bestehend aus: Massensammlung von im Internet veröffentlichten digitalen Open-Access-Ressourcen (.cat); Systematische Archivierung der Website-Ausgaben katalanischer Organisationen; Förderung von Forschungslinien durch thematische Integration der digitalen Ressourcen zu bestimmten Ereignissen im öffentlichen Leben Kataloniens (Wahlen, Museen etc.)
Baskisches digitales Kulturerbe-Archiv 21 0.8 BOGEN Ja
Schweden (Kulturarw3) 5700 360 Mehrteiliges MIME .se, Schwedisch .nu und Geolocation für andere TLDs Ja Bulk kriecht ungefähr zweimal im Jahr.
Selektives Crawlen von etwa 140 Zeitungen pro Tag.
Aleph-Archiv >10000000 >25 Natives HTML , WARC , WARC2, ARC und HTTrack zu WARC Migrationstools Ja Automatische Webarchivierungsplattform der Enterprise-Klasse für die Online-Erfassung und -Aufbewahrung. Unterstützen Sie eDiscovery mit leistungsstarker und qualitativer Technologie.

Richtet sich an Unternehmen, Institutionen und Agenturen, die ihre Webinhalte erfassen, bewahren und nutzen möchten; dynamische Websites, Wikis, soziale Medien, Foren, Kommentare, Haftungsausschlüsse und Anzeigen für Compliance (FDA, FINRA , FSA, SEC, FOIA), Marketing oder reine Aufbewahrungszwecke.

Webarchiv Schweiz 53 ARC , WARC Ja Hauptsächlich ausgewählte .ch-Crawls
NTU Web-Archivierungssystem, NTUWAS 200 14 Ja
Webarchiv Taiwan
Das britische Webarchiv 20,6 WARC Ja Selektive Crawls mit vorheriger Erlaubnis. Führt jetzt auch Großhandels-Crawlings auf britischer Domain-Ebene im Rahmen der Gesetzgebung für gesetzliche Pflichtexemplare (Non-Print) durch, die im April 2013 in Kraft getreten sind. Diese Inhalte werden nur in Räumlichkeiten verfügbar sein, die von einer der sechs Pflichtexemplarbibliotheken kontrolliert werden. Die UKWA ist ein Spin-off des UK Web Archiving Consortium, das 2007 endete.
Hanzo-Archiv 7 WARC Ja Kommerzielle Webarchivierungsdienste und -anwendungen für Regierungen und Unternehmen, deren Einhaltung oder rechtliche Verpflichtungen/Anforderungen sich auf ihre Websites, Intranets und sozialen Medien erstrecken. Viele „dunkle“ Archive in ganz Europa und den USA.
Webarchiv der britischen Regierung 1000 + 150 BOGEN

RWB nach Juli 2017

Zwischen 2003 - 2005 übernahm das Internet Archive die technische Seite der Webarchivierung im Auftrag des britischen Government Web Archive. Von 2005 bis Juli 2017 wurde die technische Seite des Webarchivierungsdienstes an die Internet Memory Foundation vergeben. Ab Juli 2017 übernahm MirrorWeb den Auftrag und verlagerte das gesamte Archiv in die Cloud. Das UK Government Web Archive war von 2004 bis 2009 Teil des UK Web Archiving Consortium.
Internetarchiv (bietet Archive-it-Dienst) 690000 21000 Weltweit Ja Stellt den Archive-it-Dienst bereit und leitet das Archive-Access-Projekt (Internet Archive ARC Access Tools). Die Sammlung wird in der Bibliotheca von Alexandrina in Ägypten gespiegelt.
Reed-Archiv
Programm zur Sammlung von Webressourcen für Bibliotheken der Columbia University 487 30,4 ARC / WARC Ja Selektive Crawls mit Erlaubnis oder Benachrichtigung. Thematische Sammlungen in: Menschenrechte; Denkmalpflege und Stadtplanung; New Yorker Religionen. Erfassen Sie auch die Web-Domain der Columbia University.
Archiv der Website der Regierung des Bundesstaates North Carolina 51,5 3.8 WARC Ja
Lateinamerikanisches Webarchivierungsprojekt Ja
Webarchivierungsprojekt für die pazifischen Inseln 5,5 ARC / WARC Ja Enthält Websites aus 18 Ländern.
Webarchiv der Kongressbibliothek 7741 420 ARC / WARC Ja Früher MINERVA. Selektive Crawls mit Benachrichtigung und Erlaubnis; hauptsächlich Veranstaltungs- und Themensammlungen.
Harvard University Library: der Web Archive Collection Service (WAX) 19 0,661 BOGEN Ja Selektive Crawls ohne vorherige Autorisierung.
Webarchivierungsdienst der California Digital Library (WAS-Dienst) 216 25,2 ARC / WARC Kann von Partnern durchgeführt werden Ja Bietet Partnern weltweit Web Archiving Service (WAS). Wurde in der California Digital Library entwickelt.
Bentley Historical Library (University of Michigan) Webarchiv 34,5 2.6 ARC / WARC Ja WAS-Service seit 2010.
Webarchiv der Universität von Texas in San Antonio 26 1.135 ARC / WARC Ja Universitätsverwaltung, Fakultäts- und Studentenstandorte; sowie selektive Aufnahmen zu Themenbereichen von San Antonio und Südtexas, einschließlich San Antonio-Organisationen; San Antonio Online-Zeitschriften und -Blogs; Tejano- und Conjunto-Musik; Websites mit Bezug zu Schwulen, Lesben, Bisexuellen, Transgender und Queer in Texas, San Antonio und im Rio Grande Valley; Einwanderung/Grenzland; Mexikanische Kochblogs; San Antonio-Restaurants; Erneuerbare Energien in Texas; Rio Grande Valley Organisationen; und Rio Grande Watershed und Texas Water Issues.
AUEB Webarchiv 3 WARC aueb.gr n Die von der Domain aueb.gr gecrawlte Datenmenge liegt zwischen 10 GB und 14,9 GB. Die Daten werden komprimiert auf der Festplatte gespeichert und benötigen zwischen 8,8 GB und 9,7 GB, was zu einer Platzersparnis zwischen 12 % und 35 % führt. Bei einem neuen Crawl können wir nur die Webseiten auf der Festplatte speichern, die sich seit dem vorherigen Crawl geändert haben. Folglich haben wir 13,1 GB von der Domain aueb.gr gecrawlt, aber nur 1,6 GB auf der Festplatte gespeichert, was zu einer Platzeinsparung von 88% führte.
Webarchiv der Weltbank 0,143 HTTrack nein, bis jetzt Ja 450 Stätten mit historischem oder wissenschaftlichem Wert wurden seit 2007 geerntet, jede archiviert, bevor sie offline genommen oder vor einem größeren Upgrade durchgeführt wurde.
CyberFriedhof der University of North Texas 0,887 WARC .gov Ja
Internetarchiv der Bibliotheca Alexandrina 80000 1000 ARC / WARC Ägyptische Nachrichten und Politik Ja
Digitale Bibliothek der York University 0,435 WARC yorku.ca + Anfragen von Fakultäten Ja
Webarchiv des Niederländischen Instituts für Ton und Bild (Ton und Bild) ARC / WARC Ja Sound and Vision ist unter anderem mit der Archivierung von Programmen beauftragt, die von niederländischen öffentlich-rechtlichen Sendern ausgestrahlt werden. Daher besteht ein wichtiger Teil des Webarchivs aus Websites von öffentlich-rechtlichen Rundfunkanstalten, die sich auf diese Programme beziehen. Darüber hinaus werden Websites archiviert, die keinen direkten Bezug zur Sammlung haben, aber im weiteren, medienhistorisch interessant sind. Beispiele sind Websites von kommerziellen Sendern.
Kentucky Abteilung für Bibliotheken und Archive 3 0,3007 WARC Ja
Universität von Kalifornien, San Francisco Library 12,5 0,587 ARK/WARZ Ja Websites, die von Mitarbeitern und Fakultäten angefordert wurden, und eine wachsende Liste, die versucht, alle UCSF-Websites so umfassend wie möglich zu erfassen.
Ivy Plus Libraries Confederation 8.2 ARC / WARC Ja Selektive Crawls mit Benachrichtigung. Themensammlungen zu Politik und politischen Protesten, Architektur, Komponisten, Design, Gaming, Geologie, Webcomics, Dokumentarfilmen, Kunst, Religion, Sexualität, Klimawandel und mehr.
Webarchiv der malaysischen Regierung (MyGWA) 10 WARC .GOV.MY Ja Crawlt nur Websites des malaysischen öffentlichen Sektors. Die Betrachtung erfolgt nach Themen, dh Verwaltung, Wirtschaft, Sicherheit und Soziales.
Nationalbibliothek für Medizin (USA) 122 9.1 WARC Ja
Smithsonian-Bibliotheken und -Archive (USA) 10 WARC Ja

Zugriffsmethoden

Name URL-Verlauf (Ja/Nein) Metadaten (Katalog/erweiterte) Suche (Ja/Nein) Volltextsuche (Ja/Nein) Memento-Compliance (Nein/Native/Proxy) Kommentare
EU-Webarchiv Ja Ja Ja Für alle frei zugänglich über data.europa.eu/webarchive
Australiens Webarchiv Ja Ja Ja Nein Ausgewählte Sites sind über eine Verzeichnisstruktur öffentlich verfügbar. Domain-Ernte sind es nicht. Das PANDORA-Archiv ist über den einzigen Suchdienst der NLA, Trove, indiziert und durchsuchbar.
Die Australian Domain Harvests sind volltextindiziert, aber derzeit nicht öffentlich verfügbar. Das Webarchiv der australischen Regierung kann über sein Portal nach URL und Volltextindizes durchsucht werden.
Unsere digitale Insel, ein tasmanisches Webarchiv Ja Ja n Nein Präsentiert Thumbnails, die durch Html To Image generiert wurden, ergänzt in HTTrack . Die Informationen sind in Verzeichnissen organisiert: AZ Themenliste, AZ Titelliste.
Webarchiv Österreich Ja n Ja Nein Online- Suche nach Versionen entweder per URL oder im (Teil-)Volltext möglich. Die Webseiten sind nur an speziellen Terminals der Österreichischen Nationalbibliothek zugänglich . Verfügt über eine Lesezeichenfunktion, mit der Versionen online gespeichert und an den Webarchiv-Terminals der Bibliothek abgerufen werden können.
Deutsche Nationalbibliothek Ja Ja Ja Nein Nur in den Lesesälen der Deutschen Nationalbibliothek zugänglich. Die Metadaten sind im öffentlich zugänglichen Bibliothekskatalog enthalten.
DILIMAG (Digitale Literaturzeitschriften) Ja Ja n Nein Metadaten sind öffentlich zugänglich, für die archivierten Versionen ist der Zugang je nach Rechteinhabervereinbarung frei oder eingeschränkt möglich. In der neuen Version (online seit Februar 2015) ist die Volltextsuche implementiert.
Bibliothèque et Archives nationales du Québec (BAnQ) Ja n n Nein Bietet Zugriff gemäß Partnerrichtlinie.
Webarchiv der kanadischen Regierung (GCWA) Ja Ja Ja Stellvertreter Library and Archives Canada macht seine Webarchive der Bundesregierung (Materialien unter Crown Copyright) öffentlich zugänglich. Es stehen Indizes für die Suche nach kanadischen Bundeswebressourcen alphabetisch nach Autorenorganisation und nach URL zur Verfügung. Die Volltextindizierung basiert auf Lucene.
Sammlung und Bewahrung von Webinformationen - WICP (Chinesisches Webarchiv) Ja Nein Archivinhalte sind nur im Intranet der National Library of China verfügbar. Einige Sammlungen sind öffentlich zugänglich, mit Metadatensuche und nach Sammlung durchsuchbar.
Kroatisches Webarchiv (Hrvatski arhiv weba - HAW) Ja Ja Ja Stellvertreter Vollständiger offener Zugang.
Webarchiv ( Nationalbibliothek der Tschechischen Republik ) Ja n n n Aus urheberrechtlichen Gründen ist nur eine begrenzte Anzahl archivierter Websites, für die Vereinbarungen mit den Herausgebern getroffen wurden, online verfügbar. Für andere Ressourcen können Sie herausfinden, ob eine bestimmte Website archiviert wurde und wie viele Versionen geerntet wurden. An öffentlichen Terminals der Nationalbibliothek ist uneingeschränkter Zugriff auf alle Ressourcen des Webarchivs möglich.
Netarkivet.dk Ja n Ja Nein Online-Zugriff nur für Forscher über ein Citrix-Login zur Freitextsuche auf Basis von Solr und einer Proxy-Lösung, die über den Wayback auf ein Archiv zugreift . Es hat einen Rahmen für die Ausführung von Batch-Jobs mit der Möglichkeit des Data Mining geschaffen.
Estnisches Webarchiv Ja Ja n Nein Der öffentliche Zugriff auf archivierte Inhalte ist nur mit Genehmigung des Urheberrechtsinhabers gestattet. Das vollständige Archiv ist nur dem Personal des Webarchivs zugänglich.
Finnisches Webarchiv Ja n 30% des Materials. Nein URL-Suche, aber Zugriff auf Inhalte vor Ort. Die Volltextsuche ist für 30% des Materials verfügbar.
BnF - BnF Web-Legal Deposit Ja n 15% der Sammlung Nein Zugänglich für autorisierte Benutzer des BnF über die Lesesäle der Forschungsbibliothek in Paris und Avignon. Die Wayback- Schnittstelle wurde ins Französische übersetzt. Volltextsuche nur für einen relativ kleinen Teil der Sammlung (15% von 200 TB), die von Internet Archive indiziert ist. Keine aktuelle Volltextsuche im Workflow implementiert. Erstellt spezielle Sammlungsgalerien basierend auf einer Auswahl aus dem Archiv zu einem bestimmten Thema.
Ina (Institut National de l'Audiovisuel) Ja Ja Ja Nein Die Volltextindizierung basiert auf Lucene. Um Ergebnisse von häufigen Crawls (mehrere Crawls pro Stunde für einige Seiten) zu berücksichtigen, wird Clustering betrieben, um ähnliche Versionen von Seiten zu verarbeiten
E-Diaspora (Télécom ParisTech, FMSH) Ja n n Nein 1381 Websites zur Zeit gekrochen sind ein Archiv über Migranten Nutzung des Web, Sozialwissenschaften Forscher zu bauen haben ein langfristig Projekt ins Leben gerufen , basierend auf diesem Archiv Ina ist der Umgang mit Crawls und Lagerung
Internet Memory Foundation Ja Ja Ja Nein Bietet Zugangs- und Suchdienste gemäß der Partnerrichtlinie.
Bibliotheksservice-Zentrum Baden-Württemberg Ja Ja Ja Einheimisch Archivierte Websites, die über Archive-It zugänglich sind; in den SWB Verbundkatalog integriert. Vollständiger offener Zugriff für einen Großteil der Snapshots, einige durch IP eingeschränkt.
Webarchiv des Deutschen Bundestages Ja n n Nein Webarchive selbst sind Momentaufnahmen von www.bundestag.de und anderen Websites. Die Navigation ist durch Anklicken der Jahre möglich.
Island Einheimisch
Israelisches Webarchiv n Ja n Nein Noch in Entwicklung und Pilotphase
Web Archiving Project (WARP), The National Diet Library , Japan Ja Ja Ja Nein Alle archivierten Websites sind vor Ort verfügbar. 80% davon sind mit Erlaubnis der Webmaster auch im Internet zugänglich.
Koreanische Nationalbibliothek - OASIS (Internet-Ressource für Online-Archivierung und -Suche) Ja Ja Ja Nein 100 % des Archivs sind indiziert. Ermöglicht die Suche nach Themenklassifizierung (zB Religion, Wissenschaft, Kunst). Suche verfügbar.
Koninklijke Bibliotheek Ja n n Nein Das Webarchiv ist an Terminals in den KB-Lesesälen für Vollmitglieder zugänglich („vor Ort“).
Neuseeland Webarchiv Ja Ja n Nein Domain Harvests: Verfügbar für ausgewählte Mitarbeiter mit OpenWayback und beschränkt auf URL-Suchen. Selektive Ernten: Jede Website ist im Katalog beschrieben (mit Themen-, Autor-, Titel- und URL-Recherche) und kann von der Öffentlichkeit über das Internet durch Anklicken des Links zum archivierten Exemplar eingesehen werden. Die Websites selbst sind jedoch nicht indiziert.
Die Norwegische Nationalbibliothek n Ja Nein Sites sind in den Katalog integriert. Linke Leiste ermöglicht Facettennavigation mit Drilldown.
Arquivo.pt – das portugiesische Webarchiv Ja Ja Ja Einheimisch Ein Volltext- und URL-Suchdienst ist frei verfügbar . Auch die Bildsuche wird unterstützt. Archivierte Daten können über eine Hadoop-Plattform oder öffentlich verfügbare Application Programming Interfaces zur Entwicklung von Webanwendungen ausgelesen werden .
Webarchiv von Cacak n n n Nein Geplant ist, in Zukunft eine Suchmaschine zu entwickeln. Eine schlechte Eigenschaft von HTTrack ist, dass Dateien während der Archivierung umbenannt werden, so dass die ursprüngliche Struktur der Website sowie Dateinamen verloren gehen.
Webarchiv Singapur Ja Ja Ja Nein Die Sammlung ist in der Nationalbibliothek in Singapur einsehbar. Ausgewählte Inhalte, die von Urheberrechtsinhabern freigegeben wurden, sind online verfügbar.
Digitale Ressourcen (Universitätsbibliothek Bratislava) Ja Ja n Nein Es ist möglich herauszufinden, ob eine Website archiviert wurde und wie viele geerntete Versionen existieren. Aufgrund der Urheberrechtsbeschränkungen ist nur eine begrenzte Anzahl archivierter Websites öffentlich zugänglich (auf Grundlage von Vereinbarungen mit Herausgebern). Der Zugriff auf andere archivierte Ressourcen ist lokal in der Universitätsbibliothek in Bratislava verfügbar.
Slowenisches Webarchiv Ja n Ja Nein Das Archiv der selektiven Crawls ist öffentlich zugänglich. Die Nutzung ist durch Browsing und Volltextsuche möglich. Nationale Domain-Crawls sind noch nicht zugänglich, werden es aber in Zukunft sein.
Archivo de la Web Española Y (Zukunft) Y (Zukunft) Y (Zukunft) Nein Planen Sie kurz- bis mittelfristig die Bereitstellung des Zugangs vor Ort.
PADICAT: Das Webarchiv von Katalonien Ja Ja Ja Nein Vollständiger offener Zugang.
Baskisches digitales Kulturerbe-Archiv Ja Ja Ja Nein
Schweden (Kulturarw3) Ja n n Nein Öffentlicher Zugang durch dedizierte Automaten im Bibliotheksgebäude.
Aleph-Archiv Ja Ja Ja Nein Automatische Webarchivierungsplattform der Enterprise-Klasse für die Online-Erfassung und -Aufbewahrung. Unterstützen Sie eDiscovery mit leistungsstarker und qualitativer Technologie.

Richtet sich an Unternehmen, Institutionen und Agenturen, die ihre Webinhalte erfassen, bewahren und nutzen möchten; dynamische Websites, Wikis, soziale Medien, Foren, Kommentare, Haftungsausschlüsse und Anzeigen für Compliance (FDA, FINRA , FSA, SEC, FOIA), Marketing oder reine Aufbewahrungszwecke.

Webarchiv Schweiz Ja Ja Ja Nein Webarchiv Schweiz ist die Sammlung der Schweizerischen Nationalbibliothek mit Websites mit Bezug zur Schweiz. Das Webarchiv Schweiz wurde in e-Helvetica, das Zugangssystem der Schweizerischen Nationalbibliothek, integriert und ermöglicht den Zugriff auf den gesamten digitalen Bestand. So können Sie in einem Teil des Webarchivs eine Volltextsuche durchführen. Die archivierten Versionen von Websites können jedoch nur in den Lesesälen der Schweizerischen Nationalbibliothek und unserer Partnerbibliotheken eingesehen werden, die uns beim Aufbau der Sammlung von Schweizer Websites unterstützen. Aber Sie können die Metadaten der archivierten Versionen von überall einsehen.
NTU Web-Archivierungssystem, NTUWAS Ja Ja Ja Nein Präsentiert Seitenminiaturen, archivierte Seiten, die geografischen Standorten zugeordnet sind.
Webarchiv Taiwan Ja Ja Ja Nein
PageFreezer Ja Ja Ja Nein On-Demand-Dienst der Enterprise-Klasse zum Archivieren und Wiedergeben von Websites, Blogs, Ajax, Flash, Video, Audio und sozialen Medien für den Schutz vor Rechtsstreitigkeiten, eDiscovery und die Einhaltung gesetzlicher Vorschriften mit FDA, FINRA, FSA, SEC, SOX, Federal Rules of Evidence und Records Management-Gesetzen . Wird von Regierungsbehörden und börsennotierten Unternehmen in der Pharma-, Lebensmittel-, Finanz-, Gesundheits- und Einzelhandelsindustrie verwendet.
Das britische Webarchiv Ja Ja n Einheimisch
Hanzo-Archiv Ja Ja Ja Nein Kommerzielle Webarchivierungsdienste und -geräte. Der Zugriff umfasst Volltextsuche, Anmerkungen, Schwärzung, URL/Verlauf, Archivrichtlinien und zeitliches Durchsuchen sowie ein konfigurierbares Metadatenschema für erweiterte E-Discovery-Anwendungen. Wird in Regierungen und Unternehmen verwendet, deren Einhaltung oder gesetzliche Verpflichtungen / Bedürfnisse sich auf ihre Websites, Intranets und sozialen Medien erstrecken. Viele „dunkle“ Archive in ganz Europa und den USA.
Webarchiv der britischen Regierung (UKGWA) Ja Ja Ja Einheimisch Die Volltextsuche ist im UK Government Web Archive (UKGWA) in Betrieb. Benutzer können die Sammlung mit einer vollständigen AZ-Liste aller Websites durchsuchen
EU Exit Webarchiv Ja Ja Ja Einheimisch Die Volltextsuche ist im EU Exit Web Archive einsatzbereit
Internetarchiv (bietet Archive-it-Dienst) Ja Ja Ja Einheimisch Der URL-Verlauf ist für alle archivierten Daten verfügbar. Metadaten- und Volltextsuche nur für ausgewählte Crawls. Hatte bis 2002 eine Mining-Plattform für die Forschung, die von Alexa Shell Perl Tools zusammengestellt wurde

av_tools und p2-Plattform für die parallele Verarbeitung. Es wurde durch einen einfacheren Zugriff und eine direkte Methode ersetzt, die einen automatischen Zugriff auf Dateien ermöglicht, jedoch keine Plattform für die Verarbeitung.

Reed-Archiv Nein
Programm zur Sammlung von Webressourcen für Bibliotheken der Columbia University Ja Ja Ja Nein Zugänglich über den Archive-it-Dienst.

Verbesserter Zugang zur Menschenrechtssammlung verfügbar unter: Human Rights Web Archive .

Archiv der Website der Regierung des Bundesstaates North Carolina Ja Ja Ja Nein Zugänglich über den Archive-it-Dienst.
Lateinamerikanisches Webarchivierungsprojekt Ja Ja Ja Nein Der Zugriff auf die Inhalte erfolgt über die Volltextsuche, durch das Durchsuchen nach Ländern oder durch eine spezielle Mustersammlung.
Webarchivierungsprojekt für die pazifischen Inseln Ja Ja Ja Nein Unterstützt vom Archive-it-Dienst.
Webarchiv der Kongressbibliothek Ja Ja n Stellvertreter Zugang über LCWA . Datensätze im MODS-Format (Metadata Object Descriptive Schema).
Harvard University Library: der Web Archive Collection Service (WAX) Ja Ja Ja Nein
Webarchivierungsdienst der California Digital Library (WAS-Dienst) Ja Ja Ja Nein Zugang für privates Studium, Stipendium und Forschung. Die meisten mit WAS erstellten Archive wurden noch nicht veröffentlicht, da es den Partnern überlassen bleibt, ob sie den Zugriff gewähren möchten. Es gibt 16 Partner, die den Dienst nutzen und über 80 Webarchive erstellt haben, nur 30 sind öffentlich zugänglich. Die Leistung von NutchWAX erlaubte keine vollständige Archivsuche. Die bevorstehende Umstellung auf SOLR wird sowohl eine Vollarchiv- als auch eine sammlungsspezifische Volltextsuche ermöglichen.
Bentley Historical Library (University of Michigan) Webarchiv Ja Ja Ja Nein Angetrieben durch das WAS von der California Digital Library. Der Zugang ist öffentlich, aber die Nutzung ist für private Studien, Stipendien und Forschungen beschränkt.
Webarchiv der Universität von Texas in San Antonio Ja Ja Ja Einheimisch Zugriff über den Archive-it-Dienst und die Texas Archival Repositories Online-Datenbank
AUEB Webarchiv Ja Ja Ja Nein
Webarchiv der Weltbank Ja Ja Ja Nein URL-Verlauf über offenen Zugriff auf die Sammlung über einen Standard-Webbrowser. Die Volltextsuche ist nur innerhalb jeder einzelnen Site verfügbar. Die Suche nach Metadaten ist über die erweiterte Suche in der Webarchiv-Sammlung verfügbar.
CyberFriedhof der University of North Texas n Ja Ja Nein
Tamiment Library und Robert F. Wagner Labor Archives an der New York University Ja Ja Ja Nein Der Zugang erfolgt über den WAS-Service sowie über Findmittel, die über das Findmittelportal der NYU durchsucht werden können.
Digitale Bibliothek der York University Ja Ja Ja
Webarchiv des Niederländischen Instituts für Ton und Bild (Ton und Bild) Ja Ja n Ausgewählte Sites, für die Vereinbarungen getroffen wurden, sind öffentlich zugänglich. Die Volltextindizierung erfolgt mit Elasticsearch , das Frontend ist in Drupal aufgebaut .
Kentucky Abteilung für Bibliotheken und Archive Ja Ja Ja Nein Voller offener Zugang
Universität von Kalifornien, San Francisco Library Ja Ja Ja Nativ (über IA ) Sowohl die Erfassung als auch der Zugriff auf archivierte Inhalte werden vom Archive it-Dienst bereitgestellt, sodass alle Funktionen dieselben sind wie bei Archive-It
Ivy Plus-Bibliotheken Ja Ja Ja Nein Zugänglich über Archive-It-Dienst.
Webarchiv der malaysischen Regierung (MyGWA) Ja Ja Ja Nein Uneingeschränkter Zugang
Nationalbibliothek für Medizin (USA) Ja Ja Ja Der Zugriff erfolgt über Archive-It
Smithsonian-Bibliotheken und -Archive (USA) Ja Ja Ja Der Zugriff erfolgt über Archive-It

Siehe auch

Verweise

Externe Links