Liste der Initiativen zur Webarchivierung - List of Web archiving initiatives

Dieser Artikel enthält eine Liste von Webarchivierungsinitiativen weltweit. Zur besseren Lesbarkeit sind die Informationen in drei Tabellen unterteilt: Initiativen zur Webarchivierung, archivierte Daten und Zugriffsmethoden.

Karte der weltweiten Initiativen zur Webarchivierung im April 2021. Daten

Diese Wikipedia-Seite wurde ursprünglich aus den Ergebnissen des Forschungspapiers Eine Umfrage zu Webarchivierungsinitiativen erstellt, das vom Team Arquivo.pt (dem portugiesischen Webarchiv) veröffentlicht wurde.

Initiativen zur Webarchivierung

Name	Land	Entstehungsjahr	Technologien	Anzahl der Angestellten		Kommentare
Name	Land	Entstehungsjahr	Technologien	Vollzeit	Teilzeit	Kommentare
Ende der Laufzeit Webarchiv	Vereinigte Staaten	2008	Heritrix , Wayback		6-10	Das End of Term Web Archive erfasst und speichert Websites der US-Regierung ( .gov , .mil usw.) in der Legislative, Exekutive oder Judikative der Regierung am Ende der Präsidentschaftsverwaltungen. Ab 2008 hat das EOT bisher Websites vor Verwaltungsänderungen in den Jahren 2008, 2012 und 2016 bewahrt und bereitet sich derzeit auf den Übergang 2020 vor. Zu den Projektpartnern zählen CA Digital Library , Internet Archive, Library of Congress, George Washington University, Stanford University, University of North Texas und das US Government Publishing Office.
Archiv.st	Vereinigte Staaten	2017	Archive.st benutzerdefinierte Programmierung bereitgestellt von US Support LLC	>1	0	Archive.st bietet eine kostenlose Online-Webarchivierung in Form eines .JPG- und HTML-Archivs.
EU-Webarchiv	europäische Union	2013	Heritrix , Rückweg	1		Das EU-Webarchiv enthält die wichtigsten Websites der EU-Institutionen , die auf der europäischen .eu- Domain und Subdomains gehostet werden . Ziel ist es, EU-Webinhalte langfristig zu erhalten und für die Öffentlichkeit zugänglich zu machen.
Alabama State Government and Politics Website und Social Media Archives	Vereinigte Staaten	2005	Archive-it-Service
Australiens Webarchiv	Australien	1996	PANDORA Digitales Archivierungssystem (PANDAS) , Heritrix, Bamboo, NLA Trove , HTTrack , Webrecorder, outbackCDX.	4	>10	Die National Library of Australia leitet die 'PANDORA'-Komponente des australischen Webarchivs, die einen selektiven Ansatz verfolgt und ein Gemeinschaftsprogramm von 10 Agenturen ist, die kuratorischen Input liefern. PANDORA verwendet das Workflow-System PANDAS (das Ende der 1990er Jahre von der NLA entwickelt wurde) mit HTTrack als Standard-Harvester. Die National Library of Australia führt auch das Sammeln von Websites der australischen Regierung (das Webarchiv der australischen Regierung) durch, indem sie den Heritrix-Harvester und den Webrecorder mit einer Backend-Infrastruktur (bezeichnet als „Bamboo“) verwendet, um Inhalte zu organisieren, und das von der NLA entwickelte outbackCDX-Tool zur Verwaltung der Indexierung Zugriffsbeschränkungen für Inhalte. Zusätzlich zu diesen Ansätzen führt die Nationalbibliothek auch jährliche Ernten der gesamten .au-Domain durch, die in Zusammenarbeit mit dem Internet Archive mit Heritrix und Wayback durchgeführt werden . Im Jahr 2019 wurden PANDORA, das Webarchiv der australischen Regierung und die gesamte Domain-Ernte über den Trove-Discovery-Service der NLA in ein neues einziges Discovery- und Delivery-Portal integriert.
PROMISE-Projekt	Belgien	2017	Heritrix , PyWB		7	Das PROMISE-Projekt war ein zweijähriges Projekt (2017-2019), das die politischen, rechtlichen, technischen und wissenschaftlichen Fragen im Zusammenhang mit der Archivierung des belgischen Webs untersuchte. Ziel des Projekts war es, a) bewährte Verfahren im Bereich der Webarchivierung zu ermitteln, b) eine Strategie zur Erhaltung des belgischen Internets zu entwickeln, c) ein Pilotprojekt für die Erhaltung und Bereitstellung des Zugangs zum archivierten belgischen Internet einzurichten und d) Empfehlungen auszusprechen für die Implementierung eines nachhaltigen Web-Archivierungsdienstes. Das Projekt wurde von der Königlichen Bibliothek von Belgien und dem Staatsarchiv von Belgien in Zusammenarbeit mit der Universität Gent (Forschungsgruppe für Medien, Innovation und Kommunikation und Zentrum für digitale Geisteswissenschaften Gent), der Université de Namur (Forschungszentrum für Information, Recht und Gesellschaft) ins Leben gerufen ) und Haute-École Bruxelles-Brabant (Unité de Recherche et de Formation en Sciences de l'Information et de la Documentation). Im Oktober 2019 fand bei KBR das Abschlusskolloquium „Das Web retten: Das Versprechen eines belgischen Webarchivs“ statt. In diesem Kolloquium wurden die wichtigsten Forschungsergebnisse präsentiert.
KBR-Webarchiv	Belgien	2020		1		Das KBR oder die Belgische Königliche Bibliothek entwickelt ein funktionsfähiges Webarchiv basierend auf den Ergebnissen des PROMISE-Forschungsprojekts PROMISE-Forschungsprojekt (2017-2019). Auf der Grundlage der im PROMISE-Projekt skizzierten Strategie werden operative Richtlinien und technische Infrastruktur entwickelt.
MT.GOV Connect	Vereinigte Staaten	2007	Archive-It-Dienst	1		Montana State Library Sammlung staatlicher Behörden-Websites aus dem Jahr 1996 in teilweiser Erfüllung des gesetzlichen Auftrags, staatliche Veröffentlichungen zu identifizieren, zu erwerben, zu beschreiben und dauerhaft öffentlich zugänglich zu machen. Digitalisierte historische Staatspublikationen verfügbar unter https://archive.org/details/MontanaStateLibrary
Stillio	Weltweit	2011	Puppenspieler, V8-Motor , Gecko , WebKit , Amazon Web Services	3	4	SaaS-Lösung für die periodische Website- und Social-Media- Archivierung. Bietet Screenshot-Archivierung von statischen und dynamischen Webseiten in einer festen Dauer, die je nach Bedarf angepasst werden kann. Hilft bei der Einhaltung gesetzlicher Vorschriften, Trendverfolgung, Überprüfung von Werbebannern, Versionsänderungen.
PageFreezer .com	Weltweit	2009	Deep Web Crawler von PageFreezer, Hadoop , Cassandra, Elastic Search	60		SaaS-Lösung für Website- und Social-Media-Archivierung. Bietet automatische Erfassung, Wiedergabe, Volltextsuche und Datenexport von Websites, Blogs, sozialen Medien und Plattformen für die Zusammenarbeit von Unternehmen für eDiscovery und die Einhaltung von Vorschriften von FDA, FINRA , FSA, SEC, Federal Rules of Evidence, FOIA und Records Management-Gesetzen.
WebPreserver.com	Weltweit	2015	WebPreserver			Chrome-Webbrowser-Plugin und webbasierter Dienst zum Sammeln authentifizierter, rechtlich zulässiger Webseiten und Social-Media-Seiten für eDiscovery. Web-Snapshots können in EDRM-XML, WARC, PDF und nativem HTML exportiert werden. Die Dienste von WebPreserver.com ermöglichen es Rechtsteams, die mit dem WebPreserver-Tool erfassten digitalen Beweise zu organisieren, zu kennzeichnen und zusammenzuarbeiten.
OoCities — GeoCities Archiv / GeoCities Mirror	Deutschland	2009
Webarchiv Österreich	Österreich	2008	NetarchiveSuite, Heritrix , OpenWayback	1
Deutsche Nationalbibliothek	Deutschland	2012	Werkzeuge der oia GmbH		3	Das Crawling für das selektive Webarchiv erfolgt durch die deutsche Firma oia GmbH. Der Zugang ist auf die Lesesäle der Deutschen Nationalbibliothek beschränkt.
DILIMAG (Digitale Literaturzeitschriften)	Österreich	2007	WebKurator		2	Ein Techniker, einer zum Sammeln und Metadaten.
Bibliothèque et Archives nationales du Québec (BAnQ)	Kanada	2012	Heritrix , Wayback .		2
Webarchivierungsprogramm bei Library and Archives Canada	Kanada	2005	Archive-It-Dienst	4	3	Webarchivierung in Kanada ist eine gesetzliche Aktivität, die zu Zwecken der digitalen Archivierung gemäß Abschnitt 8 (2) des Library and Archives of Canada Act durchgeführt wird . An dem Programm arbeiten vier Vollzeitkräfte und drei Teilzeitkräfte. Web Archivierung bei Library and Archives Canada wird auch Wirkung genutzt Legal Deposit .
Sammlung und Bewahrung von Webinformationen - WICP (Chinesisches Webarchiv)	China	2003	Heritrix , Wayback und NutchWAX .
Kroatisches Webarchiv (Hrvatski arhiv weba - HAW)	Kroatien	2004	Crawl: DAMP-Software, Heritrix Zugang: Wayback , Lucene	2	2	Das Kroatische Webarchiv (HAW) ist eine Sammlung von Inhalten aus dem Internet. Im Jahr 2004 begann das Archiv als Konzept der selektiven Erfassung von Webressourcen. Seit 2011 werden jährlich ganze .hr-Domain-Harvests sowie thematische/Event-Harvesting für Veranstaltungen von nationalem Interesse durchgeführt. Der Inhalt des Archivs ist über die HAW-Website öffentlich zugänglich. (2 Bibliothekare in Vollzeit, 1 Bibliothekar in Teilzeit, NUL ), 2 IT-Fachkräfte in Teilzeit (SRCE - University of Zagreb, University Computing Center )
Webarchiv ( Nationalbibliothek der Tschechischen Republik )	Tschechien	2000	Heritrix , Wayback und Seeder .	5	2	Das tschechische Webarchiv ( Webarchiv ), das von der Nationalbibliothek der Tschechischen Republik verwaltet wird, konzentriert sich auf die Archivierung des tschechischen nationalen Webs. Die Akquisitionspolitik besteht aus drei Linien: Selective Harvests (Sammlung von Ressourcen auf der Grundlage von Auswahlkriterien), Themensammlungen (mit Schwerpunkt auf wichtigen Themen im Bereich des tschechischen Webs) und umfassende Harvests (automatische Sammlungen von Inhalten im nationalen Bereich). Das Personal besteht aus 1 Manager, 3,5 Kuratoren + 1,5 technischen Mitarbeitern.
Netarkivet / Das dänische Webarchiv (Royal Danish Library)	Dänemark	2005	NetarchiveSuite , Heritrix , Freitextsuche mit Apache Solr , Blacklight und Wayback für die Wiedergabe. Entwicklung des Such-Frontends und der Playback-Engine SolrWayback .	1	5.5 VZÄ	Seit 2005 ist die Sammlung und Bewahrung des dänischen Teils des Internets im dänischen Pflichtexemplargesetz enthalten. Die Aufgabe wird von der Königlich Dänischen Bibliothek übernommen . Das dänische Webarchiv ist nicht öffentlich zugänglich. Das Archiv ist nur für Forscher zugänglich, die eine Sondergenehmigung zur Nutzung der Sammlung für bestimmte Forschungszwecke beantragt und erhalten haben. Diese Website, Netarkivet.dk, soll Forscher, Websitebesitzer und andere interessierte Parteien über das dänische Webarchiv informieren. Zur Zeit ist der größte Teil der Website auf Dänisch.
Estnisches Webarchiv	Estland	2010	Heritrix , Squidwarc , PhantomJS und Puppeteer für Screenshots der Startseiten von Websites, Pywb , Custom Curator Tool.	3	1	Seit 2006 erlaubt das Gesetz zur Pflichtablieferung der Estnischen Nationalbibliothek , estnische Websites als Pflichtexemplare zu sammeln. Das Web Harvesting wird durchgeführt und das Archiv wird von der Estnischen Nationalbibliothek verwaltet.
Finnisches Webarchiv	Finnland	2008	Heritrix , Solr , Wayback .	2	>2	Verwaltet von der Finnischen Nationalbibliothek . Jährlich werden alle *.fi-Domains sowie Webserver in Finnland geerntet. Außerhalb dieser Ernten wählt die Bibliothek relevante Websites manuell aus.
BnF - BnF Web-Legal Deposit	Frankreich	2006	Heritrix , Wayback , NutchWAX , NetarchiveSuite , BCWeb.	10
Ina (Institut National de l'Audiovisuel)	Frankreich	2009	Crawl: PhagoSite , Crocket basierend auf Firefox , Fantomas basierend auf PhantomJS / Access: Vortex / Suche: Dowser basierend auf Elasticsearch	7
Bibliotheksservice-Zentrum Baden-Württemberg	Deutschland	2003	Archive-It-Dienst		0,5	Die Webseiten von etwa 20 Städten, Gemeinden, Kreisen und angeschlossenen Körperschaften sowie Landesbibliotheken werden vom BSZ im Auftrag in verschiedenen Archive-It-Sammlungen gesammelt. Öffentlicher Zugang. Datenspeicherung: San Francisco (Archive-It) sowie Backup mit baden-württembergischer Speicherinfrastruktur.
Webarchiv des Deutschen Bundestages	Deutschland	2005
Ungarische Webarchivierungsinitiative	Ungarn	2017	Heritrix , Wayback, PyWb, Brozzler, Webrecorder , WCT	3	2	Von April 2017 bis Dezember 2019 führte die Nationalbibliothek Széchényi im Rahmen ihres umfassenden Entwicklungsprogramms für die IT-Infrastruktur ein Pilotprojekt zur Webarchivierung durch. Im Jahr 2020 wurde die Webarchivierung zu einem ständigen Service der Nationalbibliothek Széchényi. Ab 2021 haben sich die gesetzlichen Rahmenbedingungen geschaffen und das Webarchiv arbeitet nach den geänderten Paragrafen des Kulturgesetzes und der entsprechenden Regierungsverordnung. Wir führen thematische, ereignisbasierte und Domain-Harvests durch. Wir haben eine kleine Demosammlung mit Metadaten- und Volltextsuchfunktionen. Der Rest des Archivs ist nicht öffentlich zugänglich.
Island	Island	2004	Heritrix , OpenWayback
Webarchiv der irischen Nationalbibliothek	Irland	2011	Archive-it-Service	1	0,5 FTE	Die National Library of Ireland archiviert über ihr NLI Selective Web Archive selektiv irische Websites von wissenschaftlicher, kultureller und politischer Bedeutung .
Israelisches Webarchiv	Israel	2011	Heritrix , Web-Kurator-Tool , Wayback , Rosetta	1	>3	Nationalbibliothek von Israel sammelt '.IL'-Domains, 1 Projektmanager in Teilzeit, 1 Technischer Leiter in Vollzeit, 1 Bibliothekar in Teilzeit, 1 IT-Infrastruktur in Teilzeit
Nationale Zentralbibliothek von Florenz	Italien	2018	Archive-it-Service			Ziel des Projekts ist die Sammlung und Archivierung digitaler Dokumente und Websites mit "kulturellem Interesse" für die italienische Geschichte und Kultur nach den Grundsätzen des nationalen Pflichtexemplargesetzes. Die Archive-it-Sammlung ist öffentlich zugänglich.
Web Archiving Project (WARP), The National Diet Library , Japan	Japan	2002	Heritrix , OpenWayback, Solr	7	2	Das Web Archiving Project (WARP) archiviert seit 2002 Websites. Das 2009 überarbeitete und im April 2010 in Kraft getretene National Diet Library Law erlaubt es dem NDL, die Websites offizieller japanischer Institutionen zu archivieren: Regierung, Landtag, Gerichte, lokale Regierungen, unabhängige Verwaltungsorganisationen und Universitäten. Websites von kulturellen und internationalen Veranstaltungen, die in Japan abgehalten werden, und solche, die sich auf Online-Zeitschriften beziehen, werden ebenfalls mit Genehmigung ihrer Webmaster archiviert.
Koreanische Nationalbibliothek - OASIS (Online-Archivierung und Suche in Internetquellen)	Korea	2001	Eigenes System basierend auf Oracle DBMS und spezialisierter Suchmaschine (IRS), die Datenverwaltung und Suchfunktion durchführt.	3	11
Bibliothèque nationale du Luxembourg	Luxemburg	2015	Heritrix , Wayback	2		Die luxemburgische Nationalbibliothek führt halbjährlich breite Crawls für die .lu-Domain sowie selektive und ereignisbasierte Crawls durch. Die im Luxemburger Webarchiv gesammelten Websites bereichern die Patrimonialsammlungen der Nationalbibliothek, was die Bewahrung digitaler Publikationen für zukünftige Generationen ermöglicht. Webarchive.lu ist die Informations- und Beteiligungsplattform des Luxemburger Webarchivs.
Koninklijke Bibliotheek	Niederlande	2007	Heritrix 3.2, Web Curator Tool 3.0, Wayback , KB e-Depot-System		~10	1 Crawl Engineer, 1 Softwareentwickler und 9 Inkassospezialisten, alle in Teilzeit (entspricht etwa 4 Vollzeit). Die KB sammelt selektiv niederländische Forschungs- und Kulturstätten.
Lettische Nationalbibliothek	Lettland	2005	Web-Curator-Tool und Wayback		1	Derzeit nur zur Aufbewahrung archiviert, öffentlich zugänglich in Entwicklung (ETA Juni 2012). Der lettische Begriff für Web Harvesting ist "rasmošana".
Neuseeland Webarchiv	Neuseeland	1999	Web Curator Tool , Heritrix3 , Webrecorder , OpenWayback , OutbackCDX , Rosetta	4	>10	Nationale Domain-Harvests werden seit 2008 und seit 2015 jährlich in Zusammenarbeit mit dem Internet Archive durchgeführt. Die selektive Sammlung wird von der National Library of New Zealand mit dem Web Curator Tool durchgeführt. Drei Vollzeitmitarbeiter sammeln Websites und eine Reihe von Mitarbeitern mit Dienstplan sammeln HTML-Serien oder HTML-Monographien. Unterstützt von einem dedizierten Webarchivierungsingenieur und einem breiteren ITMS der Abteilung. Fragen der digitalen Aufbewahrung werden von Mitarbeitern bearbeitet, die mit Rosetta zusammenarbeiten.
Die Norwegische Nationalbibliothek	Norwegen	2001
Arquivo.pt	Portugal	2007	Eigenentwicklung , Heritrix , Wayback , NutchWAX , Pywb , Apache Solr , Brozzler	7	1	Arquivo.pt ist eine Forschungsinfrastruktur, die seit 1996 aus dem Internet gesammelte Informationen speichert und einen öffentlichen Suchdienst für diese Sammlung bereitstellt. Arquivo.pt bewahrt Websites in mehreren Sprachen und bietet Benutzeroberflächen in englischer Sprache. Die archivierten Daten können über eine verteilte Verarbeitungsplattform oder über Application Programming Interfaces, die die Entwicklung von Mehrwertanwendungen erleichtern, automatisch verarbeitet werden, um Big-Data-Recherchen durchzuführen. Das Team von Arquivo.pt hat auch mit über 40 wissenschaftlichen und technischen Artikeln zur Webarchivierung beigetragen, die im Open Access veröffentlicht wurden.
Webarchiv von Cacak	Serbien	2009	HTTrack		1
Webarchiv Singapur	Singapur	2006	Wayback , Heritrix , Solr	3		Das Webarchiv Singapur wird vom National Library Board , Singapur (NLB) verwaltet. NLB führt Domain- und selektive Archivierung von Websites mit Schwerpunkt auf Singapur-Inhalten durch. Die Sammlung ist in der Nationalbibliothek in Singapur einsehbar. Ausgewählte Inhalte, die von Urheberrechtsinhabern freigegeben wurden, sind online verfügbar.
Digitale Ressourcen ( Universitätsbibliothek Bratislava )	Slowakische Republik	2015	Heritrix 3.2.0, Wayback 2.2.0, Solr 5.2.1, Invenio , Custom Curator Tool	4	1	Die Universitätsbibliothek Bratislava (ULIB) führte 2008-2009 die ersten Experimente zum Webharvesting durch. Im Jahr 2015 hat ULIB eine Plattform für Web- und E-Born-Archivierung in Betrieb genommen (während der Umsetzung des nationalen Projekts "Digitale Ressourcen", das vom Europäischen Fonds für regionale Entwicklung unterstützt wurde) - www.webdepozit.sk/ ).
Slowenisches Webarchiv	Slowenien	2007	Heritrix , Wayback	1
Archivo de la Web Española	Spanien	2009	NetarchiveSuite , OpenWayback , Solr	3+Betreuer	2	Verwaltet von der Spanischen Nationalbibliothek in Zusammenarbeit mit regionalen Bibliotheken. Verwendet einen gemischten Ansatz aus selektiven und breiten Ernten. Ganze .es Domain Harvests werden seit 2009 bis 2013 jährlich in Zusammenarbeit mit dem Internet Archive mit Heritrix und Wayback durchgeführt. Seit 2014 werden selektive Ernten von der Spanischen Nationalbibliothek mit NetarchiveSuite durchgeführt. Nationalbibliothek = 3 Bibliothekare in Vollzeit, 2 Crawling Engineers in Teilzeit. Regionalbibliotheken = mehrere Bibliothekare in Teilzeit. Seit dem 26. Oktober 2015 erlaubt das Gesetz zur Pflichtablieferung der Spanischen Nationalbibliothek und den Regionalbibliotheken, spanische Websites als Teil der Pflichtablieferung zu sammeln und der Öffentlichkeit unter Beachtung der Regeln des Urheberrechts zur Verfügung zu stellen.
PADICAT: Das Webarchiv von Katalonien	Spanien	2005	Heritrix , Wayback , WERA, NutchWAX , Web Curator und CAT .		2	PADICAT ist das Open-Access-Webarchiv von Katalonien, das von der Biblioteca de Catalunya erstellt wurde : der öffentlichen Einrichtung, die für die Sammlung, Erhaltung und Verbreitung des bibliographischen Erbes Kataloniens in Spanien verantwortlich ist.
ONDARENET - Baskisches digitales Kulturerbe-Archiv	Spanien	2008	Heritrix , Wayback , NutchWAX und Web Curator .	1
Schweden (Kulturarw3)	Schweden	1996	NetarchiveSuite , Heritrix . Inhouse-System für Lagerung, Wartung und Zugriff, aber Umstellung auf OpenWayback oder pywb .		1,25	Das schwedische Web-Harvesting-Projekt begann 1996 und die erste Ernte wurde 1997 durchgeführt. 2002 kamen die täglichen Ernten bestimmter Zeitungswebsites hinzu. Es gab eine Betriebspause November 2009 - Mai 2011, aber eine Ernte für 2010 wurde mit Hilfe des Internetarchivs gemacht. In den Jahren 2016, 2018 und 2019 wurden aufgrund von Problemen mit der Harvesting-Plattform keine Domain-Harvests durchgeführt. Die tägliche Ernte von Zeitungswebsites wurde zwischen Mai 2017 und Dezember 2018 pausiert, wurde aber auf alle schwedischen Zeitungswebsites täglich ausgeweitet. Seit April 2013 erhält die Schwedische Nationalbibliothek auch Online-Material über das Gesetz zur Pflichtablieferung für elektronisches Material.
Aleph-Archiv	Schweiz, USA	2010	Webarchivierungsplattform, Erfassung von Domainnamen, Hochleistungssuchmaschine, Indizierung nahezu in Echtzeit, Webüberwachungstools	>10		Automatische Webarchivierungsplattform der Enterprise-Klasse für die Online-Erfassung und -Aufbewahrung. Unterstützen Sie eDiscovery mit leistungsstarker und qualitativer Technologie. Richtet sich an Unternehmen, Institutionen und Agenturen, die ihre Webinhalte erfassen, bewahren und nutzen möchten; dynamische Websites, Wikis, soziale Medien, Foren, Kommentare, Haftungsausschlüsse und Anzeigen für Compliance (FDA, FINRA , FSA, SEC, FOIA), Marketing oder reine Aufbewahrungszwecke.
Expatriate Archive Center Blog-Archiv	Den Haag, Niederlande	2019	Archive-It-Dienst			Im Mittelpunkt dieses Projekts stehen Blogs von Personen, die im Ausland gelebt haben. Wir bewahren diese Blogs und ihre Inhalte, weil wir ihren kulturellen und historischen Wert anerkennen. Die Aufnahme eines Blog-Archivs in unsere Sammlung wird die Forschungsmöglichkeiten für Studierende und andere Akademiker, die uns als Studienort wählen, bereichern. Die archivierten Blogs werden nach ganz bestimmten Kriterien ausgewählt und regelmäßig auf ihre Qualität überprüft.
Webarchivierungs-Bucket	Schweiz, USA, Kanada	2012	WARC Software Development Kit, Kobalt, Holon-Webserver			Der "Web Archiving Bucket" ist eine Initiative von Aleph Archives, um Daten zu bewahren und Bibliotheken und Organisationen kostenlos nutzbare Webarchivierungstools und -komponenten zur Verfügung zu stellen. Der Web Archiving Bucket bietet eine Reihe von Tools, die Archivaren und Fachleuten bei ihrer täglichen Arbeit helfen.
Webarchiv Schweiz	Schweiz	2008	Heritrix , Wayback , Webrecorder		6	2 Crawl-Ingenieure, 3 Personen für die Qualitätssicherung (mit weniger als 1 Vollzeitbeschäftigung), 1 Koordinator. Die Kuratoren, die die Auswahl treffen, sind Partnerbibliotheken in der ganzen Schweiz.
NTU Web-Archivierungssystem, NTUWAS	Taiwan	2007	Lucene		3
Webarchiv Taiwan	Taiwan	2007
Das britische Webarchiv	Vereinigtes Königreich	2004	Heritrix , Web Curator Tool , Wayback , Solr für die Suche.
Webarchiv der britischen Regierung (UKGWA)	Vereinigtes Königreich	2003	SpiegelWeb	7	1	Das UK Government Web Archive (UKGWA) der UK National Archives ist ein vollständig offenes Webarchiv. Es umfasst über 5.000 Websites der Zentralregierung und soziale Medien, die in regelmäßigen Abständen (1996 bis heute) aufgenommen werden. Der Geltungsbereich von UKGWA ist im OSP27- Dokument beschrieben. Die technische Seite des Webarchivierungsbetriebs wird von MirrorWeb bereitgestellt .
Webarchiv des britischen Parlaments	Vereinigtes Königreich	2009	SpiegelWeb	1	2	Das Webarchiv des britischen Parlaments erfasst, bewahrt und macht im Internet veröffentlichte Informationen des britischen Parlaments zugänglich. Das Webarchiv umfasst Websites und Social Media von 2009 bis heute. Die technische Seite der Webarchivierung wird von MirrorWeb bereitgestellt .
EU Exit Webarchiv	Vereinigtes Königreich	2020	SpiegelWeb			Das EU Exit Web Archive der UK National Archives ist ein vollständig offenes Webarchiv. Es enthält eine breite Auswahl von Dokumenten aus EUR-Lex (der Website für europäische Gesetzgebung), darunter Verträge, Gesetzgebungsdokumente, das Amtsblatt der EU, Rechtsprechung und andere unterstützende Materialien sowie Urteile des Europäischen Gerichtshofs in englischer Sprache, Französisch und Deutsch. Die Sammlung enthält alle Inhalte, die bis zum Abschluss des Umsetzungszeitraums, am 31. Dezember 2020, 23:00 Uhr GMT, veröffentlicht wurden. Es bietet einen umfassenden und offiziellen britischen Referenzpunkt für das EU-Recht, wie es am Ende des Umsetzungszeitraums stand. Die technische Seite der Webarchivierung wird von MirrorWeb bereitgestellt .
SpiegelWeb	Weltweit	2012	Heritrix , PYWB für öffentliche Archive, benutzerdefinierte Wiedergabe für Archive innerhalb der MirrorWeb-Plattform. Benutzerdefinierte Social-Media-Archivierungstools.	40		MirrorWeb bietet eine Website und eine Social-Media-Archivierungsplattform für Finanzdienstleistungen und Einrichtungen des öffentlichen Sektors. Sie betreiben eine Reihe von öffentlichen Archiven, von denen zwei umfassen; das Webarchiv der britischen Regierung und das Webarchiv des britischen Parlaments .
Internetarchiv (bietet Archive-it-Dienst)	Vereinigte Staaten	1996	Heritrix , Wayback , NutchWAX und andere vom Internet Archive entwickelte Tools	150		Die Wayback Machine von Internet Archive ist das größte und älteste Webarchiv der Welt und geht auf das Jahr 1996 zurück. Internet Archive bietet auch verschiedene Webarchivierungsdienste an, darunter Archive-IT , Save Page Now und Domain-Level-Contract-Crawls. Die Wayback Machine ist der öffentlich zugängliche Zugangsdienst zu Internet Archive und den Sammlungen von Partnern.
Reed Tech-Archiv	Vereinigte Staaten	2010	TrueArchive-Technologie			Reed Tech Archives bietet Unterstützung für Information Governance, Prozessschutz, Compliance, e-Discovery und Social Media Management. Die Lösung bietet sowohl einen automatisierten Ansatz als auch eine manuelle Erfassung. Für die automatisierte Erfassung von Websites und sozialen Medien erfasst die Anwendung Websites in einer wiederkehrenden Frequenz und in einem wiederkehrenden Intervall. Die gesamte Site wird innerhalb des Archivs vollständig neu erstellt, um genau die Benutzererfahrung zu bieten, die im Live-Web geboten wird. Ein Benutzer hat die Möglichkeit, von einer Reihe von URLs oder innerhalb der sichtbaren archivierten Site auf der Site zu navigieren. Im Allgemeinen unterstützt dieser Ansatz Compliance und Risiko Minderung sowie die rechtliche Funktion. Die manuelle On-Demand-Erfassung bietet Kunden die Möglichkeit, bei Bedarf über das Reed Tech Web Preserver-Plug-in eine voll funktionsfähige Seite oder eine Reihe von Seiten einer Website oder eines sozialen Netzwerks zu erfassen. Dieser Ansatz wird in der Regel zur Unterstützung der Rechts-, Marketing- und Competitive Intelligence-Funktionen verwendet.
Bibliotheken der Stanford University	Vereinigte Staaten	2007	Heritrix , HTTrack , Wayback , CDL- Webarchivierungsdienst, Internet Archive Archive-It	2	5	Stanford University Libraries wurde engagiert Web - Archivierung seit 2007 Projekte und begann eine Gründung Web - Archivierung ist Programm im Jahr 2013 Kollektionen dass SUL beschäftigt in umfassen Stanford University Archives , Bay Area Regierungen , Congressional Research Service (CRS) Berichte , Freedom of Information Act ( FOIA) , Fugitive US Executive Agencies und viele mehr. SUL ist auch an kollaborativen Webarchivierungsprojekten wie dem Archive of the California Government Domain, CA.gov, mit Bibliotheken der University of California und der CA State Library, dem End of Term Web Archive und der Ivy Plus Libraries Confederation beteiligt .
Bibliotheken der Columbia University	Vereinigte Staaten	2009	Archive-it-Service	2	>1	Das Programm zum Sammeln von Webressourcen der Columbia University Libraries (CUL) archiviert ausgewählte Websites in thematischen Bereichen, die den bestehenden CUL-Sammelstärken entsprechen, Websites, die von verbundenen Unternehmen der Columbia University erstellt wurden, und Websites von Organisationen oder Einzelpersonen, deren Papiere oder Aufzeichnungen in den physischen Archiven der CUL aufbewahrt werden. 2008 mit der Webarchivierung begonnen.
Universitätsbibliothek Cornell	Vereinigte Staaten	2011	Archive-it-Service	1	>1
Archiv der Website der Regierung des Bundesstaates North Carolina	Vereinigte Staaten	2005	Archive-it-Service		3
Lateinamerikanisches Webarchivierungsprojekt	Vereinigte Staaten	2005	Archive-it-Service
Webarchivierungsprojekt für die pazifischen Inseln	Vereinigte Staaten	2009	Archive-it-Service		4
Webarchiv der Kongressbibliothek	Vereinigte Staaten	2000	Heritrix , Wayback und das DigiBoard, ein internes kuratorisches/Berechtigungstool	6	80	Die Teilzeitkräfte verbringen im Durchschnitt einige Stunden pro Monat damit, Inhalte für die Kollektionen auszuwählen.
Harvard-Bibliothek	Vereinigte Staaten	2006	Archiv-It		>10	Die Websammlungen der Harvard Library bestehen aus den Sammlungen von 10 kuratorischen Einheiten , wobei variable Mitarbeiter sowohl zu technischen als auch zu kuratorischen Aktivitäten beitragen. Harvard ist über die Ivy Plus Libraries Confederation auch am kollaborativen Web-Collecting beteiligt . Die Harvard Library startete 2006 Webarchivierungsaktivitäten mit einem selbst entwickelten Web Archive Collection Service (WAX) und wechselte 2017 zu Archive-It.
Webarchivierungsdienst der California Digital Library (WAS-Dienst)	Vereinigte Staaten	2005	Heritrix , Wayback , NutchWAX	4	>1	Die Anzahl der Stunden, die Kuratoren für den Dienst aufwenden, ist sehr unterschiedlich.
Bentley Historical Library (University of Michigan) Webarchiv	Vereinigte Staaten	2000	HTTrack , Teleport Pro, WAS-Dienst (2010-)		2
Webarchiv der Universität von Texas in San Antonio	Vereinigte Staaten	2009	Archiv-It		3	Die Anzahl der Stunden hängt davon ab, wie die Crawls geplant sind.
qumram	Schweiz	2010	qumram Webarchivierung / Web Information Governance Software Suite			Kommerzielle Webarchivierungs-/Webinformations-Governance-Softwaresuite. Bietet sowohl Remote-Harvesting als auch transaktionale Webarchivierung. Ermöglicht Integrationen mit jeder möglichen Webanwendung (WCMS, Portal, Sharepoint, eShop, benutzerdefinierte Anwendungen) sowie Repository (Datenbank, Dateisystem, elektronisches Archiv oder Records Management System, Cloud-basierte Lösung). Ermöglicht die Erfassung und Wiedergabe öffentlicher Informationen sowie spezifischer Benutzerinteraktionen.
SAPERION	Deutschland	2011	SAPERION ECM Web Content Archiv			Die kommerzielle Enterprise Content Management Suite ist auf die Einhaltung gesetzlicher Vorschriften spezialisiert. Das Produkt bietet sowohl Harvesting als auch transaktionale Webarchivierung basierend auf der Integration der Chronos Web Archiving Software Suite von qumram. Webinhalte sind nur ein weiterer Kanal, über den Inhalte zu SAPERION gelangen. Andere können Scanner, Fax, E-Mail, mobile Geräte, Office-Suiten oder andere Systeme sein, die Inhalte wie ERP- Systeme erstellen.
Internetarchiv der Bibliotheca Alexandrina	Ägypten	2002	Heritrix , OpenWayback , WARCrefs	3		Aktuelle Crawling-Interessen: Ägypten über den 25. Januar hinaus, ccTLDs der Arabischen Liga Deduplizierung: Verwenden des WARCrefs-Tools zum Deduplizieren von Webarchivinhalten im BA-Cluster OpenWayback: Handhabung der Big-Data-Indizierung durch Verwendung von ZipNumCluster zum Auffinden einer bestimmten URI in komprimierten CDX-Dateien
AUEB Webarchiv	Griechenland	2010	Heritrix , Wayback und NutchWAX .	1	1	Dieses Projekt ist Teil der Funktion der Universitätsbibliothek.
Webarchiv der Weltbank	Vereinigte Staaten	2007	HTTrack- Crawler, Oracle RDBMS, Google Search Appliance	0	3
Russisches nationales digitales Archiv	Russland	2010	wpull , grab-site , HTTrack- Crawler, Ad-hoc-Skripte, die für die Archivierung in sozialen Medien entwickelt wurden. Experimentieren: Heritrix , Wayback			Etwa 5000 Regierungswebsites gesammelt (Mai 2018) mit wpull und als Archiv zum Herunterladen bereitgestellt.
Archiv-Team	Weltweit	2009	wpull , Ad-hoc-Skripte	1	~100	Freiwilligengruppe. Sie archivierten teilweise GeoCities , Yahoo! Videos , Google Video und andere.
WikiTeam	Weltweit	2011	Ad-hoc-Skripte	0	0	Freiwilligengruppe. Über 20.000 Wikis erhalten.
CyberFriedhof der University of North Texas	Vereinigte Staaten	1997	Heritrix , Wayback ; früher HTTrack		2	Der CyberCemetery ist ein Archiv von Regierungswebsites, die ihren Betrieb eingestellt haben (normalerweise Websites von nicht mehr existierenden Regierungsbehörden und Kommissionen, die einen Abschlussbericht herausgegeben haben). Diese Sammlung enthält eine Vielzahl von Themen, die auf den breiten Charakter von Regierungsinformationen hinweisen. Diese Sammlung enthält insbesondere Websites, die Themen behandeln, die das Curriculum der Universität und besondere Stärken des Programms unterstützen.
Archiv.is	Weltweit	2012	Apache Accumulo , HDFS , Chromium , Ad-hoc-Skripte	1	1	Speichert externe Links von Community-Websites (Wikis, Foren, Blogs, ...). Kann Snapshots von Web 2.0-Seiten speichern.
Tamiment Library und Robert F. Wagner Labor Archives an der New York University	Vereinigte Staaten	2007	WAS-Service	1	1	Archiviert Websites, die sich auf New York City und National Labour and Left Movements beziehen. Projekte umfassen: Alternative Massenmedien / Nachrichten; Anarchismus; Tierrechte; Kunst- und Kulturlinke; Bürgerrechte und Bürgerrechte; Kommunismus, Sozialismus, Trotzkismus; Wirtschaftliche und soziale Gerechtigkeit (einschließlich Occupy Wall Street); Bildung und Studentenbewegungen; Wahlpolitik und Parteien / Politische Aktion (US-Linke); Umweltschutz / Grüne Bewegung; Feminismus und Frauenbewegungen; Guantanamo Bay Internierungslager & Kriegsverbrechen (USA); Gehäuse; Internet/Cyberspace-Demokratie; Jüdische amerikanische progressive & linke Aktivität; Gewerkschaften und Organisationen (USA); Linke Wissenschaft und Theorie, Intellektuelle und andere Persönlichkeiten; LGBT-Rechte; Anderer linker Aktivismus; Friedensbewegungen; Rechte von Gefangenen und politische Gefangene; Fortschrittliche Politik/ Bildungsorganisationen.
Preservica	Weltweit	2012	Heritrix , Preservica-Kernprodukt, Wayback			Cloudbasierter heterogener Archivierungsdienst, der die Aufnahme aus mehreren Quellen ermöglicht (einschließlich Webarchivierungsaufnahme über Heritrix). Möglichkeit, Inhalte in WARC-Dateien zu migrieren und in Wayback zu rendern. Ingest wird als Workflow ausgeführt, sodass für die Ausführung nur sehr wenig Aufwand erforderlich ist. Entwickelt, unterstützt und betrieben von Preservica.
Zentrales elektronisches Staatsarchiv der Ukraine	Ukraine	2007	HTTrack , Wget	2		Archive, die daran interessiert sind, Websites zu führen und thematische Sammlungen solcher Websites zu erstellen, Befindet sich derzeit im Archiv Sammlungen von Websites, die das Thema Präsidentschaftswahlen in der Ukraine von 2010 bis heute, über die Katastrophe von Tschornobyl, die Kommunalwahlen, der Euro 2012 in Ukraine, UNESCO-Welterbestätten in der Ukraine, 200. Geburtstag von Taras Schewtschenko.
Bibliotheken der York University , York University Digital. Bücherei	Kanada	2012	Heritrix , Wget , Islandora , OpenWayback	1	0
New Yorker Kunstressourcen-Konsortium (NYARC)	Vereinigte Staaten	2012	Archive-It-Dienst	1	~3	Zusammenarbeit zwischen der Frick Art Reference Library , der Brooklyn Museum Library & Archives und der Museum of Modern Art (MoMA) Library zur Archivierung spezieller kunsthistorischer Webressourcen.
Webarchiv des Niederländischen Instituts für Ton und Bild (Ton und Bild)	Niederlande	2011	Heritrix , Elasticsearch für Volltextindex, Drupal für Frontend		~7	Sound and Vision ist seit 2008 an Webarchivierungsprojekten beteiligt, beginnend mit dem EU-Forschungsprojekt LiWA. Nach einigen Pilotversuchen wurden 2014 Webarchivierungsprojekte skaliert.
Rhizom (Organisation)	Vereinigte Staaten	1999	ArtBase , Webrecorder , Oldweb.Today	3	1	Rhizome betreibt unter der Leitung von Dragan Espenschied ein Programm zur digitalen Archivierung, das sich auf die Entwicklung kostenloser Open-Source-Softwaretools konzentriert, um die Webarchivierung und die Softwarearchivierungspraktiken zu dezentralisieren und den Zugang zu seinen Sammlungen digitaler Kunst zu gewährleisten. Oldweb.Today und Webrecorder sind seine Tools, die sich speziell auf die Webarchivierung konzentrieren.
University of Texas at Austin Libraries, Human Rights Documentation Initiative	Vereinigte Staaten	2009	Archive-It-Dienst	1	1	Die Human Rights Documentation Initiative (HRDI) der Universität von Texas Libraries erfasst die Websites von Menschenrechtsorganisationen, um einen sicheren Zugriff auf Menschenrechtsdokumentation für den Fall zu ermöglichen, dass diese oft fragilen Websites abgeschaltet werden.
Kentucky Abteilung für Bibliotheken und Archive	Vereinigte Staaten	2009	Archiv-it , Wayback	>1	0	Diese Sammlung umfasst Erfassungen von Websites für staatliche Behörden von Kentucky in den Bereichen Exekutive, Legislative und Justiz. Es werden auch eigenständige Websites für Vorstände, Räte, Ausschüsse, quasi-staatliche Agenturen und Agenturprogramme archiviert. Captures für Websites aus den Jahren 2000-2008 werden in diese Sammlung durch eine Überweisung von der Wayback Machine auf unser Konto aufgenommen.
Universität von Kalifornien, San Francisco Library	Vereinigte Staaten	2007	Archive-it , Wayback , CDL WAS Service	>1	0	Diese Sammlung dokumentiert die Webpräsenzen der UCSF sowie die größeren gesundheitswissenschaftlichen Schwerpunkte der AIDS-Geschichte; Anästhesiologie; Biotechnologie und biomedizinische Forschung; Tabakkontrolle und -regulierung; Neurowissenschaften; und Computermedizin. Das Personal ist ein Vollzeit-Digitalarchivar mit verschiedenen Verantwortlichkeiten zusätzlich zu den Web-Archiven.
Ivy Plus Libraries Confederation	Vereinigte Staaten	2013	Archive-It , Nadelbaum	1	1	Das Web Resources Collection Program der Ivy Plus Libraries Confederation ist eine gemeinsame Anstrengung zur Sammlungsentwicklung, um kuratierte, thematische Sammlungen von frei verfügbaren, aber gefährdeten Webinhalten aufzubauen, um die Forschung in den teilnehmenden Bibliotheken und darüber hinaus zu unterstützen. Teilnehmende Bibliotheken sind: Brown , Chicago , Columbia , Cornell , Dartmouth , Duke , Harvard , Johns Hopkins , MIT , Penn , Princeton , Stanford und Yale . Sammlungen sind über Archive-It zugänglich .
Webarchiv der malaysischen Regierung (MyGWA)	Malaysia	2017	Wayback, WGET , WPULL	>1	0	Das National Archive of Malaysia hat seit 2017 damit begonnen, Websites des öffentlichen Sektors in Malaysia zu archivieren.
HTTP-Archiv						Crawlt beliebte Websites zur Datenanalyse
Nationalbibliothek für Medizin (USA)	Vereinigte Staaten	2009	Archive-It, Nadelbaum		~8	Das NLM-Websammeln richtet sich nach den Richtlinien zur Sammlungsentwicklung der National Library of Medicine und anderen strategischen Sammelbemühungen. Zu den Sammlungen gehören Global Health Events, die Opioid-Epidemie, HIV/AIDS, Gesundheits- und Medizin-Blogs und die eigene Webpräsenz von NLM.
Smithsonian-Bibliotheken und -Archive (USA)	Vereinigte Staaten	2000	Heritrix , Archive-It , Webrecorder , Nadelbaum , Browsertrix , Sonstiges		5	Die Smithsonian Libraries and Archives sammeln Websites und Social-Media-Konten, die die Geschichte der Institution dokumentieren.

Archivierte Daten

Name	Archivierte Inhalte (Millionen)	belegter Speicherplatz (TB)	Archivformat	TLD/Breite Crawls	Selektive Crawls (Ja/Nein)	Kommentare
EU-Webarchiv	35 (ca.)		WARC	.EU	Ja	.EU 80 Websites in europa.eu-Domain und Subdomains, einmal pro Quartal gecrawlt + Ad-hoc-Crawls auf Anfrage der Website-Inhaber (selektive Crawls). Stand Februar 2019.
Australiens Webarchiv	11000	600	WARC	.AU	Ja	.AU- Crawls (1996-2018): 10,15 Milliarden Dateien (530 TB). Selektive Crawls (1996-2019): 755 Millionen Dateien (44 TB). AGWA (2011-2018): 525 Millionen Dateien (58 TB).
Unsere digitale Insel, ein tasmanisches Webarchiv		0,336	HTTrack		Ja	Bewahrt Online-Inhalte mit Bezug zu Tasmanien. ODI hat seit seiner Gründung unter der Annahme betrieben, dass Websites unter die Definition von 'Buch' im Tasmanian Library Act 1984 fallen. Daher ist keine Genehmigung von Verlagen zur Erfassung erforderlich.
Webarchiv Österreich	4095	164	BOGEN	.AT , .wien , .tirol	Ja	Eine Kopie der Daten wird in einer Hochsicherheitsdatenspeichereinheit gespeichert.
Deutsche Nationalbibliothek			WARC	.DE	Ja	Nur ein experimenteller TLD-Crawl.
DILIMAG (Digitale Literaturzeitschriften)	0,03	0,996	BOGEN			Projekt vom 01.03.2007 bis 23.12.2010. Das Projekt DILIMAG zum Sammeln, Beschreiben und Archivieren digitaler deutscher Literaturzeitschriften.
Bibliothèque et Archives nationales du Québec (BAnQ)	167	31	ARC / WARC		Ja	Die Ernte begann 2009. Selektives Durchsuchen von Quebec-Websites.
Webarchiv der kanadischen Regierung (GCWA)	1750	70	ARC / WARC	.GC.CA	Ja	Die Webarchivierung bei Library and Archives Canada (LAC) begann 2005 und konzentrierte sich auf die Erfassung der Internetpräsenz der Bundesregierung und die Erfassung der Bundestagswahlen, der Olympischen Spiele und kanadischer Gedenkveranstaltungen. Seit 2009 werden thematische Websammlungen von Canadiana-Forschungsinteresse als fortlaufende Programmaktivität kuratiert.
Sammlung und Bewahrung von Webinformationen - WICP (Chinesisches Webarchiv)				.GOV.CN	Ja	Sammlung der Webseiten über die Ereignisse, die großen Einfluss auf die Gesellschaft, Wirtschaft usw. haben, und die Seiten in der Domäne 'gov.cn'.
Kroatisches Webarchiv (Hrvatski arhiv weba - HAW)	231	13	Spiegel, WARC	.HR	Ja	Seit 2004 selektives Harvesting von über 5000 Webressourcen. Seit 2011 jährliches Harvesting der nationalen .hr-Domain sowie thematisches Harvesting. Alle archivierten Inhalte sind über die HAW-Website öffentlich zugänglich.
Webarchiv ( Nationalbibliothek der Tschechischen Republik )	9412	350	ARC / WARC	.CZ	Ja	Die Ernte begann 2001.
Netarkivet/ Das dänische Webarchiv (Royal Danish Library)	36000	634	ARC / WARC	.DK	Ja	+36 Milliarden Objekte: html: 19077101525 Bild : 5859756918 andere : 4080719309 Text: 757030275 pdf: 97318057 Audio: 8166680 Video: 7085143 Wort: 47510 Powerpoint: 5660 übertreffen: 4721 Schnappschuss-Ernte Selektive Ernte Event-Harvesting Sonderernte
Estnisches Webarchiv	874	56	ARC / WARC	.EE	Ja	Das Archiv besteht seit 2010 aus selektiven, ereignis- und themenbezogenen Crawls. Seit 2015 werden jährlich ganze nationale Domain-Crawls durchgeführt. Neben der TLD .ee werden estnische Webinhalte von anderen TLDs wie .eu, .org, .com usw. geerntet.
Finnisches Webarchiv	494	23		.FI , .AX	Ja	Crawlt auch Inhalte, die auf Maschinen gehostet werden, die sich physisch in Finnland befinden, unabhängig von ihrer Domäne.
BnF - BnF Web-Legal Deposit	18800	370	ARC / WARC	.FR + alle in Frankreich gehosteten Websites	Ja	BnF erstellt vollständige Kopien aller Sites in der .FR TLD sowie aller in Frankreich gehosteten Sites, wobei sowohl der Robots-Ausschlussstandard als auch die Lizenzen der Dokumente ignoriert werden .
BnL Web-Archiv	543	41	WARC	.LU	Ja	Die BnL führt 2 Domain-Crawls pro Jahr sowie ereignisbasierte und selektive Crawls durch.
Ina (Institut National de l'Audiovisuel)	105800	2359	DAFF		Ja	Stand 2021-03-08 DAFF übernimmt die vollständige Inhaltsdeduplizierung, daher berücksichtigt die Größe auf der Festplatte die Komprimierung und Deduplizierung; der äquivalente Plattenspeicher im komprimierten ARC-Format würde ungefähr 10 PB . betragen
E-Diaspora (Télécom ParisTech, FMSH)	1030	13	DAFF		Ja	DAFF übernimmt die vollständige Inhaltsdeduplizierung, daher berücksichtigt die Größe auf der Festplatte die Komprimierung und Deduplizierung; der äquivalente Plattenspeicher im komprimierten ARC-Format würde ungefähr 51 TB betragen
Internet Memory Foundation		180	WARC	Kann von Partnern durchgeführt werden	Ja	Ehemals Europäisches Archiv. Zusammenarbeit mit Internet Memory Research, das den ArchiveTheNet-Dienst (ATN-Dienst) bereitstellt. Selektive Crawls (140 TB), Domain-Crawls (40 TB), voraussichtlich 1 PB im Jahr 2012. Neues Rechenzentrum und neuer Crawler im Jahr 2012.
Bibliotheksservice-Zentrum Baden-Württemberg		9	WARC		Ja	Websites von ca. 20 Städten, Gemeinden, Kreisen + deren angeschlossenen Körperschaften und Landesbibliotheken werden vom BSZ im Auftrag in verschiedenen Archive-It-Sammlungen gesammelt. Öffentlicher Zugang. Datenspeicherung: San Francisco (Archive-It) sowie Backup mit baden-württembergischer Speicherinfrastruktur.
Webarchiv des Deutschen Bundestages					Ja	Deutscher Bundestag. Selektiv. In regelmäßigen Abständen oder bei bestimmten Veranstaltungen werden Momentaufnahmen (Snapshots) von www.bundestag.de und anderen Webauftritten des Deutschen Bundestages angefertigt. Diese stehen im Webarchiv bis dato zur Verfügung.
Island
Israelisches Webarchiv			ARC / WARC	.IL	Ja	.IL- Crawls (2006-2011): Pilots Crawls (500 GB). Selektive Crawls (1996, 2011)
Web Archiving Project (WARP), The National Diet Library, Japan	7358	1403	WARC	-	Ja	Stand März 2019 15 TB selektive Crawls basierend auf Erlaubnis (2002–2010). Beginn der Webarchivierung offizieller Institutionenseiten auf der Grundlage des Gesetzes vom April 2010.
Koreanische Nationalbibliothek - OASIS (Internet-Ressource für Online-Archivierung und -Suche)		24			Ja	Erfordert Zustimmung vor der Archivierung. Zielt auf 56.401 Websites. Die Webarchivierung wird unter Digital Resource Management Systemen verwaltet. Im Jahr 2011 wird das Web-Archivierungssystem umgebaut.
Koninklijke Bibliotheek	407	36	BOGEN		Ja	Selektive Crawls (jährlich) von ca. 20.400 Standorte (Dezember 2020)
Neuseeland Webarchiv	2946	137	ARC / WARC	.NZ	Ja	.NZ-Crawls (2008-2020): 3 Milliarden URLs (137 TB). Selektives Crawlen von 33.500 Websites (ca. 9 TB). Die gesetzliche Kaution umfasst geborene digitales Material (einschließlich Websites).
Die Norwegische Nationalbibliothek
Arquivo.pt – das portugiesische Webarchiv	10 780	721	ARC / WARC	Fokussiert auf .PT aber auch andere Domains	Ja	.PT-Domain-Crawls und Einbindung externer Sammlungen seit 2007 und tägliches Crawling einer Auswahl von Online-Publikationen seit 2010. Selektive Crawls im Zusammenhang mit nationalen Veranstaltungen wie Wahlen oder internationalen wissenschaftsbezogenen Inhalten wie Websites zu Forschungs- und Entwicklungsprojekten, die von der . gefördert werden Europäische Union.
Webarchiv von Cacak	0,255	0,013	HTTrack		Ja	Selektive Crawls von 130 Websites mit Bezug zur Stadt Cacak. Zusammenarbeit mit dem Webarchiv- Team der Nationalbibliothek der Tschechischen Republik.
Webarchiv Singapur			WARC	.SG	Ja	Selektives Durchsuchen von Websites mit Bezug zu Singapur und Archivierung von .SG- Domains.
Digitale Ressourcen ( Universitätsbibliothek Bratislava )	1514	68	WARC	.SK	Ja	Das Sammeln des slowakischen Webs begann im Jahr 2015. Seitdem hat die ULB fünf (2016 - 2020) vollständige Domain-Ernte (Ernte der nationalen .SK-Domain), mehrere selektive Crawls und thematische Crawls (themenzentrierte und ereignisbezogene Kampagnen) durchgeführt.
Slowenisches Webarchiv		30	WARC			Selektive Crawls seit 2007, nationale Domain-Crawls seit 2014.
Archivo de la Web Española	2539	117	WARC	.ES	Ja	Domain .ES crawlt (2009-2013): 2.421 Millionen Dateien (111 TB) in Zusammenarbeit mit Internet Archive. Selektive Crawls (2014-2015): 119 Millionen Dateien (6 TB). Etwa 30 Nachrichtenmedien-Sites werden täglich gecrawlt. Noch nicht öffentlich gestartet.
PADICAT : Das Webarchiv von Katalonien	620	32,5	ARC / WARC	.KATZE	Ja	Dem allgemeinen Trend folgend ist das Archivmodell ein hybrides System bestehend aus: Massensammlung von im Internet veröffentlichten digitalen Open-Access-Ressourcen (.cat); Systematische Archivierung der Website-Ausgaben katalanischer Organisationen; Förderung von Forschungslinien durch thematische Integration der digitalen Ressourcen zu bestimmten Ereignissen im öffentlichen Leben Kataloniens (Wahlen, Museen etc.)
Baskisches digitales Kulturerbe-Archiv	21	0.8	BOGEN		Ja
Schweden (Kulturarw3)	5700	360	Mehrteiliges MIME	.se, Schwedisch .nu und Geolocation für andere TLDs	Ja	Bulk kriecht ungefähr zweimal im Jahr. Selektives Crawlen von etwa 140 Zeitungen pro Tag.
Aleph-Archiv	>10000000	>25	Natives HTML , WARC , WARC2, ARC und HTTrack zu WARC Migrationstools		Ja	Automatische Webarchivierungsplattform der Enterprise-Klasse für die Online-Erfassung und -Aufbewahrung. Unterstützen Sie eDiscovery mit leistungsstarker und qualitativer Technologie. Richtet sich an Unternehmen, Institutionen und Agenturen, die ihre Webinhalte erfassen, bewahren und nutzen möchten; dynamische Websites, Wikis, soziale Medien, Foren, Kommentare, Haftungsausschlüsse und Anzeigen für Compliance (FDA, FINRA , FSA, SEC, FOIA), Marketing oder reine Aufbewahrungszwecke.
Webarchiv Schweiz		53	ARC , WARC		Ja	Hauptsächlich ausgewählte .ch-Crawls
NTU Web-Archivierungssystem, NTUWAS	200	14			Ja
Webarchiv Taiwan
Das britische Webarchiv		20,6	WARC		Ja	Selektive Crawls mit vorheriger Erlaubnis. Führt jetzt auch Großhandels-Crawlings auf britischer Domain-Ebene im Rahmen der Gesetzgebung für gesetzliche Pflichtexemplare (Non-Print) durch, die im April 2013 in Kraft getreten sind. Diese Inhalte werden nur in Räumlichkeiten verfügbar sein, die von einer der sechs Pflichtexemplarbibliotheken kontrolliert werden. Die UKWA ist ein Spin-off des UK Web Archiving Consortium, das 2007 endete.
Hanzo-Archiv		7	WARC		Ja	Kommerzielle Webarchivierungsdienste und -anwendungen für Regierungen und Unternehmen, deren Einhaltung oder rechtliche Verpflichtungen/Anforderungen sich auf ihre Websites, Intranets und sozialen Medien erstrecken. Viele „dunkle“ Archive in ganz Europa und den USA.
Webarchiv der britischen Regierung	1000 +	150	BOGEN RWB nach Juli 2017			Zwischen 2003 - 2005 übernahm das Internet Archive die technische Seite der Webarchivierung im Auftrag des britischen Government Web Archive. Von 2005 bis Juli 2017 wurde die technische Seite des Webarchivierungsdienstes an die Internet Memory Foundation vergeben. Ab Juli 2017 übernahm MirrorWeb den Auftrag und verlagerte das gesamte Archiv in die Cloud. Das UK Government Web Archive war von 2004 bis 2009 Teil des UK Web Archiving Consortium.
Internetarchiv (bietet Archive-it-Dienst)	690000	21000		Weltweit	Ja	Stellt den Archive-it-Dienst bereit und leitet das Archive-Access-Projekt (Internet Archive ARC Access Tools). Die Sammlung wird in der Bibliotheca von Alexandrina in Ägypten gespiegelt.
Reed-Archiv
Programm zur Sammlung von Webressourcen für Bibliotheken der Columbia University	487	30,4	ARC / WARC		Ja	Selektive Crawls mit Erlaubnis oder Benachrichtigung. Thematische Sammlungen in: Menschenrechte; Denkmalpflege und Stadtplanung; New Yorker Religionen. Erfassen Sie auch die Web-Domain der Columbia University.
Archiv der Website der Regierung des Bundesstaates North Carolina	51,5	3.8	WARC		Ja
Lateinamerikanisches Webarchivierungsprojekt					Ja
Webarchivierungsprojekt für die pazifischen Inseln	5,5		ARC / WARC		Ja	Enthält Websites aus 18 Ländern.
Webarchiv der Kongressbibliothek	7741	420	ARC / WARC		Ja	Früher MINERVA. Selektive Crawls mit Benachrichtigung und Erlaubnis; hauptsächlich Veranstaltungs- und Themensammlungen.
Harvard University Library: der Web Archive Collection Service (WAX)	19	0,661	BOGEN		Ja	Selektive Crawls ohne vorherige Autorisierung.
Webarchivierungsdienst der California Digital Library (WAS-Dienst)	216	25,2	ARC / WARC	Kann von Partnern durchgeführt werden	Ja	Bietet Partnern weltweit Web Archiving Service (WAS). Wurde in der California Digital Library entwickelt.
Bentley Historical Library (University of Michigan) Webarchiv	34,5	2.6	ARC / WARC		Ja	WAS-Service seit 2010.
Webarchiv der Universität von Texas in San Antonio	26	1.135	ARC / WARC		Ja	Universitätsverwaltung, Fakultäts- und Studentenstandorte; sowie selektive Aufnahmen zu Themenbereichen von San Antonio und Südtexas, einschließlich San Antonio-Organisationen; San Antonio Online-Zeitschriften und -Blogs; Tejano- und Conjunto-Musik; Websites mit Bezug zu Schwulen, Lesben, Bisexuellen, Transgender und Queer in Texas, San Antonio und im Rio Grande Valley; Einwanderung/Grenzland; Mexikanische Kochblogs; San Antonio-Restaurants; Erneuerbare Energien in Texas; Rio Grande Valley Organisationen; und Rio Grande Watershed und Texas Water Issues.
AUEB Webarchiv	3		WARC	aueb.gr	n	Die von der Domain aueb.gr gecrawlte Datenmenge liegt zwischen 10 GB und 14,9 GB. Die Daten werden komprimiert auf der Festplatte gespeichert und benötigen zwischen 8,8 GB und 9,7 GB, was zu einer Platzersparnis zwischen 12 % und 35 % führt. Bei einem neuen Crawl können wir nur die Webseiten auf der Festplatte speichern, die sich seit dem vorherigen Crawl geändert haben. Folglich haben wir 13,1 GB von der Domain aueb.gr gecrawlt, aber nur 1,6 GB auf der Festplatte gespeichert, was zu einer Platzeinsparung von 88% führte.
Webarchiv der Weltbank		0,143	HTTrack	nein, bis jetzt	Ja	450 Stätten mit historischem oder wissenschaftlichem Wert wurden seit 2007 geerntet, jede archiviert, bevor sie offline genommen oder vor einem größeren Upgrade durchgeführt wurde.
CyberFriedhof der University of North Texas		0,887	WARC	.gov	Ja
Internetarchiv der Bibliotheca Alexandrina	80000	1000	ARC / WARC	Ägyptische Nachrichten und Politik	Ja
Digitale Bibliothek der York University		0,435	WARC	yorku.ca + Anfragen von Fakultäten	Ja
Webarchiv des Niederländischen Instituts für Ton und Bild (Ton und Bild)			ARC / WARC		Ja	Sound and Vision ist unter anderem mit der Archivierung von Programmen beauftragt, die von niederländischen öffentlich-rechtlichen Sendern ausgestrahlt werden. Daher besteht ein wichtiger Teil des Webarchivs aus Websites von öffentlich-rechtlichen Rundfunkanstalten, die sich auf diese Programme beziehen. Darüber hinaus werden Websites archiviert, die keinen direkten Bezug zur Sammlung haben, aber im weiteren, medienhistorisch interessant sind. Beispiele sind Websites von kommerziellen Sendern.
Kentucky Abteilung für Bibliotheken und Archive	3	0,3007	WARC		Ja
Universität von Kalifornien, San Francisco Library	12,5	0,587	ARK/WARZ		Ja	Websites, die von Mitarbeitern und Fakultäten angefordert wurden, und eine wachsende Liste, die versucht, alle UCSF-Websites so umfassend wie möglich zu erfassen.
Ivy Plus Libraries Confederation		8.2	ARC / WARC		Ja	Selektive Crawls mit Benachrichtigung. Themensammlungen zu Politik und politischen Protesten, Architektur, Komponisten, Design, Gaming, Geologie, Webcomics, Dokumentarfilmen, Kunst, Religion, Sexualität, Klimawandel und mehr.
Webarchiv der malaysischen Regierung (MyGWA)		10	WARC	.GOV.MY	Ja	Crawlt nur Websites des malaysischen öffentlichen Sektors. Die Betrachtung erfolgt nach Themen, dh Verwaltung, Wirtschaft, Sicherheit und Soziales.
Nationalbibliothek für Medizin (USA)	122	9.1	WARC		Ja
Smithsonian-Bibliotheken und -Archive (USA)		10	WARC		Ja

Zugriffsmethoden

Name	URL-Verlauf (Ja/Nein)	Metadaten (Katalog/erweiterte) Suche (Ja/Nein)	Volltextsuche (Ja/Nein)	Memento-Compliance (Nein/Native/Proxy)	Kommentare
EU-Webarchiv		Ja	Ja	Ja	Für alle frei zugänglich über data.europa.eu/webarchive
Australiens Webarchiv	Ja	Ja	Ja	Nein	Ausgewählte Sites sind über eine Verzeichnisstruktur öffentlich verfügbar. Domain-Ernte sind es nicht. Das PANDORA-Archiv ist über den einzigen Suchdienst der NLA, Trove, indiziert und durchsuchbar. Die Australian Domain Harvests sind volltextindiziert, aber derzeit nicht öffentlich verfügbar. Das Webarchiv der australischen Regierung kann über sein Portal nach URL und Volltextindizes durchsucht werden.
Unsere digitale Insel, ein tasmanisches Webarchiv	Ja	Ja	n	Nein	Präsentiert Thumbnails, die durch Html To Image generiert wurden, ergänzt in HTTrack . Die Informationen sind in Verzeichnissen organisiert: AZ Themenliste, AZ Titelliste.
Webarchiv Österreich	Ja	n	Ja	Nein	Online- Suche nach Versionen entweder per URL oder im (Teil-)Volltext möglich. Die Webseiten sind nur an speziellen Terminals der Österreichischen Nationalbibliothek zugänglich . Verfügt über eine Lesezeichenfunktion, mit der Versionen online gespeichert und an den Webarchiv-Terminals der Bibliothek abgerufen werden können.
Deutsche Nationalbibliothek	Ja	Ja	Ja	Nein	Nur in den Lesesälen der Deutschen Nationalbibliothek zugänglich. Die Metadaten sind im öffentlich zugänglichen Bibliothekskatalog enthalten.
DILIMAG (Digitale Literaturzeitschriften)	Ja	Ja	n	Nein	Metadaten sind öffentlich zugänglich, für die archivierten Versionen ist der Zugang je nach Rechteinhabervereinbarung frei oder eingeschränkt möglich. In der neuen Version (online seit Februar 2015) ist die Volltextsuche implementiert.
Bibliothèque et Archives nationales du Québec (BAnQ)	Ja	n	n	Nein	Bietet Zugriff gemäß Partnerrichtlinie.
Webarchiv der kanadischen Regierung (GCWA)	Ja	Ja	Ja	Stellvertreter	Library and Archives Canada macht seine Webarchive der Bundesregierung (Materialien unter Crown Copyright) öffentlich zugänglich. Es stehen Indizes für die Suche nach kanadischen Bundeswebressourcen alphabetisch nach Autorenorganisation und nach URL zur Verfügung. Die Volltextindizierung basiert auf Lucene.
Sammlung und Bewahrung von Webinformationen - WICP (Chinesisches Webarchiv)		Ja		Nein	Archivinhalte sind nur im Intranet der National Library of China verfügbar. Einige Sammlungen sind öffentlich zugänglich, mit Metadatensuche und nach Sammlung durchsuchbar.
Kroatisches Webarchiv (Hrvatski arhiv weba - HAW)	Ja	Ja	Ja	Stellvertreter	Vollständiger offener Zugang.
Webarchiv ( Nationalbibliothek der Tschechischen Republik )	Ja	n	n	n	Aus urheberrechtlichen Gründen ist nur eine begrenzte Anzahl archivierter Websites, für die Vereinbarungen mit den Herausgebern getroffen wurden, online verfügbar. Für andere Ressourcen können Sie herausfinden, ob eine bestimmte Website archiviert wurde und wie viele Versionen geerntet wurden. An öffentlichen Terminals der Nationalbibliothek ist uneingeschränkter Zugriff auf alle Ressourcen des Webarchivs möglich.
Netarkivet.dk	Ja	n	Ja	Nein	Online-Zugriff nur für Forscher über ein Citrix-Login zur Freitextsuche auf Basis von Solr und einer Proxy-Lösung, die über den Wayback auf ein Archiv zugreift . Es hat einen Rahmen für die Ausführung von Batch-Jobs mit der Möglichkeit des Data Mining geschaffen.
Estnisches Webarchiv	Ja	Ja	n	Nein	Der öffentliche Zugriff auf archivierte Inhalte ist nur mit Genehmigung des Urheberrechtsinhabers gestattet. Das vollständige Archiv ist nur dem Personal des Webarchivs zugänglich.
Finnisches Webarchiv	Ja	n	30% des Materials.	Nein	URL-Suche, aber Zugriff auf Inhalte vor Ort. Die Volltextsuche ist für 30% des Materials verfügbar.
BnF - BnF Web-Legal Deposit	Ja	n	15% der Sammlung	Nein	Zugänglich für autorisierte Benutzer des BnF über die Lesesäle der Forschungsbibliothek in Paris und Avignon. Die Wayback- Schnittstelle wurde ins Französische übersetzt. Volltextsuche nur für einen relativ kleinen Teil der Sammlung (15% von 200 TB), die von Internet Archive indiziert ist. Keine aktuelle Volltextsuche im Workflow implementiert. Erstellt spezielle Sammlungsgalerien basierend auf einer Auswahl aus dem Archiv zu einem bestimmten Thema.
Ina (Institut National de l'Audiovisuel)	Ja	Ja	Ja	Nein	Die Volltextindizierung basiert auf Lucene. Um Ergebnisse von häufigen Crawls (mehrere Crawls pro Stunde für einige Seiten) zu berücksichtigen, wird Clustering betrieben, um ähnliche Versionen von Seiten zu verarbeiten
E-Diaspora (Télécom ParisTech, FMSH)	Ja	n	n	Nein	1381 Websites zur Zeit gekrochen sind ein Archiv über Migranten Nutzung des Web, Sozialwissenschaften Forscher zu bauen haben ein langfristig Projekt ins Leben gerufen , basierend auf diesem Archiv Ina ist der Umgang mit Crawls und Lagerung
Internet Memory Foundation	Ja	Ja	Ja	Nein	Bietet Zugangs- und Suchdienste gemäß der Partnerrichtlinie.
Bibliotheksservice-Zentrum Baden-Württemberg	Ja	Ja	Ja	Einheimisch	Archivierte Websites, die über Archive-It zugänglich sind; in den SWB Verbundkatalog integriert. Vollständiger offener Zugriff für einen Großteil der Snapshots, einige durch IP eingeschränkt.
Webarchiv des Deutschen Bundestages	Ja	n	n	Nein	Webarchive selbst sind Momentaufnahmen von www.bundestag.de und anderen Websites. Die Navigation ist durch Anklicken der Jahre möglich.
Island				Einheimisch
Israelisches Webarchiv	n	Ja	n	Nein	Noch in Entwicklung und Pilotphase
Web Archiving Project (WARP), The National Diet Library , Japan	Ja	Ja	Ja	Nein	Alle archivierten Websites sind vor Ort verfügbar. 80% davon sind mit Erlaubnis der Webmaster auch im Internet zugänglich.
Koreanische Nationalbibliothek - OASIS (Internet-Ressource für Online-Archivierung und -Suche)	Ja	Ja	Ja	Nein	100 % des Archivs sind indiziert. Ermöglicht die Suche nach Themenklassifizierung (zB Religion, Wissenschaft, Kunst). Suche verfügbar.
Koninklijke Bibliotheek	Ja	n	n	Nein	Das Webarchiv ist an Terminals in den KB-Lesesälen für Vollmitglieder zugänglich („vor Ort“).
Neuseeland Webarchiv	Ja	Ja	n	Nein	Domain Harvests: Verfügbar für ausgewählte Mitarbeiter mit OpenWayback und beschränkt auf URL-Suchen. Selektive Ernten: Jede Website ist im Katalog beschrieben (mit Themen-, Autor-, Titel- und URL-Recherche) und kann von der Öffentlichkeit über das Internet durch Anklicken des Links zum archivierten Exemplar eingesehen werden. Die Websites selbst sind jedoch nicht indiziert.
Die Norwegische Nationalbibliothek	n	Ja		Nein	Sites sind in den Katalog integriert. Linke Leiste ermöglicht Facettennavigation mit Drilldown.
Arquivo.pt – das portugiesische Webarchiv	Ja	Ja	Ja	Einheimisch	Ein Volltext- und URL-Suchdienst ist frei verfügbar . Auch die Bildsuche wird unterstützt. Archivierte Daten können über eine Hadoop-Plattform oder öffentlich verfügbare Application Programming Interfaces zur Entwicklung von Webanwendungen ausgelesen werden .
Webarchiv von Cacak	n	n	n	Nein	Geplant ist, in Zukunft eine Suchmaschine zu entwickeln. Eine schlechte Eigenschaft von HTTrack ist, dass Dateien während der Archivierung umbenannt werden, so dass die ursprüngliche Struktur der Website sowie Dateinamen verloren gehen.
Webarchiv Singapur	Ja	Ja	Ja	Nein	Die Sammlung ist in der Nationalbibliothek in Singapur einsehbar. Ausgewählte Inhalte, die von Urheberrechtsinhabern freigegeben wurden, sind online verfügbar.
Digitale Ressourcen (Universitätsbibliothek Bratislava)	Ja	Ja	n	Nein	Es ist möglich herauszufinden, ob eine Website archiviert wurde und wie viele geerntete Versionen existieren. Aufgrund der Urheberrechtsbeschränkungen ist nur eine begrenzte Anzahl archivierter Websites öffentlich zugänglich (auf Grundlage von Vereinbarungen mit Herausgebern). Der Zugriff auf andere archivierte Ressourcen ist lokal in der Universitätsbibliothek in Bratislava verfügbar.
Slowenisches Webarchiv	Ja	n	Ja	Nein	Das Archiv der selektiven Crawls ist öffentlich zugänglich. Die Nutzung ist durch Browsing und Volltextsuche möglich. Nationale Domain-Crawls sind noch nicht zugänglich, werden es aber in Zukunft sein.
Archivo de la Web Española	Y (Zukunft)	Y (Zukunft)	Y (Zukunft)	Nein	Planen Sie kurz- bis mittelfristig die Bereitstellung des Zugangs vor Ort.
PADICAT: Das Webarchiv von Katalonien	Ja	Ja	Ja	Nein	Vollständiger offener Zugang.
Baskisches digitales Kulturerbe-Archiv	Ja	Ja	Ja	Nein
Schweden (Kulturarw3)	Ja	n	n	Nein	Öffentlicher Zugang durch dedizierte Automaten im Bibliotheksgebäude.
Aleph-Archiv	Ja	Ja	Ja	Nein	Automatische Webarchivierungsplattform der Enterprise-Klasse für die Online-Erfassung und -Aufbewahrung. Unterstützen Sie eDiscovery mit leistungsstarker und qualitativer Technologie. Richtet sich an Unternehmen, Institutionen und Agenturen, die ihre Webinhalte erfassen, bewahren und nutzen möchten; dynamische Websites, Wikis, soziale Medien, Foren, Kommentare, Haftungsausschlüsse und Anzeigen für Compliance (FDA, FINRA , FSA, SEC, FOIA), Marketing oder reine Aufbewahrungszwecke.
Webarchiv Schweiz	Ja	Ja	Ja	Nein	Webarchiv Schweiz ist die Sammlung der Schweizerischen Nationalbibliothek mit Websites mit Bezug zur Schweiz. Das Webarchiv Schweiz wurde in e-Helvetica, das Zugangssystem der Schweizerischen Nationalbibliothek, integriert und ermöglicht den Zugriff auf den gesamten digitalen Bestand. So können Sie in einem Teil des Webarchivs eine Volltextsuche durchführen. Die archivierten Versionen von Websites können jedoch nur in den Lesesälen der Schweizerischen Nationalbibliothek und unserer Partnerbibliotheken eingesehen werden, die uns beim Aufbau der Sammlung von Schweizer Websites unterstützen. Aber Sie können die Metadaten der archivierten Versionen von überall einsehen.
NTU Web-Archivierungssystem, NTUWAS	Ja	Ja	Ja	Nein	Präsentiert Seitenminiaturen, archivierte Seiten, die geografischen Standorten zugeordnet sind.
Webarchiv Taiwan	Ja	Ja	Ja	Nein
PageFreezer	Ja	Ja	Ja	Nein	On-Demand-Dienst der Enterprise-Klasse zum Archivieren und Wiedergeben von Websites, Blogs, Ajax, Flash, Video, Audio und sozialen Medien für den Schutz vor Rechtsstreitigkeiten, eDiscovery und die Einhaltung gesetzlicher Vorschriften mit FDA, FINRA, FSA, SEC, SOX, Federal Rules of Evidence und Records Management-Gesetzen . Wird von Regierungsbehörden und börsennotierten Unternehmen in der Pharma-, Lebensmittel-, Finanz-, Gesundheits- und Einzelhandelsindustrie verwendet.
Das britische Webarchiv	Ja	Ja	n	Einheimisch
Hanzo-Archiv	Ja	Ja	Ja	Nein	Kommerzielle Webarchivierungsdienste und -geräte. Der Zugriff umfasst Volltextsuche, Anmerkungen, Schwärzung, URL/Verlauf, Archivrichtlinien und zeitliches Durchsuchen sowie ein konfigurierbares Metadatenschema für erweiterte E-Discovery-Anwendungen. Wird in Regierungen und Unternehmen verwendet, deren Einhaltung oder gesetzliche Verpflichtungen / Bedürfnisse sich auf ihre Websites, Intranets und sozialen Medien erstrecken. Viele „dunkle“ Archive in ganz Europa und den USA.
Webarchiv der britischen Regierung (UKGWA)	Ja	Ja	Ja	Einheimisch	Die Volltextsuche ist im UK Government Web Archive (UKGWA) in Betrieb. Benutzer können die Sammlung mit einer vollständigen AZ-Liste aller Websites durchsuchen
EU Exit Webarchiv	Ja	Ja	Ja	Einheimisch	Die Volltextsuche ist im EU Exit Web Archive einsatzbereit
Internetarchiv (bietet Archive-it-Dienst)	Ja	Ja	Ja	Einheimisch	Der URL-Verlauf ist für alle archivierten Daten verfügbar. Metadaten- und Volltextsuche nur für ausgewählte Crawls. Hatte bis 2002 eine Mining-Plattform für die Forschung, die von Alexa Shell Perl Tools zusammengestellt wurde av_tools und p2-Plattform für die parallele Verarbeitung. Es wurde durch einen einfacheren Zugriff und eine direkte Methode ersetzt, die einen automatischen Zugriff auf Dateien ermöglicht, jedoch keine Plattform für die Verarbeitung.
Reed-Archiv				Nein
Programm zur Sammlung von Webressourcen für Bibliotheken der Columbia University	Ja	Ja	Ja	Nein	Zugänglich über den Archive-it-Dienst. Verbesserter Zugang zur Menschenrechtssammlung verfügbar unter: Human Rights Web Archive .
Archiv der Website der Regierung des Bundesstaates North Carolina	Ja	Ja	Ja	Nein	Zugänglich über den Archive-it-Dienst.
Lateinamerikanisches Webarchivierungsprojekt	Ja	Ja	Ja	Nein	Der Zugriff auf die Inhalte erfolgt über die Volltextsuche, durch das Durchsuchen nach Ländern oder durch eine spezielle Mustersammlung.
Webarchivierungsprojekt für die pazifischen Inseln	Ja	Ja	Ja	Nein	Unterstützt vom Archive-it-Dienst.
Webarchiv der Kongressbibliothek	Ja	Ja	n	Stellvertreter	Zugang über LCWA . Datensätze im MODS-Format (Metadata Object Descriptive Schema).
Harvard University Library: der Web Archive Collection Service (WAX)	Ja	Ja	Ja	Nein
Webarchivierungsdienst der California Digital Library (WAS-Dienst)	Ja	Ja	Ja	Nein	Zugang für privates Studium, Stipendium und Forschung. Die meisten mit WAS erstellten Archive wurden noch nicht veröffentlicht, da es den Partnern überlassen bleibt, ob sie den Zugriff gewähren möchten. Es gibt 16 Partner, die den Dienst nutzen und über 80 Webarchive erstellt haben, nur 30 sind öffentlich zugänglich. Die Leistung von NutchWAX erlaubte keine vollständige Archivsuche. Die bevorstehende Umstellung auf SOLR wird sowohl eine Vollarchiv- als auch eine sammlungsspezifische Volltextsuche ermöglichen.
Bentley Historical Library (University of Michigan) Webarchiv	Ja	Ja	Ja	Nein	Angetrieben durch das WAS von der California Digital Library. Der Zugang ist öffentlich, aber die Nutzung ist für private Studien, Stipendien und Forschungen beschränkt.
Webarchiv der Universität von Texas in San Antonio	Ja	Ja	Ja	Einheimisch	Zugriff über den Archive-it-Dienst und die Texas Archival Repositories Online-Datenbank
AUEB Webarchiv	Ja	Ja	Ja	Nein
Webarchiv der Weltbank	Ja	Ja	Ja	Nein	URL-Verlauf über offenen Zugriff auf die Sammlung über einen Standard-Webbrowser. Die Volltextsuche ist nur innerhalb jeder einzelnen Site verfügbar. Die Suche nach Metadaten ist über die erweiterte Suche in der Webarchiv-Sammlung verfügbar.
CyberFriedhof der University of North Texas	n	Ja	Ja	Nein
Tamiment Library und Robert F. Wagner Labor Archives an der New York University	Ja	Ja	Ja	Nein	Der Zugang erfolgt über den WAS-Service sowie über Findmittel, die über das Findmittelportal der NYU durchsucht werden können.
Digitale Bibliothek der York University	Ja	Ja	Ja
Webarchiv des Niederländischen Instituts für Ton und Bild (Ton und Bild)		Ja	Ja	n	Ausgewählte Sites, für die Vereinbarungen getroffen wurden, sind öffentlich zugänglich. Die Volltextindizierung erfolgt mit Elasticsearch , das Frontend ist in Drupal aufgebaut .
Kentucky Abteilung für Bibliotheken und Archive	Ja	Ja	Ja	Nein	Voller offener Zugang
Universität von Kalifornien, San Francisco Library	Ja	Ja	Ja	Nativ (über IA )	Sowohl die Erfassung als auch der Zugriff auf archivierte Inhalte werden vom Archive it-Dienst bereitgestellt, sodass alle Funktionen dieselben sind wie bei Archive-It
Ivy Plus-Bibliotheken	Ja	Ja	Ja	Nein	Zugänglich über Archive-It-Dienst.
Webarchiv der malaysischen Regierung (MyGWA)	Ja	Ja	Ja	Nein	Uneingeschränkter Zugang
Nationalbibliothek für Medizin (USA)	Ja	Ja	Ja		Der Zugriff erfolgt über Archive-It
Smithsonian-Bibliotheken und -Archive (USA)	Ja	Ja	Ja		Der Zugriff erfolgt über Archive-It

Siehe auch

Wikipedia:Liste der Webarchive auf Wikipedia

Verweise

Externe Links

Languages

In other projects