Liste der Initiativen zur Webarchivierung - List of Web archiving initiatives
Dieser Artikel enthält eine Liste von Webarchivierungsinitiativen weltweit. Zur besseren Lesbarkeit sind die Informationen in drei Tabellen unterteilt: Initiativen zur Webarchivierung, archivierte Daten und Zugriffsmethoden.
Diese Wikipedia-Seite wurde ursprünglich aus den Ergebnissen des Forschungspapiers Eine Umfrage zu Webarchivierungsinitiativen erstellt, das vom Team Arquivo.pt (dem portugiesischen Webarchiv) veröffentlicht wurde.
Initiativen zur Webarchivierung
Name | Land | Entstehungsjahr | Technologien | Anzahl der Angestellten | Kommentare | |
---|---|---|---|---|---|---|
Vollzeit | Teilzeit | |||||
Ende der Laufzeit Webarchiv | Vereinigte Staaten | 2008 | Heritrix , Wayback | 6-10 | Das End of Term Web Archive erfasst und speichert Websites der US-Regierung ( .gov , .mil usw.) in der Legislative, Exekutive oder Judikative der Regierung am Ende der Präsidentschaftsverwaltungen. Ab 2008 hat das EOT bisher Websites vor Verwaltungsänderungen in den Jahren 2008, 2012 und 2016 bewahrt und bereitet sich derzeit auf den Übergang 2020 vor. Zu den Projektpartnern zählen CA Digital Library , Internet Archive, Library of Congress, George Washington University, Stanford University, University of North Texas und das US Government Publishing Office. | |
Archiv.st | Vereinigte Staaten | 2017 | Archive.st benutzerdefinierte Programmierung bereitgestellt von US Support LLC | >1 | 0 | Archive.st bietet eine kostenlose Online-Webarchivierung in Form eines .JPG- und HTML-Archivs. |
EU-Webarchiv | europäische Union | 2013 | Heritrix , Rückweg | 1 | Das EU-Webarchiv enthält die wichtigsten Websites der EU-Institutionen , die auf der europäischen .eu- Domain und Subdomains gehostet werden . Ziel ist es, EU-Webinhalte langfristig zu erhalten und für die Öffentlichkeit zugänglich zu machen. | |
Alabama State Government and Politics Website und Social Media Archives | Vereinigte Staaten | 2005 | Archive-it-Service | |||
Australiens Webarchiv | Australien | 1996 | PANDORA Digitales Archivierungssystem (PANDAS) , Heritrix, Bamboo, NLA Trove , HTTrack , Webrecorder, outbackCDX. | 4 | >10 | Die National Library of Australia leitet die 'PANDORA'-Komponente des australischen Webarchivs, die einen selektiven Ansatz verfolgt und ein Gemeinschaftsprogramm von 10 Agenturen ist, die kuratorischen Input liefern. PANDORA verwendet das Workflow-System PANDAS (das Ende der 1990er Jahre von der NLA entwickelt wurde) mit HTTrack als Standard-Harvester. Die National Library of Australia führt auch das Sammeln von Websites der australischen Regierung (das Webarchiv der australischen Regierung) durch, indem sie den Heritrix-Harvester und den Webrecorder mit einer Backend-Infrastruktur (bezeichnet als „Bamboo“) verwendet, um Inhalte zu organisieren, und das von der NLA entwickelte outbackCDX-Tool zur Verwaltung der Indexierung Zugriffsbeschränkungen für Inhalte. Zusätzlich zu diesen Ansätzen führt die Nationalbibliothek auch jährliche Ernten der gesamten .au-Domain durch, die in Zusammenarbeit mit dem Internet Archive mit Heritrix und Wayback durchgeführt werden . Im Jahr 2019 wurden PANDORA, das Webarchiv der australischen Regierung und die gesamte Domain-Ernte über den Trove-Discovery-Service der NLA in ein neues einziges Discovery- und Delivery-Portal integriert. |
PROMISE-Projekt | Belgien | 2017 | Heritrix , PyWB | 7 | Das PROMISE-Projekt war ein zweijähriges Projekt (2017-2019), das die politischen, rechtlichen, technischen und wissenschaftlichen Fragen im Zusammenhang mit der Archivierung des belgischen Webs untersuchte. Ziel des Projekts war es, a) bewährte Verfahren im Bereich der Webarchivierung zu ermitteln, b) eine Strategie zur Erhaltung des belgischen Internets zu entwickeln, c) ein Pilotprojekt für die Erhaltung und Bereitstellung des Zugangs zum archivierten belgischen Internet einzurichten und d) Empfehlungen auszusprechen für die Implementierung eines nachhaltigen Web-Archivierungsdienstes. Das Projekt wurde von der Königlichen Bibliothek von Belgien und dem Staatsarchiv von Belgien in Zusammenarbeit mit der Universität Gent (Forschungsgruppe für Medien, Innovation und Kommunikation und Zentrum für digitale Geisteswissenschaften Gent), der Université de Namur (Forschungszentrum für Information, Recht und Gesellschaft) ins Leben gerufen ) und Haute-École Bruxelles-Brabant (Unité de Recherche et de Formation en Sciences de l'Information et de la Documentation). Im Oktober 2019 fand bei KBR das Abschlusskolloquium „Das Web retten: Das Versprechen eines belgischen Webarchivs“ statt. In diesem Kolloquium wurden die wichtigsten Forschungsergebnisse präsentiert. | |
KBR-Webarchiv | Belgien | 2020 | 1 | Das KBR oder die Belgische Königliche Bibliothek entwickelt ein funktionsfähiges Webarchiv basierend auf den Ergebnissen des PROMISE-Forschungsprojekts PROMISE-Forschungsprojekt (2017-2019). Auf der Grundlage der im PROMISE-Projekt skizzierten Strategie werden operative Richtlinien und technische Infrastruktur entwickelt. | ||
MT.GOV Connect | Vereinigte Staaten | 2007 | Archive-It-Dienst | 1 | Montana State Library Sammlung staatlicher Behörden-Websites aus dem Jahr 1996 in teilweiser Erfüllung des gesetzlichen Auftrags, staatliche Veröffentlichungen zu identifizieren, zu erwerben, zu beschreiben und dauerhaft öffentlich zugänglich zu machen. Digitalisierte historische Staatspublikationen verfügbar unter https://archive.org/details/MontanaStateLibrary | |
Stillio | Weltweit | 2011 | Puppenspieler, V8-Motor , Gecko , WebKit , Amazon Web Services | 3 | 4 | SaaS-Lösung für die periodische Website- und Social-Media- Archivierung. Bietet Screenshot-Archivierung von statischen und dynamischen Webseiten in einer festen Dauer, die je nach Bedarf angepasst werden kann. Hilft bei der Einhaltung gesetzlicher Vorschriften, Trendverfolgung, Überprüfung von Werbebannern, Versionsänderungen. |
PageFreezer .com | Weltweit | 2009 | Deep Web Crawler von PageFreezer, Hadoop , Cassandra, Elastic Search | 60 | SaaS-Lösung für Website- und Social-Media-Archivierung. Bietet automatische Erfassung, Wiedergabe, Volltextsuche und Datenexport von Websites, Blogs, sozialen Medien und Plattformen für die Zusammenarbeit von Unternehmen für eDiscovery und die Einhaltung von Vorschriften von FDA, FINRA , FSA, SEC, Federal Rules of Evidence, FOIA und Records Management-Gesetzen. | |
WebPreserver.com | Weltweit | 2015 | WebPreserver | Chrome-Webbrowser-Plugin und webbasierter Dienst zum Sammeln authentifizierter, rechtlich zulässiger Webseiten und Social-Media-Seiten für eDiscovery. Web-Snapshots können in EDRM-XML, WARC, PDF und nativem HTML exportiert werden. Die Dienste von WebPreserver.com ermöglichen es Rechtsteams, die mit dem WebPreserver-Tool erfassten digitalen Beweise zu organisieren, zu kennzeichnen und zusammenzuarbeiten. | ||
OoCities — GeoCities Archiv / GeoCities Mirror | Deutschland | 2009 | ||||
Webarchiv Österreich | Österreich | 2008 | NetarchiveSuite, Heritrix , OpenWayback | 1 | ||
Deutsche Nationalbibliothek | Deutschland | 2012 | Werkzeuge der oia GmbH | 3 | Das Crawling für das selektive Webarchiv erfolgt durch die deutsche Firma oia GmbH. Der Zugang ist auf die Lesesäle der Deutschen Nationalbibliothek beschränkt. | |
DILIMAG (Digitale Literaturzeitschriften) | Österreich | 2007 | WebKurator | 2 | Ein Techniker, einer zum Sammeln und Metadaten. | |
Bibliothèque et Archives nationales du Québec (BAnQ) | Kanada | 2012 | Heritrix , Wayback . | 2 | ||
Webarchivierungsprogramm bei Library and Archives Canada | Kanada | 2005 | Archive-It-Dienst | 4 | 3 | Webarchivierung in Kanada ist eine gesetzliche Aktivität, die zu Zwecken der digitalen Archivierung gemäß Abschnitt 8 (2) des Library and Archives of Canada Act durchgeführt wird . An dem Programm arbeiten vier Vollzeitkräfte und drei Teilzeitkräfte. Web Archivierung bei Library and Archives Canada wird auch Wirkung genutzt Legal Deposit . |
Sammlung und Bewahrung von Webinformationen - WICP (Chinesisches Webarchiv) | China | 2003 | Heritrix , Wayback und NutchWAX . | |||
Kroatisches Webarchiv (Hrvatski arhiv weba - HAW) | Kroatien | 2004 | Crawl: DAMP-Software, Heritrix | 2 | 2 | Das Kroatische Webarchiv (HAW) ist eine Sammlung von Inhalten aus dem Internet. Im Jahr 2004 begann das Archiv als Konzept der selektiven Erfassung von Webressourcen. Seit 2011 werden jährlich ganze .hr-Domain-Harvests sowie thematische/Event-Harvesting für Veranstaltungen von nationalem Interesse durchgeführt. Der Inhalt des Archivs ist über die HAW-Website öffentlich zugänglich. (2 Bibliothekare in Vollzeit, 1 Bibliothekar in Teilzeit, NUL ), 2 IT-Fachkräfte in Teilzeit (SRCE - University of Zagreb, University Computing Center ) |
Webarchiv ( Nationalbibliothek der Tschechischen Republik ) | Tschechien | 2000 | Heritrix , Wayback und Seeder . | 5 | 2 | Das tschechische Webarchiv ( Webarchiv ), das von der Nationalbibliothek der Tschechischen Republik verwaltet wird, konzentriert sich auf die Archivierung des tschechischen nationalen Webs. Die Akquisitionspolitik besteht aus drei Linien: Selective Harvests (Sammlung von Ressourcen auf der Grundlage von Auswahlkriterien), Themensammlungen (mit Schwerpunkt auf wichtigen Themen im Bereich des tschechischen Webs) und umfassende Harvests (automatische Sammlungen von Inhalten im nationalen Bereich). Das Personal besteht aus 1 Manager, 3,5 Kuratoren + 1,5 technischen Mitarbeitern. |
Netarkivet / Das dänische Webarchiv (Royal Danish Library) | Dänemark | 2005 | NetarchiveSuite , Heritrix , Freitextsuche mit Apache Solr , Blacklight und Wayback für die Wiedergabe. Entwicklung des Such-Frontends und der Playback-Engine SolrWayback . | 1 | 5.5 VZÄ | Seit 2005 ist die Sammlung und Bewahrung des dänischen Teils des Internets im dänischen Pflichtexemplargesetz enthalten. Die Aufgabe wird von der Königlich Dänischen Bibliothek übernommen .
Das dänische Webarchiv ist nicht öffentlich zugänglich. Das Archiv ist nur für Forscher zugänglich, die eine Sondergenehmigung zur Nutzung der Sammlung für bestimmte Forschungszwecke beantragt und erhalten haben. Diese Website, Netarkivet.dk, soll Forscher, Websitebesitzer und andere interessierte Parteien über das dänische Webarchiv informieren. Zur Zeit ist der größte Teil der Website auf Dänisch. |
Estnisches Webarchiv | Estland | 2010 | Heritrix , Squidwarc , PhantomJS und Puppeteer für Screenshots der Startseiten von Websites, Pywb , Custom Curator Tool. | 3 | 1 | Seit 2006 erlaubt das Gesetz zur Pflichtablieferung der Estnischen Nationalbibliothek , estnische Websites als Pflichtexemplare zu sammeln. Das Web Harvesting wird durchgeführt und das Archiv wird von der Estnischen Nationalbibliothek verwaltet. |
Finnisches Webarchiv | Finnland | 2008 | Heritrix , Solr , Wayback . | 2 | >2 | Verwaltet von der Finnischen Nationalbibliothek . Jährlich werden alle *.fi-Domains sowie Webserver in Finnland geerntet. Außerhalb dieser Ernten wählt die Bibliothek relevante Websites manuell aus. |
BnF - BnF Web-Legal Deposit | Frankreich | 2006 | Heritrix , Wayback , NutchWAX , NetarchiveSuite , BCWeb. | 10 | ||
Ina (Institut National de l'Audiovisuel) | Frankreich | 2009 | Crawl: PhagoSite , Crocket basierend auf Firefox , Fantomas basierend auf PhantomJS / Access: Vortex / Suche: Dowser basierend auf Elasticsearch | 7 | ||
Bibliotheksservice-Zentrum Baden-Württemberg | Deutschland | 2003 | Archive-It-Dienst | 0,5 | Die Webseiten von etwa 20 Städten, Gemeinden, Kreisen und angeschlossenen Körperschaften sowie Landesbibliotheken werden vom BSZ im Auftrag in verschiedenen Archive-It-Sammlungen gesammelt. Öffentlicher Zugang. Datenspeicherung: San Francisco (Archive-It) sowie Backup mit baden-württembergischer Speicherinfrastruktur. | |
Webarchiv des Deutschen Bundestages | Deutschland | 2005 | ||||
Ungarische Webarchivierungsinitiative | Ungarn | 2017 | Heritrix , Wayback, PyWb, Brozzler, Webrecorder , WCT | 3 | 2 | Von April 2017 bis Dezember 2019 führte die Nationalbibliothek Széchényi im Rahmen ihres umfassenden Entwicklungsprogramms für die IT-Infrastruktur ein Pilotprojekt zur Webarchivierung durch. Im Jahr 2020 wurde die Webarchivierung zu einem ständigen Service der Nationalbibliothek Széchényi. Ab 2021 haben sich die gesetzlichen Rahmenbedingungen geschaffen und das Webarchiv arbeitet nach den geänderten Paragrafen des Kulturgesetzes und der entsprechenden Regierungsverordnung. Wir führen thematische, ereignisbasierte und Domain-Harvests durch. Wir haben eine kleine Demosammlung mit Metadaten- und Volltextsuchfunktionen. Der Rest des Archivs ist nicht öffentlich zugänglich. |
Island | Island | 2004 | Heritrix , OpenWayback | |||
Webarchiv der irischen Nationalbibliothek | Irland | 2011 | Archive-it-Service | 1 | 0,5 FTE | Die National Library of Ireland archiviert über ihr NLI Selective Web Archive selektiv irische Websites von wissenschaftlicher, kultureller und politischer Bedeutung . |
Israelisches Webarchiv | Israel | 2011 | Heritrix , Web-Kurator-Tool , Wayback , Rosetta | 1 | >3 | Nationalbibliothek von Israel sammelt '.IL'-Domains, 1 Projektmanager in Teilzeit, 1 Technischer Leiter in Vollzeit, 1 Bibliothekar in Teilzeit, 1 IT-Infrastruktur in Teilzeit |
Nationale Zentralbibliothek von Florenz | Italien | 2018 | Archive-it-Service | Ziel des Projekts ist die Sammlung und Archivierung digitaler Dokumente und Websites mit "kulturellem Interesse" für die italienische Geschichte und Kultur nach den Grundsätzen des nationalen Pflichtexemplargesetzes. Die Archive-it-Sammlung ist öffentlich zugänglich. | ||
Web Archiving Project (WARP), The National Diet Library , Japan | Japan | 2002 | Heritrix , OpenWayback, Solr | 7 | 2 | Das Web Archiving Project (WARP) archiviert seit 2002 Websites. Das 2009 überarbeitete und im April 2010 in Kraft getretene National Diet Library Law erlaubt es dem NDL, die Websites offizieller japanischer Institutionen zu archivieren: Regierung, Landtag, Gerichte, lokale Regierungen, unabhängige Verwaltungsorganisationen und Universitäten. Websites von kulturellen und internationalen Veranstaltungen, die in Japan abgehalten werden, und solche, die sich auf Online-Zeitschriften beziehen, werden ebenfalls mit Genehmigung ihrer Webmaster archiviert. |
Koreanische Nationalbibliothek - OASIS (Online-Archivierung und Suche in Internetquellen) | Korea | 2001 | Eigenes System basierend auf Oracle DBMS und spezialisierter Suchmaschine (IRS), die Datenverwaltung und Suchfunktion durchführt. | 3 | 11 | |
Bibliothèque nationale du Luxembourg | Luxemburg | 2015 | Heritrix , Wayback | 2 | Die luxemburgische Nationalbibliothek führt halbjährlich breite Crawls für die .lu-Domain sowie selektive und ereignisbasierte Crawls durch.
Die im Luxemburger Webarchiv gesammelten Websites bereichern die Patrimonialsammlungen der Nationalbibliothek, was die Bewahrung digitaler Publikationen für zukünftige Generationen ermöglicht. Webarchive.lu ist die Informations- und Beteiligungsplattform des Luxemburger Webarchivs. |
|
Koninklijke Bibliotheek | Niederlande | 2007 | Heritrix 3.2, Web Curator Tool 3.0, Wayback , KB e-Depot-System | ~10 | 1 Crawl Engineer, 1 Softwareentwickler und 9 Inkassospezialisten, alle in Teilzeit (entspricht etwa 4 Vollzeit). Die KB sammelt selektiv niederländische Forschungs- und Kulturstätten. | |
Lettische Nationalbibliothek | Lettland | 2005 | Web-Curator-Tool und Wayback | 1 | Derzeit nur zur Aufbewahrung archiviert, öffentlich zugänglich in Entwicklung (ETA Juni 2012). Der lettische Begriff für Web Harvesting ist "rasmošana". | |
Neuseeland Webarchiv | Neuseeland | 1999 | Web Curator Tool , Heritrix3 , Webrecorder , OpenWayback , OutbackCDX , Rosetta | 4 | >10 | Nationale Domain-Harvests werden seit 2008 und seit 2015 jährlich in Zusammenarbeit mit dem Internet Archive durchgeführt. Die selektive Sammlung wird von der National Library of New Zealand mit dem Web Curator Tool durchgeführt. Drei Vollzeitmitarbeiter sammeln Websites und eine Reihe von Mitarbeitern mit Dienstplan sammeln HTML-Serien oder HTML-Monographien. Unterstützt von einem dedizierten Webarchivierungsingenieur und einem breiteren ITMS der Abteilung. Fragen der digitalen Aufbewahrung werden von Mitarbeitern bearbeitet, die mit Rosetta zusammenarbeiten. |
Die Norwegische Nationalbibliothek | Norwegen | 2001 | ||||
Arquivo.pt | Portugal | 2007 | Eigenentwicklung , Heritrix , Wayback , NutchWAX , Pywb , Apache Solr , Brozzler | 7 | 1 | Arquivo.pt ist eine Forschungsinfrastruktur, die seit 1996 aus dem Internet gesammelte Informationen speichert und einen öffentlichen Suchdienst für diese Sammlung bereitstellt. Arquivo.pt bewahrt Websites in mehreren Sprachen und bietet Benutzeroberflächen in englischer Sprache. Die archivierten Daten können über eine verteilte Verarbeitungsplattform oder über Application Programming Interfaces, die die Entwicklung von Mehrwertanwendungen erleichtern, automatisch verarbeitet werden, um Big-Data-Recherchen durchzuführen. Das Team von Arquivo.pt hat auch mit über 40 wissenschaftlichen und technischen Artikeln zur Webarchivierung beigetragen, die im Open Access veröffentlicht wurden. |
Webarchiv von Cacak | Serbien | 2009 | HTTrack | 1 | ||
Webarchiv Singapur | Singapur | 2006 | Wayback , Heritrix , Solr | 3 | Das Webarchiv Singapur wird vom National Library Board , Singapur (NLB) verwaltet. NLB führt Domain- und selektive Archivierung von Websites mit Schwerpunkt auf Singapur-Inhalten durch. Die Sammlung ist in der Nationalbibliothek in Singapur einsehbar. Ausgewählte Inhalte, die von Urheberrechtsinhabern freigegeben wurden, sind online verfügbar. | |
Digitale Ressourcen ( Universitätsbibliothek Bratislava ) | Slowakische Republik | 2015 | Heritrix 3.2.0, Wayback 2.2.0, Solr 5.2.1, Invenio , Custom Curator Tool | 4 | 1 | Die Universitätsbibliothek Bratislava (ULIB) führte 2008-2009 die ersten Experimente zum Webharvesting durch. Im Jahr 2015 hat ULIB eine Plattform für Web- und E-Born-Archivierung in Betrieb genommen (während der Umsetzung des nationalen Projekts "Digitale Ressourcen", das vom Europäischen Fonds für regionale Entwicklung unterstützt wurde) - www.webdepozit.sk/ ). |
Slowenisches Webarchiv | Slowenien | 2007 | Heritrix , Wayback | 1 | ||
Archivo de la Web Española | Spanien | 2009 | NetarchiveSuite , OpenWayback , Solr | 3+Betreuer | 2 | Verwaltet von der Spanischen Nationalbibliothek in Zusammenarbeit mit regionalen Bibliotheken. Verwendet einen gemischten Ansatz aus selektiven und breiten Ernten. Ganze .es Domain Harvests werden seit 2009 bis 2013 jährlich in Zusammenarbeit mit dem Internet Archive mit Heritrix und Wayback durchgeführt. Seit 2014 werden selektive Ernten von der Spanischen Nationalbibliothek mit NetarchiveSuite durchgeführt. Nationalbibliothek = 3 Bibliothekare in Vollzeit, 2 Crawling Engineers in Teilzeit. Regionalbibliotheken = mehrere Bibliothekare in Teilzeit. Seit dem 26. Oktober 2015 erlaubt das Gesetz zur Pflichtablieferung der Spanischen Nationalbibliothek und den Regionalbibliotheken, spanische Websites als Teil der Pflichtablieferung zu sammeln und der Öffentlichkeit unter Beachtung der Regeln des Urheberrechts zur Verfügung zu stellen. |
PADICAT: Das Webarchiv von Katalonien | Spanien | 2005 | Heritrix , Wayback , WERA, NutchWAX , Web Curator und CAT . | 2 | PADICAT ist das Open-Access-Webarchiv von Katalonien, das von der Biblioteca de Catalunya erstellt wurde : der öffentlichen Einrichtung, die für die Sammlung, Erhaltung und Verbreitung des bibliographischen Erbes Kataloniens in Spanien verantwortlich ist. | |
ONDARENET - Baskisches digitales Kulturerbe-Archiv | Spanien | 2008 | Heritrix , Wayback , NutchWAX und Web Curator . | 1 | ||
Schweden (Kulturarw3) | Schweden | 1996 | NetarchiveSuite , Heritrix . Inhouse-System für Lagerung, Wartung und Zugriff, aber Umstellung auf OpenWayback oder pywb . | 1,25 | Das schwedische Web-Harvesting-Projekt begann 1996 und die erste Ernte wurde 1997 durchgeführt. 2002 kamen die täglichen Ernten bestimmter Zeitungswebsites hinzu. Es gab eine Betriebspause November 2009 - Mai 2011, aber eine Ernte für 2010 wurde mit Hilfe des Internetarchivs gemacht. In den Jahren 2016, 2018 und 2019 wurden aufgrund von Problemen mit der Harvesting-Plattform keine Domain-Harvests durchgeführt. Die tägliche Ernte von Zeitungswebsites wurde zwischen Mai 2017 und Dezember 2018 pausiert, wurde aber auf alle schwedischen Zeitungswebsites täglich ausgeweitet. Seit April 2013 erhält die Schwedische Nationalbibliothek auch Online-Material über das Gesetz zur Pflichtablieferung für elektronisches Material. | |
Aleph-Archiv | Schweiz, USA | 2010 | Webarchivierungsplattform, Erfassung von Domainnamen, Hochleistungssuchmaschine, Indizierung nahezu in Echtzeit, Webüberwachungstools | >10 | Automatische Webarchivierungsplattform der Enterprise-Klasse für die Online-Erfassung und -Aufbewahrung. Unterstützen Sie eDiscovery mit leistungsstarker und qualitativer Technologie.
Richtet sich an Unternehmen, Institutionen und Agenturen, die ihre Webinhalte erfassen, bewahren und nutzen möchten; dynamische Websites, Wikis, soziale Medien, Foren, Kommentare, Haftungsausschlüsse und Anzeigen für Compliance (FDA, FINRA , FSA, SEC, FOIA), Marketing oder reine Aufbewahrungszwecke. |
|
Expatriate Archive Center Blog-Archiv | Den Haag, Niederlande | 2019 | Archive-It-Dienst | Im Mittelpunkt dieses Projekts stehen Blogs von Personen, die im Ausland gelebt haben. Wir bewahren diese Blogs und ihre Inhalte, weil wir ihren kulturellen und historischen Wert anerkennen. Die Aufnahme eines Blog-Archivs in unsere Sammlung wird die Forschungsmöglichkeiten für Studierende und andere Akademiker, die uns als Studienort wählen, bereichern. Die archivierten Blogs werden nach ganz bestimmten Kriterien ausgewählt und regelmäßig auf ihre Qualität überprüft. | ||
Webarchivierungs-Bucket | Schweiz, USA, Kanada | 2012 | WARC Software Development Kit, Kobalt, Holon-Webserver | Der "Web Archiving Bucket" ist eine Initiative von Aleph Archives, um Daten zu bewahren und Bibliotheken und Organisationen kostenlos nutzbare Webarchivierungstools und -komponenten zur Verfügung zu stellen.
Der Web Archiving Bucket bietet eine Reihe von Tools, die Archivaren und Fachleuten bei ihrer täglichen Arbeit helfen. |
||
Webarchiv Schweiz | Schweiz | 2008 | Heritrix , Wayback , Webrecorder | 6 | 2 Crawl-Ingenieure, 3 Personen für die Qualitätssicherung (mit weniger als 1 Vollzeitbeschäftigung), 1 Koordinator. Die Kuratoren, die die Auswahl treffen, sind Partnerbibliotheken in der ganzen Schweiz. | |
NTU Web-Archivierungssystem, NTUWAS | Taiwan | 2007 | Lucene | 3 | ||
Webarchiv Taiwan | Taiwan | 2007 | ||||
Das britische Webarchiv | Vereinigtes Königreich | 2004 | Heritrix , Web Curator Tool , Wayback , Solr für die Suche. | |||
Webarchiv der britischen Regierung (UKGWA) | Vereinigtes Königreich | 2003 | SpiegelWeb | 7 | 1 | Das UK Government Web Archive (UKGWA) der UK National Archives ist ein vollständig offenes Webarchiv. Es umfasst über 5.000 Websites der Zentralregierung und soziale Medien, die in regelmäßigen Abständen (1996 bis heute) aufgenommen werden. Der Geltungsbereich von UKGWA ist im OSP27- Dokument beschrieben. Die technische Seite des Webarchivierungsbetriebs wird von MirrorWeb bereitgestellt . |
Webarchiv des britischen Parlaments | Vereinigtes Königreich | 2009 | SpiegelWeb | 1 | 2 | Das Webarchiv des britischen Parlaments erfasst, bewahrt und macht im Internet veröffentlichte Informationen des britischen Parlaments zugänglich. Das Webarchiv umfasst Websites und Social Media von 2009 bis heute. Die technische Seite der Webarchivierung wird von MirrorWeb bereitgestellt . |
EU Exit Webarchiv | Vereinigtes Königreich | 2020 | SpiegelWeb | Das EU Exit Web Archive der UK National Archives ist ein vollständig offenes Webarchiv. Es enthält eine breite Auswahl von Dokumenten aus EUR-Lex (der Website für europäische Gesetzgebung), darunter Verträge, Gesetzgebungsdokumente, das Amtsblatt der EU, Rechtsprechung und andere unterstützende Materialien sowie Urteile des Europäischen Gerichtshofs in englischer Sprache, Französisch und Deutsch. Die Sammlung enthält alle Inhalte, die bis zum Abschluss des Umsetzungszeitraums, am 31. Dezember 2020, 23:00 Uhr GMT, veröffentlicht wurden.
Es bietet einen umfassenden und offiziellen britischen Referenzpunkt für das EU-Recht, wie es am Ende des Umsetzungszeitraums stand. Die technische Seite der Webarchivierung wird von MirrorWeb bereitgestellt . |
||
SpiegelWeb | Weltweit | 2012 | Heritrix , PYWB für öffentliche Archive, benutzerdefinierte Wiedergabe für Archive innerhalb der MirrorWeb-Plattform. Benutzerdefinierte Social-Media-Archivierungstools. | 40 | MirrorWeb bietet eine Website und eine Social-Media-Archivierungsplattform für Finanzdienstleistungen und Einrichtungen des öffentlichen Sektors. Sie betreiben eine Reihe von öffentlichen Archiven, von denen zwei umfassen; das Webarchiv der britischen Regierung und das Webarchiv des britischen Parlaments . | |
Internetarchiv (bietet Archive-it-Dienst) | Vereinigte Staaten | 1996 | Heritrix , Wayback , NutchWAX und andere vom Internet Archive entwickelte Tools | 150 | Die Wayback Machine von Internet Archive ist das größte und älteste Webarchiv der Welt und geht auf das Jahr 1996 zurück. Internet Archive bietet auch verschiedene Webarchivierungsdienste an, darunter Archive-IT , Save Page Now und Domain-Level-Contract-Crawls. Die Wayback Machine ist der öffentlich zugängliche Zugangsdienst zu Internet Archive und den Sammlungen von Partnern. | |
Reed Tech-Archiv | Vereinigte Staaten | 2010 | TrueArchive-Technologie |
Reed Tech Archives bietet Unterstützung für Information Governance, Prozessschutz, Compliance, e-Discovery und Social Media Management. Die Lösung bietet sowohl einen automatisierten Ansatz als auch eine manuelle Erfassung. Für die automatisierte Erfassung von Websites und sozialen Medien erfasst die Anwendung Websites in einer wiederkehrenden Frequenz und in einem wiederkehrenden Intervall. Die gesamte Site wird innerhalb des Archivs vollständig neu erstellt, um genau die Benutzererfahrung zu bieten, die im Live-Web geboten wird. Ein Benutzer hat die Möglichkeit, von einer Reihe von URLs oder innerhalb der sichtbaren archivierten Site auf der Site zu navigieren. Im Allgemeinen unterstützt dieser Ansatz Compliance und Risiko
Minderung sowie die rechtliche Funktion. Die manuelle On-Demand-Erfassung bietet Kunden die Möglichkeit, bei Bedarf über das Reed Tech Web Preserver-Plug-in eine voll funktionsfähige Seite oder eine Reihe von Seiten einer Website oder eines sozialen Netzwerks zu erfassen. Dieser Ansatz wird in der Regel zur Unterstützung der Rechts-, Marketing- und Competitive Intelligence-Funktionen verwendet. |
||
Bibliotheken der Stanford University | Vereinigte Staaten | 2007 | Heritrix , HTTrack , Wayback , CDL- Webarchivierungsdienst, Internet Archive Archive-It | 2 | 5 | Stanford University Libraries wurde engagiert Web - Archivierung seit 2007 Projekte und begann eine Gründung Web - Archivierung ist Programm im Jahr 2013 Kollektionen dass SUL beschäftigt in umfassen Stanford University Archives , Bay Area Regierungen , Congressional Research Service (CRS) Berichte , Freedom of Information Act ( FOIA) , Fugitive US Executive Agencies und viele mehr. SUL ist auch an kollaborativen Webarchivierungsprojekten wie dem Archive of the California Government Domain, CA.gov, mit Bibliotheken der University of California und der CA State Library, dem End of Term Web Archive und der Ivy Plus Libraries Confederation beteiligt . |
Bibliotheken der Columbia University | Vereinigte Staaten | 2009 | Archive-it-Service | 2 | >1 | Das Programm zum Sammeln von Webressourcen der Columbia University Libraries (CUL) archiviert ausgewählte Websites in thematischen Bereichen, die den bestehenden CUL-Sammelstärken entsprechen, Websites, die von verbundenen Unternehmen der Columbia University erstellt wurden, und Websites von Organisationen oder Einzelpersonen, deren Papiere oder Aufzeichnungen in den physischen Archiven der CUL aufbewahrt werden. 2008 mit der Webarchivierung begonnen. |
Universitätsbibliothek Cornell | Vereinigte Staaten | 2011 | Archive-it-Service | 1 | >1 | |
Archiv der Website der Regierung des Bundesstaates North Carolina | Vereinigte Staaten | 2005 | Archive-it-Service | 3 | ||
Lateinamerikanisches Webarchivierungsprojekt | Vereinigte Staaten | 2005 | Archive-it-Service | |||
Webarchivierungsprojekt für die pazifischen Inseln | Vereinigte Staaten | 2009 | Archive-it-Service | 4 | ||
Webarchiv der Kongressbibliothek | Vereinigte Staaten | 2000 | Heritrix , Wayback und das DigiBoard, ein internes kuratorisches/Berechtigungstool | 6 | 80 | Die Teilzeitkräfte verbringen im Durchschnitt einige Stunden pro Monat damit, Inhalte für die Kollektionen auszuwählen. |
Harvard-Bibliothek | Vereinigte Staaten | 2006 | Archiv-It | >10 | Die Websammlungen der Harvard Library bestehen aus den Sammlungen von 10 kuratorischen Einheiten , wobei variable Mitarbeiter sowohl zu technischen als auch zu kuratorischen Aktivitäten beitragen. Harvard ist über die Ivy Plus Libraries Confederation auch am kollaborativen Web-Collecting beteiligt .
|
|
Webarchivierungsdienst der California Digital Library (WAS-Dienst) | Vereinigte Staaten | 2005 | Heritrix , Wayback , NutchWAX | 4 | >1 | Die Anzahl der Stunden, die Kuratoren für den Dienst aufwenden, ist sehr unterschiedlich. |
Bentley Historical Library (University of Michigan) Webarchiv | Vereinigte Staaten | 2000 | HTTrack , Teleport Pro, WAS-Dienst (2010-) | 2 | ||
Webarchiv der Universität von Texas in San Antonio | Vereinigte Staaten | 2009 | Archiv-It | 3 | Die Anzahl der Stunden hängt davon ab, wie die Crawls geplant sind. | |
qumram | Schweiz | 2010 | qumram Webarchivierung / Web Information Governance Software Suite | Kommerzielle Webarchivierungs-/Webinformations-Governance-Softwaresuite. Bietet sowohl Remote-Harvesting als auch transaktionale Webarchivierung. Ermöglicht Integrationen mit jeder möglichen Webanwendung (WCMS, Portal, Sharepoint, eShop, benutzerdefinierte Anwendungen) sowie Repository (Datenbank, Dateisystem, elektronisches Archiv oder Records Management System, Cloud-basierte Lösung). Ermöglicht die Erfassung und Wiedergabe öffentlicher Informationen sowie spezifischer Benutzerinteraktionen. | ||
SAPERION | Deutschland | 2011 | SAPERION ECM Web Content Archiv | Die kommerzielle Enterprise Content Management Suite ist auf die Einhaltung gesetzlicher Vorschriften spezialisiert. Das Produkt bietet sowohl Harvesting als auch transaktionale Webarchivierung basierend auf der Integration der Chronos Web Archiving Software Suite von qumram. Webinhalte sind nur ein weiterer Kanal, über den Inhalte zu SAPERION gelangen. Andere können Scanner, Fax, E-Mail, mobile Geräte, Office-Suiten oder andere Systeme sein, die Inhalte wie ERP- Systeme erstellen. | ||
Internetarchiv der Bibliotheca Alexandrina | Ägypten | 2002 | Heritrix , OpenWayback , WARCrefs | 3 | Aktuelle Crawling-Interessen: Ägypten über den 25. Januar hinaus, ccTLDs der Arabischen Liga Deduplizierung: Verwenden des WARCrefs-Tools zum Deduplizieren von Webarchivinhalten im BA-Cluster |
|
AUEB Webarchiv | Griechenland | 2010 | Heritrix , Wayback und NutchWAX . | 1 | 1 | Dieses Projekt ist Teil der Funktion der Universitätsbibliothek. |
Webarchiv der Weltbank | Vereinigte Staaten | 2007 | HTTrack- Crawler, Oracle RDBMS, Google Search Appliance | 0 | 3 | |
Russisches nationales digitales Archiv | Russland | 2010 | wpull , grab-site , HTTrack- Crawler, Ad-hoc-Skripte, die für die Archivierung in sozialen Medien entwickelt wurden. Experimentieren: Heritrix , Wayback | Etwa 5000 Regierungswebsites gesammelt (Mai 2018) mit wpull und als Archiv zum Herunterladen bereitgestellt. | ||
Archiv-Team | Weltweit | 2009 | wpull , Ad-hoc-Skripte | 1 | ~100 | Freiwilligengruppe. Sie archivierten teilweise GeoCities , Yahoo! Videos , Google Video und andere. |
WikiTeam | Weltweit | 2011 | Ad-hoc-Skripte | 0 | 0 | Freiwilligengruppe. Über 20.000 Wikis erhalten. |
CyberFriedhof der University of North Texas | Vereinigte Staaten | 1997 | Heritrix , Wayback ; früher HTTrack | 2 | Der CyberCemetery ist ein Archiv von Regierungswebsites, die ihren Betrieb eingestellt haben (normalerweise Websites von nicht mehr existierenden Regierungsbehörden und Kommissionen, die einen Abschlussbericht herausgegeben haben). Diese Sammlung enthält eine Vielzahl von Themen, die auf den breiten Charakter von Regierungsinformationen hinweisen. Diese Sammlung enthält insbesondere Websites, die Themen behandeln, die das Curriculum der Universität und besondere Stärken des Programms unterstützen. | |
Archiv.is | Weltweit | 2012 | Apache Accumulo , HDFS , Chromium , Ad-hoc-Skripte | 1 | 1 | Speichert externe Links von Community-Websites (Wikis, Foren, Blogs, ...). Kann Snapshots von Web 2.0-Seiten speichern. |
Tamiment Library und Robert F. Wagner Labor Archives an der New York University | Vereinigte Staaten | 2007 | WAS-Service | 1 | 1 | Archiviert Websites, die sich auf New York City und National Labour and Left Movements beziehen. Projekte umfassen: Alternative Massenmedien / Nachrichten; Anarchismus; Tierrechte; Kunst- und Kulturlinke; Bürgerrechte und Bürgerrechte; Kommunismus, Sozialismus, Trotzkismus; Wirtschaftliche und soziale Gerechtigkeit (einschließlich Occupy Wall Street); Bildung und Studentenbewegungen; Wahlpolitik und Parteien / Politische Aktion (US-Linke); Umweltschutz / Grüne Bewegung; Feminismus und Frauenbewegungen; Guantanamo Bay Internierungslager & Kriegsverbrechen (USA); Gehäuse; Internet/Cyberspace-Demokratie; Jüdische amerikanische progressive & linke Aktivität; Gewerkschaften und Organisationen (USA); Linke Wissenschaft und Theorie, Intellektuelle und andere Persönlichkeiten; LGBT-Rechte; Anderer linker Aktivismus; Friedensbewegungen; Rechte von Gefangenen und politische Gefangene; Fortschrittliche Politik/ Bildungsorganisationen. |
Preservica | Weltweit | 2012 | Heritrix , Preservica-Kernprodukt, Wayback | Cloudbasierter heterogener Archivierungsdienst, der die Aufnahme aus mehreren Quellen ermöglicht (einschließlich Webarchivierungsaufnahme über Heritrix). Möglichkeit, Inhalte in WARC-Dateien zu migrieren und in Wayback zu rendern. Ingest wird als Workflow ausgeführt, sodass für die Ausführung nur sehr wenig Aufwand erforderlich ist. Entwickelt, unterstützt und betrieben von Preservica. | ||
Zentrales elektronisches Staatsarchiv der Ukraine | Ukraine | 2007 | HTTrack , Wget | 2 | Archive, die daran interessiert sind, Websites zu führen und thematische Sammlungen solcher Websites zu erstellen, Befindet sich derzeit im Archiv Sammlungen von Websites, die das Thema Präsidentschaftswahlen in der Ukraine von 2010 bis heute, über die Katastrophe von Tschornobyl, die Kommunalwahlen, der Euro 2012 in Ukraine, UNESCO-Welterbestätten in der Ukraine, 200. Geburtstag von Taras Schewtschenko. | |
Bibliotheken der York University , York University Digital. Bücherei | Kanada | 2012 | Heritrix , Wget , Islandora , OpenWayback | 1 | 0 | |
New Yorker Kunstressourcen-Konsortium (NYARC) | Vereinigte Staaten | 2012 | Archive-It-Dienst | 1 | ~3 | Zusammenarbeit zwischen der Frick Art Reference Library , der Brooklyn Museum Library & Archives und der Museum of Modern Art (MoMA) Library zur Archivierung spezieller kunsthistorischer Webressourcen. |
Webarchiv des Niederländischen Instituts für Ton und Bild (Ton und Bild) | Niederlande | 2011 | Heritrix , Elasticsearch für Volltextindex, Drupal für Frontend | ~7 | Sound and Vision ist seit 2008 an Webarchivierungsprojekten beteiligt, beginnend mit dem EU-Forschungsprojekt LiWA. Nach einigen Pilotversuchen wurden 2014 Webarchivierungsprojekte skaliert. | |
Rhizom (Organisation) | Vereinigte Staaten | 1999 | ArtBase , Webrecorder , Oldweb.Today | 3 | 1 | Rhizome betreibt unter der Leitung von Dragan Espenschied ein Programm zur digitalen Archivierung, das sich auf die Entwicklung kostenloser Open-Source-Softwaretools konzentriert, um die Webarchivierung und die Softwarearchivierungspraktiken zu dezentralisieren und den Zugang zu seinen Sammlungen digitaler Kunst zu gewährleisten. Oldweb.Today und Webrecorder sind seine Tools, die sich speziell auf die Webarchivierung konzentrieren. |
University of Texas at Austin Libraries, Human Rights Documentation Initiative | Vereinigte Staaten | 2009 | Archive-It-Dienst | 1 | 1 | Die Human Rights Documentation Initiative (HRDI) der Universität von Texas Libraries erfasst die Websites von Menschenrechtsorganisationen, um einen sicheren Zugriff auf Menschenrechtsdokumentation für den Fall zu ermöglichen, dass diese oft fragilen Websites abgeschaltet werden. |
Kentucky Abteilung für Bibliotheken und Archive | Vereinigte Staaten | 2009 | Archiv-it , Wayback | >1 | 0 | Diese Sammlung umfasst Erfassungen von Websites für staatliche Behörden von Kentucky in den Bereichen Exekutive, Legislative und Justiz. Es werden auch eigenständige Websites für Vorstände, Räte, Ausschüsse, quasi-staatliche Agenturen und Agenturprogramme archiviert. Captures für Websites aus den Jahren 2000-2008 werden in diese Sammlung durch eine Überweisung von der Wayback Machine auf unser Konto aufgenommen. |
Universität von Kalifornien, San Francisco Library | Vereinigte Staaten | 2007 | Archive-it , Wayback , CDL WAS Service | >1 | 0 | Diese Sammlung dokumentiert die Webpräsenzen der UCSF sowie die größeren gesundheitswissenschaftlichen Schwerpunkte der AIDS-Geschichte; Anästhesiologie; Biotechnologie und biomedizinische Forschung; Tabakkontrolle und -regulierung; Neurowissenschaften; und Computermedizin. Das Personal ist ein Vollzeit-Digitalarchivar mit verschiedenen Verantwortlichkeiten zusätzlich zu den Web-Archiven. |
Ivy Plus Libraries Confederation | Vereinigte Staaten | 2013 | Archive-It , Nadelbaum | 1 | 1 | Das Web Resources Collection Program der Ivy Plus Libraries Confederation ist eine gemeinsame Anstrengung zur Sammlungsentwicklung, um kuratierte, thematische Sammlungen von frei verfügbaren, aber gefährdeten Webinhalten aufzubauen, um die Forschung in den teilnehmenden Bibliotheken und darüber hinaus zu unterstützen. Teilnehmende Bibliotheken sind: Brown , Chicago , Columbia , Cornell , Dartmouth , Duke , Harvard , Johns Hopkins , MIT , Penn , Princeton , Stanford und Yale . Sammlungen sind über Archive-It zugänglich . |
Webarchiv der malaysischen Regierung (MyGWA) | Malaysia | 2017 | Wayback, WGET , WPULL | >1 | 0 | Das National Archive of Malaysia hat seit 2017 damit begonnen, Websites des öffentlichen Sektors in Malaysia zu archivieren. |
HTTP-Archiv | Crawlt beliebte Websites zur Datenanalyse | |||||
Nationalbibliothek für Medizin (USA) | Vereinigte Staaten | 2009 | Archive-It, Nadelbaum | ~8 | Das NLM-Websammeln richtet sich nach den Richtlinien zur Sammlungsentwicklung der National Library of Medicine und anderen strategischen Sammelbemühungen. Zu den Sammlungen gehören Global Health Events, die Opioid-Epidemie, HIV/AIDS, Gesundheits- und Medizin-Blogs und die eigene Webpräsenz von NLM. | |
Smithsonian-Bibliotheken und -Archive (USA) | Vereinigte Staaten | 2000 | Heritrix , Archive-It , Webrecorder , Nadelbaum , Browsertrix , Sonstiges | 5 | Die Smithsonian Libraries and Archives sammeln Websites und Social-Media-Konten, die die Geschichte der Institution dokumentieren.
|
Archivierte Daten
Name | Archivierte Inhalte (Millionen) | belegter Speicherplatz (TB) | Archivformat | TLD/Breite Crawls | Selektive Crawls (Ja/Nein) | Kommentare |
---|---|---|---|---|---|---|
EU-Webarchiv | 35 (ca.) | WARC | .EU | Ja | .EU 80 Websites in europa.eu-Domain und Subdomains, einmal pro Quartal gecrawlt + Ad-hoc-Crawls auf Anfrage der Website-Inhaber (selektive Crawls). Stand Februar 2019. | |
Australiens Webarchiv | 11000 | 600 | WARC | .AU | Ja | .AU- Crawls (1996-2018): 10,15 Milliarden Dateien (530 TB). Selektive Crawls (1996-2019): 755 Millionen Dateien (44 TB). AGWA (2011-2018): 525 Millionen Dateien (58 TB). |
Unsere digitale Insel, ein tasmanisches Webarchiv | 0,336 | HTTrack | Ja | Bewahrt Online-Inhalte mit Bezug zu Tasmanien. ODI hat seit seiner Gründung unter der Annahme betrieben, dass Websites unter die Definition von 'Buch' im Tasmanian Library Act 1984 fallen. Daher ist keine Genehmigung von Verlagen zur Erfassung erforderlich. | ||
Webarchiv Österreich | 4095 | 164 | BOGEN | .AT , .wien , .tirol | Ja | Eine Kopie der Daten wird in einer Hochsicherheitsdatenspeichereinheit gespeichert. |
Deutsche Nationalbibliothek | WARC | .DE | Ja | Nur ein experimenteller TLD-Crawl. | ||
DILIMAG (Digitale Literaturzeitschriften) | 0,03 | 0,996 | BOGEN | Projekt vom 01.03.2007 bis 23.12.2010. Das Projekt DILIMAG zum Sammeln, Beschreiben und Archivieren digitaler deutscher Literaturzeitschriften. | ||
Bibliothèque et Archives nationales du Québec (BAnQ) | 167 | 31 | ARC / WARC | Ja | Die Ernte begann 2009. Selektives Durchsuchen von Quebec-Websites. | |
Webarchiv der kanadischen Regierung (GCWA) | 1750 | 70 | ARC / WARC | .GC.CA | Ja | Die Webarchivierung bei Library and Archives Canada (LAC) begann 2005 und konzentrierte sich auf die Erfassung der Internetpräsenz der Bundesregierung und die Erfassung der Bundestagswahlen, der Olympischen Spiele und kanadischer Gedenkveranstaltungen. Seit 2009 werden thematische Websammlungen von Canadiana-Forschungsinteresse als fortlaufende Programmaktivität kuratiert. |
Sammlung und Bewahrung von Webinformationen - WICP (Chinesisches Webarchiv) | .GOV.CN | Ja | Sammlung der Webseiten über die Ereignisse, die großen Einfluss auf die Gesellschaft, Wirtschaft usw. haben, und die Seiten in der Domäne 'gov.cn'. | |||
Kroatisches Webarchiv (Hrvatski arhiv weba - HAW) | 231 | 13 | Spiegel, WARC | .HR | Ja | Seit 2004 selektives Harvesting von über 5000 Webressourcen. Seit 2011 jährliches Harvesting der nationalen .hr-Domain sowie thematisches Harvesting. Alle archivierten Inhalte sind über die HAW-Website öffentlich zugänglich. |
Webarchiv ( Nationalbibliothek der Tschechischen Republik ) | 9412 | 350 | ARC / WARC | .CZ | Ja | Die Ernte begann 2001. |
Netarkivet/ Das dänische Webarchiv (Royal Danish Library) | 36000 | 634 | ARC / WARC | .DK | Ja | +36 Milliarden Objekte:
|
Estnisches Webarchiv | 874 | 56 | ARC / WARC | .EE | Ja | Das Archiv besteht seit 2010 aus selektiven, ereignis- und themenbezogenen Crawls. Seit 2015 werden jährlich ganze nationale Domain-Crawls durchgeführt. Neben der TLD .ee werden estnische Webinhalte von anderen TLDs wie .eu, .org, .com usw. geerntet. |
Finnisches Webarchiv | 494 | 23 | .FI , .AX | Ja | Crawlt auch Inhalte, die auf Maschinen gehostet werden, die sich physisch in Finnland befinden, unabhängig von ihrer Domäne. | |
BnF - BnF Web-Legal Deposit | 18800 | 370 | ARC / WARC | .FR + alle in Frankreich gehosteten Websites | Ja | BnF erstellt vollständige Kopien aller Sites in der .FR TLD sowie aller in Frankreich gehosteten Sites, wobei sowohl der Robots-Ausschlussstandard als auch die Lizenzen der Dokumente ignoriert werden . |
BnL Web-Archiv | 543 | 41 | WARC | .LU | Ja | Die BnL führt 2 Domain-Crawls pro Jahr sowie ereignisbasierte und selektive Crawls durch. |
Ina (Institut National de l'Audiovisuel) | 105800 | 2359 | DAFF | Ja | Stand 2021-03-08
DAFF übernimmt die vollständige Inhaltsdeduplizierung, daher berücksichtigt die Größe auf der Festplatte die Komprimierung und Deduplizierung; der äquivalente Plattenspeicher im komprimierten ARC-Format würde ungefähr 10 PB . betragen |
|
E-Diaspora (Télécom ParisTech, FMSH) | 1030 | 13 | DAFF | Ja | DAFF übernimmt die vollständige Inhaltsdeduplizierung, daher berücksichtigt die Größe auf der Festplatte die Komprimierung und Deduplizierung; der äquivalente Plattenspeicher im komprimierten ARC-Format würde ungefähr 51 TB betragen | |
Internet Memory Foundation | 180 | WARC | Kann von Partnern durchgeführt werden | Ja | Ehemals Europäisches Archiv. Zusammenarbeit mit Internet Memory Research, das den ArchiveTheNet-Dienst (ATN-Dienst) bereitstellt. Selektive Crawls (140 TB), Domain-Crawls (40 TB), voraussichtlich 1 PB im Jahr 2012. Neues Rechenzentrum und neuer Crawler im Jahr 2012. | |
Bibliotheksservice-Zentrum Baden-Württemberg | 9 | WARC | Ja | Websites von ca. 20 Städten, Gemeinden, Kreisen + deren angeschlossenen Körperschaften und Landesbibliotheken werden vom BSZ im Auftrag in verschiedenen Archive-It-Sammlungen gesammelt. Öffentlicher Zugang. Datenspeicherung: San Francisco (Archive-It) sowie Backup mit baden-württembergischer Speicherinfrastruktur. | ||
Webarchiv des Deutschen Bundestages | Ja | Deutscher Bundestag. Selektiv. In regelmäßigen Abständen oder bei bestimmten Veranstaltungen werden Momentaufnahmen (Snapshots) von www.bundestag.de und anderen Webauftritten des Deutschen Bundestages angefertigt. Diese stehen im Webarchiv bis dato zur Verfügung. | ||||
Island | ||||||
Israelisches Webarchiv | ARC / WARC | .IL | Ja | .IL- Crawls (2006-2011): Pilots Crawls (500 GB). Selektive Crawls (1996, 2011) | ||
Web Archiving Project (WARP), The National Diet Library, Japan | 7358 | 1403 | WARC | - | Ja | Stand März 2019 15 TB selektive Crawls basierend auf Erlaubnis (2002–2010). Beginn der Webarchivierung offizieller Institutionenseiten auf der Grundlage des Gesetzes vom April 2010. |
Koreanische Nationalbibliothek - OASIS (Internet-Ressource für Online-Archivierung und -Suche) | 24 | Ja | Erfordert Zustimmung vor der Archivierung. Zielt auf 56.401 Websites. Die Webarchivierung wird unter Digital Resource Management Systemen verwaltet. Im Jahr 2011 wird das Web-Archivierungssystem umgebaut. | |||
Koninklijke Bibliotheek | 407 | 36 | BOGEN | Ja | Selektive Crawls (jährlich) von ca. 20.400 Standorte (Dezember 2020) | |
Neuseeland Webarchiv | 2946 | 137 | ARC / WARC | .NZ | Ja | .NZ-Crawls (2008-2020): 3 Milliarden URLs (137 TB). Selektives Crawlen von 33.500 Websites (ca. 9 TB). Die gesetzliche Kaution umfasst geborene digitales Material (einschließlich Websites). |
Die Norwegische Nationalbibliothek | ||||||
Arquivo.pt – das portugiesische Webarchiv | 10 780 | 721 | ARC / WARC | Fokussiert auf .PT aber auch andere Domains | Ja | .PT-Domain-Crawls und Einbindung externer Sammlungen seit 2007 und tägliches Crawling einer Auswahl von Online-Publikationen seit 2010. Selektive Crawls im Zusammenhang mit nationalen Veranstaltungen wie Wahlen oder internationalen wissenschaftsbezogenen Inhalten wie Websites zu Forschungs- und Entwicklungsprojekten, die von der . gefördert werden Europäische Union. |
Webarchiv von Cacak | 0,255 | 0,013 | HTTrack | Ja | Selektive Crawls von 130 Websites mit Bezug zur Stadt Cacak. Zusammenarbeit mit dem Webarchiv- Team der Nationalbibliothek der Tschechischen Republik. | |
Webarchiv Singapur | WARC | .SG | Ja | Selektives Durchsuchen von Websites mit Bezug zu Singapur und Archivierung von .SG- Domains. | ||
Digitale Ressourcen ( Universitätsbibliothek Bratislava ) | 1514 | 68 | WARC | .SK | Ja | Das Sammeln des slowakischen Webs begann im Jahr 2015. Seitdem hat die ULB fünf (2016 - 2020) vollständige Domain-Ernte (Ernte der nationalen .SK-Domain), mehrere selektive Crawls und thematische Crawls (themenzentrierte und ereignisbezogene Kampagnen) durchgeführt. |
Slowenisches Webarchiv | 30 | WARC | Selektive Crawls seit 2007, nationale Domain-Crawls seit 2014. | |||
Archivo de la Web Española | 2539 | 117 | WARC | .ES | Ja | Domain .ES crawlt (2009-2013): 2.421 Millionen Dateien (111 TB) in Zusammenarbeit mit Internet Archive. Selektive Crawls (2014-2015): 119 Millionen Dateien (6 TB). Etwa 30 Nachrichtenmedien-Sites werden täglich gecrawlt. Noch nicht öffentlich gestartet. |
PADICAT : Das Webarchiv von Katalonien | 620 | 32,5 | ARC / WARC | .KATZE | Ja | Dem allgemeinen Trend folgend ist das Archivmodell ein hybrides System bestehend aus: Massensammlung von im Internet veröffentlichten digitalen Open-Access-Ressourcen (.cat); Systematische Archivierung der Website-Ausgaben katalanischer Organisationen; Förderung von Forschungslinien durch thematische Integration der digitalen Ressourcen zu bestimmten Ereignissen im öffentlichen Leben Kataloniens (Wahlen, Museen etc.) |
Baskisches digitales Kulturerbe-Archiv | 21 | 0.8 | BOGEN | Ja | ||
Schweden (Kulturarw3) | 5700 | 360 | Mehrteiliges MIME | .se, Schwedisch .nu und Geolocation für andere TLDs | Ja | Bulk kriecht ungefähr zweimal im Jahr. Selektives Crawlen von etwa 140 Zeitungen pro Tag. |
Aleph-Archiv | >10000000 | >25 | Natives HTML , WARC , WARC2, ARC und HTTrack zu WARC Migrationstools | Ja | Automatische Webarchivierungsplattform der Enterprise-Klasse für die Online-Erfassung und -Aufbewahrung. Unterstützen Sie eDiscovery mit leistungsstarker und qualitativer Technologie.
Richtet sich an Unternehmen, Institutionen und Agenturen, die ihre Webinhalte erfassen, bewahren und nutzen möchten; dynamische Websites, Wikis, soziale Medien, Foren, Kommentare, Haftungsausschlüsse und Anzeigen für Compliance (FDA, FINRA , FSA, SEC, FOIA), Marketing oder reine Aufbewahrungszwecke. |
|
Webarchiv Schweiz | 53 | ARC , WARC | Ja | Hauptsächlich ausgewählte .ch-Crawls | ||
NTU Web-Archivierungssystem, NTUWAS | 200 | 14 | Ja | |||
Webarchiv Taiwan | ||||||
Das britische Webarchiv | 20,6 | WARC | Ja | Selektive Crawls mit vorheriger Erlaubnis. Führt jetzt auch Großhandels-Crawlings auf britischer Domain-Ebene im Rahmen der Gesetzgebung für gesetzliche Pflichtexemplare (Non-Print) durch, die im April 2013 in Kraft getreten sind. Diese Inhalte werden nur in Räumlichkeiten verfügbar sein, die von einer der sechs Pflichtexemplarbibliotheken kontrolliert werden. Die UKWA ist ein Spin-off des UK Web Archiving Consortium, das 2007 endete. | ||
Hanzo-Archiv | 7 | WARC | Ja | Kommerzielle Webarchivierungsdienste und -anwendungen für Regierungen und Unternehmen, deren Einhaltung oder rechtliche Verpflichtungen/Anforderungen sich auf ihre Websites, Intranets und sozialen Medien erstrecken. Viele „dunkle“ Archive in ganz Europa und den USA. | ||
Webarchiv der britischen Regierung | 1000 + | 150 |
BOGEN
RWB nach Juli 2017 |
Zwischen 2003 - 2005 übernahm das Internet Archive die technische Seite der Webarchivierung im Auftrag des britischen Government Web Archive. Von 2005 bis Juli 2017 wurde die technische Seite des Webarchivierungsdienstes an die Internet Memory Foundation vergeben. Ab Juli 2017 übernahm MirrorWeb den Auftrag und verlagerte das gesamte Archiv in die Cloud. Das UK Government Web Archive war von 2004 bis 2009 Teil des UK Web Archiving Consortium. | ||
Internetarchiv (bietet Archive-it-Dienst) | 690000 | 21000 | Weltweit | Ja | Stellt den Archive-it-Dienst bereit und leitet das Archive-Access-Projekt (Internet Archive ARC Access Tools). Die Sammlung wird in der Bibliotheca von Alexandrina in Ägypten gespiegelt. | |
Reed-Archiv | ||||||
Programm zur Sammlung von Webressourcen für Bibliotheken der Columbia University | 487 | 30,4 | ARC / WARC | Ja | Selektive Crawls mit Erlaubnis oder Benachrichtigung. Thematische Sammlungen in: Menschenrechte; Denkmalpflege und Stadtplanung; New Yorker Religionen. Erfassen Sie auch die Web-Domain der Columbia University. | |
Archiv der Website der Regierung des Bundesstaates North Carolina | 51,5 | 3.8 | WARC | Ja | ||
Lateinamerikanisches Webarchivierungsprojekt | Ja | |||||
Webarchivierungsprojekt für die pazifischen Inseln | 5,5 | ARC / WARC | Ja | Enthält Websites aus 18 Ländern. | ||
Webarchiv der Kongressbibliothek | 7741 | 420 | ARC / WARC | Ja | Früher MINERVA. Selektive Crawls mit Benachrichtigung und Erlaubnis; hauptsächlich Veranstaltungs- und Themensammlungen. | |
Harvard University Library: der Web Archive Collection Service (WAX) | 19 | 0,661 | BOGEN | Ja | Selektive Crawls ohne vorherige Autorisierung. | |
Webarchivierungsdienst der California Digital Library (WAS-Dienst) | 216 | 25,2 | ARC / WARC | Kann von Partnern durchgeführt werden | Ja | Bietet Partnern weltweit Web Archiving Service (WAS). Wurde in der California Digital Library entwickelt. |
Bentley Historical Library (University of Michigan) Webarchiv | 34,5 | 2.6 | ARC / WARC | Ja | WAS-Service seit 2010. | |
Webarchiv der Universität von Texas in San Antonio | 26 | 1.135 | ARC / WARC | Ja | Universitätsverwaltung, Fakultäts- und Studentenstandorte; sowie selektive Aufnahmen zu Themenbereichen von San Antonio und Südtexas, einschließlich San Antonio-Organisationen; San Antonio Online-Zeitschriften und -Blogs; Tejano- und Conjunto-Musik; Websites mit Bezug zu Schwulen, Lesben, Bisexuellen, Transgender und Queer in Texas, San Antonio und im Rio Grande Valley; Einwanderung/Grenzland; Mexikanische Kochblogs; San Antonio-Restaurants; Erneuerbare Energien in Texas; Rio Grande Valley Organisationen; und Rio Grande Watershed und Texas Water Issues. | |
AUEB Webarchiv | 3 | WARC | aueb.gr | n | Die von der Domain aueb.gr gecrawlte Datenmenge liegt zwischen 10 GB und 14,9 GB. Die Daten werden komprimiert auf der Festplatte gespeichert und benötigen zwischen 8,8 GB und 9,7 GB, was zu einer Platzersparnis zwischen 12 % und 35 % führt. Bei einem neuen Crawl können wir nur die Webseiten auf der Festplatte speichern, die sich seit dem vorherigen Crawl geändert haben. Folglich haben wir 13,1 GB von der Domain aueb.gr gecrawlt, aber nur 1,6 GB auf der Festplatte gespeichert, was zu einer Platzeinsparung von 88% führte. | |
Webarchiv der Weltbank | 0,143 | HTTrack | nein, bis jetzt | Ja | 450 Stätten mit historischem oder wissenschaftlichem Wert wurden seit 2007 geerntet, jede archiviert, bevor sie offline genommen oder vor einem größeren Upgrade durchgeführt wurde. | |
CyberFriedhof der University of North Texas | 0,887 | WARC | .gov | Ja | ||
Internetarchiv der Bibliotheca Alexandrina | 80000 | 1000 | ARC / WARC | Ägyptische Nachrichten und Politik | Ja | |
Digitale Bibliothek der York University | 0,435 | WARC | yorku.ca + Anfragen von Fakultäten | Ja | ||
Webarchiv des Niederländischen Instituts für Ton und Bild (Ton und Bild) | ARC / WARC | Ja | Sound and Vision ist unter anderem mit der Archivierung von Programmen beauftragt, die von niederländischen öffentlich-rechtlichen Sendern ausgestrahlt werden. Daher besteht ein wichtiger Teil des Webarchivs aus Websites von öffentlich-rechtlichen Rundfunkanstalten, die sich auf diese Programme beziehen. Darüber hinaus werden Websites archiviert, die keinen direkten Bezug zur Sammlung haben, aber im weiteren, medienhistorisch interessant sind. Beispiele sind Websites von kommerziellen Sendern. | |||
Kentucky Abteilung für Bibliotheken und Archive | 3 | 0,3007 | WARC | Ja | ||
Universität von Kalifornien, San Francisco Library | 12,5 | 0,587 | ARK/WARZ | Ja | Websites, die von Mitarbeitern und Fakultäten angefordert wurden, und eine wachsende Liste, die versucht, alle UCSF-Websites so umfassend wie möglich zu erfassen. | |
Ivy Plus Libraries Confederation | 8.2 | ARC / WARC | Ja | Selektive Crawls mit Benachrichtigung. Themensammlungen zu Politik und politischen Protesten, Architektur, Komponisten, Design, Gaming, Geologie, Webcomics, Dokumentarfilmen, Kunst, Religion, Sexualität, Klimawandel und mehr. | ||
Webarchiv der malaysischen Regierung (MyGWA) | 10 | WARC | .GOV.MY | Ja | Crawlt nur Websites des malaysischen öffentlichen Sektors. Die Betrachtung erfolgt nach Themen, dh Verwaltung, Wirtschaft, Sicherheit und Soziales. | |
Nationalbibliothek für Medizin (USA) | 122 | 9.1 | WARC | Ja | ||
Smithsonian-Bibliotheken und -Archive (USA) | 10 | WARC | Ja |
Zugriffsmethoden
Name | URL-Verlauf (Ja/Nein) | Metadaten (Katalog/erweiterte) Suche (Ja/Nein) | Volltextsuche (Ja/Nein) | Memento-Compliance (Nein/Native/Proxy) | Kommentare |
---|---|---|---|---|---|
EU-Webarchiv | Ja | Ja | Ja | Für alle frei zugänglich über data.europa.eu/webarchive | |
Australiens Webarchiv | Ja | Ja | Ja | Nein | Ausgewählte Sites sind über eine Verzeichnisstruktur öffentlich verfügbar. Domain-Ernte sind es nicht. Das PANDORA-Archiv ist über den einzigen Suchdienst der NLA, Trove, indiziert und durchsuchbar. Die Australian Domain Harvests sind volltextindiziert, aber derzeit nicht öffentlich verfügbar. Das Webarchiv der australischen Regierung kann über sein Portal nach URL und Volltextindizes durchsucht werden. |
Unsere digitale Insel, ein tasmanisches Webarchiv | Ja | Ja | n | Nein | Präsentiert Thumbnails, die durch Html To Image generiert wurden, ergänzt in HTTrack . Die Informationen sind in Verzeichnissen organisiert: AZ Themenliste, AZ Titelliste. |
Webarchiv Österreich | Ja | n | Ja | Nein | Online- Suche nach Versionen entweder per URL oder im (Teil-)Volltext möglich. Die Webseiten sind nur an speziellen Terminals der Österreichischen Nationalbibliothek zugänglich . Verfügt über eine Lesezeichenfunktion, mit der Versionen online gespeichert und an den Webarchiv-Terminals der Bibliothek abgerufen werden können. |
Deutsche Nationalbibliothek | Ja | Ja | Ja | Nein | Nur in den Lesesälen der Deutschen Nationalbibliothek zugänglich. Die Metadaten sind im öffentlich zugänglichen Bibliothekskatalog enthalten. |
DILIMAG (Digitale Literaturzeitschriften) | Ja | Ja | n | Nein | Metadaten sind öffentlich zugänglich, für die archivierten Versionen ist der Zugang je nach Rechteinhabervereinbarung frei oder eingeschränkt möglich. In der neuen Version (online seit Februar 2015) ist die Volltextsuche implementiert. |
Bibliothèque et Archives nationales du Québec (BAnQ) | Ja | n | n | Nein | Bietet Zugriff gemäß Partnerrichtlinie. |
Webarchiv der kanadischen Regierung (GCWA) | Ja | Ja | Ja | Stellvertreter | Library and Archives Canada macht seine Webarchive der Bundesregierung (Materialien unter Crown Copyright) öffentlich zugänglich. Es stehen Indizes für die Suche nach kanadischen Bundeswebressourcen alphabetisch nach Autorenorganisation und nach URL zur Verfügung. Die Volltextindizierung basiert auf Lucene. |
Sammlung und Bewahrung von Webinformationen - WICP (Chinesisches Webarchiv) | Ja | Nein | Archivinhalte sind nur im Intranet der National Library of China verfügbar. Einige Sammlungen sind öffentlich zugänglich, mit Metadatensuche und nach Sammlung durchsuchbar. | ||
Kroatisches Webarchiv (Hrvatski arhiv weba - HAW) | Ja | Ja | Ja | Stellvertreter | Vollständiger offener Zugang. |
Webarchiv ( Nationalbibliothek der Tschechischen Republik ) | Ja | n | n | n | Aus urheberrechtlichen Gründen ist nur eine begrenzte Anzahl archivierter Websites, für die Vereinbarungen mit den Herausgebern getroffen wurden, online verfügbar. Für andere Ressourcen können Sie herausfinden, ob eine bestimmte Website archiviert wurde und wie viele Versionen geerntet wurden. An öffentlichen Terminals der Nationalbibliothek ist uneingeschränkter Zugriff auf alle Ressourcen des Webarchivs möglich. |
Netarkivet.dk | Ja | n | Ja | Nein | Online-Zugriff nur für Forscher über ein Citrix-Login zur Freitextsuche auf Basis von Solr und einer Proxy-Lösung, die über den Wayback auf ein Archiv zugreift . Es hat einen Rahmen für die Ausführung von Batch-Jobs mit der Möglichkeit des Data Mining geschaffen. |
Estnisches Webarchiv | Ja | Ja | n | Nein | Der öffentliche Zugriff auf archivierte Inhalte ist nur mit Genehmigung des Urheberrechtsinhabers gestattet. Das vollständige Archiv ist nur dem Personal des Webarchivs zugänglich. |
Finnisches Webarchiv | Ja | n | 30% des Materials. | Nein | URL-Suche, aber Zugriff auf Inhalte vor Ort. Die Volltextsuche ist für 30% des Materials verfügbar. |
BnF - BnF Web-Legal Deposit | Ja | n | 15% der Sammlung | Nein | Zugänglich für autorisierte Benutzer des BnF über die Lesesäle der Forschungsbibliothek in Paris und Avignon. Die Wayback- Schnittstelle wurde ins Französische übersetzt. Volltextsuche nur für einen relativ kleinen Teil der Sammlung (15% von 200 TB), die von Internet Archive indiziert ist. Keine aktuelle Volltextsuche im Workflow implementiert. Erstellt spezielle Sammlungsgalerien basierend auf einer Auswahl aus dem Archiv zu einem bestimmten Thema. |
Ina (Institut National de l'Audiovisuel) | Ja | Ja | Ja | Nein | Die Volltextindizierung basiert auf Lucene. Um Ergebnisse von häufigen Crawls (mehrere Crawls pro Stunde für einige Seiten) zu berücksichtigen, wird Clustering betrieben, um ähnliche Versionen von Seiten zu verarbeiten |
E-Diaspora (Télécom ParisTech, FMSH) | Ja | n | n | Nein | 1381 Websites zur Zeit gekrochen sind ein Archiv über Migranten Nutzung des Web, Sozialwissenschaften Forscher zu bauen haben ein langfristig Projekt ins Leben gerufen , basierend auf diesem Archiv Ina ist der Umgang mit Crawls und Lagerung |
Internet Memory Foundation | Ja | Ja | Ja | Nein | Bietet Zugangs- und Suchdienste gemäß der Partnerrichtlinie. |
Bibliotheksservice-Zentrum Baden-Württemberg | Ja | Ja | Ja | Einheimisch | Archivierte Websites, die über Archive-It zugänglich sind; in den SWB Verbundkatalog integriert. Vollständiger offener Zugriff für einen Großteil der Snapshots, einige durch IP eingeschränkt. |
Webarchiv des Deutschen Bundestages | Ja | n | n | Nein | Webarchive selbst sind Momentaufnahmen von www.bundestag.de und anderen Websites. Die Navigation ist durch Anklicken der Jahre möglich. |
Island | Einheimisch | ||||
Israelisches Webarchiv | n | Ja | n | Nein | Noch in Entwicklung und Pilotphase |
Web Archiving Project (WARP), The National Diet Library , Japan | Ja | Ja | Ja | Nein | Alle archivierten Websites sind vor Ort verfügbar. 80% davon sind mit Erlaubnis der Webmaster auch im Internet zugänglich. |
Koreanische Nationalbibliothek - OASIS (Internet-Ressource für Online-Archivierung und -Suche) | Ja | Ja | Ja | Nein | 100 % des Archivs sind indiziert. Ermöglicht die Suche nach Themenklassifizierung (zB Religion, Wissenschaft, Kunst). Suche verfügbar. |
Koninklijke Bibliotheek | Ja | n | n | Nein | Das Webarchiv ist an Terminals in den KB-Lesesälen für Vollmitglieder zugänglich („vor Ort“). |
Neuseeland Webarchiv | Ja | Ja | n | Nein | Domain Harvests: Verfügbar für ausgewählte Mitarbeiter mit OpenWayback und beschränkt auf URL-Suchen. Selektive Ernten: Jede Website ist im Katalog beschrieben (mit Themen-, Autor-, Titel- und URL-Recherche) und kann von der Öffentlichkeit über das Internet durch Anklicken des Links zum archivierten Exemplar eingesehen werden. Die Websites selbst sind jedoch nicht indiziert. |
Die Norwegische Nationalbibliothek | n | Ja | Nein | Sites sind in den Katalog integriert. Linke Leiste ermöglicht Facettennavigation mit Drilldown. | |
Arquivo.pt – das portugiesische Webarchiv | Ja | Ja | Ja | Einheimisch | Ein Volltext- und URL-Suchdienst ist frei verfügbar . Auch die Bildsuche wird unterstützt. Archivierte Daten können über eine Hadoop-Plattform oder öffentlich verfügbare Application Programming Interfaces zur Entwicklung von Webanwendungen ausgelesen werden . |
Webarchiv von Cacak | n | n | n | Nein | Geplant ist, in Zukunft eine Suchmaschine zu entwickeln. Eine schlechte Eigenschaft von HTTrack ist, dass Dateien während der Archivierung umbenannt werden, so dass die ursprüngliche Struktur der Website sowie Dateinamen verloren gehen. |
Webarchiv Singapur | Ja | Ja | Ja | Nein | Die Sammlung ist in der Nationalbibliothek in Singapur einsehbar. Ausgewählte Inhalte, die von Urheberrechtsinhabern freigegeben wurden, sind online verfügbar. |
Digitale Ressourcen (Universitätsbibliothek Bratislava) | Ja | Ja | n | Nein | Es ist möglich herauszufinden, ob eine Website archiviert wurde und wie viele geerntete Versionen existieren. Aufgrund der Urheberrechtsbeschränkungen ist nur eine begrenzte Anzahl archivierter Websites öffentlich zugänglich (auf Grundlage von Vereinbarungen mit Herausgebern). Der Zugriff auf andere archivierte Ressourcen ist lokal in der Universitätsbibliothek in Bratislava verfügbar. |
Slowenisches Webarchiv | Ja | n | Ja | Nein | Das Archiv der selektiven Crawls ist öffentlich zugänglich. Die Nutzung ist durch Browsing und Volltextsuche möglich. Nationale Domain-Crawls sind noch nicht zugänglich, werden es aber in Zukunft sein. |
Archivo de la Web Española | Y (Zukunft) | Y (Zukunft) | Y (Zukunft) | Nein | Planen Sie kurz- bis mittelfristig die Bereitstellung des Zugangs vor Ort. |
PADICAT: Das Webarchiv von Katalonien | Ja | Ja | Ja | Nein | Vollständiger offener Zugang. |
Baskisches digitales Kulturerbe-Archiv | Ja | Ja | Ja | Nein | |
Schweden (Kulturarw3) | Ja | n | n | Nein | Öffentlicher Zugang durch dedizierte Automaten im Bibliotheksgebäude. |
Aleph-Archiv | Ja | Ja | Ja | Nein | Automatische Webarchivierungsplattform der Enterprise-Klasse für die Online-Erfassung und -Aufbewahrung. Unterstützen Sie eDiscovery mit leistungsstarker und qualitativer Technologie.
Richtet sich an Unternehmen, Institutionen und Agenturen, die ihre Webinhalte erfassen, bewahren und nutzen möchten; dynamische Websites, Wikis, soziale Medien, Foren, Kommentare, Haftungsausschlüsse und Anzeigen für Compliance (FDA, FINRA , FSA, SEC, FOIA), Marketing oder reine Aufbewahrungszwecke. |
Webarchiv Schweiz | Ja | Ja | Ja | Nein | Webarchiv Schweiz ist die Sammlung der Schweizerischen Nationalbibliothek mit Websites mit Bezug zur Schweiz. Das Webarchiv Schweiz wurde in e-Helvetica, das Zugangssystem der Schweizerischen Nationalbibliothek, integriert und ermöglicht den Zugriff auf den gesamten digitalen Bestand. So können Sie in einem Teil des Webarchivs eine Volltextsuche durchführen. Die archivierten Versionen von Websites können jedoch nur in den Lesesälen der Schweizerischen Nationalbibliothek und unserer Partnerbibliotheken eingesehen werden, die uns beim Aufbau der Sammlung von Schweizer Websites unterstützen. Aber Sie können die Metadaten der archivierten Versionen von überall einsehen. |
NTU Web-Archivierungssystem, NTUWAS | Ja | Ja | Ja | Nein | Präsentiert Seitenminiaturen, archivierte Seiten, die geografischen Standorten zugeordnet sind. |
Webarchiv Taiwan | Ja | Ja | Ja | Nein | |
PageFreezer | Ja | Ja | Ja | Nein | On-Demand-Dienst der Enterprise-Klasse zum Archivieren und Wiedergeben von Websites, Blogs, Ajax, Flash, Video, Audio und sozialen Medien für den Schutz vor Rechtsstreitigkeiten, eDiscovery und die Einhaltung gesetzlicher Vorschriften mit FDA, FINRA, FSA, SEC, SOX, Federal Rules of Evidence und Records Management-Gesetzen . Wird von Regierungsbehörden und börsennotierten Unternehmen in der Pharma-, Lebensmittel-, Finanz-, Gesundheits- und Einzelhandelsindustrie verwendet. |
Das britische Webarchiv | Ja | Ja | n | Einheimisch | |
Hanzo-Archiv | Ja | Ja | Ja | Nein | Kommerzielle Webarchivierungsdienste und -geräte. Der Zugriff umfasst Volltextsuche, Anmerkungen, Schwärzung, URL/Verlauf, Archivrichtlinien und zeitliches Durchsuchen sowie ein konfigurierbares Metadatenschema für erweiterte E-Discovery-Anwendungen. Wird in Regierungen und Unternehmen verwendet, deren Einhaltung oder gesetzliche Verpflichtungen / Bedürfnisse sich auf ihre Websites, Intranets und sozialen Medien erstrecken. Viele „dunkle“ Archive in ganz Europa und den USA. |
Webarchiv der britischen Regierung (UKGWA) | Ja | Ja | Ja | Einheimisch | Die Volltextsuche ist im UK Government Web Archive (UKGWA) in Betrieb. Benutzer können die Sammlung mit einer vollständigen AZ-Liste aller Websites durchsuchen |
EU Exit Webarchiv | Ja | Ja | Ja | Einheimisch | Die Volltextsuche ist im EU Exit Web Archive einsatzbereit |
Internetarchiv (bietet Archive-it-Dienst) | Ja | Ja | Ja | Einheimisch | Der URL-Verlauf ist für alle archivierten Daten verfügbar. Metadaten- und Volltextsuche nur für ausgewählte Crawls. Hatte bis 2002 eine Mining-Plattform für die Forschung, die von Alexa Shell Perl Tools zusammengestellt wurde
av_tools und p2-Plattform für die parallele Verarbeitung. Es wurde durch einen einfacheren Zugriff und eine direkte Methode ersetzt, die einen automatischen Zugriff auf Dateien ermöglicht, jedoch keine Plattform für die Verarbeitung. |
Reed-Archiv | Nein | ||||
Programm zur Sammlung von Webressourcen für Bibliotheken der Columbia University | Ja | Ja | Ja | Nein | Zugänglich über den Archive-it-Dienst.
Verbesserter Zugang zur Menschenrechtssammlung verfügbar unter: Human Rights Web Archive . |
Archiv der Website der Regierung des Bundesstaates North Carolina | Ja | Ja | Ja | Nein | Zugänglich über den Archive-it-Dienst. |
Lateinamerikanisches Webarchivierungsprojekt | Ja | Ja | Ja | Nein | Der Zugriff auf die Inhalte erfolgt über die Volltextsuche, durch das Durchsuchen nach Ländern oder durch eine spezielle Mustersammlung. |
Webarchivierungsprojekt für die pazifischen Inseln | Ja | Ja | Ja | Nein | Unterstützt vom Archive-it-Dienst. |
Webarchiv der Kongressbibliothek | Ja | Ja | n | Stellvertreter | Zugang über LCWA . Datensätze im MODS-Format (Metadata Object Descriptive Schema). |
Harvard University Library: der Web Archive Collection Service (WAX) | Ja | Ja | Ja | Nein | |
Webarchivierungsdienst der California Digital Library (WAS-Dienst) | Ja | Ja | Ja | Nein | Zugang für privates Studium, Stipendium und Forschung. Die meisten mit WAS erstellten Archive wurden noch nicht veröffentlicht, da es den Partnern überlassen bleibt, ob sie den Zugriff gewähren möchten. Es gibt 16 Partner, die den Dienst nutzen und über 80 Webarchive erstellt haben, nur 30 sind öffentlich zugänglich. Die Leistung von NutchWAX erlaubte keine vollständige Archivsuche. Die bevorstehende Umstellung auf SOLR wird sowohl eine Vollarchiv- als auch eine sammlungsspezifische Volltextsuche ermöglichen. |
Bentley Historical Library (University of Michigan) Webarchiv | Ja | Ja | Ja | Nein | Angetrieben durch das WAS von der California Digital Library. Der Zugang ist öffentlich, aber die Nutzung ist für private Studien, Stipendien und Forschungen beschränkt. |
Webarchiv der Universität von Texas in San Antonio | Ja | Ja | Ja | Einheimisch | Zugriff über den Archive-it-Dienst und die Texas Archival Repositories Online-Datenbank |
AUEB Webarchiv | Ja | Ja | Ja | Nein | |
Webarchiv der Weltbank | Ja | Ja | Ja | Nein | URL-Verlauf über offenen Zugriff auf die Sammlung über einen Standard-Webbrowser. Die Volltextsuche ist nur innerhalb jeder einzelnen Site verfügbar. Die Suche nach Metadaten ist über die erweiterte Suche in der Webarchiv-Sammlung verfügbar. |
CyberFriedhof der University of North Texas | n | Ja | Ja | Nein | |
Tamiment Library und Robert F. Wagner Labor Archives an der New York University | Ja | Ja | Ja | Nein | Der Zugang erfolgt über den WAS-Service sowie über Findmittel, die über das Findmittelportal der NYU durchsucht werden können. |
Digitale Bibliothek der York University | Ja | Ja | Ja | ||
Webarchiv des Niederländischen Instituts für Ton und Bild (Ton und Bild) | Ja | Ja | n | Ausgewählte Sites, für die Vereinbarungen getroffen wurden, sind öffentlich zugänglich. Die Volltextindizierung erfolgt mit Elasticsearch , das Frontend ist in Drupal aufgebaut . | |
Kentucky Abteilung für Bibliotheken und Archive | Ja | Ja | Ja | Nein | Voller offener Zugang |
Universität von Kalifornien, San Francisco Library | Ja | Ja | Ja | Nativ (über IA ) | Sowohl die Erfassung als auch der Zugriff auf archivierte Inhalte werden vom Archive it-Dienst bereitgestellt, sodass alle Funktionen dieselben sind wie bei Archive-It |
Ivy Plus-Bibliotheken | Ja | Ja | Ja | Nein | Zugänglich über Archive-It-Dienst. |
Webarchiv der malaysischen Regierung (MyGWA) | Ja | Ja | Ja | Nein | Uneingeschränkter Zugang |
Nationalbibliothek für Medizin (USA) | Ja | Ja | Ja | Der Zugriff erfolgt über Archive-It | |
Smithsonian-Bibliotheken und -Archive (USA) | Ja | Ja | Ja | Der Zugriff erfolgt über Archive-It |