Wikidata - Wikidata

Wikidata
Wikidata-logo-de.svg
Bildschirmfoto
Wikidata-Hauptseite screenshot.png
Hauptseite von Wikidata im April 2021
Art der Website
Verfügbar in Mehrere Sprachen
Eigentümer Wikimedia-Stiftung
Editor Wikimedia-Community
URL www .wikidata .org Bearbeite dies bei Wikidata
Werbung Nein
Anmeldung Optional
Gestartet 29. Oktober 2012 ; Vor 8 Jahren ( 2012-10-29 )

Wikidata ist ein gemeinsam bearbeiteter mehrsprachiger Wissensgraph, der von der Wikimedia Foundation gehostet wird . Es ist eine gemeinsame Quelle für offene Daten , die Wikimedia-Projekte wie Wikipedia und alle anderen unter der CC0- Public-Domain- Lizenz verwenden können. Wikidata ist ein Wiki, das von der Software MediaWiki betrieben wird , und wird auch von den als Wikibase bekannten Wissensgraphen-MediaWiki-Erweiterungen betrieben .

Konzept

Dieses Diagramm zeigt die wichtigsten Begriffe, die in Wikidata verwendet werden.

Wikidata ist eine dokumentenorientierte Datenbank , die sich auf Elemente konzentriert, die jede Art von Thema, Konzept oder Objekt darstellen. Jedem Element wird ein eindeutiger, persistenter Identifikator zugewiesen , eine positive ganze Zahl, der der Großbuchstabe Q vorangestellt ist, bekannt als "QID". Auf diese Weise können die grundlegenden Informationen, die zur Identifizierung des Themas, das der Artikel behandelt, erforderlich sind, übersetzt werden, ohne dass eine Sprache bevorzugt wird.

Beispiele für Artikel sind die Olympischen Sommerspiele 1988 (Q8470) , Liebe (Q316) , Johnny Cash (Q42775) , Elvis Presley (Q303) und Gorilla (Q36611) .

Artikeletiketten müssen nicht eindeutig sein. Zum Beispiel gibt es zwei Elemente mit dem Namen "Elvis Presley": Elvis Presley (Q303) repräsentiert den amerikanischen Sänger und Schauspieler und Elvis Presley (Q610926) repräsentiert sein selbstbetiteltes Album . Die Kombination eines Labels und seiner Beschreibung muss jedoch eindeutig sein. Um Mehrdeutigkeiten zu vermeiden, wird daher eine eindeutige Kennung ( QID ) eines Artikels mit dieser Kombination verknüpft.

Item-Typen sind allgemein und Lexeme.

Hauptteile

Wikidata-Screenshot


Ein Layout der vier Hauptkomponenten einer Phase-1-Wikidata-Seite: Label, Beschreibung, Aliasnamen und intersprachliche Links.

Grundsätzlich besteht ein Artikel aus:

  • Obligatorisch eine Kennung (die QID), bezogen auf ein Label und eine Beschreibung.
  • Optional mehrere Aliase und eine Anzahl von Anweisungen (und deren Eigenschaften und Werte).

Aussagen

Wikidata-Screenshot
Drei Aussagen aus Wikidatas Artikel über den Planeten Mars (Q111). Werte beinhalten Links zu anderen Elementen und zu Wikimedia Commons .

Aussagen sind die Art und Weise, wie alle Informationen, die über ein Element bekannt sind, in Wikidata aufgezeichnet werden. Formal sie bestehen aus Schlüssel-Wert - Paaren , die eine Übereinstimmung Eigenschaft mit einem oder mehreren Unternehmen (wie „Autor“ oder „Veröffentlichungsdatum“) Werten (wie „ Sir Arthur Conan Doyle “ oder „1902“). Zum Beispiel würde die informelle englische Aussage "milk is white" durch eine Aussage kodiert, die die Eigenschaft color (P462) mit dem Wert white (Q23444) unter dem Item milk (Q8495) paart .

Anweisungen können eine Eigenschaft mehreren Werten zuordnen. Beispielsweise könnte die Eigenschaft „Beruf“ für Marie Curie mit den Werten „Physikerin“ und „Chemikerin“ verknüpft werden, um der Tatsache Rechnung zu tragen, dass sie beide Berufe ausübte.

Werte können viele Typen annehmen, einschließlich anderer Wikidata-Elemente, Zeichenfolgen, Zahlen oder Mediendateien. Eigenschaften geben vor, mit welchen Arten von Werten sie gepaart werden können. Beispielsweise darf die offizielle Website der Immobilie (P856) nur mit Werten vom Typ "URL" gepaart werden.

Eigentum und Wert

Beispiel für eine einfache Anweisung bestehend aus einem Eigenschaft-Wert-Paar

Wikidatas Methode zur Strukturierung von Daten umfasst zwei Hauptelemente: Eigenschaften und Werte dieser Eigenschaften (in der Terminologie von Wikidata als "Elemente" bezeichnet).

Eine Eigenschaft beschreibt den Datenwert einer Aussage und kann als Datenkategorie betrachtet werden, zum Beispiel Farbe (P462) für den Datenwert Blau (Q1088) oder Bildung für ein Personenelement.

Wie gesagt bilden Eigenschaften in Kombination mit Werten eine Aussage in Wikidata.

Die am häufigsten verwendete Eigenschaft ist Zitate (P2860) , die auf mehr als 210.000.000 Artikelseiten verwendet wird.

Eigenschaften haben ihre eigenen Seiten auf Wikidata und da ein Element mehrere Eigenschaften enthalten kann, führt dies zu einer verknüpften Datenstruktur von Seiten unter derselben Anweisung.

Eigenschaften können auch komplexere Regeln für ihre beabsichtigte Verwendung definieren, die als Einschränkungen bezeichnet werden . Zum Beispiel enthält die Eigenschaft Hauptstadt (P36) eine "Einzelwertbeschränkung", die die Realität widerspiegelt, dass Territorien (normalerweise) nur eine Hauptstadt haben. Einschränkungen werden als Testwarnungen und Hinweise und nicht als unantastbare Regeln behandelt.

Optional können Qualifizierer verwendet werden, um die Bedeutung einer Anweisung zu verfeinern, indem innerhalb der Werte zusätzliche Informationen bereitgestellt werden, die für den Geltungsbereich der Anweisung gelten. Beispielsweise könnte die Eigenschaft "Bevölkerung" mit einem Qualifizierer wie "Stand 2011" geändert werden. Werte in den Aussagen können auch mit Verweisen versehen werden , die auf eine Quelle verweisen, die den Inhalt der Aussage unterstützt.

Lexeme

In der Linguistik ist ein Lexem eine Einheit lexikalischer Bedeutung. In ähnlicher Weise sind die Lexeme von Wikidata Elemente mit einer Struktur, die sie geeigneter macht, lexikografische Daten zu speichern . Neben der Speicherung der Sprache, auf die sich das Lexem bezieht, haben sie einen Abschnitt für Formen und einen Abschnitt für Sinne .

EntitySchemas

Im Januar 2019 begann die Entwicklung einer neuen Erweiterung für MediaWiki, um das Speichern von Shape-Ausdrücken in einem separaten Namespace zu ermöglichen.

Diese Erweiterung wurde seitdem auf Wikidata installiert und ermöglicht es Mitwirkenden, Shape-Ausdrücke zum Validieren und Beschreiben von Resource Description Framework-Daten in Elementen und Lexemen zu verwenden. Jedes Element oder Lexem auf Wikidata kann gegen ein Entitätsschema validiert werden, und dies macht es zu einem wichtigen Werkzeug für die Qualitätssicherung.

Entwicklung

Die Entstehung des Projekts wurde durch Spenden des Allen Institute for Artificial Intelligence , der Gordon and Betty Moore Foundation und Google, Inc. in Höhe von insgesamt 1,3 Millionen Euro finanziert . Die Entwicklung des Projekts wird maßgeblich von Wikimedia Deutschland unter der Leitung von Lydia Pintscher vorangetrieben und war ursprünglich in drei Phasen aufgeteilt:

  1. Zentralisieren von interlingualen Links – Links zwischen Wikipedia-Artikeln zum gleichen Thema in verschiedenen Sprachen.
  2. Bereitstellung eines zentralen Ortes für Infobox- Daten für alle Wikipedias.
  3. Erstellen und Aktualisieren von Listenartikeln basierend auf Daten in Wikidata und Verlinkung zu anderen Wikimedia-Schwesterprojekten, einschließlich Meta-Wiki und den eigenen Wikidata (interwikilinks).

Erster Rollout

Wikipedia-Screenshot


Die Liste der zwischensprachigen Links eines Wikipedia-Artikels, wie sie in einem Bearbeitungsfeld (links) und auf der Artikelseite (rechts) vor Wikidata angezeigt wurden. Jeder Link in diesen Listen verweist auf einen Artikel, der eine eigene Liste mit intersprachlichen Links zu den anderen Artikeln erfordert; Dies sind die von Wikidata zentralisierten Informationen.
Wikidata-Screenshot
Der Link "Links bearbeiten" führt den Leser heutzutage zu Wikidata, um Interlanguage- und Interwiki-Links zu bearbeiten.

Wikidata startete am 29. Oktober 2012 und war das erste neue Projekt der Wikimedia Foundation seit 2006. Zu diesem Zeitpunkt stand nur die Zentralisierung von Sprachlinks zur Verfügung. Dadurch konnten Elemente erstellt und mit grundlegenden Informationen gefüllt werden: ein Label – ein Name oder Titel, Aliase – alternative Bezeichnungen für das Label, eine Beschreibung und Links zu Artikeln zum Thema in allen verschiedenen Sprachausgaben von Wikipedia (Interwikipedia-Links) .

Historisch gesehen würde ein Wikipedia-Artikel eine Liste von interlingualen Links enthalten , bei denen es sich um Links zu Artikeln zum gleichen Thema in anderen Wikipedia-Ausgaben handelt, falls vorhanden. Anfangs war Wikidata ein in sich geschlossenes Repository von intersprachlichen Links. Wikipedia-Sprachausgaben waren immer noch nicht in der Lage, auf Wikidata zuzugreifen, daher mussten sie weiterhin ihre eigenen Listen mit zwischensprachigen Links führen, hauptsächlich am Ende der Artikelseiten.

Am 14. Januar 2013 ermöglichte die ungarische Wikipedia als erste die Bereitstellung von interlingualen Links über Wikidata. Diese Funktionalität wurde am 30. Januar auf die hebräische und italienische Wikipedia, am 13. Februar auf die englische Wikipedia und am 6. März auf alle anderen Wikipedias ausgeweitet . Nachdem kein Konsens über einen Vorschlag erzielt wurde, die Entfernung von Sprachlinks aus der englischen Wikipedia einzuschränken, wurde automatischen Editoren ( Bots ) die Befugnis eingeräumt, diese aus der englischen Wikipedia zu löschen . Am 23. September 2013 wurden Interlanguage-Links auf Wikimedia Commons live geschaltet.

Erklärungen und Datenzugriff

Am 4. Februar 2013 wurden Aussagen zu Wikidata-Einträgen hinzugefügt. Die möglichen Werte für Eigenschaften waren zunächst auf zwei Datentypen (Elemente und Bilder auf Wikimedia Commons) beschränkt, weitere Datentypen (wie Koordinaten und Datumsangaben) folgen später. Der erste neue Typ, String, wurde am 6. März eingesetzt.

Die Möglichkeit für die verschiedenen Sprachversionen von Wikipedia den Zugriff auf Daten von Wikidata wurde schrittweise zwischen dem 27. März und 25. April 2013. Am 16. September 2015 ausgerollt, begann Wikidata ermöglicht so genannten willkürlichen Zugriff oder den Zugriff von einem bestimmten Gegenstand aus einem Wikipedia die Aussagen zu Wikidata-Elementen, die nicht direkt damit verbunden sind. Zum Beispiel wurde es möglich, Daten über Deutschland aus dem Berliner Artikel auszulesen, was vorher nicht möglich war. Am 27. April 2016 wurde der willkürliche Zugriff auf Wikimedia Commons aktiviert.

Laut einer Studie aus dem Jahr 2020 besteht ein Großteil der Daten auf Wikidata aus Einträgen, die von Internet-Bots massenhaft aus anderen Datenbanken importiert werden , was dabei hilft, „Mauern“ von Datensilos einzureißen .

Abfragedienst und andere Verbesserungen

Am 7. September 2015 gab die Wikimedia Foundation die Veröffentlichung des Wikidata Query Service bekannt, mit dem Benutzer Abfragen zu den in Wikidata enthaltenen Daten durchführen können. Der Dienst verwendet SPARQL als Abfragesprache. Mit Stand November 2018 gibt es mindestens 26 verschiedene Tools, die es ermöglichen, die Daten auf unterschiedliche Weise abzufragen.

Auf der anderen Seite enthalten die Tools im seitlichen Bereich von Wiktionary jetzt ein "Wikidata-Element", um beim Erstellen eines neuen Elements und Links zu neuen Seiten zu helfen. Dies ist beispielsweise nützlich, wenn der Artikel nur im englischen Wiktionary vorhanden ist und mit einem anderen Wikimedia-Projekt verknüpft werden muss, anstatt mit Wiktionaries in anderen Sprachen.

Unten ist ein SPARQL-Beispiel für die Suche nach einer Instanz von (P31) Fernsehserie (Q5398426) mit dem Hauptthema (P921) über Insel (Q23442) und Flugunfall (Q744913). Ähnliche Ergebnisse können jedoch auch direkt auf Wikipedia anhand von Kategorieüberschneidungen gefunden werden, wenn die entsprechenden Kategorien vorhanden und zulässig sind.

SELECT ?item ?itemLabel
WHERE {
  ?item wdt:P31 wd:Q5398426.
  ?item wdt:P921 wd:Q23442.
  ?item wdt:P921 wd:Q744913.
  SERVICE wikibase:label {bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en".}
}

Unten ist ein weiteres SPARQL-Beispiel, um eine Instanz von (P31) Fernsehserie (Q5398426) zu finden, in der Darsteller (P161) Daniel Dae Kim (Q299700) und Jorge Garcia (Q264914) umfassen. Die Bedingung für Fernsehserien verhindert die Anzeige einer Fernsehserienfolge (Q21191270) / zweiteiligen Folge (Q21664088) und zeigt keine Ergebnisse an, bei denen es sich um einen Film handelt (Q11424).

SELECT ?item ?itemLabel
WHERE {
  ?item wdt:P31 wd:Q5398426.
  ?item wdt:P161 wd:Q299700.
  ?item wdt:P161 wd:Q264914.
  SERVICE wikibase:label {bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en".}
}

Die Balken auf dem Logo enthalten das Wort "WIKI" in Morse-Code kodiert . Es wurde von Arun Ganesh erstellt und durch Community-Entscheidung ausgewählt.

Rezeption

Im November 2014 erhielt Wikidata den Open Data Publisher Award des Open Data Institute „für die reine Größe und eingebaute Offenheit“.

Im November 2018 wurden Wikidata-Informationen in 58,4 % aller englischen Wikipedia-Artikel verwendet, meist für externe Identifikatoren oder Koordinatenstandorte. Zusammengefasst werden Daten von Wikidata auf 64% aller Wikipedias -Seiten, 93% aller Wikivoyage- Artikel, 34% aller Wikiquotes ', 32% aller Wikisources ' und 27% der Wikimedia Commons angezeigt. Die Verwendung in anderen Projekten der Wikimedia Foundation ist ein Zeugnis.

Bis Dezember 2020 wurden die Daten von Wikidata von mindestens 20 anderen externen Tools visualisiert und über 300 Artikel über Wikidata veröffentlicht.

Der strukturierte Datensatz von Wikidata wurde von virtuellen Assistenten wie Siri von Apple und Amazon Alexa verwendet .

Anwendungen

  • Die Mwnci-Erweiterung kann Daten aus Wikidata in LibreOffice Calc- Tabellen importieren
  • Es gibt (im Oktober 2019) Diskussionen über die Verwendung von QID-Elementen in Bezug auf das sogenannte QID-Emoji
  • Wiki Explorer – Android-Anwendung, um Dinge in Ihrer Umgebung zu entdecken und Wikidata zu bearbeiten
  • KDE-Reiseroute – ein datenschutzbewusster Open-Source-Reiseassistent, der Daten von Wikidata verwendet

Siehe auch

Verweise

Weiterlesen

Externe Links