Lexikostatistik - Lexicostatistics

Lexikostatistik ist eine Methode der vergleichenden Linguistik , bei der der Prozentsatz der lexikalischen Kognaten zwischen Sprachen verglichen wird, um ihre Beziehung zu bestimmen. Die Lexikostatistik bezieht sich auf die vergleichende Methode , rekonstruiert jedoch keine Protosprache . Sie ist von der Glottochronologie zu unterscheiden , die versucht, mithilfe lexikostatistischer Methoden die Zeitdauer abzuschätzen, seit der zwei oder mehr Sprachen von einer gemeinsamen früheren Protosprache abgewichen sind. Dies ist jedoch nur eine Anwendung der Lexikostatistik; andere Anwendungen davon teilen möglicherweise nicht die Annahme einer konstanten Änderungsrate für grundlegende lexikalische Elemente.

Der Begriff "Lexikostatistik" ist insofern irreführend, als mathematische Gleichungen verwendet werden, aber keine Statistik. Andere Merkmale einer Sprache als das Lexikon können verwendet werden, obwohl dies ungewöhnlich ist. Während die vergleichende Methode Shared-Identified-Innovationen verwendet, um Untergruppen zu bestimmen, identifiziert die Lexikostatistik diese nicht. Die Lexikostatistik ist eine entfernungsbasierte Methode, während die vergleichende Methode Sprachzeichen direkt berücksichtigt. Die lexikostatistische Methode ist im Vergleich zur vergleichenden Methode eine einfache und schnelle Methode, weist jedoch Einschränkungen auf (siehe unten). Es kann validiert werden, indem die Bäume, die mit beiden Methoden erzeugt wurden, gegeneinander geprüft werden.

Geschichte

Die Lexikostatistik wurde in den 1950er Jahren von Morris Swadesh in einer Reihe von Artikeln basierend auf früheren Ideen entwickelt. Die erste bekannte Verwendung des Konzepts war von Dumont d'Urville im Jahr 1834, der verschiedene "ozeanische" Sprachen verglich und eine Methode zur Berechnung eines Beziehungskoeffizienten vorschlug. Hymes (1960) und Embleton (1986) geben einen Überblick über die Geschichte der Lexikostatistik.

Methode

Wortliste erstellen

Ziel ist es, eine Liste von universell verwendeten Bedeutungen (Hand, Mund, Himmel, I) zu erstellen. Dann werden Wörter für diese Bedeutungsschlitze für jede betrachtete Sprache gesammelt. Swadesh reduzierte ursprünglich einen größeren Satz von Bedeutungen auf 200. Später stellte er fest, dass es notwendig war, es weiter zu reduzieren, aber dass er einige Bedeutungen aufnehmen konnte, die nicht in seiner ursprünglichen Liste standen, was seine spätere 100-Punkte-Liste ergab. Die Swadesh-Liste in Wiktionary gibt die insgesamt 207 Bedeutungen in einer Reihe von Sprachen an. Es wurden alternative Listen erstellt, die strengere Kriterien anwenden, zB die Dolgopolsky-Liste und die Leipzig-Jakarta-Liste sowie Listen mit einem spezifischeren Geltungsbereich; Dyen, Kruskal und Black haben beispielsweise 200 Bedeutungen für 84 indoeuropäische Sprachen in digitaler Form.

Cognacies bestimmen

Ein geschulter und erfahrener Linguist ist erforderlich, um fundierte Entscheidungen zu treffen. Die Entscheidungen müssen jedoch mit zunehmendem Wissensstand verfeinert werden. Die Lexikostatistik verlässt sich jedoch nicht darauf, dass alle Entscheidungen richtig sind. Für jedes Listenpaar kann die Übereinstimmung einer Form positiv, negativ oder unbestimmt sein. Manchmal hat eine Sprache mehrere Wörter für eine Bedeutung, zB klein und klein für nicht groß .

Berechnen Sie lexikostatistische Prozentsätze

Dieser Prozentsatz bezieht sich auf den Anteil der Bedeutungen für ein bestimmtes Sprachpaar, die verwandt sind, dh relativ zur Gesamtheit ohne Unbestimmtheit. Dieser Wert wird in eine N x N-Entfernungstabelle eingegeben , wobei N die Anzahl der zu vergleichenden Sprachen ist. Wenn diese Tabelle vollständig ist, ist sie in Dreiecksform halb ausgefüllt . Je höher der Cognacy-Anteil, desto enger sind die Sprachen verwandt.

Stammbaum erstellen

Die Erstellung des Sprachbaums basiert ausschließlich auf der oben aufgeführten Tabelle. Es können verschiedene Untergruppierungsmethoden verwendet werden, aber die von Dyen, Krustal und Black übernommene war:

alle Listen werden in einen Pool gelegt
die beiden nächsten Glieder werden entfernt und bilden einen Kern, der in den Pool gelegt wird
dieser Schritt wird wiederholt
unter bestimmten Bedingungen wird aus einem Kern eine Gruppe
dies wird wiederholt, bis der Pool nur noch eine Gruppe enthält.

Berechnungen müssen Kern- und Gruppenlexikalische Prozentsätze sein.

Anwendungen

Ein führender Vertreter der lexikostatistischen Anwendung ist Isidore Dyen . Er verwendete die Lexikostatistik, um austronesische und indoeuropäische Sprachen zu klassifizieren . Eine größere Studie zu letzterem wurde von Dyen, Kruskal und Black (1992) berichtet. Es wurden auch Studien zu indianischen und afrikanischen Sprachen durchgeführt .

Pama-Nyungan

Die Frage der internen Verzweigung innerhalb der Pama-Nyungan- Sprachfamilie ist in der australischen Linguistik seit langem ein Thema, und allgemeiner Konsens bestand darin, dass interne Verbindungen zwischen den mehr als 25 verschiedenen Untergruppen von Pama-Nyungan entweder nicht rekonstruierbar waren oder dass die Untergruppen überhaupt nicht genetisch verwandt. Im Jahr 2012 veröffentlichten Claire Bowern und Quentin Atkinson die Ergebnisse ihrer Anwendung computergestützter phylogenetischer Methoden an 194 Dokulekten, die alle wichtigen Untergruppen und Isolate von Pama-Nyungan repräsentieren. Ihr Modell „erholte“ viele der Zweige und Abteilungen, die früher von vielen anderen Australiern vorgeschlagen und akzeptiert worden waren, und gab gleichzeitig einen Einblick in die problematischeren Zweige wie Paman (was durch den Mangel an Daten kompliziert wird) und Ngumpin- Yapa (wo das genetische Bild durch sehr hohe Entlehnungsraten zwischen den Sprachen verdeckt wird). Ihr Datensatz bildet den größten seiner Art für eine Jäger-Sammler- Sprachfamilie und den zweitgrößten insgesamt nach dem Austronesischen ( Greenhill et al. 2008 ). Sie kommen zu dem Schluss, dass Pama-Nyungan-Sprachen in der Tat keine Ausnahme von lexikostatistischen Methoden sind, die erfolgreich auf andere Sprachfamilien der Welt angewendet wurden.

Kritikpunkte

Leute wie Hoijer (1956) haben gezeigt, dass es Schwierigkeiten gab, Äquivalente zu den Bedeutungselementen zu finden, während viele es für notwendig hielten, Swadeshs Listen zu modifizieren. Gudschinsky (1956) stellte die Frage, ob es möglich sei, eine universelle Liste zu erhalten.

Faktoren wie Entlehnung , Tradition und Tabu können die Ergebnisse wie bei anderen Methoden verzerren. Manchmal wurde Lexikostatistik verwendet, wobei eher lexikalische Ähnlichkeit als Ähnlichkeit verwendet wurde, um Ähnlichkeiten zu finden. Dies entspricht dann einem Massenvergleich .

Die Wahl der Bedeutungsslots ist ebenso subjektiv wie die Wahl der Synonyme .

Verbesserte Methoden

Einige der modernen computergestützten statistischen Hypothesentestverfahren können als Verbesserungen der Lexikostatistik angesehen werden, da sie ähnliche Wortlisten und Entfernungsmaße verwenden.

Siehe auch

Verweise

Weiterlesen

Dobson, Annette (1969). Lexikostatistische Gruppierung. Anthropologische Linguistik 7, 216-221.
Dobson, Annette und Black, Paul (1979). Multidimensionale Skalierung einiger lexikostatistischer Daten. Mathematiker 1979/4, 55-61.
McMahon, April und McMahon, Robert (2005). Sprachklassifikation nach Zahlen. Oxford University Press.
Sankoff, David (1970). "Über die Ersetzungsrate von Wort-Bedeutungs-Beziehungen." Sprache 46.564-569.
Wittmann, Henri (1969). "Eine lexikostatistische Untersuchung der Diachronie der Hethiter." Indogermanische Forschungen 74.1-10. [1]
Wittmann, Henri (1973). "Die lexikostatistische Klassifikation der auf Französisch basierenden Kreolsprachen." Lexikostatistik in der genetischen Linguistik: Proceedings of the Yale Conference, 3.–4. April 1971 , dir. Isidore Dyen, 89-99. La Haye: Mouton. [2]

Externe Links

Languages

In other projects