Alphabetischer Reihenfolge - Alphabetical order

Alphabetische Reihenfolge ist ein System, bei dem Zeichenketten basierend auf der Position der Zeichen in der herkömmlichen Reihenfolge eines Alphabets in eine Reihenfolge gebracht werden . Es ist eine der Methoden der Kollation . In der Mathematik eine lexikographische Ordnung ist die Verallgemeinerung der alphabetischen Reihenfolge in anderen Datentypen, wie beispielsweise Sequenzen von Ziffern oder Zahlen.

Wenn die alphabetische Reihenfolge auf Zeichenfolgen oder Sequenzen angewendet wird , die neben alphabetischen Zeichen auch Ziffern, Zahlen oder komplexere Arten von Elementen enthalten können, wird die alphabetische Reihenfolge im Allgemeinen als lexikografische Reihenfolge bezeichnet .

Um zu bestimmen, welche von zwei Zeichenfolgen bei der alphabetischen Anordnung zuerst kommt, werden deren Anfangsbuchstaben verglichen. Wenn sie sich unterscheiden, kommt die Zeichenfolge, deren erster Buchstabe im Alphabet früher steht, vor der anderen Zeichenfolge. Wenn die ersten Buchstaben gleich sind, werden die zweiten Buchstaben verglichen usw. Wenn eine Position erreicht wird, an der eine Zeichenfolge keine Buchstaben mehr zum Vergleichen hat, während die andere dies tut, wird die erste (kürzere) Zeichenfolge in alphabetischer Reihenfolge als an erster Stelle betrachtet.

Großbuchstaben (Großbuchstaben) werden im Allgemeinen für die Zwecke der alphabetischen Reihenfolge als identisch mit ihren entsprechenden Kleinbuchstaben angesehen, obwohl Konventionen angenommen werden können, um Situationen zu behandeln, in denen sich zwei Zeichenfolgen nur in der Großschreibung unterscheiden. Es gibt auch verschiedene Konventionen für die Behandlung von Zeichenfolgen, die Leerzeichen , geänderte Buchstaben (wie solche mit diakritischen Zeichen ) und Nicht-Buchstaben-Zeichen wie Satzzeichen enthalten .

Das Anordnen einer Reihe von Wörtern oder Zeichenfolgen in alphabetischer Reihenfolge führt dazu, dass alle Zeichenfolgen, die mit demselben Buchstaben beginnen, gruppiert werden; innerhalb dieser Gruppierung werden alle Wörter, die mit derselben Zwei-Buchstaben-Folge beginnen, zusammengruppiert; und so weiter. Das System tendiert somit dazu, die Anzahl gemeinsamer Anfangsbuchstaben zwischen benachbarten Wörtern zu maximieren.

Geschichte

Die alphabetische Reihenfolge wurde erstmals im 1. Jahrtausend v . Chr. von nordwestsemitischen Schreibern nach dem Abjad- System verwendet. Eine Reihe anderer Methoden zum Klassifizieren und Ordnen von Material, einschließlich geographischer, chronologischer , hierarchischer und nach Kategorie , wurden jedoch jahrhundertelang der alphabetischen Reihenfolge vorgezogen.

Die Bibel wird auf das 6.-7. Jahrhundert v. Chr. datiert. Im Buch Jeremia verwendet der Prophet eine Atbash- Ersatzchiffre , die auf alphabetischer Reihenfolge basiert. In ähnlicher Weise verwendeten biblische Autoren Akrostiche auf der Grundlage des (geordneten) hebräischen Alphabets .

Die erste effektive Verwendung der alphabetischen Reihenfolge als Katalogisierungsinstrument unter Gelehrten könnte im antiken Alexandria in der Großen Bibliothek von Alexandria gewesen sein , die um 300 v. Chr. Gegründet wurde. Der dort tätige Dichter und Gelehrte Callimachos soll den ersten Bibliothekskatalog der Welt geschaffen haben , bekannt als die Pinakes , mit Rollen, die in alphabetischer Reihenfolge des Anfangsbuchstabens der Autorennamen angeordnet sind.

Im 1. Jahrhundert v. Chr. erstellte der römische Schriftsteller Varro alphabetische Listen von Autoren und Titeln. Im 2. Jahrhundert n. Chr. schrieb Sextus Pompeius Festus einen enzyklopädischen Inbegriff der Werke von Verrius Flaccus , De verborum significatu , mit Einträgen in alphabetischer Reihenfolge. Im 3. Jahrhundert n. Chr. verfasste Harpokration ein nach allen Buchstaben alphabetisches homerisches Lexikon. Im 10. Jahrhundert verwendete der Autor der Suda die alphabetische Reihenfolge mit phonetischen Variationen.

Alphabetische Reihenfolge als Hilfe für die Beratung in den Mainstream der Eingabe begonnen westeuropäischer Geistesleben in der zweiten Hälfte des 12. Jahrhunderts, als alphabetische Werkzeuge Hilfe entwickelt wurden Prediger analysieren biblische Vokabulars. Dies führte zur Erstellung von alphabetischer Konkordanz der Bibel durch die Dominikaner in Paris im 13. Jahrhundert, unter Hugo von St. Cher . Ältere Nachschlagewerken wie St. Jerome ‚s Interpretationen der hebräischen Namen für eine einfache Konsultation alphabetisiert wurden. Die Verwendung der alphabetischen Reihenfolge wurde zunächst von Wissenschaftlern abgelehnt, die von ihren Studenten erwarteten, dass sie ihr Studiengebiet nach eigenen rationalen Strukturen beherrschen; Sein Erfolg wurde durch Werkzeuge wie Robert Kilwardbys Index zu den Werken von St. Augustine angetrieben , der den Lesern half, auf den vollständigen Originaltext zuzugreifen, anstatt sich auf die Zusammenstellungen von Auszügen zu verlassen, die in der Scholastik des 12. Jahrhunderts bekannt geworden waren . Die Übernahme der alphabetischen Ordnung war Teil des Übergangs vom Primat des Gedächtnisses zum schriftlichen Werk. Die Idee, Informationen nach dem Alphabet zu ordnen, stieß auch bei den Verfassern von Enzyklopädien im 12. und 13. Jahrhundert auf Widerstand, die allesamt fromme Kirchenmänner waren. Sie zogen es vor, ihr Material theologisch zu ordnen – in der Reihenfolge der Schöpfung Gottes, beginnend mit Deus (bedeutet Gott).

Im Jahr 1604 musste Robert Cawdrey in Table Alphabeticall , dem ersten einsprachigen englischen Wörterbuch , erklären : "Nun, wenn das Wort, das du finden möchtest, mit (a) beginnt, dann schaue am Anfang dieser Tabelle, aber wenn mit (v) schau mal zum ende". Obwohl Samuel Taylor Coleridge noch 1803 Enzyklopädien mit "einer Anordnung, die durch den Zufall der Anfangsbuchstaben bestimmt wurde" verurteilte, basieren heute viele Listen auf diesem Prinzip.

Die alphabetische Anordnung kann als eine Kraft für die Demokratisierung des Zugangs zu Informationen angesehen werden, da keine umfangreichen Vorkenntnisse erforderlich sind, um das Gesuchte zu finden.

Bestellung in lateinischer Schrift

Grundbestellung und Beispiele

Die Standardreihenfolge des modernen lateinischen ISO-Grundalphabets ist:

ABCDEFGHIJKLMNOPQRSTU-VWXYZ

Ein Beispiel für eine einfache alphabetische Sortierung folgt:

Wie; Aster; Astrolabium; Astronomie; Astrophysik; Bei; Ataman; Attacke; Baa

Ein anderes Beispiel:

Seepocken; Sei; Gewesen; Nutzen; Gebogen

Die obigen Wörter sind alphabetisch geordnet. As kommt vor Aster, weil sie mit den gleichen zwei Buchstaben beginnen und As danach keine Buchstaben mehr hat, während Aster dies tut. Die nächsten drei Wörter kommen nach Aster, weil ihr vierter Buchstabe (der erste abweichende) r ist , der im Alphabet nach e (der vierte Buchstabe von Aster ) kommt. Diese Wörter selbst sind basierend auf ihren sechsten Buchstaben ( l , n bzw. p ) geordnet . Dann kommt At , das sich im zweiten Buchstaben von den vorhergehenden Wörtern unterscheidet ( t kommt nach s ). Ataman kommt nach At aus dem gleichen Grund, aus dem Aster nach As kam . Attack folgt Ataman aufgrund des Vergleichs ihrer dritten Buchstaben, und Baa kommt nach allen anderen, weil es einen anderen ersten Buchstaben hat.

Behandlung von Mehrwort-Strings

Wenn einige der zu ordnenden Zeichenfolgen aus mehr als einem Wort bestehen, dh Leerzeichen oder andere Trennzeichen wie Bindestriche enthalten , können zwei grundlegende Ansätze verfolgt werden. Im ersten Ansatz werden alle Strings zunächst nach ihrem ersten Wort geordnet, wie in der Reihenfolge:

Eiche; Eichenhügel; Eichenallee; Oakley-Park; Oakley River
wobei alle Zeichenfolgen, die mit dem separaten Wort Oak beginnen , all denen vorangehen, die mit Oakley beginnen , da Oak in alphabetischer Reihenfolge vor Oakley steht .

Beim zweiten Ansatz werden Strings alphabetisch sortiert, als ob sie keine Leerzeichen hätten, was die Reihenfolge ergibt:

Eiche; Eichenhügel; Oakley-Park; Oakley-Fluss; Eichenallee
wo Oak Ridge jetzt nach den Oakley- Saiten kommt, als würde es "Oakridge" geschrieben.

Der zweite Ansatz wird normalerweise in Wörterbüchern verwendet und wird daher von Verlagen oft als Wörterbuchreihenfolge bezeichnet . Der erste Ansatz wurde oft in Buchverzeichnissen verwendet , obwohl jeder Verleger traditionell seine eigenen Standards für den darin zu verwendenden Ansatz festlegte; vor 1975 gab es keinen ISO-Standard für Buchverzeichnisse ( ISO 999 ).

Sonderfälle

Geänderte Buchstaben

Im Französischen werden modifizierte Buchstaben (wie solche mit diakritischen Zeichen ) aus Gründen der alphabetischen Reihenfolge wie der Basisbuchstabe behandelt. Zum Beispiel kommt die Rolle zwischen Rock und Rose , als wäre es eine geschriebene Rolle . Sprachen, die solche Buchstaben systematisch verwenden, haben jedoch im Allgemeinen ihre eigenen Ordnungsregeln. Siehe Sprachspezifische Konventionen unten.

Bestellung nach Nachnamen

In den meisten Kulturen, in denen Familiennamen nach Vornamen geschrieben werden , ist es immer noch erwünscht, Namenslisten (wie in Telefonbüchern) zuerst nach Familiennamen zu sortieren. In diesem Fall müssen die Namen neu geordnet werden, um richtig sortiert zu werden. Juan Hernandes und Brian O'Leary sollten beispielsweise nach "Hernandes, Juan" und "O'Leary, Brian" sortiert werden, auch wenn sie nicht so geschrieben sind. Diese Regel in einem Computerkollationalgorithmus zu erfassen, ist schwierig, und einfache Versuche werden zwangsläufig fehlschlagen. Wenn der Algorithmus beispielsweise nicht über eine umfangreiche Liste von Familiennamen verfügt, kann nicht entschieden werden, ob "Gillian Lucille van der Waal" "van der Waal, Gillian Lucille", "Waal, Gillian Lucille van der", oder sogar "Lucille van der Waal, Gillian".

Die Sortierung nach Nachnamen ist im akademischen Kontext häufig anzutreffen. Innerhalb eines einzelnen Artikels mit mehreren Autoren wird die alphabetische Sortierung der Autoren nach Nachnamen und nicht nach anderen Methoden wie umgekehrter Dienstalter oder subjektiver Beitrag zum Beitrag als Möglichkeit angesehen, "ähnliche Beiträge anzuerkennen" oder "zu vermeiden". [ing] Disharmonie in kollaborierenden Gruppen". Es hat sich gezeigt, dass die Praxis in bestimmten Bereichen, Zitate in Bibliographien nach den Nachnamen ihrer Autoren zu ordnen , zu Voreingenommenheit zugunsten von Autoren mit Nachnamen führt, die im Alphabet früher erscheinen, während dieser Effekt in Feldern, in denen Bibliographien chronologisch geordnet sind, nicht auftritt.

Die und andere gebräuchliche Wörter

Wenn ein Satz mit einem sehr gebräuchlichen Wort beginnt (wie "das", "ein" oder "ein", in der Grammatik als Artikel bezeichnet), wird dieses Wort manchmal ignoriert oder an das Ende des Satzes verschoben, aber dies ist nicht immer das Fall. Zum Beispiel könnte das Buch " The Shining " als "Shining" oder "Shining, The" und daher vor dem Buchtitel " Summer of Sam " behandelt werden, obwohl es auch einfach als "The Shining" behandelt werden kann und nach " Sommer von Sam". In ähnlicher Weise kann „ A Wrinkle in Time “ als „Wrinkle in Time“, „Wrinkle in Time, A“ oder „A Wrinkle in Time“ behandelt werden. Alle drei Alphabetisierungsmethoden sind recht einfach durch Algorithmen zu erstellen, aber viele Programme verlassen sich stattdessen auf eine einfache lexikographische Ordnung .

Mac- Präfixe

Die Präfixe M' und Mc in irischen und schottischen Nachnamen sind Abkürzungen für Mac und werden manchmal alphabetisch sortiert, als ob die Schreibweise Mac vollständig wäre. Somit könnte McKinley vor Mackintosh aufgeführt werden (wie es wäre, wenn es als "MacKinley" geschrieben worden wäre). Seit dem Aufkommen computersortierter Listen ist diese Art der Alphabetisierung seltener anzutreffen, wird jedoch in britischen Telefonbüchern immer noch verwendet.

St- Präfix

Das Präfix St oder St. ist eine Abkürzung von "Saint" und wird traditionell alphabetisch geordnet, als ob die Schreibweise Saint vollständig wäre. So könnte St. John's in einem Gazetteer vor Salem aufgeführt werden (als ob es als "Saint John's" ausbuchstabiert worden wäre). Seit dem Aufkommen von computersortierten Listen ist diese Art der Alphabetisierung seltener anzutreffen, obwohl sie manchmal immer noch verwendet wird.

Ligaturen

Ligaturen (zwei oder mehr Buchstaben, die zu einem Symbol verschmolzen sind), die nicht als unterschiedliche Buchstaben gelten, wie Æ und Œ im Englischen, werden normalerweise so sortiert, als ob die Buchstaben getrennt wären – "æther" und "Äther" würden relativ zu . gleich angeordnet alle anderen Wörter. Dies gilt auch dann, wenn die Ligatur nicht rein stilistisch ist, wie etwa in Lehnwörtern und Markennamen.

Möglicherweise müssen spezielle Regeln angewendet werden, um Zeichenfolgen zu sortieren, die sich nur dadurch unterscheiden, ob zwei Buchstaben durch eine Ligatur verbunden sind.

Behandlung von Ziffern

Wenn einige der Strings Ziffern (oder andere Nicht-Buchstaben-Zeichen) enthalten, sind verschiedene Ansätze möglich. Manchmal werden solche Zeichen so behandelt, als ob sie vor oder nach allen Buchstaben des Alphabets stünden. Eine andere Methode besteht darin, Zahlen alphabetisch zu sortieren, wie sie geschrieben würden: zum Beispiel würde 1776 so sortiert, als ob sie "siebzehnundsiebzig" geschrieben wäre, und 24 heures du Mans, als ob sie "vingt-quatre..." geschrieben würden (Französisch für "vierundzwanzig"). Wenn Ziffern oder andere Symbole als spezielle grafische Formen von Buchstaben verwendet werden, wie 1337 für leet oder der Film Sieben (der als Se7en stilisiert wurde ), können sie so sortiert werden, als wären es diese Buchstaben. Die natürliche Sortierreihenfolge ordnet Strings alphabetisch, außer dass mehrstellige Zahlen als einzelnes Zeichen behandelt und nach dem Wert der durch die Ziffern codierten Zahl geordnet werden.

Sprachspezifische Konventionen

Sprachen, die ein erweitertes lateinisches Alphabet verwenden, haben im Allgemeinen ihre eigenen Konventionen für die Behandlung der zusätzlichen Buchstaben. Auch in einigen Sprachen werden bestimmte Digraphen für Kollationszwecke als einzelne Buchstaben behandelt. Zum Beispiel kann der 29-Buchstaben - Alphabet der spanischen behandelt ñ als Grundbuchstaben folgenden n , und die früher Digraphen behandelt ch und ll folgenden als Grundbuchstaben c und l , respectively. Ch und ll gelten immer noch als Buchstaben, sind aber jetzt als Zwei-Buchstaben-Kombinationen alphabetisch sortiert. (Die neue Alphabetisierungsregel wurde 1994 von der Royal Spanish Academy herausgegeben .) Andererseits folgt der Digraph rr wie erwartet auf rqu , und zwar noch vor der Alphabetisierungsregel von 1994.

In einigen wenigen Fällen, wie beispielsweise in Kiowa , wurde das Alphabet komplett neu geordnet.

Alphabetisierungsregeln, die in verschiedenen Sprachen angewendet werden, sind unten aufgeführt.

In Aserbaidschanisch gibt es acht zusätzliche Buchstaben zum lateinischen Standardalphabet. Fünf davon sind Vokale: i, ı, ö, ü, ə und drei sind Konsonanten: ç, ş, ğ. Das Alphabet ist das gleiche wie das türkische Alphabet , mit den gleichen Lauten, die mit den gleichen Buchstaben geschrieben werden, mit Ausnahme von drei zusätzlichen Buchstaben: q, x und ə für Laute, die im Türkischen nicht existieren. Obwohl alle "türkischen Buchstaben" in ihrer "normalen" alphabetischen Reihenfolge wie im Türkischen sortiert sind, werden die drei zusätzlichen Buchstaben willkürlich nach Buchstaben sortiert, deren Laute sich ihrem nähern. Also wird q direkt nach k kollationiert, x (ausgesprochen wie ein deutsches ch ) wird direkt nach h kollationiert und ə (ungefähr wie ein englisches kurzes a ausgesprochen ) wird direkt nach e kollationiert.
Auf Bretonisch gibt es kein "c", "q", "x", aber es gibt die Digraphen "ch" und "c'h", die zwischen "b" und "d" zusammengefasst werden. Zum Beispiel: « buzhugenn, tucker, c'hoar, daeraouenn » (Regenwurm, Saft, Schwester, Träne).
In Bosnisch , Kroatisch und Serbisch und anderen verwandten südslawischen Sprachen werden die fünf Akzentzeichen und drei verbundene Zeichen nach den Originalen sortiert: ..., C, Č, Ć, D, DŽ, Đ, E, ..., L , LJ, M, N, NJ, O, ..., S, , T, ..., Z, Ž.
Im Tschechischen und Slowakischen haben akzentuierte Vokale ein sekundäres Sortiergewicht – im Vergleich zu anderen Buchstaben werden sie als ihre akzentfreien Formen behandelt (A-Á, E-É-Ě, I-Í, O-Ó-Ô, U-Ú-Ů , Y-Ý), aber dann werden sie nach den akzentfreien Buchstaben sortiert (die richtige lexikographische Reihenfolge ist beispielsweise baa, baá, báa, bab, báb, bac, bác, bač, báč). Akzentuierte Konsonanten (die mit caron ) haben ein primäres Sortiergewicht und werden unmittelbar nach ihren akzentfreien Gegenstücken angeordnet, mit Ausnahme von Ď, Ň und Ť, die wiederum sekundäres Gewicht haben. CH gilt als ein separates Schreiben und geht zwischen seine H und I . Im Slowakischen werden DZ und DŽ auch als separate Buchstaben betrachtet und zwischen Ď und E positioniert (A-Á-Ä-BC-Č-D-Ď-DZ-DŽ-E-É...).
Im dänischen und norwegischen Alphabet sind die gleichen zusätzlichen Vokale wie im Schwedischen (siehe unten) ebenfalls vorhanden, jedoch in einer anderen Reihenfolge und mit anderen Glyphen (..., X, Y, Z, Æ , Ø , Å ). Außerdem wird "Aa" als Äquivalent zu "Å" sortiert. Das dänische Alphabet hat "W" traditionell als eine Variante von "V" gesehen, aber heute wird "W" als separater Buchstabe angesehen.
Im Niederländischen wurde die Kombination IJ (für Ĳ ) früher als Y (oder manchmal als separater Buchstabe: Y < IJ < Z) gesammelt, wird aber derzeit meist als 2 Buchstaben (II < IJ < IK) gesammelt. Ausnahmen sind Telefonbücher; IJ wird hier immer als Y zusammengestellt, da in vielen niederländischen Familiennamen Y verwendet wird, wo die moderne Schreibweise IJ erfordern würde. Beachten Sie, dass ein mit ij beginnendes Wort, das mit einem großen I geschrieben wird, auch mit einem großen J geschrieben wird, zum Beispiel die Stadt IJmuiden , der Fluss IJssel und das Land IJsland ( Island ).
Im Esperanto werden Konsonanten mit Zirkumflex- Akzent ( ĉ , ĝ , ĥ , ĵ , ŝ ) sowie ŭ (u mit Breve ) als separate Buchstaben gezählt und separat sortiert (c, ĉ, d, e, f, g, ĝ, h, ĥ, i, j, ĵ ... s, ŝ, t, u, ŭ, v, z).
Im Estnischen werden õ , ä , ö und ü als separate Buchstaben betrachtet und nach w zusammengestellt . Die Buchstaben š , z und ž erscheinen nur in Lehnwörtern und ausländischen Eigennamen und folgen dem Buchstaben s im estnischen Alphabet , das sich ansonsten nicht vom lateinischen Grundalphabet unterscheidet.
Das färöische Alphabet hat auch einige der dänischen, norwegischen und schwedischen Zusatzbuchstaben, nämlich Æ und Ø . Darüber hinaus verwendet das färöische Alphabet das isländische eth, das dem D folgt . Fünf der sechs Vokale A , I , O , U und Y können Akzente bekommen und werden danach als separate Buchstaben betrachtet. Die Konsonanten C , Q , X , W und Z werden nicht gefunden. Daher sind die ersten fünf Buchstaben A , Á , B , D und Ð und die letzten fünf sind V , Y , Ý , Æ , Ø
In Filipino (Tagalog) und anderen philippinischen Sprachen wird der Buchstabe Ng als separater Buchstabe behandelt. Es wird wie in Sing, Ping-Pong usw. ausgesprochen. An sich wird es nang ausgesprochen , aber in der philippinischen Rechtschreibung wird es so geschrieben, als ob es zwei separate Buchstaben wären (n und g). Außerdem folgen Buchstabenableitungen (wie Ñ ) unmittelbar auf den Basisbuchstaben. Filipino wird auch mit diakritischen Zeichen geschrieben, aber ihre Verwendung ist sehr selten (außer der Tilde ). (Die philippinische Rechtschreibung umfasst auch die Rechtschreibung.)
Das finnische Alphabet und die Sortierregeln sind die gleichen wie im Schwedischen.
Für Französisch bestimmt der letzte Akzent in einem bestimmten Wort die Reihenfolge. Im Französischen würden beispielsweise die folgenden vier Wörter so sortiert: cote < côte < coté < côté.
Im Deutschen werden Buchstaben mit Umlauten ( Ä , Ö , Ü ) im Allgemeinen genauso behandelt wie ihre nicht umlautenen Versionen; ß wird immer als ss sortiert. Dies ergibt die alphabetische Reihenfolge Arbeit, Arg, Ärgerlich, Argument, Arm, Assistent, Aßlar, Assoziation. Bei Telefonbüchern und ähnlichen Namenslisten sind die Umlaute wie die Buchstabenkombinationen "ae", "oe", "ue" zusammenzufassen, da einige deutsche Nachnamen sowohl mit Umlaut als auch in nicht umlauter Form mit "e ." erscheinen " (Müller/Müller). Damit ergibt sich die alphabetische Reihenfolge Udet, Übelacker, Uell, Ülle, Ueve, Üxküll, Uffenbach.
Die ungarischen Vokale haben Akzente, Umlaute und Doppelakzente, während Konsonanten mit einfachen, doppelten (Digraphen) oder dreifachen (Trigraphen) Zeichen geschrieben werden. Beim Sortieren sind akzentuierte Vokale mit ihren akzentfreien Gegenstücken gleichwertig, und Doppel- und Dreifachzeichen folgen ihren einzelnen Originalen. Die ungarische alphabetische Reihenfolge ist: A=Á , B, C, Cs , D, Dz , Dzs , E=É , F, G, Gy , H, I=Í , J, K, L, Ly , M, N, Ny , O=Ó , Ö=Ő , P, Q, R, S, Sz , T, Ty , U=Ú , Ü=Ű , V, W, X, Y, Z, Zs . (Vor 1984 wurden dz und dzs nicht als einzelne Buchstaben für die Sortierung betrachtet, sondern jeweils als zwei Buchstaben, d+z und d+zs.) Das bedeutet, dass zB nádcukor vor nádcsomó stehen sollte (obwohl s normalerweise vor u steht ), da c vorangeht cs in der Kollation. Der Unterschied in der Vokallänge sollte nur berücksichtigt werden, wenn die beiden Wörter ansonsten identisch sind (zB egér, éger ). Leerzeichen und Bindestriche innerhalb von Phrasen werden bei der Sortierung ignoriert. Ch kommt in bestimmten Wörtern auch als Digraph vor, wird aber hinsichtlich der Kollation nicht als eigenständiges Graphem betrachtet.
Eine Besonderheit der ungarischen Kollation besteht darin, dass kontrahierte Formen von Doppeldi- und Trigraphen (wie ggy von gy + gy oder ddzs von dzs + dzs ) so zusammengetragen werden sollten, als ob sie vollständig geschrieben wären (unabhängig von der Tatsache der Kontraktion und die Elemente der Di- oder Trigraphen). Zum Beispiel kaszinó sollte precede kassza (obwohl das 4. Zeichen z normalerweise nach kommen würde s im Alphabet), weil der vierte „Charakter“ ( Graphem ) des Wortes kassza ein zweites betrachtet wird sz (Zersetzung SSZ in sz + sz ) , das folgt i (in kaszinó ).
Auf Isländisch wird Þ hinzugefügt und auf D folgt Ð . Auf jeden Vokal (A, E, I, O, U, Y) folgt sein Korrespondent mit Akut : Á, É, Í, Ó, Ú, Ý. Es gibt kein Z, daher endet das Alphabet: ... X, Y, Ý, Þ , Æ , Ö.
- Beide Buchstaben wurden auch von angelsächsischen Schreibern verwendet, die auch den Runenbuchstaben Wynn benutzten , um /w/ darzustellen.
- Þ (Dorn genannt; Kleinbuchstabe þ) ist auch ein Runenbuchstabe.
- Ð (genannt eth; Kleinbuchstaben ð) ist der Buchstabe D mit einem zusätzlichen Strich.
Kiowa ist nach phonetischen Prinzipien geordnet, wie die brahmischen Schriften , und nicht nach der historischen lateinischen Ordnung. Vokale kommen zuerst, dann Stoppkonsonanten, die von vorne nach hinten geordnet sind, und von negativer zu positiver Stimmbeginnzeit , dann die Affrikate, Frikative, Flüssigkeiten und Nasale:

A, AU, E, I, O, U, B, F, P, V, D, J, T, TH, G, C, K, Q, CH, X, S, Z, L, Y, W, H, M, N

Im Litauischen folgen spezifisch litauische Buchstaben ihren lateinischen Originalen. Eine weitere Änderung ist, dass Y kurz vor J kommt : ... G, H, I, Į, Y, J, K...
Im Polnischen werden spezifisch polnische Buchstaben des lateinischen Alphabets nach ihren Originalen sortiert: A, Ą, B, C, Ć, D, E, Ę, ..., L, Ł, M, N, Ń, O, Ó , P, ..., S, , T, ..., Z, Ź, Ż. Die Digraphen für Kollationszwecke werden so behandelt, als ob sie zwei separate Buchstaben wären.
Auf Portugiesisch ist die Sortierreihenfolge wie auf Englisch: A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z. Digraphen und Buchstaben mit diakritischen Zeichen sind nicht im Alphabet enthalten.
Im Rumänischen werden Sonderzeichen des lateinischen Alphabets nach ihren Originalen sortiert: A, Ă, Â, ..., I, Î, ..., S, Ș, T, Ț, ..., Z.
Spanisch (bis 1994) "CH" und "LL" als einzelne Buchstaben behandelt, eine Ordnung zu geben , cinco , Credo , chispa und Lomo , luz , Lama . Dies ist nicht mehr der Fall, da die RAE 1994 die konventionellere Verwendung angenommen hat und jetzt LL zwischen LK und LM und CH zwischen CG und CI abgeglichen wird. Die sechs Zeichen mit diakritischen Zeichen Á, É, Í, Ó, Ú, Ü werden wie die Originalbuchstaben A, E, I, O, U behandelt, zum Beispiel: radio , ráfaga , rana , rápido , rastrillo . Die einzige spanisch-spezifische Sortierfrage ist Ñ ( eñe ) als ein anderer Buchstabe, der nach N sortiert wird.
Im schwedischen Alphabet gibt es drei zusätzliche Vokale am Ende (..., X, Y, Z, Å , Ä , Ö ), ähnlich dem dänischen und norwegischen Alphabet, aber mit anderen Glyphen und einer anderen Sortierreihenfolge. Der Buchstabe "W" wurde als Variante von "V" behandelt, aber in der 13. Ausgabe von Svenska Akademiens ordlista (2006) wurde "W" als separater Buchstabe betrachtet.
Im türkischen Alphabet gibt es 6 zusätzliche Buchstaben: ç, ğ, ı, ö, ş und ü (aber kein q, w und x). Sie werden mit ç nach c, ğ nach g, ı vor i, ö nach o, ş nach s und ü nach u sortiert. Ursprünglich, als das Alphabet 1928 eingeführt wurde, wurde ı nach i sortiert, aber die Reihenfolge wurde später geändert, so dass Buchstaben mit Formen, die Punkte, Cedilles oder andere Zierzeichen enthalten, immer den Buchstaben mit entsprechenden bloßen Formen folgen. Beachten Sie, dass in der türkischen Rechtschreibung der Buchstabe I die Majuskel des punktlosen ı ist, während İ die Majuskel des gepunkteten i ist.
In vielen Turksprachen (wie Aserbaidschan oder der Jaꞑalif- Orthographie für Tatarisch ) gab es früher den Buchstaben Gha (Ƣƣ), der zwischen G und H kam . Es wird jetzt nicht mehr verwendet.
Auf Vietnamesisch gibt es 7 zusätzliche Buchstaben: ă , â , đ , ê , ô , ơ , ư während f , j , w , z fehlen, obwohl sie noch in Gebrauch sind (wie Internetadresse, Fremdsprache) . "f" wird durch die Kombination "ph" ersetzt. Das gleiche wie für "w" ist "qu".
In Volapük werden ä , ö und ü als separate Buchstaben gezählt und getrennt geordnet (a, ä, b ... o, ö, p ... u, ü, v), während q und w fehlen.
Im Walisischen werden die Digraphen CH, DD, FF, NG, LL, PH, RH und TH als einzelne Buchstaben behandelt, und jeder wird nach dem ersten Zeichen des Paares aufgeführt (außer NG, das nach G aufgeführt ist), wodurch die Reihenfolge A, B, C, CH, D, DD, E, F, FF, G, NG, H usw. Es kann manchmal passieren, aber das Wort ergibt das Nebeneinander von zwei Buchstaben Compoundierung , die sie nicht einen Digraph bilden. Ein Beispiel ist das Wort LLONGYFARCH (zusammengesetzt aus LLON + GYFARCH). Daraus ergibt sich eine solche Ordnung wie zB LAWR, LWCUS, LLONG, LLOM, LLONGYFARCH (NG ist ein Digraph in LLONG, aber nicht in LLONGYFARCH). Die Buchstabenkombination R+H (im Unterschied zum Digraphen RH) kann in ähnlicher Weise durch Nebeneinanderstellung in Verbindungen entstehen, obwohl dies dazu neigt, keine Paare zu erzeugen, in denen eine Fehlidentifikation die Ordnung beeinflussen könnte. Für die anderen möglicherweise verwirrenden Buchstabenkombinationen – D+D und L+L – wird in der Schreibweise ein Bindestrich verwendet (zB AD-DAL, CHWIL-LYS).

Automatisierung

Sortieralgorithmen (in Kombination mit Sortieralgorithmen ) werden in der Computerprogrammierung verwendet, um Zeichenfolgen in alphabetischer Reihenfolge zu platzieren. Ein Standardbeispiel ist der Unicode Collation Algorithm , der verwendet werden kann, um Strings, die beliebige Unicode- Symbole enthalten, in (eine Erweiterung der) alphabetischen Reihenfolge zu bringen. Sie kann den meisten der oben beschriebenen sprachspezifischen Konventionen angepasst werden, indem ihre Standardkollationstabelle angepasst wird. Mehrere solcher Anpassungen werden im Common Locale Data Repository gesammelt .

Siehe auch

Verweise

Weiterlesen

Chauvin, Yvonne. Pratique du Classement Alphabétique . 4. Aufl. Paris: Bordas, 1977. ISBN 2-04-010155-1
Flandern, Judith . Ein Ort für alles: Die kuriose Geschichte der alphabetischen Ordnung . New York: Basic Books / Hatchette Books, 2020. ISBN 978-1-5416-7507-0

Languages

In other projects