Genomik - Genomics

Genomik ist ein interdisziplinäres Gebiet der Biologie, das sich auf die Struktur, Funktion, Evolution, Kartierung und Bearbeitung von Genomen konzentriert . Ein Genom ist die vollständige DNA eines Organismus , einschließlich aller seiner Gene. Im Gegensatz zur Genetik , die sich auf die Erforschung einzelner Gene und ihrer Rolle bei der Vererbung bezieht , zielt die Genomik auf die kollektive Charakterisierung und Quantifizierung aller Gene eines Organismus, ihrer Wechselbeziehungen und ihres Einflusses auf den Organismus. Gene können die Produktion von Proteinen mit Hilfe von Enzymen und Botenmolekülen steuern. Proteine ​​wiederum bilden Körperstrukturen wie Organe und Gewebe, steuern chemische Reaktionen und übertragen Signale zwischen Zellen. Genomik umfasst auch die Sequenzierung und Analyse von Genomen durch den Einsatz von Hochdurchsatz- DNA-Sequenzierung und Bioinformatik , um die Funktion und Struktur ganzer Genome zusammenzusetzen und zu analysieren. Fortschritte in der Genomik haben eine Revolution in der erfindungsbasierten Forschung und der Systembiologie ausgelöst , um das Verständnis selbst der komplexesten biologischen Systeme wie des Gehirns zu erleichtern.

Das Feld umfasst auch Studien zu intragenomischen (innerhalb des Genoms) Phänomenen wie Epistase (Wirkung eines Gens auf ein anderes), Pleiotropie (ein Gen beeinflusst mehr als ein Merkmal), Heterosis (hybride Vitalität) und andere Interaktionen zwischen Loci und Allelen innerhalb das Genom.

Geschichte

Etymologie

Aus dem Griechischen ΓΕΝ gen , "gene" (gamma, epsilon, nu, epsilon) bedeutet "werden, erschaffen, erschaffen, gebären" und die nachfolgenden Varianten: Genealogie, Genese, Genetik, genic, Genomer, Genotyp, Gattung usw. Während die Das Wort Genom (vom deutschen Genom , Hans Winkler zugeschrieben ) wurde im Englischen bereits 1926 verwendet, der Begriff Genomik wurde von Tom Roderick, einem Genetiker am Jackson Laboratory ( Bar Harbor, Maine ), bei einem Bier bei einem Meeting geprägt 1986 in Maryland über die Kartierung des menschlichen Genoms statt.

Frühe Sequenzierungsbemühungen

Nach der Bestätigung der helikalen Struktur der DNA durch Rosalind Franklin , der Veröffentlichung der DNA-Struktur durch James D. Watson und Francis Crick im Jahr 1953 und der Veröffentlichung der Aminosäuresequenz von Insulin durch Fred Sanger im Jahr 1955 wurde die Nukleinsäuresequenzierung ein wichtiges Ziel der frühen Molekularbiologen . 1964 veröffentlichten Robert W. Holley und Kollegen die erste jemals bestimmte Nukleinsäuresequenz, die Ribonukleotidsequenz der Alanin- Transfer-RNA . In Erweiterung dieser Arbeit enthüllten Marshall Nirenberg und Philip Leder die Triplettnatur des genetischen Codes und konnten in ihren Experimenten die Sequenzen von 54 von 64 Codons bestimmen . 1972 konnten Walter Fiers und sein Team am Labor für Molekularbiologie der Universität Gent ( Gent , Belgien ) als erste die Sequenz eines Gens bestimmen: das Gen für das Hüllprotein des Bakteriophagen MS2 . Fiers' Gruppe erweiterte ihre Arbeit an MS2-Hüllproteinen und bestimmte 1976 bzw. 1978 die vollständige Nukleotidsequenz der Bakteriophagen MS2-RNA (deren Genom nur vier Gene in 3569 Basenpaaren [bp] codiert ) und des Simian-Virus 40 .

DNA-Sequenzierungstechnologie entwickelt

Friedrich Sänger
Walter Gilbert
Frederick Sanger und Walter Gilbert teilten sich 1980 die Hälfte des Nobelpreises für Chemie für die unabhängige Entwicklung von Methoden zur DNA-Sequenzierung.

Neben seinen bahnbrechenden Arbeiten zur Aminosäuresequenz von Insulin waren Frederick Sanger und seine Kollegen maßgeblich an der Entwicklung von DNA-Sequenzierungstechniken beteiligt, die die Etablierung umfassender Genomsequenzierungsprojekte ermöglichten. 1975 veröffentlichten er und Alan Coulson ein Sequenzierungsverfahren unter Verwendung von DNA-Polymerase mit radioaktiv markierten Nukleotiden, das er Plus- und Minus-Technik nannte . Dies beinhaltete zwei eng verwandte Verfahren, die kurze Oligonukleotide mit definierten 3'-Termini erzeugten. Diese konnten durch Elektrophorese auf einem Polyacrylamidgel (genannt Polyacrylamidgelelektrophorese) fraktioniert und mittels Autoradiographie sichtbar gemacht werden. Das Verfahren konnte bis zu 80 Nukleotide auf einmal sequenzieren und war eine große Verbesserung, aber immer noch sehr mühsam. Dennoch war seine Gruppe 1977 in der Lage, die meisten der 5.386 Nukleotide des einzelsträngigen Bakteriophagen φX174 zu sequenzieren , wodurch das erste vollständig sequenzierte DNA-basierte Genom fertiggestellt wurde. Die Verfeinerung der Plus- und Minus- Methode führte zur Kettenabbruch- oder Sanger-Methode (siehe unten ), die die Grundlage der im folgenden Quartal am häufigsten verwendeten Techniken der DNA-Sequenzierung, Genomkartierung, Datenspeicherung und bioinformatischen Analyse bildete -Jahrhundert der Forschung. Im selben Jahr entwickelten Walter Gilbert und Allan Maxam von der Harvard University unabhängig voneinander die Maxam-Gilbert- Methode (auch als chemische Methode bekannt ) der DNA-Sequenzierung, bei der die DNA bevorzugt an bekannten Basen gespalten wird, eine weniger effiziente Methode. Für ihre bahnbrechenden Arbeiten zur Sequenzierung von Nukleinsäuren teilten sich Gilbert und Sanger 1980 den halben Nobelpreis für Chemie mit Paul Berg ( rekombinante DNA ).

Vollständige Genome

Das Aufkommen dieser Technologien führte zu einer raschen Intensivierung des Umfangs und der Geschwindigkeit bei der Durchführung von Genomsequenzierungsprojekten . Die erste vollständige Genomsequenz einer eukaryotischen Organelle , des menschlichen Mitochondriums (16.568 bp, ca. 16,6 kb [Kilobase]), wurde 1981 beschrieben, und die ersten Chloroplastengenome folgten 1986. 1992 wurde das erste eukaryotische Chromosom , Chromosom III von Bierhefe Saccharomyces cerevisiae (315 kb) wurde sequenziert. Der erste freilebende Organismus, der 1995 sequenziert wurde, war der von Haemophilus influenzae (1,8 Mb [Megabase]). Im folgenden Jahr gab ein Konsortium von Forschern aus Labors in Nordamerika , Europa und Japan den Abschluss der ersten vollständigen Genomsequenz bekannt eines Eukaryoten, S. cerevisiae (12,1 Mb), und seitdem werden Genome mit exponentiell wachsender Geschwindigkeit sequenziert. Ab Oktober 2011 liegen die vollständigen Sequenzen vor für: 2.719 Viren , 1.115 Archaeen und Bakterien sowie 36 Eukaryoten , davon etwa die Hälfte Pilze .

"Hockey-Stick"-Grafik, die das exponentielle Wachstum öffentlicher Sequenzdatenbanken zeigt.
Die Zahl der Genomprojekte hat zugenommen, da technologische Verbesserungen die Kosten der Sequenzierung weiter senken. (A) Exponentielles Wachstum von Genomsequenzdatenbanken seit 1995. (B) Die Kosten in US-Dollar (USD) für die Sequenzierung von einer Million Basen. (C) Die Kosten in USD, um ein 3.000 Mb (menschengroßes) Genom im logarithmischen Maßstab zu sequenzieren.

Die meisten Mikroorganismen, deren Genome vollständig sequenziert wurden, sind problematische Krankheitserreger wie Haemophilus influenzae , was zu einer ausgeprägten Verzerrung ihrer phylogenetischen Verteilung im Vergleich zur Breite der mikrobiellen Vielfalt geführt hat. Von den anderen sequenzierten Arten wurden die meisten ausgewählt, weil sie gut untersuchte Modellorganismen waren oder versprachen, gute Modelle zu werden. Hefe ( Saccharomyces cerevisiae ) ist seit langem ein wichtiger Modellorganismus für die eukaryotische Zelle , während die Fruchtfliege Drosophila melanogaster ein sehr wichtiges Werkzeug (insbesondere in der frühen prämolekularen Genetik ) war. Der Wurm Caenorhabditis elegans ist ein häufig verwendetes einfaches Modell für vielzellige Organismen . Der Zebrafisch Brachydanio rerio wird für viele Entwicklungsstudien auf molekularer Ebene verwendet, und die Pflanze Arabidopsis thaliana ist ein Modellorganismus für Blütenpflanzen. Der Japanische Kugelfisch ( Takifugu rubripes ) und der Gefleckte Grüne Kugelfisch ( Tetraodon nigroviridis ) sind wegen ihrer kleinen und kompakten Genome interessant, die im Vergleich zu den meisten Arten nur sehr wenig nichtkodierende DNA enthalten . Die Säugetiere Hund ( Canis familiaris ), Braune Ratte ( Rattus norvegicus ), Maus ( Mus musculus ) und Schimpanse ( Pan troglodytes ) sind wichtige Modelltiere in der medizinischen Forschung.

Ein grober Entwurf des menschlichen Genoms wurde Anfang 2001 vom Human Genome Project fertiggestellt , was für viel Aufsehen sorgte. Dieses Projekt, das 2003 abgeschlossen wurde, sequenzierte das gesamte Genom für eine bestimmte Person, und 2007 wurde diese Sequenz für "fertig" erklärt (weniger als ein Fehler in 20.000 Basen und alle Chromosomen zusammengebaut). In den Jahren seither wurden die Genome vieler anderer Individuen sequenziert, teilweise unter der Schirmherrschaft des 1000 Genomes Project , das im Oktober 2012 die Sequenzierung von 1.092 Genomen ankündigte. Der Abschluss dieses Projekts wurde durch die Entwicklung von dramatisch mehr effiziente Sequenzierungstechnologien und erforderten den Einsatz bedeutender Bioinformatik- Ressourcen aus einer großen internationalen Zusammenarbeit. Die fortgesetzte Analyse menschlicher Genomdaten hat tiefgreifende politische und soziale Auswirkungen auf menschliche Gesellschaften.

Die "Omics"-Revolution

Allgemeines Schema, das die Beziehungen von Genom , Transkriptom , Proteom und Metabolom ( Lipidom ) zeigt.

Der englischsprachige Neologismus omics bezeichnet informell ein Studienfach der Biologie mit der Endung -omics , wie Genomics, Proteomics oder Metabolomics . Das zugehörige Suffix -ome wird verwendet, um die Untersuchungsgegenstände solcher Gebiete, wie das Genom , das Proteom bzw. das Metabolom , zu adressieren . Das Suffix -ome, wie es in der Molekularbiologie verwendet wird, bezieht sich auf eine Art Gesamtheit ; in ähnlicher Weise bezeichnet Omics allgemein das Studium großer, umfassender biologischer Datensätze. Während die zunehmende Verwendung des Begriffs einige Wissenschaftler ( ua Jonathan Eisen ) zu der Behauptung veranlasst hat, er sei überverkauft, spiegelt er die veränderte Ausrichtung hin zur quantitativen Analyse des vollständigen oder nahezu vollständigen Sortiments aller Bestandteile von ein System. Bei der Untersuchung von Symbiosen beispielsweise können Forscher, die früher auf die Untersuchung eines einzelnen Genprodukts beschränkt waren, jetzt gleichzeitig das Gesamtkomplement mehrerer Arten biologischer Moleküle vergleichen.

Genomanalyse

Nachdem ein Organismus ausgewählt wurde, umfassen Genomprojekte drei Komponenten: die Sequenzierung der DNA, den Zusammenbau dieser Sequenz, um eine Darstellung des ursprünglichen Chromosoms zu erstellen, sowie die Annotation und Analyse dieser Darstellung.

Überblick über ein Genomprojekt. Zunächst muss das Genom ausgewählt werden, was mehrere Faktoren wie Kosten und Relevanz beinhaltet. Zweitens wird die Sequenz an einem gegebenen Sequenzierungszentrum (wie BGI oder DOE JGI ) erzeugt und zusammengesetzt . Drittens wird die Genomsequenz auf mehreren Ebenen annotiert: DNA, Protein, Genwege oder vergleichsweise.

Sequenzierung

Historisch wurde die Sequenzierung in Sequenzierungszentren durchgeführt , zentralisierten Einrichtungen (von großen unabhängigen Institutionen wie dem Joint Genome Institute, das Dutzende von Terabasen pro Jahr sequenziert, bis hin zu lokalen Kerneinrichtungen der Molekularbiologie), die Forschungslabore mit der kostspieligen Instrumentierung und technischen Unterstützung enthalten, die erforderlich sind. Da sich die Sequenziertechnologie jedoch ständig verbessert, ist eine neue Generation von effektiven Benchtop-Sequenzern mit schneller Durchlaufzeit in Reichweite des durchschnittlichen akademischen Labors gekommen. Insgesamt lassen sich Genomsequenzierungsansätze in zwei große Kategorien einteilen, Shotgun- und Hochdurchsatz- (oder Next-Generation- )Sequenzierung.

Schrotflinten-Sequenzierung

Ein ABI PRISM 3100 Genetic Analyzer. Solche Kapillarsequenzer automatisierten frühe groß angelegte Genomsequenzierungsversuche.

Shotgun-Sequenzierung ist eine Sequenzierungsmethode zur Analyse von DNA-Sequenzen mit mehr als 1000 Basenpaaren bis hin zu ganzen Chromosomen. Es ist in Analogie zu dem schnell expandierenden, quasi-zufälligen Schussmuster einer Schrotflinte benannt . Da die Gelelektrophorese-Sequenzierung nur für relativ kurze Sequenzen (100 bis 1000 Basenpaare) verwendet werden kann, müssen längere DNA-Sequenzen in zufällige kleine Segmente zerlegt werden, die dann sequenziert werden, um Reads zu erhalten . Mehrere überlappende Reads für die Ziel-DNA werden erhalten, indem mehrere Runden dieser Fragmentierung und Sequenzierung durchgeführt werden. Computerprogramme verwenden dann die überlappenden Enden verschiedener Lesevorgänge, um sie zu einer kontinuierlichen Sequenz zusammenzusetzen. Die Shotgun-Sequenzierung ist ein Zufallsverfahren, das eine Überabtastung erfordert, um sicherzustellen, dass ein bestimmtes Nukleotid in der rekonstruierten Sequenz vertreten ist; die durchschnittliche Anzahl von Reads, um die ein Genom überabgetastet wird, wird als Coverage bezeichnet .

Für einen Großteil seiner Geschichte war die der Shotgun-Sequenzierung zugrunde liegende Technologie die klassische Kettenabbruchmethode oder " Sanger-Methode ", die auf dem selektiven Einbau von kettenabbrechenden Didesoxynukleotiden durch DNA-Polymerase während der in vitro- DNA-Replikation basiert . In letzter Zeit wurde die Shotgun-Sequenzierung durch Hochdurchsatz-Sequenzierungsverfahren ersetzt , insbesondere für groß angelegte, automatisierte Genomanalysen . Die Sanger-Methode bleibt jedoch weit verbreitet, hauptsächlich für kleinere Projekte und um besonders lange zusammenhängende DNA-Sequenz-Reads (> 500 Nukleotide) zu erhalten. Kettenabbruchmethoden erfordern eine einzelsträngige DNA-Matrize, einen DNA- Primer , eine DNA-Polymerase , normale Desoxynukleosidtriphosphate (dNTPs) und modifizierte Nukleotide (DideoxyNTPs), die die DNA-Strangverlängerung beenden. Diesen kettenabbrechenden Nukleotiden fehlt eine 3'- OH- Gruppe, die für die Bildung einer Phosphodiesterbindung zwischen zwei Nukleotiden erforderlich ist , was dazu führt, dass die DNA-Polymerase die Verlängerung der DNA beendet, wenn ein ddNTP eingebaut wird. Die ddNTPs können zum Nachweis in DNA-Sequenzern radioaktiv oder fluoreszenzmarkiert sein . Typischerweise können diese Maschinen bis zu 96 DNA-Proben in einer einzigen Charge (Lauf) in bis zu 48 Läufen pro Tag sequenzieren.

Hochdurchsatz-Sequenzierung

Die hohe Nachfrage nach kostengünstiger Sequenzierung hat die Entwicklung von Hochdurchsatz-Sequenzierungstechnologien vorangetrieben, die den Sequenzierungsprozess parallelisieren und Tausende oder Millionen von Sequenzen gleichzeitig produzieren. Hochdurchsatz-Sequenzierung soll die Kosten der DNA-Sequenzierung über das hinaus senken, was mit Standard-Farbstoff-Terminator-Methoden möglich ist. Bei der Ultrahochdurchsatz-Sequenzierung können bis zu 500.000 Sequenzierungs-durch-Synthese-Operationen parallel ausgeführt werden.

Illumina Genome Analyzer II-System. Die Technologien von Illumina haben den Standard für massiv parallele Sequenzierung mit hohem Durchsatz gesetzt.

Die Farbstoffsequenzierungsmethode von Illumina basiert auf reversiblen Farbstoffterminatoren und wurde 1996 am Genfer Biomedizinischen Forschungsinstitut von Pascal Mayer  [ fr ] und Laurent Farinelli entwickelt. Bei diesem Verfahren werden zunächst DNA-Moleküle und Primer auf einem Objektträger befestigt und mit Polymerase amplifiziert, so dass lokale klonale Kolonien, zunächst als "DNA-Kolonien" bezeichnet, entstehen. Um die Sequenz zu bestimmen, werden vier Typen von reversiblen Terminatorbasen (RT-Basen) hinzugefügt und nicht eingebaute Nukleotide werden weggewaschen. Im Gegensatz zur Pyrosequenzierung werden die DNA-Ketten jeweils um Nukleotid verlängert und die Bildaufnahme kann zu einem verzögerten Zeitpunkt durchgeführt werden, wodurch sehr große Arrays von DNA-Kolonien durch sequentielle Bilder von einer einzigen Kamera erfasst werden können. Die Entkopplung der enzymatischen Reaktion und der Bildaufnahme ermöglicht einen optimalen Durchsatz und eine theoretisch unbegrenzte Sequenzierkapazität; Bei einer optimalen Konfiguration hängt der endgültige Durchsatz des Instruments nur von der A/D-Wandlungsrate der Kamera ab. Die Kamera nimmt Bilder der fluoreszenzmarkierten Nukleotide auf, dann wird der Farbstoff zusammen mit dem terminalen 3'-Blocker chemisch aus der DNA entfernt, was den nächsten Zyklus ermöglicht.

Ein alternativer Ansatz, die Ionenhalbleitersequenzierung , basiert auf der Standard-DNA-Replikationschemie. Diese Technologie misst jedes Mal, wenn eine Base eingebaut wird, die Freisetzung eines Wasserstoffions. Ein Mikrowell, das Matrizen-DNA enthält, wird mit einem einzelnen Nukleotid geflutet , wenn das Nukleotid komplementär zum Matrizenstrang ist, wird es eingebaut und ein Wasserstoffion wird freigesetzt. Diese Freigabe löst einen ISFET- Ionensensor aus. Wenn ein Homopolymer in der Matrizensequenz vorhanden ist, werden mehrere Nukleotide in einem einzigen Flutzyklus eingebaut und das detektierte elektrische Signal wird proportional höher sein.

Montage

Überlappende Read-Form-Contigs; Contigs und Lücken bekannter Länge bilden Gerüste.
Paired-End-Reads von Sequenzierungsdaten der nächsten Generation, die einem Referenzgenom zugeordnet sind.
Mehrere, fragmentierte Sequenzlesevorgänge müssen auf der Grundlage ihrer überlappenden Bereiche zusammengefügt werden.

Sequenzzusammenbau bezieht sich auf das Alignment und Zusammenführen von Fragmenten einer viel längeren DNA- Sequenz, um die ursprüngliche Sequenz zu rekonstruieren. Dies ist notwendig, da die derzeitige DNA-Sequenzierungstechnologie nicht ganze Genome als kontinuierliche Sequenz lesen kann, sondern kleine Stücke von 20 bis 1000 Basen, je nach verwendeter Technologie, liest. Sequenzierungstechnologien der dritten Generation wie PacBio oder Oxford Nanopore erzeugen routinemäßig Sequenzierungs-Reads mit einer Länge von >10 kb; sie weisen jedoch mit ca. 15 Prozent eine hohe Fehlerquote auf. Typischerweise resultieren die kurzen Fragmente, die als Reads bezeichnet werden, aus der Shotgun-Sequenzierung genomischer DNA oder von Gentranskripten ( ESTs ).

Montageansätze

Die Assemblierung kann grob in zwei Ansätze eingeteilt werden: die De-novo- Assemblierung für Genome, die keiner in der Vergangenheit sequenzierten ähnlich sind, und die vergleichende Assemblierung, die die vorhandene Sequenz eines eng verwandten Organismus als Referenz während der Assemblierung verwendet. Im Vergleich zur vergleichenden Montage ist die De-novo- Montage rechentechnisch schwierig ( NP-hart ), was sie für kurz gelesene NGS-Technologien weniger günstig macht. Innerhalb des De-novo- Assembly-Paradigmas gibt es zwei Hauptstrategien für die Assemblierung, Eulersche Pfadstrategien und Overlap-Layout-Consensus (OLC)-Strategien. OLC-Strategien versuchen letztendlich, einen Hamilton-Pfad durch einen Überlappungsgraphen zu erzeugen, was ein NP-schweres Problem ist. Eulersche Pfadstrategien sind rechnerisch besser handhabbar, da sie versuchen, einen Eulerschen Pfad durch einen deBruijn-Graphen zu finden.

Fertigstellung

Fertige Genome sind so definiert, dass sie eine einzelne zusammenhängende Sequenz ohne Mehrdeutigkeiten aufweisen, die jedes Replikon darstellen .

Anmerkung

Der DNA-Sequenzaufbau allein ist ohne zusätzliche Analyse von geringem Wert. Genom-Annotation ist der Prozess des Anhängens biologischer Informationen an Sequenzen und besteht aus drei Hauptschritten:

  1. Identifizierung von Teilen des Genoms, die nicht für Proteine ​​kodieren
  2. Identifizierung von Elementen im Genom , ein Prozess, der als Genvorhersage bezeichnet wird , und
  3. Anhängen biologischer Informationen an diese Elemente.

Automatische Annotationstools versuchen, diese Schritte in silico auszuführen , im Gegensatz zur manuellen Annotation (auch Kuration genannt), die menschliches Fachwissen und eine potenzielle experimentelle Überprüfung erfordert. Idealerweise dieser Ansätze koexistieren und ergänzen sich in der gleichen Annotations - Pipeline (siehe auch unten ).

Traditionell besteht die grundlegende Ebene der Annotation darin, BLAST zu verwenden, um Ähnlichkeiten zu finden, und dann Genome basierend auf Homologen zu kommentieren. In jüngerer Zeit werden der Annotationsplattform zusätzliche Informationen hinzugefügt. Die zusätzlichen Informationen ermöglichen es manuellen Annotatoren, Diskrepanzen zwischen Genen zu entschlüsseln, die dieselbe Annotation erhalten. Einige Datenbanken verwenden Genom-Kontextinformationen, Ähnlichkeitsbewertungen, experimentelle Daten und Integrationen anderer Ressourcen, um Genom-Annotationen durch ihren Subsystem-Ansatz bereitzustellen. Andere Datenbanken (zB Ensembl ) stützen sich in ihrer automatisierten Genom-Annotation-Pipeline sowohl auf kuratierte Datenquellen als auch auf eine Reihe von Softwaretools. Strukturelle Annotation besteht aus der Identifizierung von genomischen Elementen, hauptsächlich ORFs und deren Lokalisierung oder Genstruktur. Funktionale Annotation besteht darin, genomischen Elementen biologische Informationen zuzuordnen.

Sequenzierung von Pipelines und Datenbanken

Der Bedarf an Reproduzierbarkeit und effizientem Management der großen Datenmengen im Zusammenhang mit Genomprojekten bedeutet, dass Computational Pipelines wichtige Anwendungen in der Genomik haben.

Forschungsgebiete

Funktionelle Genomik

Funktionelle Genomik ist ein Gebiet der Molekularbiologie , das versucht, die riesige Fülle von Daten aus Genomprojekten (wie Genomsequenzierungsprojekten ) zu nutzen, um Gen- (und Protein- ) Funktionen und Wechselwirkungen zu beschreiben. Functional genomics konzentriert sich auf die dynamischen Aspekte wie Gen - Transkription , Translation und Protein-Protein - Wechselwirkungen , wie auf die statischen Aspekte der genomischen Informationen , wie beispielsweise im Gegensatz DNA - Sequenz oder Strukturen. Funktionelle Genomik versucht, Fragen zur Funktion der DNA auf der Ebene von Genen, RNA-Transkripten und Proteinprodukten zu beantworten. Ein wesentliches Merkmal von Studien zur funktionellen Genomik ist ihr genomweiter Ansatz für diese Fragen, der im Allgemeinen Hochdurchsatzmethoden anstelle eines traditionelleren „Gen-für-Gen“-Ansatzes verwendet.

Ein wichtiger Zweig der Genomik beschäftigt sich immer noch mit der Sequenzierung der Genome verschiedener Organismen, aber die Kenntnis vollständiger Genome hat die Möglichkeit für das Gebiet der funktionellen Genomik geschaffen , die sich hauptsächlich mit Mustern der Genexpression unter verschiedenen Bedingungen befasst. Die wichtigsten Werkzeuge sind dabei Microarrays und Bioinformatik .

Strukturelle Genomik

Ein Beispiel für eine Proteinstruktur, die vom Midwest Center for Structural Genomics bestimmt wurde.

Strukturelle Genomik versucht, die dreidimensionale Struktur jedes Proteins zu beschreiben, das von einem bestimmten Genom kodiert wird . Dieser genombasierte Ansatz ermöglicht eine Hochdurchsatzmethode zur Strukturbestimmung durch eine Kombination von experimentellen und modellierenden Ansätzen . Der Hauptunterschied zwischen der Strukturgenomik und der traditionellen Strukturvorhersage besteht darin, dass die Strukturgenomik versucht, die Struktur jedes vom Genom kodierten Proteins zu bestimmen, anstatt sich auf ein bestimmtes Protein zu konzentrieren. Da vollständige Genomsequenzen verfügbar sind, kann die Strukturvorhersage durch eine Kombination von experimentellen und Modellierungsansätzen schneller erfolgen, insbesondere weil die Verfügbarkeit einer großen Anzahl sequenzierter Genome und zuvor gelöster Proteinstrukturen es Wissenschaftlern ermöglicht, die Proteinstruktur anhand der Strukturen zuvor gelöster Proteine ​​zu modellieren Homologe. Strukturgenomik umfasst eine Vielzahl von Ansätzen zur Strukturbestimmung, einschließlich experimenteller Methoden unter Verwendung genomischer Sequenzen oder modellierungsbasierter Ansätze basierend auf Sequenz- oder Strukturhomologie zu einem Protein bekannter Struktur oder basierend auf chemischen und physikalischen Prinzipien für ein Protein ohne Homologie zu jede bekannte Struktur. Im Gegensatz zur traditionellen Strukturbiologie steht die Bestimmung einer Proteinstruktur durch eine strukturelle Genomik oft (aber nicht immer) bevor etwas über die Proteinfunktion bekannt ist. Dies wirft neue Herausforderungen in der strukturellen Bioinformatik , dh der Bestimmung der Proteinfunktion aus seiner 3D- Struktur, auf.

Epigenomik

Epigenomik ist die Untersuchung des vollständigen Satzes epigenetischer Veränderungen am genetischen Material einer Zelle, dem sogenannten Epigenom . Epigenetische Modifikationen sind reversible Modifikationen der DNA oder Histone einer Zelle, die die Genexpression beeinflussen, ohne die DNA-Sequenz zu verändern (Russell 2010 S. 475). Zwei der am besten charakterisierten epigenetischen Modifikationen sind DNA-Methylierung und Histon-Modifikation . Epigenetische Modifikationen spielen eine wichtige Rolle bei der Genexpression und -regulation und sind an zahlreichen zellulären Prozessen wie der Differenzierung/Entwicklung und der Tumorgenese beteiligt . Die Erforschung der Epigenetik auf globaler Ebene wurde erst in jüngster Zeit durch die Anpassung genomischer Hochdurchsatz-Assays ermöglicht.

Metagenomik

Environmental Shotgun Sequencing (ESS) ist eine Schlüsseltechnik in der Metagenomik. (A) Probenahme aus dem Lebensraum; (B) Filtern von Partikeln, typischerweise nach Größe; (C) Lyse und DNA-Extraktion; (D) Klonen und Bibliotheksbau; (E) Sequenzieren der Klone; (F) Sequenzmontage in Contigs und Gerüste.

Metagenomik ist die Untersuchung von Metagenomen , genetischem Material, das direkt aus Umweltproben gewonnen wird . Das weite Feld kann auch als Umweltgenomik, Ökogenomik oder Gemeinschaftsgenomik bezeichnet werden. Während die traditionelle Mikrobiologie und die mikrobielle Genomsequenzierung auf kultivierten klonalen Kulturen beruhen, wurden bei der frühen Umweltgensequenzierung spezifische Gene (oft das 16S-rRNA- Gen) kloniert , um ein Diversitätsprofil in einer natürlichen Probe zu erstellen . Diese Arbeiten zeigten, dass der überwiegende Teil der mikrobiellen Biodiversität durch kultivierungsbasierte Methoden übersehen wurde . Jüngste Studien verwenden "Shotgun" -Sanger-Sequenzierung oder massiv parallele Pyrosequenzierung , um weitgehend unvoreingenommene Proben aller Gene von allen Mitgliedern der untersuchten Gemeinschaften zu erhalten. Aufgrund ihrer Fähigkeit, die bisher verborgene Vielfalt des mikroskopischen Lebens aufzudecken, bietet die Metagenomik eine leistungsstarke Linse für die Betrachtung der mikrobiellen Welt, die das Potenzial hat, das Verständnis der gesamten lebenden Welt zu revolutionieren.

Modellsysteme

Viren und Bakteriophagen

Bakteriophagen spielten und spielen eine Schlüsselrolle in der bakteriellen Genetik und Molekularbiologie . Historisch wurden sie verwendet, um die Genstruktur und Genregulation zu definieren . Auch das erste Genom , das sequenziert wurde, war ein Bakteriophage . Die Bakteriophagenforschung hat jedoch nicht die Genomik-Revolution angeführt, die eindeutig von der bakteriellen Genomik dominiert wird. Erst in jüngster Zeit hat die Untersuchung von Bakteriophagen-Genomen an Bedeutung gewonnen und ermöglicht es den Forschern, die Mechanismen der Phagenevolution zu verstehen . Bakteriophagen-Genomsequenzen können durch direkte Sequenzierung isolierter Bakteriophagen erhalten werden, können aber auch als Teil mikrobieller Genome abgeleitet werden. Die Analyse bakterieller Genome hat gezeigt, dass eine beträchtliche Menge mikrobieller DNA aus Prophagensequenzen und Prophagen-ähnlichen Elementen besteht. Ein detailliertes Datenbank-Mining dieser Sequenzen bietet Einblicke in die Rolle von Prophagen bei der Bildung des bakteriellen Genoms: Insgesamt verifizierte diese Methode viele bekannte Bakteriophagen-Gruppen, was sie zu einem nützlichen Werkzeug macht, um die Verwandtschaft von Prophagen aus bakteriellen Genomen vorherzusagen.

Cyanobakterien

Gegenwärtig gibt es 24 Cyanobakterien, für die eine vollständige Genomsequenz verfügbar ist. 15 dieser Cyanobakterien stammen aus der Meeresumwelt. Dies sind sechs Prochlorococcus- Stämme, sieben marine Synechococcus- Stämme, Trichodesmium erythraeum IMS101 und Crocosphaera watsonii WH8501 . Mehrere Studien haben gezeigt, wie diese Sequenzen sehr erfolgreich genutzt werden können, um wichtige ökologische und physiologische Eigenschaften mariner Cyanobakterien abzuleiten. Derzeit laufen jedoch noch viele weitere Genomprojekte, darunter weitere Prochlorococcus- und marine Synechococcus- Isolate, Acaryochloris und Prochloron , die N 2 -fixierenden filamentösen Cyanobakterien Nodularia spumigena , Lyngbya aestuarii und Lyngbya majuscula sowie marine Bakteriophagen infizierende Bakteriophagen . Somit kann die wachsende Menge an Genominformationen auch allgemeiner erschlossen werden, um globale Probleme durch einen vergleichenden Ansatz anzugehen. Einige neue und spannende Beispiele für Fortschritte auf diesem Gebiet sind die Identifizierung von Genen für regulatorische RNAs, Einblicke in den evolutionären Ursprung der Photosynthese oder die Abschätzung des Beitrags des horizontalen Gentransfers zu den analysierten Genomen.

Anwendungen der Genomik

Die Genomik hat in vielen Bereichen Anwendung gefunden, darunter Medizin , Biotechnologie , Anthropologie und andere Sozialwissenschaften .

Genomische Medizin

Genomische Technologien der nächsten Generation ermöglichen es Klinikern und biomedizinischen Forschern, die Menge an Genomdaten, die in großen Studienpopulationen gesammelt werden, drastisch zu erhöhen. In Kombination mit neuen Informatikansätzen, die viele Arten von Daten mit Genomdaten in der Krankheitsforschung integrieren, können Forscher die genetischen Grundlagen von Arzneimittelreaktionen und Krankheiten besser verstehen. Zu den frühen Bemühungen, das Genom auf die Medizin anzuwenden, gehörten die eines Stanford-Teams unter der Leitung von Euan Ashley , das die ersten Werkzeuge für die medizinische Interpretation eines menschlichen Genoms entwickelte. Das Genomes2People-Forschungsprogramm am Brigham and Women's Hospital , Broad Institute und der Harvard Medical School wurde 2012 gegründet, um empirische Forschung zur Übertragung von Genomik in Gesundheit durchzuführen. Das Brigham and Women's Hospital eröffnete im August 2019 eine Klinik für präventive Genomik, einen Monat später das Massachusetts General Hospital . Das Forschungsprogramm „ All of Us “ zielt darauf ab, Genomsequenzdaten von 1 Million Teilnehmern zu sammeln, um eine kritische Komponente der Forschungsplattform für Präzisionsmedizin zu werden.

Synthetische Biologie und Bioengineering

Das Wachstum des genomischen Wissens hat immer anspruchsvollere Anwendungen der synthetischen Biologie ermöglicht . 2010 gaben Forscher des J. Craig Venter Institutes die Entwicklung einer teilweise synthetischen Bakterienart , Mycoplasma laboratorium , bekannt, die aus dem Genom von Mycoplasma genitalium stammt .

Populations- und Erhaltungsgenomik

Die Populationsgenomik hat sich zu einem beliebten Forschungsgebiet entwickelt, in dem Genomsequenzierungsmethoden verwendet werden, um groß angelegte Vergleiche von DNA-Sequenzen zwischen Populationen durchzuführen – jenseits der Grenzen genetischer Marker wie Short-Range- PCR- Produkte oder Mikrosatelliten, die traditionell in der Populationsgenetik verwendet werden . Populationsgenomik untersucht genomweite Effekte, um unser Verständnis der Mikroevolution zu verbessern,damit wir die phylogenetische Geschichte und Demographie einer Populationlernen können. Populationsgenomische Methoden werden in vielen verschiedenen Bereichen eingesetzt, darunter Evolutionsbiologie , Ökologie , Biogeographie , Naturschutzbiologie und Fischereimanagement . Ebenso Landschaft Genomik wurde von entwickelt Landschaft Genetik genomischen Methoden zu verwenden Beziehungen zwischenMustern von Umwelt- und genetische Variation zu identifizieren.

Naturschützer können die durch Genomsequenzierung gesammelten Informationen nutzen, um genetische Faktoren, die für den Artenschutz entscheidend sind, besser zu bewerten, wie die genetische Vielfalt einer Population oder ob ein Individuum für eine rezessiv vererbte genetische Störung heterozygot ist. Durch die Verwendung von Genomdaten zur Bewertung der Auswirkungen evolutionärer Prozesse und zur Erkennung von Variationsmustern in einer bestimmten Population können Naturschützer Pläne formulieren, um einer bestimmten Art zu helfen, ohne dass so viele Variablen unbekannt bleiben, wie sie durch genetische Standardansätze nicht berücksichtigt werden .

Siehe auch

Verweise

Weiterlesen

Externe Links