Definition: Alignment

Der Begriff Alignment bedeutet übersetzt etwa „Anordnung“ oder „Abgleich“ und beschreibt ein zentrales Thema in der Bioinformatik. Dabei handelt es sich um ein Verfahren zur Bestimmung von Ähnlichkeiten zwischen biologischen Sequenzen. Das grundlegende Ziel dahinter besteht darin gleiche oder zumindest ähnliche Sequenzabschnitte einander zuzuordnen.

Die zugeordneten Sequenzen können DNA-, RNA- oder Protein-Sequenzen sein, die übereinander arrangiert werden, sodass jedem Element einer Sequenz ein Element einer anderen Sequenz zugeordnet - aligniert - wird.

Ein kleines Beispiel:

Sequenz A: ATGCG
Sequenz B: ATTG

Daraus kann sich zum Beispiel folgendes Alignment ergeben:

ATGCG
||||
ATTG

Die einzelnen Buchstaben sind hier die Basen von DNA-Sequenzen. Das Alphabet für ein Alignment von RNA-Sequenzen würde statt dem T (für die Base Thymin) ein U (für die Base Uracil) beinhalten, während das von Protein-Sequenzen den Einbuchstabencode der 20 Aminosäuren einschließt. Um ein sinnvolles Ergebnis zu erzielen muss ein Alignment stets auf der Basis eines gemeinsamen Alphabets stattfinden. Das heißt ein Vergleich von beispielsweise DNA-Basen mit Aminosäuren eines Proteinabschnitts kann so nicht durchgeführt werden.

Wie aus dem Beispiel hervorgeht, dürfen zwei Symbole einer Sequenz nicht nur einem Symbol einer anderen zugeordnet werden, wobei ein Symbol entweder ein Buchstabe des Alphabets oder eine Gap (dazu später mehr) ist. Eine weitere Konvention besteht darin, dass die ursprüngliche Reihenfolge der einzelnen Elemente jeder Sequenz - oder auch String genannt - erhalten bleibt. Vertauschen einzelner Basen, um mehr gleiche Abschnitte zu erhalten, ist daher nicht möglich.

Auf Grundlage dieser Definition sind viele verschiedene Alignments möglich, wobei diese nicht zwangsläufig die Ähnlichkeit der Strings widerspiegeln. Demnach braucht es ein allgemeines, objektives Bewertungsschema, das die Übereinstimmungen zwischen den Sequenzen maximiert.

Doch bevor die Frage nach solch einer Funktion beantwortet werden kann, muss zunächst geklärt werden, wie ein Alignment mit Sequenzen unterschiedlicher Länge gehandhabt werden soll. Die simple Lösung dafür liefern „Lücken“ oder der häufiger gebrauchte Begriff aus dem Englischen: Gaps. Das Alignieren mit einer Gap bedeutet das Alignieren mit Nichts - der entsprechende Platz wird einfach leer gelassen. Das Einfügen solcher Lücken erlaubt es nicht nur Sequenzen auf eine gleiche Länge zu bringen, sondern auch unterschiedliche Kombinationsmöglichkeiten der alignierten Strings.

Auf die beiden Beispielsequenzen von vorhin bezogen entsteht dann das Alignment:

Sequenz A:  ATGCG
Sequenz B: ATTG

ATGCG
|||||
ATT-G

Es wurde nun eine Gap eingefügt, sodass jede Base beider Sequenzen jeweils zu einem Symbol zugeordnet wurde.

Nun kann auch die Frage zum Bewertungsschema geklärt werden. Das Alignment wird anhand folgender Parametern beurteilt: Match steht für die Alignierung gleicher Symbole, Mismatch für die Alignierung ungleicher Symbole und Gap für die eben beschriebene Alignierung mit einer Lücke. Alle drei Parameter beschreiben jeweils eine bestimmte Punktzahl, womit jede Spalte des Alignments bewertet wird. Die Summe aller Spaltenwerte ist dann die Gesamtpunktzahl des Alignments, die im Folgenden Score genannt wird. Näheres zur genauen Berechnung des Scores findet sich im Abschnitt zum Thema Alignment-Score.

Hier soll nur kurz anhand des Beispiels von vorhin eine ungefähre Vorstellung gegeben werden, wie diese Bewertung aussieht. Dieses Mal muss aber noch für die drei Parameter die jeweilige Punktzahl ausgewählt werden, in diesem Fall Match: +2, Mismatch: -1, Gap: -2. Die Zahlen sind willkürlich gewählt und können nach Belieben verändert werden. Es ist allerdings sinnvoll positive Werte für Match und negative Werte für Mismatch und Gap zu wählen, um einen möglichst aussagekräftigen Score zu erhalten. Der Score eines Alignments wird nun folgendermaßen berechnet:

Sequenz A: ATGCG
Sequenz B: ATTG

Match: +2
Mismatch: -1
Gap: -2

A  T  G  C  G
|  |  |  |  |
A  T  T  -  G
+2 +2 -1 -2 +2 = +3

Eine andere Möglichkeit die Sequenzen zu alignieren wäre folgende:
A  T  G  C  G
|  |  |  |  |
A  T  -  T  G
+2 +2 -2 -1 +2 = +3

Jede Spalte wird unabhängig von den anderen betrachtet und bewertet je nachdem, ob zwei gleiche oder ungleiche Basen oder eine Gap mit einer Base aligniert wird. Das Ergebnis bleibt bei beiden Alignments gleich; es kann also mehrere Kombinationsmöglichkeiten geben, die zu demselben Score führen.

Die Intention besteht immer darin den maximalen Score zu erzielen; es handelt sich dann um das „optimale Alignment“ - die günstigste Anordnung der Elemente aller Sequenzen. Nur auf Basis des optimalen Alignments sind sinnvolle Aussagen über die arrangierten Sequenzen möglich. Ein hoher Score bedeutet meist, dass eine hohe Ähnlichkeit zwischen den alignierten Sequenzen besteht. Ähnlichkeit in der Sequenzabfolge kann dabei Hinweise auf analoge Strukturen liefern, was gerade bei Proteinen maßgeblich Aufschluss über deren Funktionsweise gibt. Ähnlichkeit weist in den allermeisten Fällen auch auf eine evolutionäre Verwandschaft hin, wodurch beispielsweise phylogenetische Fragen wie gemeinsame Vorfahren beantwortet werden können.

Es gibt eine Differenzierung von Alignments: Das Alignment wie bisher beschrieben entspricht dem globalen Alignment, das heißt, dass alle Symbole der Sequenzen berücksichtigt werden. Dagegen wird ein Alignment als lokal bezeichnet, wenn nur Teile der Strings aligniert werden. Letzteres bietet sich unter anderem dafür an, um in langen, womöglich sehr unterschiedlichen Sequenzen, konservierte, homologe Regionen aufzuspüren - zum Beispiel eine gleiche Aminosäureabfolge bei Proteinen. Ein globales Alignment ist vor allem dann sinnvoll, wenn die zu untersuchenden Sequenzen sich in Länge und Aufbau ähneln.

Bei so kurzen Zeichenfolgen wie im obigen Beispiel ist es natürlich ein Leichtes den besten Score in kürzester Zeit zu ermitteln. Doch bestehen die wirklichen Alignments meist aus Sequenzen mit mehreren hundert Basen als Länge oder aber es werden mehr als zwei Sequenzen aligniert, was wiederum einem anderen Bewertungsschema als dem hier vorgestellten entspricht (mehr dazu findet sich unter Alignment-Score. Die Komplexität nimmt mit der Länge an Elementen und Anzahl an Strings rapide zu und das Lösen solcher Alignments per Hand wird zur unmöglichen Aufgabe. Hier kommt die Bioinformatik ins Spiel. Diese versucht mit computergestützen Methoden und intelligenten Algorithmen derartige Probleme in adäquater Zeit und mit so wenig Ressourcen wie möglich zu lösen.

Hintergrund

Bioinformatik ist ein Studienfach, das noch nicht lange besteht und somit auch nur an vereinzelten Universitäten angeboten wird. Im Gegensatz zu Fächern wie der reinen Informatik oder Biologie, können sich die meisten Menschen nichts unter der Kombination dieser beiden Fachgebiete vorstellen. Aus diesem Grund ziehen beispielsweise viele Studieninteressierte die Möglichkeit dieses Studiums gar nicht erst in Betracht. Dabei stellt Bioinformatik einen aufkommenden Trend in der Arbeitswelt dar und immer mehr Firmen suchen nach ausgebildeten Fachkräften dieser interdisziplinären Wissenschaft.

Die Webseite entstand im Rahmen des Teamprojekts der Vorlesung Software Engineering für Studierende der Informatik oder Teilgebieten der Informatik. Das Projekt Alignmentpuzzle stellte als Vorgabe eine Webseite mit einem Spiel, das sich mit dem Alignmentproblem beschäftigt, zu erstellen. Die Umsetzung war dann dem Team, das sich aus sechs Leuten zusammensetzte, überlassen, wobei Fragen nach Design oder Aufbau selbstständig geklärt werden sollten.

Das Bestreben unserer Webseite ist zum einen ein einfaches aber dennoch ansprechendes und aufgeschlossenes Design. Gerade im Hinblick auf die Moderne, in der aufgrund der Reizüberflutung stärker nach optischer Aufmachung gefiltert wird, erscheint uns das als fundamental und unabdingbar. Die Webseite soll Eindruck hinterlassen und nicht einfach neben den zahlreichen Konkurrenzseiten untergehen.

Zum anderen wird ein zentrales Thema der Bioinformatik - das Alignmentproblem wie oben beschrieben - thematisiert. Allen voran soll (der Vorgabe des Projekts entsprechend) das Alignmentpuzzle im Vordergrund stehen; auch um die Thematik auf mehr als nur der Basis eines einfachen Texts zu illustrieren. Das Spiel soll zunächst die Aufmerksamkeit der Webseitebesucher auf sich ziehen und ein grundlegendes Verständnis und Interesse für die Materie erzeugen. Die Texte zur Bioinformatik stehen dann bei Interesse nach mehr als ergänzende Informationsquelle zur Verfügung. Als unsere Zielgruppe stehen allen voran Studieninteressierte, die am Studieninformationstag mithilfe der Webseite auf die Bioinformatik aufmerksam gemacht werden sollen. Die Intention ist daher ein selbterklärender Aufbau, wobei der User keine Probleme beim Navigieren und Orientieren haben sollte. In Bezug darauf sollte er aber dennoch einen tieferen Einblick in das Themengebiet erlangen. Da vor allem das Puzzle im Mittelpunkt steht, war das Bestreben ein übersichtliches und verständliches Arrangement mit der Möglichkeit eines Mini-Tutoriums als zusätzliche Hilfestellung.

Angesichts der Tatsache, dass es sich hier um ein Projekt von einem einzigen Semester handelt, ist die Webseite und deren Inhalte relativ klein beziehungsweise kurz gehalten. Das Augenmerk lag zunächst auf den wichtigeren Aspekten wie die Funtkionstüchtigkeit des Puzzles. Aufgrund der Gestaltung steht jedoch die Option offen, die Website noch nach Belieben zu einem späteren Zeitpunkt zu erweitern und mit weiteren Informationen auszustatten ohne großartige Veränderungen am bisherigen Code zu vollziehen.