ISSN: 2165- 7866
Ashutosh Gupta
Die Desoxyribonukleinsäure (DNS) stellt das physikalische Medium dar, in dem alle Eigenschaften lebender Organismen kodiert sind. Das Verständnis ihrer Sequenz ist ein vorrangiges Anliegen der Molekularbiologie. Weltweit werden einige wichtige molekularbiologische Datenbanken (ERIBL, GenBank, DDJB) entwickelt, um Nukleotidsequenzen (DNS, RNA) und Aminosäuresequenzen von Proteinen zu sammeln. Es ist allgemein bekannt, dass ihre Größe heutzutage exponentiell schnell zunimmt. Sie sind zwar nicht so groß wie andere wissenschaftliche Datenbanken, aber sie haben eine Größe von mehreren hundert GB [1]. Bei vollständigen Genomen können diese Texte sehr lang sein. Das menschliche Genom beispielsweise enthält drei Milliarden Zeichen auf 23 Chromosomenpaaren. Es enthält die gesamte genetische Substanz des Menschen. Angesichts der steigenden Zahl verfügbarer Genomsequenzen muss das Speichern und Verwenden von Datenbanken schwieriger werden. Die Komprimierung genetischer Informationen ist daher eine sehr wichtige Aufgabe. Ein weiterer Faktor, der ebenfalls berücksichtigt werden muss, ist die Vorhersage bestimmter Krankheitsarten durch die Suche nach einem Muster im komprimierten Bereich.