ISSN: 2153-0637
Michael Böhm
Glycosciences.DB, die Glykanstrukturdatenbank des Portals Glycosciences.de, sammelt verschiedene Arten von Daten zu Glykanstrukturen, darunter auch Kohlenhydratreste aus weltweiten Proteindatenbankstrukturen. Auf diese Weise bildet sie eine Brücke zwischen Glykomik- und Proteomikressourcen. Ein umfassendes Update dieser Datenbank kombiniert eine neu gestaltete Weboberfläche mit einer Reihe neuer Funktionen. Dazu gehören separate Eingabeseiten nicht nur für Glykanstrukturen, sondern auch für Literaturhinweise und Einträge, verbesserte Suchoptionen für Substrukturen, eine neu verfügbare Stichwortsuche, die alle Arten von Einträgen in einer Abfrage abdeckt, und neue Arten von Informationen, die den Glykanstrukturen hinzugefügt werden. Diese neuen Funktionen werden in diesem Artikel ausführlich beschrieben, und auch Optionen, wie Benutzer der Datenbank Informationen bereitstellen können, werden diskutiert. Glycosciences.DB Kohlenhydrate, oft als Glykane bezeichnet, sind neben Nukleinsäuren, Proteinen und Lipiden eine der vier Hauptklassen von Biomolekülen. Von diesen sind Kohlenhydrate die am häufigsten vorkommenden und auch komplexesten Moleküle. Neben ihren bekannten Funktionen als Energiespeicher oder Strukturbestandteile sind sie Teile von Glykoproteinen oder Glykolipiden und bedecken Zelloberflächen in der Glykokalyx. Hier dienen sie als Erkennungsstellen für Zell-Zell- und Zell-Matrix-Interaktionen, aber auch für Krankheitserreger wie Viren, die häufig mit Glykanen auf der Zelloberfläche interagieren, um in ihre Wirtszellen einzudringen. Glykane sind auch an Immunreaktionen, Entzündungen und Krankheiten wie Krebs beteiligt. Kohlenhydrate werden oft spezifisch erkannt. Zum Beispiel erkennen menschliche und vogelartige Influenzaviren ihre Wirte anhand spezifischer Glykanmotive. Deshalb müssen Forscher in Glykomik-bezogenen Projekten in der Lage sein, Informationen zu den spezifischen Glykanen zu finden, die sie interessieren. Glycosciences.DB, ehemals SweetDB , war eine der ersten Bemühungen, Informationen über Kohlenhydratstrukturen zu sammeln und online verfügbar zu machen. Ursprünglich mit Daten aus der nicht mehr angebotenen Complex Carbohydrate Structure Database (CCSD, oft als CarbBank bezeichnet) gefüllt, wurden im Laufe der Jahre weitere Informationen hinzugefügt, z. B. von Sweet-II erzeugte 3D-Strukturmodelle, aus SugaBase importierte oder manuell aus der Literatur eingegebene Kernspinresonanzspektren (NMR) oder Links zu Einträgen der weltweiten Protein Data Bank (), die Kohlenhydrate enthalten. Derzeit ist dies die Hauptquelle für neue Daten in Glycosciences.DB. Zum Zeitpunkt der Erstellung dieses Artikels enthält Glycosciences.DB ungefähr 25.000 Glykanstruktureinträge mit 12.500 3D-Strukturmodellen, 20.000 Literaturverweisen, 3.400 1H- oder 13C-NMR-Spektren und mehr als 10.000 Verweise auf kohlenhydrathaltige Einträge. Im Jahr 2018 wurde ein umfangreiches Update des Portals Glycosciences.de veröffentlicht, das dem Portal nicht nur ein moderneres Design verleiht, sondern auch eine Reihe neuer Funktionen zu Glycosciences.DB hinzufügt, darunter Verbesserungen bei den Suchfunktionen und der Anzeige von Informationen. Vor dem Update 2018Bisher wurden in Glycosciences.DB nur Glykane als Einträge berücksichtigt. Alle anderen Elemente wie Literaturhinweise oder Strukturen wurden nur als Teile der Glykan-Einträge oder in Suchergebnislisten angezeigt. Nun erhalten auch Strukturen und Publikationen eigene Eintragsseiten, die mehr Daten anzeigen als im Vorgängerrelease Die drei Eintragsarten Glykane, Publikationen und Strukturen sind untereinander vernetzt. Für jede Eintragsart wird ein eigenes Symbol verwendet, das in der Kopfzeile des Eintrags angezeigt und auch in Querverweisen und Suchergebnislisten verwendet wird, so dass Nutzer bei einem Link direkt erkennen, welche Art von Eintrag geöffnet wird. Screenshots vom Glycosciences.DB-Eintrag Glykanstruktur (vorne, an der gestrichelten Linie abgeschnitten), Literatureintrag (Mitte) und Eintrag (hinten). Alle drei Einträge sind miteinander verknüpft: Der Eintrag enthält sowohl den angezeigten N-Glycan-Kernstruktur-Eintrag als auch den Literaturhinweis. Beim Literatureintrag ist noch keine Glykanstruktur registriert, der Link zum N-Glycan-Kernstruktur-Eintrag wird über den Eintrag vergeben. Neue Einträge werden wöchentlich hinzugefügt, indem neu veröffentlichte Strukturen von der heruntergeladen und nach Kohlenhydratresten durchsucht werden. Dieser Prozess läuft größtenteils automatisch ab. Menschliches Eingreifen ist nur bei potenziellen Problemen erforderlich, wie z. B. Nichtübereinstimmungen zwischen dem Restnamen und dem tatsächlich in der 3D-Struktur vorhandenen Rest oder neu eingeführte Restnamen, für die keine Definition in pdb2linucs und pdb-care gespeichert ist, den Tools zum Erkennen und Validieren der Glykane in Strukturen. Die primäre Zitierung eines Eintrags wird ebenfalls von der importiert und in Glycosciences.DB gespeichert. Auf diese Weise können Einträge automatisch sowohl mit Glykan- als auch mit Literatureinträgen verknüpft werden. Querverweise zwischen den beiden letztgenannten Eintragstypen können nicht zuverlässig automatisch hinzugefügt werden, da kein Tool verfügbar ist, das zuverlässig Informationen zu relevanten Kohlenhydraten aus einer Veröffentlichung extrahieren kann. Dennoch befasst sich die primäre Referenz eines Eintrags häufig auch mit den Kohlenhydraten in diesem Eintrag, insbesondere im Fall von Protein-Kohlenhydrat-Komplexen, bei denen die Kohlenhydratreste absichtlich hinzugefügt wurden und daher normalerweise (aber nicht sicher) auch ein wichtiges Thema der Veröffentlichung sind. Dies ist nicht unbedingt bei Glykoproteinen der Fall, bei denen die Glykane zwar auch ein Hauptthema der Veröffentlichung sein können, aber oft (insbesondere bei kurzen, verkürzten Glykanen) nur als „auch nachgewiesen“ angegeben oder gar nicht erwähnt werden. Daher werden Querverbindungen zwischen Glykanen und Literatureinträgen, die über Einträge zugewiesen werden, nicht zusammen mit manuell zugewiesenen Querverbindungen aufgeführt, sondern in einem separaten Abschnitt, damit Benutzer sie leicht identifizieren können. Einträge zur Glykanstruktur bilden nach wie vor den Hauptteil des Inhalts von Glycosciences.DB. Die Einträge sammeln Informationen zur Kohlenhydratstruktur, wie z. B. 3D-Strukturmodelle, NMR-Spektren, Literaturverweise,Verweise auf Einträge und Informationen zu Restzusammensetzung, Unterstrukturmotiven, Trivialnamen und Taxonomiedaten. Das Update 2018 bringt einige weitere Elemente mit. Die Informationen zur Glykanstruktur (Monosaccharidsequenz und Verknüpfungspositionen) wurden bisher nur in einer 2D-Annotation im CarbBank-Format angegeben. Jetzt bieten wir die Struktur auch in der LINUCS-Notation (Linear Notation for Unique Description of Carbohydrate Sequences) an, der in der Datenbank intern verwendeten Notation zum Speichern und Identifizieren der Glykanstrukturen, und, wo möglich, in den Formaten GlycoCT_condensed und GlycoCT_xml. Weitere Informationen zu Glykanstrukturformaten finden Sie unter . Zusätzlich zu diesen Textformaten wurden vielen Glykaneinträgen auch SNFG-Diagramme (Symbol Nomenclature For Glycans) hinzugefügt. Zum Zeitpunkt des Schreibens sind jedoch noch nicht alle neu definierten Funktionen der aktuellen SNFG-Version integriert. Wo möglich, werden nun auch Querverweise zu entsprechenden Einträgen anderer Datenbanken des Glycosciences.de-Portals (GlycoMapsDB und GlycoCD) angegeben. Eine Funktion, die viele Genomik-, Proteomik- oder Literaturdatenbanken nutzen, unseres Wissens aber noch nicht von Glykomik-Datenbanken, ist die Möglichkeit, einem Datenbankeintrag Schlagwörter hinzuzufügen, mit denen dieser Eintrag bei einer Datenbanksuche identifiziert werden kann. Diese Option ist nun in Glycosciences.DB implementiert. Analog zu Literatureinträgen und Einträgen können nun auch Glykanstruktureinträge in Glycosciences.DB mit Titeln versehen werden. Es wird kaum möglich sein, allen Einträgen aussagekräftige Titel zu geben. Dennoch gibt es verschiedene Glykane, für die häufig Trivialnamen verwendet werden (z. B. Blutgruppenantigene vom Lewis-Typ, Oligosaccharide aus menschlicher Milch, Glycosphingolipide der Ganglio-Reihe usw.), und für viele andere Glykane kann eine kurze Beschreibung wie „Core-fucosylierte N-Glycan-Kernstruktur“ für Benutzer hilfreich sein, die mit Glykanstrukturen noch nicht vertraut sind. Diese Titel können auch in Datenbankabfragen verwendet werden, und sie werden zusammen mit der Glykanstruktur in Strukturabfrageergebnissen und in Strukturlisten, z. B. in Literatureinträgen, angezeigt, um Benutzern die Identifizierung der angezeigten Glykane zu erleichtern. Die 3D-Strukturmodelle, die mit vielen Einträgen bereitgestellt werden, können Forschern eine Vorstellung davon vermitteln, wie die Glykane aussehen. Es kann jedoch schwierig sein, die 3D-Struktur eines Glykans zu lesen und einen bestimmten Rest innerhalb der Struktur zu finden, da die Monosaccharid-Bausteine, aus denen die Glykane bestehen, einander sehr ähnlich sind. Daher haben wir eine Option hinzugefügt, um die Reste farblich hervorzuheben, indem wir die Farben der SNFG-Symbole verwenden, was die Orientierung in einer Glycan-3D-Struktur erleichtert. Halos oder Bindungsfarben können mit den Kontrollkästchen in den Anzeigeoptionen neben der 3D-Struktur umgeschaltet werden. Bisher werden die Farben durch PDB-3-Buchstaben-Codes für häufig vorkommende Reste festgelegt. Die Liste der unterstützten 3-Buchstaben-Codes wird in Zukunft weiter erweitert, um mehr Reste abzudecken.Hervorhebung von Resten in einem pflanzlichen N-Glycan mit Kernfucosylierung und Xylose (LinucsID 13934). Ohne Hervorhebung sind die Reste schwer zu identifizieren (oben). Dies wird einfacher, wenn Halos (unten links) oder Bindungsfarben (unten rechts) verwendet werden, deren Farben denen der SNFG-Symbole entsprechen, selbst wenn die Struktur anders ausgerichtet ist als die SNFG-Symbole.