Zusammenfassung
Die metagenomische Sequenzierung setzt sich aus molekularbiologischen Techniken zusammen, bei denen Nukleinsäure extrahiert und für die Hochdurchsatzsequenzierung vorbereitet wird. Bei der Hochdurchsatzsequenzierung wird die Nukleotidreihenfolge einer grossen Anzahl von Nukleinsäurefragmenten bestimmt. Da Nukleinsäuren den Bauplan eines Organismus enthalten, ist ihre Sequenz spezifisch für diesen Organismus. Der Vergleich des Outputs der metagenomischen Sequenzierung, der Sequenzier-Reads, mit einer bezeichneten Sequenz-Referenzdatenbank ermöglicht die Identifizierung der Organismen.
Diese Methode kann als ungezielter diagnostischer Test eingesetzt werden, um den infektionsverursachenden Organismus zu finden, ohne dass ein spezifischer Verdacht besteht. Allerdings ist die Diagnose typischerweise auf die bekannten und charakterisierten Organismen beschränkt, von denen eine Genomsequenz in der Referenzdatenbank vorhanden ist. Das bedeutet, dass nach der Klassifizierung der Sequenzier-Reads aus einer Probe durch den Vergleich mit der Referenzdatenbank immer einige Reads übrig bleiben, für die keine passende Übereinstimmung gefunden werden kann. Die Charakterisierung der Ursache dieser unklassifizierten Sequenzierungs-Reads kann wichtig sein, um die Methode und ihre Schwächen zu verstehen.
In dieser Arbeit werden die unklassifizierten Sequenzierungs-Reads von 283 Rachenabstrichproben, die einer metagenomischen Sequenzierung unterzogen wurden, systematisch untersucht. Die Ergebnisse deuten darauf hin, dass unklassifizierte Reads teilweise durch eine geringere Qualität der Sequenzleseergebnisse erklärt werden können.
Uncharakterisierte Organismen oder Organismen mit einer grossen genetischen Diversität (wenn sie nicht in der Referenzdatenbank enthalten sind) liefern eine weitere Erklärung für den verbleibenden Anteil unklassifizierter Reads.
Es wird eine Methode zur Erkennung von Ausreisserproben, die eine hohe Anzahl unklassifizierter Reads aufweisen, vorgestellt. Dies ermöglicht eine schnelle Filterung nach interessanten Proben, in denen ein uncharakterisierter Organismus vorhanden sein könnte.
Um die genetische Diversität zu berücksichtigen, wird ein halbüberwachter Ansatz vorgestellt und auf den Datensatz angewendet, um dieses Problem bis zu einem gewissen Grad zu überwinden und den Anteil der Sequenzier-Reads mit einem Klassenlabel zu erhöhen.
Die Erfahrungen aus dieser Arbeit werden helfen, unklassifizierte Reads in Zukunft zu verstehen und mit Proben von anderen Körperstellen umzugehen.