Durch den Einzug von Hochtechnologie und Hochdurchsatzverfahren in den Laboralltag nimmt die digitale Datenverarbeitung einen immensen Stellenwert ein. Es ist heute selbstverständlich, dass ein Naturwissenschaftler seine Forschungsdaten selbstständig graphisch aufarbeitet und präsentiert. Ein Großteil der Zeit wird dabei am Computer mit der Formatierung der Daten verbracht: Kommata in Punkte, Tabulatoren in Semikolons, Leerzeichen in Unterstriche, Spalten in Zeilen, Vereinigung der Information aus zwei Dateien in eine Datei, etc. Hier setzt dieser Schnellkurs an. Ich erkläre Ihnen, ...
∇ Klicken um mehr zu lesen ∇
... wie Sie mit Sequenz-, Struktur- und anderen Daten umgehen können, wie Ihnen Linuxtools helfen können und welche Möglichkeiten Sed und die einfache Programmiersprache AWK bieten. Außerdem führe ich Sie knapp in weitere Bereiche ein, die Ihnen das digitale Leben erleichtern können: das Datenbanksystem MySQL, das Statistik- und Visualisierungstool R, die Textsatzsprache LaTeX und einiges mehr. Anhand von fünf detailliert vorgestellten "Forschungsprojekten" zur forensischen Mikrobiologie und RNA-Sequenzierung zeige ich Ihnen, wie Sie das Gelernte in der Praxis angewendet können. So finden Sie in diesem Buch einen Abriss dessen, was Sie am Rechner in Ihrem Studienbereich wissen sollten. Mit Übungsaufgaben samt Lösungen können Sie Ihr Wissen festigen und überprüfen. -- Mit diesem Buch möchte ich Ihnen eine digitale Pipette in die Hand geben. Dabei steht die Pipette für ein universelles Hilfsmittel im Labor. Während mit der Pipette Flüssigkeiten "prozessiert" werden, möchte ich Ihnen zeigen, wie Sie experimentelle Daten prozessieren können.
∇ Klicken um mehr zu lesen ∇
Der Ausspruch Let my dataset change your mindset des schwedischen Mediziners und Datenjongleurs Hans Rosling beschreibt bestens, worum es mir mit diesem Schnellkurs geht – ich möchte aber my durch your ersetzen. Ich will Ihnen Werkzeuge zeigen, die Ihnen helfen, mit Ihren Datensätzen zu spielen. Dann können Sie Wissen generieren und dieses teilen. Dazu dient die Visualisierung für einen Vortrag, die Formatierung für eine Publikation oder die Verbreitung über das Internet. Alles das werde ich Ihnen mit praktischen Beispielen vorturnen – und Sie sollen mitmachen.
Mit diesem Schnellkurs möchte ich Ihnen zu mehr Freiheit bei der Datenprozessierung und -analyse verhelfen – frei von kommerzieller Software, frei von festgelegten Verarbeitungswegen. Ich stelle keine Algorithmen vor und interpretiere keine Ergebnisse. Dies ist also kein Lehrbuch der Bioinformatik, sondern vielmehr eine Einführung in die Werkzeuge und die Anwendung von Bioinformatik.
Für die intensive Hilfe bei der Korrektur des Textes und der Kontrolle der Beispiele danke ich Felix Moorhoff, Nadine Wappler und besonders meiner Fachlektorin Katharina Hemschemeier, die noch einige Punkt- und Kommamutationen aufdeckte.
Ich widme dieses Buch all jenen programmieraffinen Menschen, die ihre Programme, Progrämmchen, Skripte und Einzeiler frei zur Verfügung stellen, all jenen modernen "Aufklärern", die in Foren ihre Ideen und Erfahrungen weitergeben und ebenso den Suchmaschinenexperten, ohne die das alles ebenso verborgen geblieben wäre wie so manches gute Buch. Frei nach der vom amerikanischen Programmierer Richard Stallman in melodischen Text gegossener Maxime: Join us now and share the software; You'll be free, hackers, you'll be free ...
∇ Klicken um mehr zu lesen ∇
Big Data ist heute in aller Munde, spätestens seit wir realisieren, wie Google uns ausspäht und Amazon immer am Besten weiß, was wir als nächstes kaufen sollten. Aber die größte Big Data Explosion fand im letzten Jahrzehnt im Genomik-Bereich statt. Weniger in Bezug auf das Gesamtvolumen, als vielmehr in Bezug auf die Geschwindigkeit des Wachstums. Das erste Humangenomprojekt hat noch viele Jahre gedauert und viele Millionen Dollar gekostet. Heute gibt es Maschinen, die hundert Genome pro Tag sequenzieren können, zu Kosten, die eine Individualsequenzierung für Patienten zur Routine machen werden. Für die Biologie tut sich damit ein ganzes Universum an neuen Möglichkeiten auf, da nicht nur Genome sequenziert werden, sondern auch Transkriptome und Epigenome. Inzwischen sind die Methoden bis zur Einzelzellanalyse verfeinert. Gleichzeitig reift die Erkenntnis, dass wir als höhere Organismen in Gemeinschaft mit einer riesigen Zahl von Mikroorganismen leben, dem sogenannten Metabiom. Auch dieses wird erst durch Big Data Projekte erschlossen und experimentell zugänglich. Selbst in der klassischen Taxonomie entsteht mittels Sequenzanalysen ein neues Feld – die Taxonomics.
Kein Bereich der Biologie kommt mehr an diesen Entwicklungen vorbei. Studenten der Biologie müssen zu "Big Data Natives" ausgebildet werden.
Tatsächlich hat die Geschwindigkeit des Wachstums der Daten sogar die Geschwindigkeit der Computerentwicklung hinter sich gelassen. Und das gilt insbesondere für unsere vertrauten Alltagsprogramme, mit denen wir das Computerzeitalter versuchen zu meistern. Tabellenoperationen sind in Word auf 4.000 und in Excel auf 100.000 Zeilen begrenzt. Aber ein Genomikdatensatz hat Millionen von Zeilen. Das ist ein Umfang, den wir auch mit guter Intuition nicht mehr wirklich fassen können – aber genau dafür haben wir ja heutzutage Computer: Ein paar Befehlszeilen reichen, um aus solchen Datenmengen Information heraus zu filtern. Aber für den typischen Microsoft Nutzer sehen diese aus wie chinesische Schriftzeichen. Wunderschön, aber rätselhaft.
Das vorliegende Buch führt uns in diese Welt des "Computer-Chinesisch" ein. Wer bereit ist, sich wieder ein Stück zu den Anfängen des Computers zurück zu bewegen, wird man verblüfft feststellen, dass diese viel mehr können als man ihnen im Alltag abverlangt. Mit Big Data zu arbeiten wird da selbst auf einem Heimcomputer möglich.
Das Buch nimmt den Leser an die Hand und führt ihn durch die ersten Schritte, bis hin zu realen Beispielen der Genomdatenanalyse. Der Schlüssel ist der Umgang mit dem Linux-Betriebssystem, das nahe am Kern des Computers arbeitet. Hinzu kommt der Einstieg in eine einfache Programmiersprache und der Umgang mit Datenbanken. Das ist das Rüstzeug, mit dem sich eigentlich jeder Student der Naturwissenschaften vertraut machen sollte – insbesondere auch die Biologen. Das Buch führt aber auch in das Programmpaket R ein. Dieses entwickelt sich derzeit rasend schnell zum Wunderwerkzeugkasten der Datenanalyse, Statistik und Visualisierung. Da es eine Open Source Software ist, wurde es zum Sammelbecken für die Entwicklung und Bereitstellung von neuen Algorithmen zur Datenanalyse an der vordersten Forschungsfront. Das Buch kann da natürlich nur einen Einstieg vermitteln, aber der ist geeignet, jedem zu zeigen, was für eine großartige Landschaft von Werkzeugen sich dahinter verbirgt.
Wer das alles beherrscht ist eigentlich schon hervorragend gerüstet. Aber das Buch hat auch noch eine Kür zu bieten. Es führt in die bei Bioinformatikern beliebte dynamische Textverarbeitung LaTeX ein und befasst sich mit der Visualisierung komplexer Daten, sowie der Veröffentlichung auf Web-Servern.
Das Buch ist als Schnellkurs gedacht – und tatsächlich kann man die einzelnen Kapitel vergleichsweise schnell abarbeiten, zumal die lockere Erzählweise des Textes einen dazu geradezu auffordert. Gleichzeitig lernt man einiges über die Historie der Entwicklung des "Computer-Chinesisch" und kann damit die Vielfalt besser einordnen. Mit diesem Rüstzeug kann man auch gleich die ersten eigenen wissenschaftlichen Datenanalysen durchführen. Die Genomforscher stellen ja fast alle Daten frei zur Verfügung – und darin gibt es viel zu entdecken!
∇ Klicken um mehr zu lesen ∇
Nie war es einfacher als heute, Bioinformatik zu betreiben. Im Internet gibt es jede Menge Webseiten, auf denen man Gene finden, Sequenzen vergleichen oder Proteinstrukturen vorhersagen lassen kann. Meist sind diese Seiten sehr einfach zu bedienen und liefern auch in kürzester Zeit die gewünschte Antwort. Und trotzdem kann es manchmal sehr schwer sein, Bioinformatik zu betreiben, dann nämlich, wenn es für mein Problem oder meine Frage eben keine Seite im Internet gibt oder aber, falls es eine solche gibt, diese offensichtlich keine vernünftige Antwort geben kann. Dann steht man da mit seiner Frage und wünscht sich, dass man sie einfach selber lösen könnte. Nur ist das dann nicht ganz leicht, besonders wenn man dafür große Mengen Daten hat oder benötigt.
Einen kleinen Beitrag aus diesem Dilemma mag dieses Buch leisten. Es soll diejenigen, die zwar täglich vor dem Computer sitzen, aber sich noch nie getraut haben, diesen selber zu "programmieren", Mut machen und dabei helfen, es einfach mal zu probieren, es geht einfacher als man denkt. Wahrscheinlich ginge es noch leichter, wenn man einen Bioinformatiker kennt, der einem das Problem auf seine Art mal ganz schnell löst. Aber Bioinfomatiker gibt es nicht so viele, vor allem nicht viele, die Zeit für einen haben.
Also vielleicht doch selber machen? Wie spannend und gleichzeitig erhellend das sein kann, habe ich selber erfahren, als ich ein Problem lösen wollte (ich bin nicht der Krebsforscher aus der Einleitung, sondern der Genetiker mit seinen Ribosomen), von dem ich annahm, dass es ganz simpel zu lösen sein sollte. Nach einigen Tagen vergeblicher Mühe vor dem Bildschirm gab ich auf, ich fand einfach kein Programm im Internet, das ich zur Lösung meines Problems hätte direkt einsetzen können. Jedoch dank einer kurzen und intensiven Einführung des Verfassers, bei der er mir die Vorzüge von Zeilen-Editoren und die Stärke regulärer Ausdrücke nahegebracht hatte, konnte ich innerhalb kurzer Zeit meine Daten auf meinem Laptop genau so auswerten, wie ich es mir gewünscht hatte. Als dann auch noch ein sehr spannendes Ergebnis dabei herauskam, hatte ich ein Erfolgserlebnis, wie schon lange nicht mehr. Solche Erfolgserlebnisse wünsche ich allen geneigten Lesern dieses Schnellkurses Bioinformatik. Er will Ihnen Mut machen, sich einfach mal zu trauen und selber zu programmieren. Und wenn Sie dafür schon ein paar Vorkenntnisse mitbringen oder vielleicht sogar schon eine Programmiersprache beherrschen, um so besser! Mit Hilfe des Bestimmungsschlüssels am Anfang dieses Buches können Sie sich gleich selbst einordnen, um zu erfahren, auf welche Weise dieses Buch Ihnen am nützlichsten sein kann. Allen Lesern und vor allem denjenigen, die diesen Schnellkurs dafür nutzen, endlich mal wieder selber ihre Datenmassen zu beherrschen, wünsche ich viel Vergnügen, wenn Sie die "Tasten tanzen lassen".