Bio-informatica /ˌbaɪ.oʊˌɪnfərˈmætɪks/ (Over deze geluidslijst) dat is een interdisciplinair gebied waarin methoden en software-instrumenten voor het begrijpen van biologische gegevens worden ontwikkeld. Bio-informatica combineert biologie, informatica, informatietechnologie, wiskunde en statistiek om biologische gegevens te analyseren en te begrijpen. Het wordt ook gebruikt voor de silicoanalyse van biologische vragen met behulp van wiskundige en statistische technieken.

Biologische studies die gebruik maken van computerprogrammering als onderdeel van hun methodologie zijn opgenomen in de bio-informatica, evenals een specifieke pijplijn van analyses die herhaaldelijk worden gebruikt, met name op het gebied van genomics. Typische toepassingen van bio-informatica zijn onder meer kandidaatgenen en single nucleotide polymorfismen (SNP’s). Deze detectie wordt vaak uitgevoerd met als doel een beter inzicht te krijgen in de genetische basis van de ziekte, unieke aanpassingen, gewenste eigenschappen (vooral bij landbouwgewassen) of verschillen in populaties. Op een minder formele manier probeert de bio-informatica ook de organisatorische principes binnen de nucleïnezuur- en eiwitsequenties, de zogenaamde proteomics, te begrijpen.

Inleiding

Bio-informatica is een essentieel onderdeel geworden van vele gebieden van de biologie. Binnen de experimentele moleculaire biologie maken bio-informaticatechnieken zoals beeld- en signaalverwerking het mogelijk om uit grote hoeveelheden ruwe data bruikbare resultaten te halen. In de genetica helpen ze bij het sequencen en annoteren van genomen en hun geobserveerde mutaties. Het speelt een rol in de tekstuele extractie van de biologische literatuur en in de ontwikkeling van biologische en gene ontologieën om biologische gegevens te organiseren en te bevragen. Het speelt ook een rol in de analyse van de expressie en regulering van genen en eiwitten. Bio-informatica-instrumenten helpen bij het vergelijken, analyseren en interpreteren van genetische en genomische gegevens en meer in het algemeen bij het begrijpen van de evolutionaire aspecten van de moleculaire biologie. Op een hoger integratief niveau helpt het bij het analyseren en catalogiseren van de biologische paden en netwerken die een essentieel onderdeel vormen van de systeembiologie. In de structurele biologie helpt het bij de simulatie en modellering van DNA, RNA, eiwitten en biomoleculaire interacties.

Volgorde

Sequenties van genetisch materiaal worden vaak gebruikt in de bio-informatica en zijn gemakkelijker te beheren met computers dan met de hand.

Omdat eiwitsequenties essentieel werden in de moleculaire biologie, kwamen de computers beschikbaar nadat Frederick Sanger in het begin van de jaren vijftig de volgorde van de insuline bepaalde. De handmatige vergelijking van meerdere sequenties bleek onpraktisch. Een pionier op dit gebied was Margaret Oakley Dayhoff, die een van de eerste databases met eiwitsequenties samenstelde, oorspronkelijk gepubliceerd als boeken en experimenteerde met methoden voor het uitlijnen van sequenties en moleculaire evolutie.  Een andere pionier in de bio-informatica was Elvin A. Kabat, die in 1970 een pionier was in de analyse van biologische sequenties met zijn volledige volumes van antilichaamsequenties die tussen 1980 en 1991 met Tai Te Wu werden uitgebracht.

Doelstellingen

Om te bestuderen hoe de normale cellulaire activiteiten in verschillende ziektetoestanden worden gewijzigd, moeten biologische gegevens worden gecombineerd om een volledig beeld te krijgen van deze activiteiten. Daarom is het gebied van de bio-informatica zo geëvolueerd dat de meest urgente taak nu de analyse en interpretatie van verschillende soorten gegevens is. Hieronder vallen nucleotide- en aminozuursequenties, eiwitdomeinen en eiwitstructuren. Het eigenlijke proces van data-analyse en -interpretatie wordt computationele biologie genoemd. Belangrijke subdisciplines binnen de bio-informatica en de computationele biologie zijn onder andere:

Relatie met andere gebieden

Bio-informatica is een gelijkaardig wetenschappelijk domein, maar verschilt van biologische informatica, terwijl het vaak wordt beschouwd als een synoniem voor computationele biologie. Biological computing maakt gebruik van bio-engineering en biologie om biologische computers te bouwen, terwijl bio-informatica computing gebruikt om de biologie beter te begrijpen. Computationele biologie en bio-informatica omvatten de analyse van biologische gegevens, in het bijzonder DNA, RNA en eiwitsequenties. De bio-informatica is sinds het midden van de jaren negentig explosief gegroeid, grotendeels onder impuls van het Human Genome Project en de snelle vooruitgang in de technologie van DNA-sequencing.

De analyse van biologische onderzoeksinformatie om zinvolle informatie te produceren omvat het schrijven en uitvoeren van softwareprogramma’s die gebruik maken van algoritmen uit de grafiektheorie, kunstmatige intelligentie, soft computing, datamining, beeldverwerking en computersimulatie. Algoritmen zijn op hun beurt weer afhankelijk van theoretische fundamenten zoals discrete wiskunde, controletheorie, systeemtheorie, informatietheorie en statistiek.

DNA-sequentiebepaling

Hoofdartikel: DNA-sequentiebepaling

De sequenties moeten worden verkregen uit het voorbeeld van de Genbank geheugenbank voordat ze kunnen worden geanalyseerd. DNA-sequencing is weer een niet-triviaal probleem, omdat ruwe gegevens rumoerig kunnen zijn of geplaagd worden door zwakke signalen. Voor de basis zijn algoritmen ontwikkeld die de verschillende experimentele benaderingen van DNA-sequencing vereisen.

Sequencing assemblage

Het merendeel van de DNA-sequentietechnieken produceert korte sequentie-fragmenten die moeten worden samengesteld om volledige sequenties van genen of genomen te verkrijgen. Zo genereert de zogenaamde shotgun-techniek (die door het Instituut voor Genoomonderzoek (TIGR) is gebruikt om de eerste bacteriële genoomsequentie, Haemophilus influenzae, te sequencen)[19] sequenties van enkele duizenden kleine DNA-fragmenten (variërend van 35 tot 900 lange nucleotiden, afhankelijk van de sequencingtechnologie). De uiteinden van deze fragmenten overlappen elkaar en kunnen, indien correct uitgelijnd door een genoom-assemblageprogramma, gebruikt worden om het volledige genoom te reconstrueren. Shotgun sequencing produceert snel sequentiegegevens, maar de taak van het assembleren van de fragmenten kan behoorlijk ingewikkeld zijn voor grotere genomen. Met een genoom zo groot als het menselijk genoom, kan het vele dagen CPU-tijd kosten op grote geheugen en multi-processor computers om de fragmenten te assembleren, en de resulterende assemblage bevat meestal veel hiaten die later moeten worden opgevuld. Sequencing shotgun is de methode van keuze voor bijna alle genomen die vandaag de dag [wanneer?] worden gesequencet, en genoom-assemblage-algoritmen zijn een kritisch gebied van bio-informatica-onderzoek.

Genoomaantekening

Binnen de context van genomics is annotatie de procedure van het markeren van genen en andere biologische kenmerken in een DNA-sequentie. Dit proces moet worden geautomatiseerd omdat de meerderheid van de genomen te groot is om met de hand te worden geannoteerd, om nog maar te zwijgen van de wens om zoveel mogelijk genomen te annoteren, aangezien de sequentiesnelheid niet langer een knelpunt vormt. Deze annotatie wordt mogelijk gemaakt door het feit dat genen wel degelijk herkenbare begin- en eindregio’s hebben, hoewel de exacte sequentie die in deze regio’s wordt gevonden per gen kan verschillen.

De eerste volledige beschrijving van een volledig genoom-annotatiesysteem werd gepubliceerd in 1995 [19] door het Institute for Genomic Research team dat de eerste volledige sequentiebepaling en analyse van het genoom van een vrij levend organisme uitvoerde, de bacterie Haemophilus influenzae [19] Owen White ontwierp en bouwde een softwaresysteem om genen te identificeren die coderen voor alle eiwitten, om RNA’s, ribosomale RNA’s (en andere sites) over te dragen en om de eerste functionele opdrachten uit te voeren. De meeste huidige genoom-annotatiesystemen werken op dezelfde manier, maar de programma’s die beschikbaar zijn voor genomische DNA-analyse, zoals het GeneMark-programma dat wordt getraind en gebruikt om genen te vinden die coderen voor eiwitten in Haemophilus influenzae, zijn voortdurend in ontwikkeling en worden steeds beter.

Naar aanleiding van de doelstellingen die het Human Genome Project na de afsluiting in 2003 nog moest bereiken, is er een nieuw project verschenen dat is ontwikkeld door het National Human Genome Research Institute in de Verenigde Staten. Het zogenaamde ENCODE-project is een gezamenlijke gegevensverzameling van de functionele elementen van het menselijk genoom met behulp van nieuwe generatie DNA-sequencingtechnologieën en genomische tiling arrays, technologieën die in staat zijn om automatisch grote hoeveelheden gegevens te genereren tegen een drastisch verlaagde kostprijs per basis, maar met dezelfde nauwkeurigheid (basisoproepfout) en getrouwheid (assemblagefout).

Computationele evolutiebiologie

De evolutiebiologie is de studie van de oorsprong en de afkomst van soorten, evenals hun verandering in de tijd. De informatica heeft de evolutiebiologen geholpen door onderzoekers toe te laten dit te doen:

de evolutie van een groot aantal organismen te volgen door veranderingen in hun DNA te meten, in plaats van alleen via fysieke taxonomie of fysiologische waarnemingen, volledige genomen te vergelijken, wat de studie van meer complexe evolutionaire gebeurtenissen, zoals genenduplicatie, horizontale genoverdracht en de voorspelling van belangrijke factoren in de bacteriële speciatie mogelijk maakt,

Het bouwen van complexe modellen van computationele populatiegenetica om de uitkomst van het systeem in de tijd te voorspellen[20].

het monitoren en delen van informatie over een toenemend aantal soorten en organismen

Het toekomstige werk probeert de nu complexere levensboom te herbouwen.

Het onderzoeksgebied binnen de informatica met behulp van genetische algoritmen wordt echter soms verward met de computationele evolutiebiologie, maar de twee gebieden zijn niet noodzakelijkerwijs met elkaar verwant.

Vergelijkende genomica

De kern van de genoomvergelijkende analyse is het bepalen van de overeenkomst tussen genen (orthologische analyse) of andere genoomkenmerken in verschillende organismen. Het zijn deze intergenomische kaarten die het mogelijk maken om de evolutionaire processen die verantwoordelijk zijn voor de divergentie van twee genomen op te sporen. Een verscheidenheid aan evolutionaire gebeurtenissen die op verschillende organisatieniveaus werken, modelleren de evolutie van het genoom. Op het laagste niveau beïnvloeden puntmutaties de individuele nucleotiden. Op een hoger niveau ondergaan de grote chromosoomsegmenten duplicatie, laterale overdracht, inversie, transpositie, deletie en insertie[21]. Uiteindelijk zijn hele genomen betrokken bij hybridisatie, polyploïdisatie en endosymbiose processen, die vaak leiden tot snelle speciatie. Deze complexiteit van de genoomontwikkeling stelt de ontwikkelaars van wiskundige modellen en algoritmen voor veel spannende uitdagingen, die hun toevlucht nemen tot een spectrum van algoritmische, statistische en wiskundige technieken, variërend van exacte, heuristische algoritmen tot vaste parameters en benaderingsalgoritmen voor problemen met behulp van zuinigheidsmodellen tot Monte Carlo Markov-kettingalgoritmen voor Bayesiaanse probleemanalyses op basis van probabilistische modellen.

Verschillende van deze studies zijn gebaseerd op de detectie van sequentie omologie om sequenties toe te wijzen aan eiwitfamilies[22].

Pan-genomics

Genomics pan is een concept dat in 2005 werd geïntroduceerd door Tettelin en Medini en dat uiteindelijk wortel schoot in de bio-informatica. Het genoom Pan vertegenwoordigt het volledige genenrepertoire van een bepaalde taxonomische groep: hoewel het in eerste instantie wordt toegepast op nauw verwante stammen van een soort, kan het worden toegepast op een bredere context zoals het geslacht, het phylum, enz. Het is verdeeld in twee delen – het Kerngenoom: een set van genen die gemeenschappelijk zijn voor alle genomen in de studie (vaak vitale huisgenen voor overleving) en het Aantoonbaar/Flexibel genoom: een set van genen die niet in alle genomen in de studie aanwezig zijn, maar in één of enkele ervan. Een BPGA-bio-informaticahulpmiddel kan worden gebruikt om het Pan-genoom van bacteriële soorten te karakteriseren[23].

Genetica van de ziekte

De komst van next generation sequencing betekent dat we voldoende sequentiegegevens verkrijgen om de genen van complexe ziekten zoals onvruchtbaarheid, [24] borstkanker [25] of de ziekte van Alzheimer in kaart te brengen.[26] Genomische associatiestudies zijn een nuttige benadering om de mutaties te identificeren die verantwoordelijk zijn voor dergelijke complexe ziekten.[27] Door middel van deze studies zijn duizenden DNA-varianten geïdentificeerd die geassocieerd zijn met vergelijkbare ziekten en kenmerken.[28] Bovendien is de mogelijkheid om genen te gebruiken voor prognose, diagnose of behandeling een van de meest essentiële toepassingen. Veel studies bespreken zowel veelbelovende manieren om de te gebruiken genen te kiezen als de problemen en valkuilen van het gebruik van genen om de aanwezigheid of prognose van de ziekte te voorspellen[29].

Bij kanker worden de genomen van de aangetaste cellen op een complexe of zelfs onvoorspelbare manier gereorganiseerd. Uitgebreide sequencing inspanningen worden gebruikt om voorheen onbekende puntmutaties in een verscheidenheid van kankergenen te identificeren. Bio-informatici produceren geautomatiseerde gespecialiseerde systemen om het volume van de geproduceerde sequentiegegevens te beheren, en ze creëren nieuwe algoritmen en software om de sequencingresultaten te vergelijken met de groeiende verzameling van menselijke genoomsequenties en kiempolymorfismen. Nieuwe fysieke detectietechnologieën worden gebruikt, zoals oligonucleotidemicroarrays om chromosoomwinsten en -verliezen te identificeren (vergelijkende genoomhybridisatie genoemd), en single nucleotidepolymorfismarrays om bekende puntmutaties te detecteren. Samen meten dergelijke detectiemethoden enkele honderdduizenden locaties in het hele genoom, en wanneer ze met hoge snelheid worden gebruikt om duizenden monsters te meten, genereren ze terabytes aan gegevens per experiment. Ook hier genereren de enorme hoeveelheden en nieuwe soorten data nieuwe mogelijkheden voor bioinformatici. Vaak wordt ontdekt dat de gegevens aanzienlijke variabiliteit of ruis bevatten, en daarom worden er analysemethoden van het Verborgen Markov-model en wijzigingspunten ontwikkeld om echte variaties in het aantal kopieën af te leiden.