Bioinformatyka /ˌbaɪ.oʊˌɪnfərˈmætɪks/ (O tym słuchaczu dźwięku), która jest interdyscyplinarną dziedziną, w której opracowywane są metody i narzędzia programowe służące zrozumieniu danych biologicznych. Bioinformatyka łączy biologię, informatykę, inżynierię informacji, matematykę i statystykę w celu analizy i zrozumienia danych biologicznych. Jest ona również wykorzystywana do analizy krzemowej zapytań biologicznych z wykorzystaniem technik matematycznych i statystycznych.

Badania biologiczne wykorzystujące programowanie komputerowe jako część ich metodologii są włączone do bioinformatyki, jak również do specyficznego ciągu analiz, które są wielokrotnie wykorzystywane, szczególnie w dziedzinie genomiki. Typowe zastosowania bioinformatyki obejmują geny kandydujące oraz polimorfizmy pojedynczych nukleotydów (SNP). Wykrywanie to jest często wykonywane w celu uzyskania lepszego zrozumienia genetycznych podstaw choroby, unikalnych adaptacji, pożądanych właściwości (zwłaszcza u gatunków rolniczych) lub różnic w populacjach. W mniej formalny sposób, bioinformatyka stara się również zrozumieć zasady organizacyjne w sekwencjach kwasu nukleinowego i białek, zwanych proteomikami.

Wprowadzenie

Bioinformatyka stała się istotną częścią wielu dziedzin biologii. W ramach eksperymentalnej biologii molekularnej, techniki bioinformatyczne, takie jak przetwarzanie obrazów i sygnałów, pozwalają na uzyskiwanie użytecznych wyników z dużych ilości surowych danych. W genetyce pomagają one w sekwencjonowaniu i anotowaniu genomów oraz ich zaobserwowanych mutacji. Odgrywają one rolę w tekstowej ekstrakcji literatury biologicznej oraz w rozwoju ontologii biologicznej i genetycznej w celu uporządkowania i wyszukiwania danych biologicznych. Odgrywa również rolę w analizie ekspresji i regulacji genów i białek. Narzędzia bioinformatyczne pomagają porównać, przeanalizować i zinterpretować dane genetyczne i genomowe oraz, bardziej ogólnie, zrozumieć ewolucyjne aspekty biologii molekularnej. Na wyższym poziomie integracyjnym pomagają analizować i katalogować biologiczne ścieżki i sieci, które są istotną częścią biologii systemów. W biologii strukturalnej pomaga w symulacji i modelowaniu interakcji DNA, RNA, białek i biomolekularnych.

Sekwencje

Sekwencje materiału genetycznego są często wykorzystywane w bioinformatyce i łatwiej jest nimi zarządzać przy pomocy komputerów niż ręcznie.

Ponieważ sekwencje białek stały się niezbędne w biologii molekularnej, komputery stały się dostępne po tym, jak Frederick Sanger określił sekwencję insuliny na początku lat pięćdziesiątych XX wieku. Ręczne porównywanie wielu sekwencji okazało się niepraktyczne. Jednym z pionierów w tej dziedzinie była Margaret Oakley Dayhoff, która opracowała jedną z pierwszych baz danych sekwencji białkowych, pierwotnie opublikowaną w formie książkowej, oraz eksperymentowała z metodami wyrównywania sekwencji i ewolucji molekularnej.  Innym pionierem w bioinformatyce był Elvin A. Kabat, który był pionierem analizy sekwencji biologicznych w 1970 r. wraz z jego pełnymi tomami sekwencji przeciwciał wydanymi wraz z Tai Te Wu w latach 1980-1991.

Cele

W celu zbadania, w jaki sposób normalna aktywność komórkowa jest zmieniana w różnych stanach chorobowych, dane biologiczne muszą być połączone w celu stworzenia pełnego obrazu tych aktywności. Dlatego też dziedzina bioinformatyki rozwinęła się w taki sposób, że najpilniejszym zadaniem jest obecnie analiza i interpretacja różnych rodzajów danych. Wśród nich są sekwencje nukleotydów i aminokwasów, domeny i struktury białkowe. Rzeczywisty proces analizy i interpretacji danych jest określany mianem biologii obliczeniowej. Do ważnych podgrup w bioinformatyce i biologii obliczeniowej należą:

Relacje z innymi dziedzinami

Bioinformatyka jest podobną dziedziną nauki, ale różni się od obliczeń biologicznych, podczas gdy często uważa się ją za synonim biologii obliczeniowej. W obliczeniach biologicznych wykorzystuje się bioinżynierię i biologię do budowy komputerów biologicznych, natomiast w bioinformatyce wykorzystuje się informatykę do lepszego zrozumienia biologii. Biologia obliczeniowa i bioinformatyka obejmują analizę danych biologicznych, w szczególności sekwencji DNA, RNA i białek. Od połowy lat 90. nastąpił gwałtowny rozwój bioinformatyki, głównie dzięki projektowi “Human Genome” i szybkiemu postępowi w technologii sekwencjonowania DNA.

Analiza biologicznych informacji badawczych w celu uzyskania znaczących informacji wymaga pisania i uruchamiania programów wykorzystujących algorytmy z teorii grafów, sztucznej inteligencji, obliczeń miękkich, eksploracji danych, przetwarzania obrazów i symulacji komputerowych. Algorytmy z kolei zależą od podstaw teoretycznych, takich jak matematyka dyskretna, teoria kontroli, teoria systemów, teoria informacji i statystyka.

Sekwencjonowanie DNA

Główny artykuł: Sekwencjonowanie DNA

Zanim sekwencje te będą mogły być analizowane, należy je uzyskać na przykładzie banku pamięci Genbank. Sekwencjonowanie DNA jest znowu nietrywialnym problemem, ponieważ surowe dane mogą być hałaśliwe lub nękane przez słabe sygnały. Algorytmy zostały opracowane dla bazy, które wymagają różnych eksperymentalnych podejść do sekwencjonowania DNA.

Zespół sekwencyjny

Większość technik sekwencjonowania DNA produkuje krótkie fragmenty sekwencji, które muszą być połączone w celu uzyskania pełnych sekwencji genów lub genomów. Na przykład tzw. technika shotgun (stosowana przez Instytut Badań Genomowych (TIGR) do sekwencjonowania pierwszego genomu bakteryjnego, Haemophilus influenzae)[19] generuje sekwencje kilku tysięcy małych fragmentów DNA (od 35 do 900 długich nukleotydów, w zależności od technologii sekwencjonowania). Końce tych fragmentów nakładają się na siebie i po prawidłowym wyrównaniu przez program montażu genomu mogą być wykorzystane do zrekonstruowania całego genomu. Sekwencjonowanie strzałów powoduje szybkie tworzenie danych sekwencyjnych, ale zadanie złożenia tych fragmentów może być dość skomplikowane dla większych genomów. Przy genomie tak dużym jak ludzki, złożenie fragmentów może zająć wiele dni czasu CPU na dużych pamięciach i komputerach wieloprocesorowych, a powstały w ten sposób zespół zazwyczaj zawiera wiele luk, które trzeba później wypełnić. Strzelba sekwencyjna jest metodą z wyboru dla prawie wszystkich genomów sekwencjonowanych dzisiaj [kiedy?], a algorytmy montażu genomu są krytycznym obszarem badań bioinformatycznych.

Adnotacja genomowa

W kontekście genomiki anotacja jest procedurą oznaczania genów i innych cech biologicznych w sekwencji DNA. Proces ten musi zostać zautomatyzowany, ponieważ większość genomów jest zbyt duża, aby można było je ręcznie anotować, nie wspominając już o chęci anotowania jak największej liczby genomów, ponieważ tempo sekwencjonowania przestało stanowić wąskie gardło. Adnotacja ta jest możliwa dzięki temu, że geny mają rozpoznawalne regiony początku i końca, chociaż dokładna sekwencja występująca w tych regionach może się różnić w zależności od genu.

Pierwszy pełny opis kompletnego systemu adnotacji genomu został opublikowany w 1995 roku [19] przez zespół Instytutu Badań Genomowych, który wykonał pierwsze pełne sekwencjonowanie i analizę genomu wolnego żywego organizmu, bakterii Haemophilus influenzae [19] Owen White zaprojektował i zbudował system oprogramowania do identyfikacji genów kodujących wszystkie białka, transferu RNA, rybosomalnych RNA (i innych miejsc) oraz do wykonywania wstępnych przypisów funkcjonalnych. Większość obecnych systemów anotacji genów działa podobnie, ale programy dostępne do analizy genomowego DNA, takie jak program GeneMark, wyszkolony i używany do wyszukiwania genów kodujących białka w Haemophilus influenzae, stale się rozwijają i udoskonalają.

W ślad za celami, które Projekt Genomu Ludzkiego pozostawił do realizacji po jego zamknięciu w 2003 roku, pojawił się nowy projekt opracowany przez National Human Genome Research Institute w Stanach Zjednoczonych. Tak zwany projekt ENCODE to wspólne zbieranie danych na temat funkcjonalnych elementów ludzkiego genomu z wykorzystaniem technologii sekwencjonowania DNA nowej generacji i tablic genomowych, technologii zdolnych do automatycznego generowania dużych ilości danych przy drastycznie zmniejszonym koszcie na bazę, ale z taką samą dokładnością (podstawowy błąd wywołania) i wiernością (błąd zespołu).

Obliczeniowa biologia ewolucyjna (Computational evolutionary biology)

Biologia ewolucyjna to badanie pochodzenia i pochodzenia gatunków, a także ich zmian w czasie. Informatyka wspomagała biologów ewolucyjnych, pozwalając badaczom na to:

śledzić ewolucję dużej liczby organizmów poprzez pomiar zmian w ich DNA, a nie tylko poprzez fizyczną taksonomię czy obserwacje fizjologiczne, porównywać całe genomy, co pozwala na badanie bardziej złożonych zdarzeń ewolucyjnych, takich jak duplikacja genów, horyzontalny transfer genów i przewidywanie ważnych czynników w specjacji bakteryjnej,

Budowanie złożonych modeli genetyki populacji obliczeniowej w celu przewidywania wyników systemu na przestrzeni czasu[20].

monitorować i udostępniać informacje o rosnącej liczbie gatunków i organizmów

Przyszła praca stara się odbudować teraz bardziej złożone drzewo życia.

Jednak obszar badań w informatyce przy użyciu algorytmów genetycznych jest czasami mylony z obliczeniową biologią ewolucyjną, ale te dwa obszary nie muszą być ze sobą powiązane.

Genomika porównawcza

U podstaw analizy porównawczej genomu leży określenie zgodności pomiędzy genami (analiza ortologiczna) lub innymi cechami genomu u różnych organizmów. To właśnie te mapy intergenomiczne pozwalają na prześledzenie procesów ewolucyjnych odpowiedzialnych za rozbieżność dwóch genomów. Różne zdarzenia ewolucyjne działające na różnych poziomach organizacyjnych modelują ewolucję genomu. Na najniższym poziomie, mutacje punktowe wpływają na poszczególne nukleotydy. Na wyższym poziomie duże segmenty chromosomów ulegają duplikacji, bocznemu transferowi, inwersji, transpozycji, usunięciu i insercji[21]. Ostatecznie całe genomy biorą udział w procesach hybrydyzacji, poliploidyzacji i endosymbiozy, które często prowadzą do szybkiej specjacji. Ta złożoność ewolucji genomów stawia wiele ekscytujących wyzwań przed twórcami modeli i algorytmów matematycznych, którzy uciekają się do spektrum technik algorytmicznych, statystycznych i matematycznych, począwszy od dokładnych, heurystycznych algorytmów do stałych parametrów i algorytmów aproksymacyjnych dla problemów wykorzystujących modele oszczędne do algorytmów łańcuchowych Monte Carlo Markova dla bayesowskiej analizy problemów opartej na modelach probabilistycznych.

Niektóre z tych badań opierają się na wykrywaniu omologii sekwencji w celu przypisania sekwencji do rodzin białek[22].

Pan genomika

Panewka Genomics to koncepcja wprowadzona w 2005 roku przez Tettelin i Medini, która ostatecznie zakorzeniła się w bioinformatyce. Genomiczna patelnia reprezentuje pełny repertuar genów określonej grupy taksonomicznej: chociaż początkowo stosowana była do blisko spokrewnionych szczepów danego gatunku, może być stosowana w szerszym kontekście, takim jak rodzaj, typ itp. Dzieli się on na dwie części – genom podstawowy: zbiór genów wspólnych dla wszystkich badanych genomów (często genów domowych niezbędnych do przeżycia) oraz genom zbędny/elastyczny: zbiór genów nie występujących we wszystkich badanych genomach, ale w jednym lub kilku z nich. Narzędzie bioinformatyczne BPGA może być wykorzystane do charakterystyki Pan Genomu gatunków bakterii[23].

Genetyka choroby

Pojawienie się sekwencjonowania następnej generacji oznacza, że otrzymujemy wystarczające dane sekwencyjne do mapowania genów złożonych chorób, takich jak niepłodność,[24] rak piersi[25] czy choroba Alzheimera.[26] Badania asocjacyjne genomów są użytecznym podejściem do identyfikacji mutacji odpowiedzialnych za takie złożone choroby.[27] Dzięki tym badaniom zidentyfikowano tysiące wariantów DNA związanych z podobnymi chorobami i cechami.[28] Ponadto, możliwość wykorzystania genów do prognozowania, diagnozowania lub leczenia jest jednym z najważniejszych zastosowań. W wielu badaniach omawiane są zarówno obiecujące sposoby wyboru genów do wykorzystania, jak i problemy i pułapki związane z wykorzystaniem genów do przewidywania obecności lub rokowania choroby[29].

W przypadku raka, genomy komórek dotkniętych chorobą są reorganizowane w sposób złożony lub nawet nieprzewidywalny. Szeroko zakrojone działania sekwencyjne są wykorzystywane do identyfikacji nieznanych wcześniej mutacji punktowych w różnych genach raka. Bioinformatycy produkują zautomatyzowane, specjalistyczne systemy do zarządzania objętością wytwarzanych danych sekwencyjnych oraz tworzą nowe algorytmy i oprogramowanie do porównywania wyników sekwencjonowania z rosnącą kolekcją sekwencji ludzkich genomów i polimorfizmów zarodkowych. Stosowane są nowe technologie detekcji fizycznej, takie jak mikromacierze oligonukleotydowe do identyfikacji zysków i strat chromosomów (nazywane hybrydyzacją porównawczą genomów) oraz tablice polimorfizmu pojedynczego nukleotydu do wykrywania znanych mutacji punktowych. Łącznie, takie metody wykrywania mierzą kilkaset tysięcy miejsc w całym genomie, a gdy są stosowane z dużą prędkością do pomiaru tysięcy próbek, generują terabajty danych na jedno doświadczenie. Również tutaj ogromne ilości i nowe rodzaje danych generują nowe możliwości dla bioinformatyków. Często odkrywa się, że dane te zawierają znaczną zmienność lub szum, dlatego też opracowywane są metody analizy modelu Ukrytego Markova i punktów zmian, aby wydedukować rzeczywiste zmiany w liczbie kopii.