drugi_beamer.pdf

(669 KB) Pobierz
Bioinformatyka Wyklad II
Bioinformatyka.
II. Biologiczne bazy danych.
dr Marcin Goł¦biewski
Zakład Biotechnologii,
Wydział Biologii i Nauk o Ziemi,
Uniwersytet Mikołaja Kopernika,
Toru«
MarcinGoł¦biewskiPh.D. BioinformatykaWykładII
27611112.003.png 27611112.004.png
Wst¦p
Zasoby informacji na temat organizmów i procesów w nich
zachodz¡cych mo»na podzieli¢ na kilka kategorii:
Sekwencje nukleotydowe i białkowe
Map genetycznych i fizycznych
Struktury białek i innych biomolekół
Literatura
Informacje o ekspresji genów
MarcinGoł¦biewskiPh.D. BioinformatykaWykładII
27611112.005.png
Bazy sekwencji: gdzie i jakie
Trzy główne o±rodki gromadzenia danych sekwencyjnych to
NCBI (National Center of Biological Information) w USA
( www.ncbi.nlm.nih.gov )
DDBJ (DNA Data Bank of Japan) w Japonii
( www.ddbj.nig.ac.jp )
EMBL (European Molecular Biology Laboratory) w Europie
( www.embl.org )
Prowadz¡ one zsynchronizowane bazy sekwencji nukleotydowych
(DNA i RNA), odpowiednio GenBank, DDBJ i EMBL-Bank oraz
białkowych (GenPept, DDBJ CDSDB i TrEMBL).
MarcinGoł¦biewskiPh.D. BioinformatykaWykładII
27611112.006.png
Bazy sekwencji: format
Aby informacje o sekwencjach genomów i białek gromadzone
w bazach danych były u»yteczne, dane musz¡ by¢
przechowywane w odpowiedniej formie, łatwej do
przetwarzania komputerowego, a jednocze±nie do czytelnej
prezentacji ludzkiemu u»ytkownikowi.
Wymaga to okre±lenia odpowiedniego modelu danych , czyli
formalnego sposobu ich opisu. Informacje jakie nale»y
uwzgl¦dni¢ to m. in.:
pozycja systematyczna organizmu z którego pochodzi
sekwencja
rodzaj cz¡steczki (DNA, RNA, białko)
rodzaj sekwencji (genomowa, plazmidowa, sztucznie stworzony
wektor)
autor (autorzy)
unikalny numer sekwencji (tzw. accession number)
odno±niki do publikacji na temat sekwencj i
MarcinGoł¦biewskiPh.D. BioinformatykaWykładII
27611112.001.png
Bazy sekwencji: format
Poniewa» najcz¦±ciej nie wyci¡gamy z bazy rekordów gdzie
jakie± pola maj¡ okre±lon¡ warto±¢, tylko takie, gdzie pole
“sekwencja” ma zawarto±¢ podobn¡ do sekwencji któr¡
przeszukujemy (query sequence), standardowy model
relacyjnej bazy danych nie jest w tym przypadku
najodpowiedniejszy.
Przeszukiwanie olbrzymich baz wymaga u»ycia algorytmów
heurystycznych, takich jak zaimplementowane w programach
BLAST. Programy te maj¡ ró»ne wymagania co do formatu
bazy danych. Np. BLAST wymaga odpowiedniego
przygotowania bazy (sformatowania jej programem formatdb).
MarcinGoł¦biewskiPh.D. BioinformatykaWykładII
27611112.002.png
Zgłoś jeśli naruszono regulamin