drugi_beamer.pdf

Bioinformatyka.

II. Biologiczne bazy danych.

dr Marcin Goł¦biewski

Zakład Biotechnologii,

Wydział Biologii i Nauk o Ziemi,

Uniwersytet Mikołaja Kopernika,

Toru«

MarcinGoł¦biewskiPh.D. BioinformatykaWykładII

Wst¦p

Zasoby informacji na temat organizmów i procesów w nich

zachodz¡cych mo»na podzieli¢ na kilka kategorii:

Sekwencje nukleotydowe i białkowe

Map genetycznych i ﬁzycznych

Struktury białek i innych biomolekół

Literatura

Informacje o ekspresji genów

MarcinGoł¦biewskiPh.D. BioinformatykaWykładII

Bazy sekwencji: gdzie i jakie

Trzy główne o±rodki gromadzenia danych sekwencyjnych to

NCBI (National Center of Biological Information) w USA

( www.ncbi.nlm.nih.gov )

DDBJ (DNA Data Bank of Japan) w Japonii

( www.ddbj.nig.ac.jp )

EMBL (European Molecular Biology Laboratory) w Europie

( www.embl.org )

Prowadz¡ one zsynchronizowane bazy sekwencji nukleotydowych

(DNA i RNA), odpowiednio GenBank, DDBJ i EMBL-Bank oraz

białkowych (GenPept, DDBJ CDSDB i TrEMBL).

MarcinGoł¦biewskiPh.D. BioinformatykaWykładII

Bazy sekwencji: format

Aby informacje o sekwencjach genomów i białek gromadzone

w bazach danych były u»yteczne, dane musz¡ by¢

przechowywane w odpowiedniej formie, łatwej do

przetwarzania komputerowego, a jednocze±nie do czytelnej

prezentacji ludzkiemu u»ytkownikowi.

Wymaga to okre±lenia odpowiedniego modelu danych , czyli

formalnego sposobu ich opisu. Informacje jakie nale»y

uwzgl¦dni¢ to m. in.:

pozycja systematyczna organizmu z którego pochodzi

sekwencja

rodzaj cz¡steczki (DNA, RNA, białko)

rodzaj sekwencji (genomowa, plazmidowa, sztucznie stworzony

wektor)

autor (autorzy)

unikalny numer sekwencji (tzw. accession number)

odno±niki do publikacji na temat sekwencj i

MarcinGoł¦biewskiPh.D. BioinformatykaWykładII

Bazy sekwencji: format

Poniewa» najcz¦±ciej nie wyci¡gamy z bazy rekordów gdzie

jakie± pola maj¡ okre±lon¡ warto±¢, tylko takie, gdzie pole

“sekwencja” ma zawarto±¢ podobn¡ do sekwencji któr¡

przeszukujemy (query sequence), standardowy model

relacyjnej bazy danych nie jest w tym przypadku

najodpowiedniejszy.

Przeszukiwanie olbrzymich baz wymaga u»ycia algorytmów

heurystycznych, takich jak zaimplementowane w programach

BLAST. Programy te maj¡ ró»ne wymagania co do formatu

bazy danych. Np. BLAST wymaga odpowiedniego

przygotowania bazy (sformatowania jej programem formatdb).

MarcinGoł¦biewskiPh.D. BioinformatykaWykładII

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: