当前位置:首页 >> 学科竞赛 >>

生物奥赛培训 生物信息学


生物信息学和生物数据库
NCBI

生物信息学-数据库
生物学已经积累了相当丰富多样和复杂的数据。这些数据可 以被分类,但相当难于综合以及用公式进行描述。

随着生物学知识大量增加,要完成对数据的处理只能使用计 算机。
NCBI

生物信息学-数据库
? 目标:
?

? ? ? ?

在分子生物学和基因组学中常见数据类型的概述 介绍主要序列数据库,比较它们包含的数据内容和注释质量的区别 数据库接受数据的形式(文本搜索,相似性搜索,浏览和交叉索引) 序列与非序列数据库介绍以及它们的用途
NCBI

一级序列与结构数据库介绍

分子生物学数据类型
物种 基因组图谱

小鼠X染色体

NCBI

来源于小鼠基因组计划
http://www.informatics.jax.org/

分子生物学数据类型
物种 基因组图谱 DNA序列 RNA序列
NCBI

...AATGGTACCGATGACCTGGAGCTTGGTTCGA...

分子生物学数据类型
物种 基因组图谱

DNA序列 RNA序列
蛋白质序列

NCBI

...TRLRPLLALLALWPPPPARAFVNQHLCGSHLVEA...

分子生物学数据类型
物种

基因组图谱
DNA序列

RNA序列

RNA结构

蛋白质序列
NCBI

E. coli small subunit rRNA
Gutell R.R. (1994) Collection of small subunit (16S- and 16Slike) ribosomal RNA structures Nucleic Acids Res 22:3502

分子生物学数据类型
物种 基因组图谱 DNA序列 RNA序列 蛋白质序列 蛋白质结构
PDB entry 1CIS P.Osmark, P.Sorensen, F.M.Poulsen

RNA结构

NCBI

分子生物学数据类型
核酸结构模体: ?转录因子结合位点(CBF1:CCGNC ) (TACCGACAT ) ?RNA 催化模体 蛋白质模体: ?结构模体 ?保守区(D/N-R-X-G-R-R/K; I-X2-R-X3-G-X3-G ) NAD+结合区含有一个保守的模体 [G]-[X]-[G]-[X2]-[G] (GSGAWA)(D. salina) ?活性位点等

物种

基因组图谱

DNA模体

DNA序列 RNA结构

RNA序列
蛋白质序列 蛋白质结构

NCBI

蛋白质模体

分子生物学数据类型
物种 基因组图谱

DNA模体

DNA序列 RNA结构

RNA表达
RNA序列 蛋白质序列 蛋白质结构

NCBI

蛋白质模体

在RNA水平上使用DNA微阵列检测变异
一个芯片上包含酵母 基因组全序列
红色点: RNA 表达水平增加的基因 绿色点: RNA表达水平降低的基因

NCBI

De Risi et al, Science 278:680 http://cmgm.Stanford.EDU/pbrown/

分子生物学数据类型

物种

基因组图谱

DNA模体 RNA表达 RNA序列 蛋白质表达

DNA序列 RNA结构
NCBI

蛋白质序列
蛋白质结构 蛋白质模体

蛋白质组学: 2D凝胶电泳

SWISS-2D PAGE数据库

NCBI

http://www.expasy.ch

分子生物学数据类型
物种 基因组图谱

DNA模体 RNA表达 底物

DNA序列 RNA结构

RNA序列 蛋白质表达
蛋白质序列

NCBI

代谢途径

蛋白质结构

蛋白质模体

KEGG database, http://kegg.genome.ad.jp/kegg/

分子生物学数据类型
物种 基因组图谱

DNA模体 RNA表达 底物 蛋白质表达 RNA序列

DNA序列 RNA结构

蛋白质序列
NCBI

代谢途径 抑制因子 和药物

蛋白质结构

蛋白质模体

药物设计

与抑制因子结合的HIV-1 蛋白酶复合体

NCBI

PDB entry 1DIF A.M.Silva, R.E.Cachau, H.L.Sham, J.W.Erickson

分子生物学数据类型
物种 组织和细胞 DNA模体 RNA表达 底物 蛋白质表达 DNA序列 RNA结构 基因组图谱

RNA序列 蛋白质序列

NCBI

代谢途径 抑制因子 和药物

http://www.atcc.org 蛋白质结构 蛋白质模体

分子生物学数据类型
种群 组织和细胞 物种 基因组图谱 DNA序列 RNA结构

DNA模体 RNA表达 蛋白质表达

底物

RNA序列 蛋白质序列

NCBI

代谢途径 抑制因子 和药物

蛋白质结构

蛋白质模体

分子生物学数据类型
突变/多形性 种群 物种 基因组图谱

组织和细胞
RNA表达

DNA模体
RNA序列 蛋白质表达 蛋白质序列

DNA序列
RNA结构

底物

NCBI

代谢途径
抑制因子 和药物

蛋白质结构

蛋白质模体

分子生物学数据类型
突变/多形性 种群 组织和细胞 RNA表达

物种

基因组图谱

DNA模体 RNA序列

DNA序列 RNA结构

底物 蛋白质表达

蛋白质序列
NCBI

代谢途径
抑制因子 和药物

蛋白质结构

蛋白质模体

疾病

突变/多形性
种群 组织和细胞 RNA表达 底物 蛋白质表达

分子生物学数据类型
物种 基因组图谱

DNA模体

DNA序列 RNA结构

RNA序列
文献

蛋白质序列
NCBI

代谢途径 抑制因子 和药物

蛋白质结构

蛋白质模体

疾病

分子生物学数据库
?

序列数据库

?
? ? ? ? ? ?

基因组数据库
蛋白质组数据库

?含注释 ?无注释 ?针对特定对象
?

突变
多形性 代谢途径 物种 种群
NCBI

结构数据库

?
?

模体数据库
RNA表达

?

文献

序列数据库
?

含注释的序列数据库

? SWISS-PROT, GenBank 等 ? 用途: 功能识别,获取信息
?

无注释的序列数据库

? EST数据库,高通量基因组序列
? 用途:发现新基因
NCBI

?

对特定对象的数据库

? RDP, G-蛋白偶联受体数据库等 ? 用途:视数据库而定,通常用于获取特定领域的信息

通用核酸数据库
?

主要数据库:

? GenBank (美国) ? EMBL (欧洲) ? DDBJ (日本)
NCBI

GenBank - 按物种分类
Entries 碱基 物种 Homo sapiens Mus musculus Caenorhabditis elegans Drosophila melanogaster Arabidopsis thaliana Oryza sativa Rattus norvegicus Saccharomyces cerevisiae Rattus sp. Escherichia coli Fugu rubripes Danio rerio Human immunodeficiency virus type 1 Schizosaccharomyces pombe Plasmodium falciparum Zea mays Bacillus subtilis Magnaporthe grisea Dictyostelium discoideum Lycopersicon esculentum 2217460 1556595261 553872 260818221 77205 177824883 123758 133950582 72565 117022315 87138 47136422 80507 42049391 14403 30390617 61001 26060656 5240 18407242 32227 17046673 33482 14732289 31504 14498639 9882 14270269 5446 11539475 19704 10817282 1101 10008018 13898 9038361 16089 8486371 11429 7007861

NCBI

GenBank剖析 I: 数据结构
?

记录分为3部分:

? 记录起始 ? 特征表 ? 序列
NCBI

GenBank剖析 II:记录起始
LOCUS DEFINITION ACCESSION NID KEYWORDS SOURCE ORGANISM ANACIAG 3042 bp DNA PLN 28-NOV-1996 A.nidulans aciA gene for AciA protein. Z11612 S51247 g5544 aciA gene; AciA protein. Emericella nidulans. Emericella nidulans Eukaryotae; mitochondrial eukaryotes; Fungi; Ascomycota; Euascomycetes; Plectomycetes; Eurotiales; Trichocomaceae; Emericella. 1 (bases 1 to 3042) Saleeba,J.A., Cobbett,C.S. and Hynes,M.J. Characterization of the amdA-regulated aciA gene of Aspergillus nidulans Mol. Gen. Genet. 235 (2-3), 349-358 (1992) 93101140 2 (bases 1 to 3042) Saleeba,J.A. Direct Submission Submitted (24-JAN-1992) Jennifer A. Saleeba, Department of Genetics, University of, Melbourne, Grattan Street, Parkville, Victoria, 3052, Australia

REFERENCE AUTHORS TITLE JOURNAL MEDLINE REFERENCE AUTHORS TITLE JOURNAL

NCBI

GenBank记录起始 III: 特征
FEATURES source Location/Qualifiers 1..3042 /organism="Emericella nidulans" /strain="Glasgow" /chromosome="Segment of chromosome 1" join(969..1263,1318..1493,1553..2624) /gene="aciA" 969..1263 /gene="aciA" /number=1 join(1205..1263,1318..1493,1553..2624) /gene="aciA" 1205..1263 /gene="aciA" /number=1 join(1249..1263,1318..1493,1553..2495) /gene="aciA" /codon_start=1 /product="AciA" /db_xref="PID:g5545" /db_xref="SWISS-PROT:Q03134"

mRNA exon

mRNA

exon

NCBI

CDS

GenBank记录起始 IV: 序列

ANACIAG A.nidulans aciA gene for AciA protein Seq: ANACIAG Length: 3042 Sun Jan 19 21:10:37 1997 1 AAGCTTACTT GTGTCCATTT TCTGGATTCC AGACTCAAGA 51 AGAAAACCCC TAGATTACTA TTTCAACCAT ATTATTTTTT 101 AATTTAATCG CGAGCGTAGA AGCCAACTAT ACTACAAACA 151 ATGAAACTGT AGATTTCTAT CGAGTGCTTC TACTTTTACC 201 ATTACTTATC TCCTTTTGTC AATTCCACGC TCTGAGCTGG 251 TGACAGTCAA GTGAGGGGGA GGGGCGGGAG TTTACCCCTC 301 GACCGTGTGT TGTAGATCAT ACTGACAGCC AGCGACAAAG 351 AGTTTGCAAG TCAACCTGAG GCAGCAGAGA CGATTGGAAG

Check: 422 CCAGTGCTAA TCCTTGCCAG GGCTGTCCCA AAAATTTATT GGCTTTTTGC ATGCGGGGAA TATGTCGGCC AGC…….

..

NCBI

通用蛋白质数据库
?

SWISS-PROT

? 人工维护 ? 详细注释
?

GenPept/TREMBL

? 翻译编码序列来源于GenBank/EMBL ? 简略注释,包含大量数据
?

NCBI

PIR

? 不同注释类型

使用序列数据库
?

搜索记录起始

? 以关键词搜索注释 (物种名,基因名等)
?

搜索序列

? 使用BLAST搜索序列相似性 ? 搜索含有特定特征的序列
?

浏览

NCBI

? 使用其它数据库的后续链接

后续链接: SWISS-PROT entry 交叉索引
DR DR DR DR DR DR DR DR DR DR DR DR DR DR DR EMBL; M16591; AAA52643.1; -. EMBL; M16592; AAA52644.1; -. PIR; A27812; TVHUHC. PDB; 2HCK; 20-AUG-97. PDB; 3HCK; 15-OCT-97. PDB; 1BU1; 11-NOV-98. MIM; 142370; -. PROSITE; PS00107; PROTEIN_KINASE_ATP; 1. PROSITE; PS00109; PROTEIN_KINASE_TYR; 1. PROSITE; PS50011; PROTEIN_KINASE_DOM; 1. PROSITE; PS50001; SH2; 1. PROSITE; PS50002; SH3; 1. PFAM; PF00017; SH2; 1. PFAM; PF00018; SH3; 1. PFAM; PF00069; pkinase; 1.

NCBI

无冗余数据库
? ? ?

仅含序列数据: 无法浏览, 只能使用序列检索 序列来源于多个数据库 如:

? NR Nucleic (genbank+EMBL+DDBJ+PDB DNA) ? NR Protein (SWISS-PROT+TrEMBL+GenPept+PDB
protein) ? 国际基因组数据库(中国)
NCBI

简略注释数据库
?

ESTs (Expressed Sequence Tags)

? cDNAs
?

3’或5’端大量测序所产生

高通量基因组序列

? 来源于基因组DNA大规模测序
NCBI

dbEST entry

LOCUS T12742 157 bp mRNA EST 28-OCT-1993 DEFINITION zEST00149-5 Zea mays cDNA clone csuh00149/umc382 5' end similar to similar to short chain alcohol dehydrogenase. ACCESSION T12742 NID g409680 KEYWORDS EST. SOURCE Maize clone=csuh00149/umc382 library=Maize Leaf, Stratagene #937005 strain=B73 vector=Uni-ZAP primer=SK Rsite1=EcoR1 Rsite2=Xho1 mRNA isolated from illuminated leaves and sheaths of 5 week old plant. cDNA directionally cloned into vector. . ORGANISM Zea mays Eucaryotae; Embryophyta; Magnoliophyta; Liliopsida; Cyperales; Poaceae; Zea. REFERENCE 1 (bases 1 to 157) AUTHORS Baysdorfer,C. TITLE The Maize cDNA Program JOURNAL Unpublished (1993) COMMENT Contact: Baysdorfer C California State University Dept Biol Sci, California State Univ, Hayward, CA 94542 Tel: 5108813459 Fax: 5107272035 Email: cbaysdor@s1.csuhayward.edu. FEATURES Location/Qualifiers source 1..157 /organism="Zea mays" /clone="csuh00149/umc382" /strain="B73" BASE COUNT 33 a 42 c 51 g 26 t 5 others ORIGIN 1 CCTCAAGGGC GTCGACNNNA TGCCCGAGGA CGTCGCCCAG GNNGTGCTCT 51 ACCTGGCCAG CGACGAGGCG AGGTACGTCA GCGCGGTCAA CCTCATGGTG 101 GACGGAGGCT TCACAGCCGT AAACAATAAC CTCAGGGCGT TTGAGGATTA 151 GTTGAGG

NCBI

归类核酸序列数据库
?

综合不同来源的序列数据 (ESTs, RNAs, 基因组DNA),提供

基因序列和表达的完整信息

? TIGR基因索引(人、鼠、果蝇等) ? 序列数据按基因排列 ? http://www.tigr.org ? UniGene (人、鼠) ? 序列数据按基因分类 ? http://www.ncbi.nlm.nih.gov/UniGene/

NCBI

GenBank数据库—数据库格式
? ?

GenBank纯文本文件格式(GenBank flatfile, GBFF): GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库,它 们是怎样交换数据的呢?

NCBI

GBFF文件格式
?

GBFF是GenBank数据库的基本信息单位,

?

是最为广泛使用的生物信息学序列格式之一。

NCBI

>LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE baker's yeast. ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source 1..5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" /map="9" CDS <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="AXL2" CDS 687..3158 /gene="AXL2" /note="plasma membrane glycoprotein" /codon_start=1 /function="required for axial budding pattern of S.cerevisiae" /product="Axl2p" /protein_id="AAA98666.1" /db_xref="GI:1293615" /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF ?? (有部分序列未列出) VDFSNKSNVNVGQVKDIHGRIPEML" BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct ?? (有部分序列未列出) 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //

头部

中部

尾部

G E N B A N K 纯 文 本 文 件 格 式

NCBI

其他序列文件格式
?

文本格式

?

简单文本格式

? ? ? ?

Line, Plain Text Staden FASTA Bionet (allows comments) GenBank GCG
NCBI

?

加入注释的文本格式

? ?
?

二进制格式 (通常都带有注释)

?

MacVector

序列文件格式例子(Fasta)
>gi|995614|dbj|D49653|RATOBESE Rat mRNA for obese.
CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTT CAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACAC GCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCA GACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAG ACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTC CTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCT TAGCCCTGAATGCTGAGGTTTC

以上这个FASTA文件中包含了gi号码、GenBank检索号码、LOCUS名称、以及 GenBank记录中的DEFINATION字段。

一种最简单的fasta序列形式可以表示为:
>D49653
CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTT CAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACAC GCAGTCGGTATCCG….

NCBI

序列文件格式例子(GenBank)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

?

LOCUS RATOBESE 539 bp ss-mRNA ROD 23-SEP-1995 DEFINITION Rat mRNA for obese. ACCESSION D49653 KEYWORDS . SOURCE Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiated adipose cDNA to mRNA. ORGANISM Rattus norvegicus Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus. REFERENCE 1 (bases 1 to 539) AUTHORS Murakami,T. and Shima,K. TITLE Cloning of rat obese cDNA and its expression in obese rats JOURNAL Biochem. Biophys. Res. Commun. 209, 944-952 (1995) STANDARD full automatic COMMENT Submitted (10-Mar-1995) to DDBJ by: Takashi Murakami Department of Laboratory Medicine School of Medicine University of Tokushima Kuramotocho 3-chome Tokushima 770 Japan Phone: +81-886-33-7184 Fax: +81-886-31-9495.

NCBI

序列文件格式例子(GenBank)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

NCBI gi: 995614 FEATURES source Location/Qualifiers 1..539 /organism="Rattus norvegicus" /strain="OLETF, LETO and Zucker" /dev_stage="differentiated" /sequenced_mol="cDNA to mRNA" /tissue_type="adipose" CDS 30..533 /partial /note="NCBI gi: 995615" /codon_start=1 /product="obese" /translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRIND ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLE NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQ LDLSPEC" BASE COUNT ORIGIN 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt 121 a 167 c 133 g 118 t

NCBI

61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctga 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgc 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc //

序列文件格式例子(GCG)
?

LOCUS

RATOBESE.G

539 BP SS-RNA

ENTERED 09/23/95

?
? ? ? ? ?

DEFINITION Rat mRNA for obese.
ACCESSION KEYWORDS SOURCE Rattus norvegicus; Norway rat

ORGANISM Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia; Sciurognathi;

?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

Myomorpha; Muridae; Murinae; Rattus
REFERENCE [1] AUTHORS Murakami, T. & Shima, K. TITLE Cloning of rat obese cDNA and its expression in obese rats. Database Reference: RATOBESE JOURNAL Biochem. Biophys. Res. Commun., 209, 3, 944-952, (1995) COMMENT DDBJ -----------Submitted (10-Mar-1995) to DDBJ by: Takashi Murakami Department of Laboratory Medicine School of Medicine University of Tokushima Kuramotocho 3-chome Tokushima 770 Japan Phone: +81-886-33-7184 Fax: +81-886-31-9495

Accession: D49653

NCBI

序列文件格式例子(GCG)
? ? ? ? ? ? ?

FEATURES pept ????

From 30 1

To/Span 533 539

Description obese source; /organism=Rattus norvegicus; /strain=OLETF, LETO and Zucker; /dev_stage=differentiated; /sequenced_mol=cDNA to mRNA; /tissue_type=adipose

BASE COUNT

121 A

167 C

133 G

118 T

0 OTHER

?
? ? ? ?

ORIGIN

?
Jan 30, 1996 - 05:32 PM Check: 5797 ..

RATOBESE.G Length: 539

1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG

?
? ? ? ?

181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA
241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC 361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC 421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC

NCBI

?
?

481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC
//

序列文件格式例子(ASN.1)
ASN.1是NCBI用来存储和维护所有数据的格式
Seq-entry ::= set { level 1 , class nuc-prot , descr { pub { pub { sub { authors { names std { { name name { last "Murakami" , initials "T." } } } , affil str "Takashi Murakami, School of Medicine, University of Tokushima, Department of Laboratory Medicine; Kuramotocho 3-chome, Tokushima, Tokushima 770, Japan (E-mail:mura@clin.med.tokushima-u.ac.jp, Tel:+81-886-33-7184, Fax:+81-886-31-9495)" } , medium email , date std { year 1995 , month 3 , day 10 } } } } , pub { pub { muid 95251725 , article { title { name "Cloning of rat obese cDNA and its expression in obese rats." } , authors { names std { { name name { last "Murakami" , initials "T." } } , { name name { last "Shima" , initials "K." } } } , affil str "Department of Laboratory Medicine, School of Medicine, University of Tokushima, Japan." } , from journal { title { iso-jta "Biochem. Biophys. Res. Commun." , ml-jta "Biochem Biophys Res Commun" , issn "0006-291X" , name "Biochemical and biophysical research communications." } , imp { date std { year 1995 , month 4 , day 26 } , volume "209" , issue "3" , pages "944-952" , language "eng" } } , ids { pubmed 7733988 , medline 95251725 } } , pmid 7733988 } } , update-date std { year 2000 , month 2 , day 1 } , source { org { taxname "Rattus norvegicus" , common "Norway rat" , db { { db "taxon" , tag id 10116 } } , orgname { name binomial { genus "Rattus" , species "norvegicus" } , mod { { subtype strain , subname "OLETF, LETO and Zucker" } } , lineage "Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Rattus" , gcode 1 , mgcode 2 , div "ROD" } } , subtype { { subtype tissue-type , name "adipose" } , { subtype dev-stage , name "differentiated" } } } } , seq-set { seq { id { ddbj { name "RATOBESE" , accession "D49653" , version 1 } , gi 995614 } , descr { title "Rat mRNA for obese(leptin), complete cds." , genbank { source "Rattus norvegicus (strain:OLETF, LETO and Zucker) differentiated adipose cDNA to mRNA." , keywords { "obese(ob)" , "leptin" , "obesity" , "ob product" , "secretory protein" } } , molinfo { biomol mRNA } , create-date std { year 1995 , month 9 , day 22 } } , inst { repr raw , mol rna , length 539 , seq-data ncbi2na '508208215498A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A38 4500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DC D048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9B 5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4'H } , annot { { data ftable { { data gene { locus "obese(ob)" } , location int { from 0 , to 538 , id gi 995614 } } } } } } , seq { id { ddbj { accession "BAA08529" , version 1 } , gi 995615 } , descr { title "leptin (ob product) [Rattus norvegicus]" , molinfo { biomol peptide } , create-date std { year 1995 , month 9 , day 22 } } , inst { repr raw , mol aa , length 167 , seq-data ncbieaa "MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTG LDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEA SLYSTEVVALSRLQGSLQDILQQLDLSPEC" } , annot { { data ftable { { data prot { name { "leptin (ob product)" } } , location whole gi 995615 } , { data prot { processed signal-peptide } , comment "secretory protein" , location int { from 0 , to 20 , id gi 995615 } } , { data prot { name { "secreted protein, leptin" } , processed mature } , location int { from 21 , to 166 , id gi 995615 } } } } } } } , annot { { data ftable { { data cdregion { frame one , code { id 1 } } , product whole gi 995615 , location int { from 29 , to 532 , id gi 995614 } } } } } }

NCBI

?

生物分子数据库 一级数据库

?数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理
和注释

二级数据库

?对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据
和理论分析的基础上针对特定的应用目标而建立的 。
NCBI

00:35

47

?

国际上权威的核酸序列数据库

(1)欧洲分子生物学实验室的EMBL

http://www.embl-heidelberg.de
(2)美国生物技术信息中心的GenBank http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html

(3)日本遗传研究所的DDBJ
http://www.ddbj.nig.ac.jp/
NCBI

00:35

48

1、核酸序列数据库
?

1988, 由此三家组成了国际核酸序列数据库协作组织(INSDC),规 定:数据交换与共享(每24小时进行一次),使用统一的数据记录 格式处理提交数据,以保证各数据库相应记录在内容上的一致性, 数据的维护与更新。

?

三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特 定的查询,三个数据库的响应结果一样。
NCBI

?

这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一
个单独、连续、附有注释的DNA或RNA片段。

GenBank: http://www.ncbi.nlm.nih.gov/Genbank/

NCBI

EMBL http://www.embl-heidelberg.de

NCBI

DDBJ http://www.ddbj.nig.ac.jp/

NCBI

Total nucleotides:

301,588,430,608

NCBI

22 November 2010

Number of entries:

199,575,971

NCBI

22 November 2010

NCBI

NCBI

00:35

56

EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是 一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示, 而每一个文件分为文件头和文件体两大部分

文件头由一系列的信息描述行所组成, 文件头实际上对应于一个序列的注释(annotation)
“ID”为序列的标识符行,包括登录号、类型,分子的长度 “AC”为登录号行; “XX”为分隔符号行; “DT”为 创建和更新日期行 “DE”为序列描述行; “KW”为关键字行; “OG”行描述细胞组织; “OS”行描述生物体种属; “OC”行描述生物体分类信息; “RN”描述参考文献的编号; “RP”描述参考文献的页码; “RA”描述参考文献的作者; “RT”描述参考文献的题目; “RL”描述参考文献的出处; “RC”描述参考文献的注解; “RX”、“DR”行描述交叉引用信息; “FH” 为特征开始符号; “FT”为特征表行 (1)Feature Key,它是描述域生物功能的关键字; (2)Location,指明特征在序列中的特定位置; (3)Qualifiers,描述关于一个特征的辅助信息;

文件体由序列本身所组成,由“SQ”标志的行开始。
序列结束的标记是“//”。

NCBI

00:35

57

?
? ? ?

基因组数据库(GDB)
人类基因组数据库Ensembl 表达序列标记数据库dbEST 面向基因聚类数据库UniGene

NCBI

00:35

58

2、基因组数据库(GDB)
人类基因组计划所得到的图谱数据
目前GDB包含对下述三种对象的描述: (1)人类基因组区域
包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合 区域、contigs、重复等;
包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这 些图谱都可以被直观地显示出来;

(2)人类基因组图谱,

NCBI

(3)人类基因组中的变化,
包括基因突变和基因多态性,加上等位基因频率数据。
00:35 59

与 染 色 体 相 关 的 信 息
00:35 60

NCBI

其它模式生物基因组数据库

如:鼠基因组数据库 MGD

(http://www.informatics.jax.org/) 酵母基因组数据库 SGD (http://genomewww.stanford.edu/Saccharomyces/)

NCBI

00:35

61

3、人类基因组数据库Ensembl
Ensembl (http://www.ensembl.org/)

Ensembl包括所有公开的人类基因组DNA序列,通过注释形 成的关于序列的特征。 现在包括其他基因组,如大鼠、小鼠 、线虫、果蝇等。
例如:基因 ?通过实验发现的 ?或者是通过GenScan程序预测的
NCBI

其他的特征: 单核苷酸多态性(SNP)、重复序列等
00:35 62

Ensembl 数据库结构图

NCBI

00:35

63

Ensembl提供多种查询方式
? 通过关键字查询 ?用BLAST进行相似序列的搜索 ? 另一种更直观的方式是显示各染色体 用户可以在染色体水平上选择感兴趣的位点, 浏览整个基因组

逐层放大
NCBI

00:35

64

NCBI

00:35

65

人的第9号染 色体及大鼠对 应的染色体片 段
NCBI

00:35

66

4、表达序列标记数据库dbEST
EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最 有效方法 ,EST序列大约覆盖了人类基因的90%。

DbEST (http://www.ncbi.nlm.nih.gov/dbEST/)

是GenBank的一个部分,该数据库包括不同生物的EST序列 数据及其它相关信息,主要是从大量不同组织和器官得到的短 mRNA片段。

WEB页面或email FTP
00:35

有关EST的数据

NCBI

dbEST数据库
67

5、面向基因聚类数据库UniGene
UniGene( http://www.ncbi.nlm.nih.gov/UniGene/) 数据库将GenBank中的序列进行自动分类,形成 面向基因群的非冗余集合。 每个UniGene群包含: 代表一个唯一基因的多个序列,附有该基因相关的信息,
因表达的组织类型、定位图谱

如基

除了基因的序列之外,还包括大量的EST序列。 目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据, 因为这些生物有大量的EST数据。
NCBI

00:35

68

2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的 SWISS-PROT中的数据来源于不同源地: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据

NCBI

00:35

69

SWISS-PROT有三个明显的特点 :
在SWISS-PROT中,数据分为核心数据和注释两大类。
核心数据包括: 序列数据、参考文献、分类信息(蛋白质生物来源的描述) (2)最小冗余 注释包括: (A)蛋白质的功能描述; (B)翻译后修饰; (C)域和功能位点; (3)与其它数据库的连接 (D)蛋白质的二级结构; (E)蛋白质的四级结构; (F)与其它蛋白质的相似性; (G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。 00:35

(1)注释

NCBI
70

NCBI

00:35

71

NCBI

00:35

72

3、TrEMBL
TrEMBL (http://www.ebi.ac.uk/trembl/index.html)
包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列, 并且这些序列尚未集成到SWISS-PROT数据库中。

TrEMBL有两个部分: (1)SP-TrEMBL(SWISS-PROT TrEMBL)
NCBI

(2)REM-TrEMBL(REMaining TrEMBL)

00:35

73

生物大分子结构数据库
1、PDB(Protein Data Bank)
蛋白质 核酸 糖类 其它复合物

?

一种是显式序列信息(explicit sequence)

NCBI

?

一种是隐式序列信息(implicit sequence)
74

00:35

Keyword Search
Current Holding Data

Submit Data
Introduction to selected molecular Data

NCBI

00:35

75

Related Software

Download Data

NCBI

PDB File
00:35 76

PDB文件 示意
HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。。。。。。 COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。。。。。。 SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。。。。。。 REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。。。。。。 REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHE HELIX 1 1 ASP 12 PHE 15 5 HELIX 2 2 ASN 34 THR 36 5 HELIX 3 3 LEU 57 ILE 63 1 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42 -1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 1.000000 0.000000 0.000000 0.00000 SCALE2 0.000000 1.000000 0.000000 0.00000 SCALE3 0.000000 0.000000 1.000000 0.00000

4 3 7

NCBI

图4.5 PDB文件

00:35

77

显示分子结构(RasMol , ChemView )

NCBI

00:35

78

2、MMDB(Molecular Modeling Database)
?

分子模型MMDB 是(NCBI)所开发的生物信息数据库集成系统 Entrez的一个部分,数据库的内容包括来自于实验的生物大分子 结构数据。

?

与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具 有许多附加的信息,如分子的生物学功能、产生功能的机制、分 子的进化历史等 。 还提供生物大分子三维结构模型显示、结构分析和结构比较工具 。

?

NCBI

00:35

79

MMDB 实用工具

NCBI

00:35

80

第五节
?

其它生物分子数据库

单碱基多态性数据库dbSNP 蛋白质结构分类数据库SCOP

?

?

蛋白质二级结构数据库DSSP
蛋白质同源序列比对数据库HSSP 人类基因和遗传疾病的分类数据库 OMIM
81

?

NCBI

?

00:35

? ? ? ? ? ? ? ? ?

真核基因启动子数据库EPD 基因调控信息的集成数据库TRRD 真核基因顺式调控元件和反式作用因子数据库 TRANSFAC 人和老鼠基因表达信息数据库BODYMAP 蛋白质家族和结构域数据库PROSITE 京都基因和基因组百科全书 生物信息数据库的目录数据库DBCat 生物学、医学文献引用数据库PubMed
82

NCBI

00:35

1、单碱基多态性数据库dbSNP
(http://www3.ncbi.nlm.nih.gov/SNP/),

?

核酸序列变化

?
?

单碱基多态性SNPs(Single nucleotide polymorphisms)

SNPs对人类遗传学研究和医学应用具有重要的意义

?

无论对于人类种群遗传学的研究,还是对疾病性状分析或个体化医疗, 都需要深入地研究SNPs。

NCBI

00:35

83

单倍型数据

NCBI

00:35

84

2、蛋白质结构分类数据库SCOP
?

SCOP数据库 ( http://scop.mrc-lmb.cam.ac.uk/scop/)的 目标是提供关于已知结构的蛋白质之间结构和进化关系的详 细描述,包括蛋白质结构数据库PDB中的所有条目。

?

SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每 一个蛋白质还包括下述信息:到PDB的连接,序列,参考文 献,结构的图像等。
可以按结构和进化关系对蛋白质分类,分类结果是一个具有 层次结构的树,其主要的层次是家族、超家族和折叠:
(1)家族:具有明显的进化关系 (2)超家族:具有远源进化关系,具有共同的进化源
NCBI

?

(3)折叠类:主要结构相似

00:35

85

NCBI

00:35

86

3、蛋白质二级结构数据库DSSP
?

DSSP(http://www.sander.embl-heidelberg.de/dssp/) 是一个二级结 构推导数据库。

?
? ?

对生物大分子数据库PDB中的任何一个蛋白质,根据其三维结构推导出对
应的二级结构。

研究蛋白质序列与蛋白质二级结构及空间结构的关系 除了二级结构以外,DSSP还包括蛋白质的几何特征及溶剂可及表 面。
NCBI

00:35

87

The DSSP code H = alpha helix B = residue in isolated beta-bridge E = extended strand, participates in beta ladder G = 3-helix (3/10 helix) I = 5 helix (pi helix) T = hydrogen bonded turn S = bend 例:
NCBI

00:35

88

4、蛋白质同源序列比对数据库HSSP
? ? ? ?

HSSP(http://www.sander.embl-heidelberg.de/hssp/) 二级数据库。 数据来源于PDB,或来源于SWISS-PROT 对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列 对比排列起来,从而将相似序列的蛋白质聚集成结构同源的家族 。 HSSP有助于分析蛋白质的保守区域,研究蛋白质的进化关系,有 助于蛋白质的分子设计。
NCBI

?

00:35

89

From PDB

From Swiss-prot

多重序列比对
NCBI

已知结构 → 未知结构
00:35 90

5、OMIM
?

http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM OMIM (Online Mendelian Inheritance in Man),是关于人类基因和遗 传疾病的分类数据库 。

?
?

该数据库收集了已知的人类基因及由于这些基因突变或者缺失而导致的遗 传疾病。 查询程序根据输入到检索窗口的一个或几个词执行简单的查询,返回含有 该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其 OMIM记录的全文
NCBI

OMIM的使用非常方便

?

00:35

91

浏览染色体

NCBI

00:35

92

6、EPD
? ?

EPD( http://www.epd.isb-sib.ch/ ) 是真核基因启动子数据库 提供从EMBL中得到的真核基因的启动子序列,目标是帮助实验 研究人员、生物信息学研究人员分析真核基因的转录信号。

NCBI

00:35

93

7、TRRD
?

TRRD是一个关于基因调控信息的集成数据库,该数据库搜集真核生 物基因转录调控区域结构和功能的信息。

? 每一个TRRD的条目对应于一个基因,包含特定基因各种结构-功能特性
?

TRRD6.0包括七个相关的数据表:
(1)基因描述表TRRDGENES (2)控制区域表TRRDLCR

(3)调控区域表TRRDUNITS
(4)转录因子结合位点表TRRDSITES (5)转录因子表TRRDFACTORS
NCBI

(6)表达模式表TRRDEXP
(7)实验来源表TRRDBIB
00:35 94

8、TRANSFAC
?
?

TRANSFAC (http://transfac.gbf.de/)是真核基因顺式调控元件和 反式作用因子数据库,数据搜集的对象从酵母到人类 TRANSFAC包括6类数据 :
(1)SITE类数据 (2)GENE类数据 (3)FACTOR类数据 (4)CELL类数据 (5)CLASS类数据 (6)MATRIX数据
NCBI

00:35

95

9、BODYMAP
? ?

BODYMAP (http://bodymap.ims.u-tokyo.ac.jp/) 是关于人和老鼠基因表达信息的数据库,基因表达数据来自于不 同组织、不同细胞以及不同时刻。这里的基因表达数据实际上是3’ 端的EST。 通过分析这些数据,用户可以初步掌握基因活性,了解组织中 mRNA的组成,研究基因表达规律,发现新的基因 。
NCBI

?

00:35

96

10、PROSITE
?

PROSITE ( http://www.expasy.ch/prosite/)是蛋白质家族和结构域数据 库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的 统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与 金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质 结合的区域等。 PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感 地发现一个序列是否具有相应的特征。
NCBI

?

?

00:35

97

11.KEGG
(http://www. Kegg.com)
?

PATHWAY

利用基因信息对更高层次和更复杂细胞活动 整合当前在分子互动网络(比如通道,联合体)的知识 和生物体行为作出计算推测
提供关于在基因组计划中发现的基因和蛋白质的相关知识,

?

GENES/SSDB/KO COMPOUND/GLYCAN/REACTION
提供生化复合物及反应方面的知识
NCBI

?

00:35

98

12、PubMed
?

PubMed ( http://www.ncbi.nlm.nih.gov/ )是 NCBI 维护的生物学、
医学文献引用数据库,提供对 MEDLINE 、 Pre-MEDLINE 等文献 数据库的引用查询和对大量网络科学类电子期刊的链接。

?

利用Entrez系统可以对PubMed进行方便的查询检索。
NCBI

00:35

99


相关文章:
生物信息学数据分析应用高级培训班
上海众信生物技术有限公司 上海生物信息学会 上海生物信息技术研究中心 中科院上海生命科学研究院系统生物学重点实验室生物信息服务部 培训费用: 2010 年 8 月 10 日...
生物信息学与精准医学培训班
生物信息学与精准医学培训班_生物学_自然科学_专业资料。生物信息学与精准医学培训班组学和大数据是精准医学发展的基础,而二者的结合依赖于生物信息学的持续发展。生...
生物信息学数据分析应用高级培训班
上海众信生物技术有限公司 上海生物信息学会 上海生物信息技术研究中心 中科院上海生命科学研究院系统生物学重点实验室生物信息服务部 培训费用: 2010 年 8 月 10 日...
实用生物信息学培训班通知
为了辅助广大科研工作者掌握高通量测序技术原理、实验设计以及后期数据分析技能, 北京市计算中心生物计算事业部举办“实用生物信息学培训研习班。 本次课程时间:2013...
《生物信息学》课程期末报告
生物信息学》课程期末报告_工学_高等教育_教育专区。《生物信息学》 1. 描述...Taxonomy 即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白...
生物类专业生物信息学教学初探
生物类专业生物信息学教学初探_管理学_高等教育_教育专区。生物类专业生物信息学教学初探 [摘要]随着大数据时代的到来,面向生物类专业的生物信息学教学也随之 发生变...
生物信息学操作指导步骤
生物信息学操作指导步骤_生物学_自然科学_专业资料 暂无评价|0人阅读|0次下载|举报文档 生物信息学操作指导步骤_生物学_自然科学_专业资料。1. FASTA 序列查询及...
学好生物信息学的基础
学好生物信息学的基础_生物学_自然科学_专业资料。生物信息学,是一门综合学科。涉及到数学,生物学和计算机的内容。但在我看来,计算机 的基础需要, 但要求不是...
《生物信息学》课程大作业
河南科技大学 2015 至 2016 学年第 2 学期 课程大作业课程 《生物信息学》 年级、专业 生物科学 2013 级 选择感兴趣的一个蛋白质(每人 1 题,相互之间不能...
生物信息学基本方法
生物信息学作业学院:生命科学与工程学院 姓名:石文贵 学号:122071010002 一、 ...bZIP 转录因子是普遍存在于动植物及微生物中的一类转 录因子,主要特点如下: (...
更多相关标签:
生物信息学培训班 | 2016生物信息学培训班 | 生物信息学培训 | 生物信息学培训班视频 | 生物信息学培训教材 | 华大生物信息学培训班 | 生物信息学培训视频 | 肿瘤生物信息学培训班 |