当前位置:首页 >> 能源/化工 >>

NCBI资源和运用


NCBI的资源与应用

俞鸿
E-mail:yuhong@scbit.org

NCBI网站
NCBI (National Center for Biotechnology Information) 美国国立生物技术信息中心 网址:http://www.ncbi.nlm.nih.gov/ 1988年成立, Claude

Pepper NCBI NLM NIH 生物信息门户网站 海量数据仓库

主要内容
NCBI资源介绍 资源检索
在线检索(Entrez) 软件调用 API在程序中的应用 FTP下载

常用的数据库介绍

几个问题
NCBI有哪些数据资源? 如何检索和利用数据资源 是否有软件可以使用,如何使用?

快 速 入 门

Entrez Data Model

http://www.ncbi.nlm.nih.gov/Database/datamodel/index.html

NCBI联系方式
National Center for Biotechnology Information National Library of Medicine Building 38A Bethesda, MD 20894 电话:(301)496-2475 传真:(301)480-9241

E-mail 地址 info@ncbi.nlm.nih.gov gb-sub@ncbi.nlm.nih.gov gb-admin@ncbi.nlm.nih.gov blast-help@ncbi.nlm.nih.gov

说明 关于 NCBI 或者它的程序和服务的问题;要求将 EMAIL 加入到 NCBI 新闻的邮件列表中; 关于 Entrez retrieval system 的技术问题;其它技术支持 提交一个序列到 GenBank 数据库 关于提交 GenBank 数据库的序列的注解或者明; GenBank 数据升级 在运行或解释 BLAST 上的技术问题

NCBI数据库和工具
生物数据库
文献数据库 核酸数据库 基因组资源库 ENTREZ数据库

生物信息工具
数据挖掘的工具 序列分析工具 三维结构显示和相似查询的工具

图谱(MAPS) 癌症协作研究项目 FTP数据下载

生物数据库-文献数据库
PubMed
NLM提供的一个服务,超过1.4亿个来自MEDLINE和其它的生命科学杂志的引用 网址:http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed

PubMed Central
生命科学杂志文献的数字档案 网址:http://www.pubmedcentral.gov/

Books
与作者和出版者合作,提供生物医学书集和专论的链接 网址:http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Books

Coffee Break
近期生物学发现的简短报告 http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=coffeebrk

Genes and Disease
讨论基因及其引起的疾病的文献的集合 网址:http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=gnd

Journals
搜索在PubMed中的文献索引 网址:http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=journals

OMIM(Online Mendelian Inheritance in Man)
人类基因与遗传疾病的目录册,链接到参考文献、序列数据、染色体图谱及相关数据库。 网址:http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM

生物数据库-基因组资源库
人,小鼠,果蝇,线虫等模式生物 微生物,逆转录病毒,植物基因组 ……
ftp://ftp.ncbi.nih.gov/genomes

生物数据库-ENTREZ数据库
ENTREZ是用来搜索数据库的检索系统,支持下列数据库:

Books Cancer Chromosomes CDD (Conserved Domain Database) 3D Domains Gene Genome GENSAT GEO Datasets GEO Profiles HomoloGene Journals MeSH NCBI Web Site NLM Catalog Nucleotide sequence database

OMIM PopSet Protein sequence database PubChem BioAssay PubChem Compound PubChem Substance PubMed PubMed Central Site Search SNP Structure Taxonomy UniGene UniSTS Protein clusters

生物信息工具-数据挖掘的工具
文本条件查询工具(Text Term Searching)
Entrez
来自于超过10万个种物的核酸和蛋白序列数据,连同蛋白三维结构,基因组图谱信息和 文献信息 检索 网址:http://www.ncbi.nlm.nih.gov/Entrez/

LinkOut
一个注册的服务,从Entrez中指定的论文,期刊,生物学数据创建链接到扩展网站的资 源上 网址:http://www.ncbi.nlm.nih.gov/entrez/linkout/

Cubby
允许Entrez用户存储和升级查询,以及定制他们的LinkOut显示包括或者排除指向提供者 的链接 网址:http://www.ncbi.nlm.nih.gov/entrez/login.fcgi?call=so.SignOn..Login

Citation Matcher
允许用户在PubMed的数据库中查找任何文章的PubMed ID 或是MEDLINE UID,给出文 献资料信息 网址:http://www.ncbi.nlm.nih.gov/entrez/getids.cgi

Stand-alone BLAST
本地版的BLAST执行程序 网址:ftp://ftp.ncbi.nih.gov/blast/executables/

资源获取方法
在线检索,Entrez…(用的最多) 软件调用
Blast…

API
Bioperl Biojava Biopython

FTP下载

My NCBI – 建立我的账号

My NCBI的功能
保存和管理检索 保存检索结果 过滤检索结果 置设LinkOut

如何用My NCBI保存检索?

如何用My NCBI保存检索结果

如何用My NCBI过滤检索结果

如何设置LinkOut

全数据库检索

数据检索之文献检索
Pubmed文献检索
模糊检索

Citation Matcher
精确检索

页头 搜索栏

功能选项

相关链接

Limits的应用

结果查看

查看Abstract

Preview/Index的应用

检索方式
“”的作用
Protein interaction VS. “protein interaction”

AND,OR,NOT 的作用 ()的作用

练习
protein interaction “protein interaction” “protein interaction”[title] “protein interaction”[title] AND nature[Journal] “protein interaction”[title] AND nature[Journal] OR cell[Journal] “protein interaction”[title] AND ( nature[Journal] OR cell[Journal] )

History

Clipboard

Clipboard ≠ 操作系统的剪切板

Details

Citation Matcher – 引文查询

Batch Citation Matcher

Batch Citation Matcher - 例子

数据检索应用二 图谱搜索

Human genome
网址: http://www.ncbi.nlm.nih.gov/genome/guid e/human/

搜索栏

设置 选项

染色 体号

基因相关链接

Map & options

生物信息工具-数据挖掘的工具
分类相关工具(Taxonomy)
Taxonomy Browser
用来查询NCBI分类数据库的工具 网址: http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Root

Taxonomy BLAST
通过NCBI分类数据库中的来源物种的分类将BLAST hits分类 网址:http://www.ncbi.nlm.nih.gov/blast/taxblasthelp.html

TaxTable
总结BLAST分类数据和通过一个不同颜色的图片来显示一个物种到其它的物 种 网址:http://www.ncbi.nlm.nih.gov/PMGifs/Genomes/micr.html

ProtTable
提供基因组中蛋白编码区的概要 网址:http://www.ncbi.nlm.nih.gov/PMGifs/Genomes/micr.html

Taxonomy

家系,亲缘相近物种

沙门氏菌SC-B67基因组
http://www.ncbi.nlm.nih.gov/genomes/framik.cgi?db=Genome&gi=645

生物信息工具-数据挖掘的工具
序列相似性查询工具(Sequence Similarity Searching)
BLAST Homepage
BLAST页面,包括程序,综述,帮助文件,和FAQs 网址:http://www.ncbi.nlm.nih.gov/BLAST/

Blink
显示BLAST查询的结果的显示,显示在Entrez蛋白库中被查询到的每 一条蛋白序列 网址:http://www.ncbi.nlm.nih.gov/sutils/static/blinkhelp.html

Network-Client BLAST
BLAST客户端 (blastcl3)访问NCBI BLAST查询引擎。 Blastcl3能够查 询所有FASTA格式的序列,并且以文本格式或者HTML格式生成一对 多的排列。它也能对多个数据库进行查询 网址:ftp://ftp.ncbi.nih.gov/blast/blastcl3/CURRENT

BLAST序列相似性搜索

用BLAST做核酸或者蛋白序 列对与指定库的序列相似性 搜索。根据不同的情况选择 不同的BLAST组件
网址: http://www.ncbi.nlm.nih.gov/blas t/Blast.cgi

文本域上粘贴序列,点击 BLAST按钮运行搜索

点击Format!按钮运行

搜索结果

Stand-alone BLAST
本地运行,数据安全,适合用于批量的序列比 对,可自己建库 需要占用本地计算资源,数据库需要及时更新, 用户需要了解命令行运行的方法 常用命令行:
formatdb –i input –p F –o T –n name blastall –i inseq –d database –p blastp –o output –e 1e-5

生物信息工具-数据挖掘的工具
序列提交工具(Sequence Submission)
Sequin
一个数据提交工具,包括ORF Finder, 对比查看编辑器,和指 向PowerBLAST的链接 网址:http://www.ncbi.nlm.nih.gov/Sequin/index.html

BankIt
网页提交工具,用于一条或者多条序列的提交 网址:http://www.ncbi.nlm.nih.gov/BankIt/

生物信息工具-序列分析工具
Clone Registry
Clusters of Orthologous Groups (COGs) 来自于完整基因组的基因家族系统 网址:http://www.ncbi.nlm.nih.gov/COG/ 被多个人和鼠基因组研究中心使用的一个数据库, 该数据库记录下列几种克隆:选来测序的克隆,当 前正在测序的克隆,以及在GenBank中已经测序完 成的克隆 网址:http://www.ncbi.nlm.nih.gov/genome/clone/

Gene Expression Omnibus (GEO)
来源于物种和人造的基因表达数据仓库和在 线资源 网址:http://www.ncbi.nlm.nih.gov/geo/

Trace Archive
保存多个基因组项目产生的原始的序列数据(也就 是峰图文件) 网址:http://www.ncbi.nlm.nih.gov/Traces/trace.cgi

HomoloGene
比较物种之间的核酸序列来识别假定的直系 同源 网址: http://www.ncbi.nlm.nih.gov/HomoloGene/

ORF Finder
一个图形化的分析工具,能在用户提交的序列或者数据库中 已经存在的序列中找出设定最小长度的所有的开放阅读框 网址:http://www.ncbi.nlm.nih.gov/gorf/gorf.html

Conserved Domain Database (CDD)
一系列在分子进化中序列联配和profiles显示 蛋白的保守结构 网址: http://www.ncbi.nlm.nih.gov/Structure/cdd/cd d.shtml

VecScreen
用来标记可能是载体,连接分子,衔接头的核酸序列片段的 工具 网址: http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html

Electronic-PCR (e-PCR)
可以利用序列和已经定位的标签序列的比较,定位序列在图 谱中的位置 网址:http://www.ncbi.nlm.nih.gov/sutils/e-pcr/

COGs

未知基因 对COGs相似搜索(BLAST) COGs分类
COG Classification
CELLULAR PROCESSES AND SIGNALING INFORMATION STORAGE AND PROCESSING METABOLISM POORLY CHARACTERIZED UNKNOWN

COG Detailed Classification 500 400 300 200 100 0
n y n s wn . . . . . . . i o .. . i t .. . .. .. .. ow .. .. .. .. .. sm no .. .. .. .. .. .. a. pt il lo ti i. kn n. b. o c o. a. g . U nk ni an me st r i at i o t if i ve rt ic if co ll nd un nd ta bi ch in ha m d a a d o c s c in en ed d ce n rt me al d s me ck mo an sp me an ll e/ pr io an , rt rt po d om b mo te n fi d an T r com C e al an n ct n ol po po ns rt an os li io af se an tr br io io tr ns un ns ra po t ib e n bo ct tr en t n a a t s r r n t u F f em ng or io ta r uc co tr tr an io nc sd De /m si te sp n, n, at me la od tr fu an ll ic es le id de ra an io io sl y lu pr tr wa an oc al yc ac ti yd me tr at at an ar el c g r pr gy o eo oh zy d sl ic tr nd al ac ll or ne A er ll in cl rb en pi an pl st co gn tr Ce In Ge RN En Ce Am Nu Ca Co Li Tr Re Po Se Si In

CDD 预测结构域 (rpsblast)

tumor protein p53 binding protein, 2 isoform 2

相同功能的工具 Cross_match

生物信息工具-三维结构显示和相似查询 的工具
CD-Search
结构域查询服务,能用来识别蛋白序列中的保守的结构域 网址:http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml

Cn3D
用于NCBI结构数据库的三维结构和序列联配查看器 网址:http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3d.shtml

Domain Architecture Retrieval Tool
显示功能的结构域,能够用相似的结构域构造一个蛋白和列出蛋白 网址:http://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi?cmd=rps

VAST Search
一个结构-结构相似查询服务。用于比较一个新确定的蛋白结构的三维坐标和 MMDB/PDB库中已经存在的结构 网址:http://www.ncbi.nlm.nih.gov/Structure/VAST/vastsearch.html

Threading
蛋白折叠识别的算法 网址:http://www.ncbi.nlm.nih.gov/Structure/RESEARCH/threading.shtml

CDART

Map Viewer
提供17个物种的染色体图谱的整合显示。Map Viewer显示一个或者多个图谱,这些图谱 已经被排列为彼此基于共有的标记和基因名字,并且对于序列图谱基于一个公共的序列 坐标系统 网址:http://www.ncbi.nlm.nih.gov/mapview/static/MVstart.html

图谱(MAPS)

Arabidopsis Map
用NCBI的Arabidopsis thaliana图谱查看器浏览阿拉伯芥基因组,能显示多个由AGI (Arabidopsis Genome Initiative)提供的遗传图谱 网址:http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=arabid.inf Mosquito Map Fruit Fly Map 用NCBI的Anopheles gambiae图谱查看器浏览蚊子的基因组,能够显示多个由蚊子研究机构提供 用NCBI的Drosophila melanogaster图谱查看器浏览果蝇的基因组,能够显示多个由果蝇 的微卫星和细胞遗传图谱 研究机构提供的遗传图谱和scaffold图谱 网址:http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=agambiae.inf 网址:http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=7227

GeneMap'99

Human Map

图谱 址: 用NCBI的Homo sapiens图谱查看器浏览人的基因组,能够显示基于NCBI的人的染色体 http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=mouse_chr.inf 组序列数据拼接的特征
网址:http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi Nematode Map 比较来自于人和小鼠DNA相似片段中的基因,并以在每个基因组中的位置进行排序的表 线虫研究团体提供的遗传图谱 格 网址: 网址:http://www.ncbi.nlm.nih.gov/Homology/

由IRHMC(International Radiation Hybrid Mapping Consortium)构建的超过35000个人 用NCBI的Mus musculus图谱查看器浏览小鼠的基因组,能够显示由小鼠基因组测 类基因标签的物理图谱 序机构提供的遗传,放射性杂交,序列,指纹克隆,YAC图谱,也包括拼接后的 网址:http://www.ncbi.nlm.nih.gov/genemap/

Mouse Map

Human–Mouse Homology Maps

用NCBI的Caenorhabditis elegans图谱查看器浏览线虫基因组,能够显示多个由 http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=celegans.inf

Malaria Map

OMIM Gene Map 用NCBI的Plasmodium falciparum图谱查看器浏览疟疾寄生虫的基因组,能够显示多个由 疟疾测序协会提供的遗传图谱 来自于文献已经报导和多种定位方法确定的基因细胞遗传位置 网址:http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=pfalciparum.inf 网址:http://www.ncbi.nlm.nih.gov/Omim/getmap.cgi?
Model Make允许用户从基因组学数据构建一个mRNA序列,选择外显子(被mRNA和 OMIM Morbid Map EST的联配识别),编辑模型,测试ORF,保存你的结果。如果Model Maker是可用 以阿拉伯数字排列的疾病与它们对应的细胞遗传图谱位置的列表,链接到OMIM条 的,则在图谱中的显示“mm”这个链接 目 网址:http://www.ncbi.nlm.nih.gov/mapview/static/ModelMakerHelp.html

Model Maker

网址:http://www.ncbi.nlm.nih.gov/htbin-post/Omim/getmorbid

Rat Map
用NCBI的大鼠图谱查看器浏览大鼠基因组,能够显示多个由大鼠研究团体提供的 遗传和放射性杂交图谱 网址:http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=rat.inf

Zebrafish Map
用NCBI的Danio rerio图谱查看器浏览斑马鱼基因组,能够显示多个由斑马鱼研 究团体提供的遗传和放射性杂交图谱 网址:http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=zfish.inf

癌症协作研究
NCBI与NCI(National Cancer Institute)协作进行一些研究项目,包括 Cancer Chromosomes
三个数据库(NCI/NCBI SKY/M-FISH & CGH数据库,NCI Mitelman癌症染色体变 异数据库,NCI癌症循环变异数据库)被整合到NCBI的Entrez系统,称之为 Cancer Chromosomes 网址:http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=CancerChromosomes

GEO
GEO(Gene Expression Omnibus)是一个高通量的基因表达/分子富集数据仓 库,也是基因表达数据的在线资源,可进数据查询和数据下载 网址:http://www.ncbi.nlm.nih.gov/geo/

Cancer Genome Anatomy Project (CGAP)
是一个协作计划,为了识别不同癌症情况的人类基因表达 网址:http://www.ncbi.nlm.nih.gov/ncicgap/

CGAP

CGAP gene Batch Gene Finder
人和小鼠基因信息获取 http://cgap.nci.nih.gov/Genes/BatchGeneFinder

SAGE Genie
人和小鼠 30多种组织 正常,肿瘤

FTP-数据库下载
GenBank
完整版:ftp://ftp.ncbi.nih.gov/genbank/ ASN.1格式:ftp://ftp.ncbi.nih.gov/ncbi-asn1/ FASTA格式:ftp://ftp.ncbi.nih.gov/blast/db/

RefSeq ftp://ftp.ncbi.nih.gov/refseq/ Entrez Gene
ftp://ftp.ncbi.nlm.nih.gov/gene/ 提供一个基因基础信息的显示,包括关键基因组和图谱,序列,表达,结构,功能,引用,相似数据和关系的补充的关键 连接。这个数据库从LocusLink继承所得

dbSNP
ftp://ftp.ncbi.nih.gov/snp/ SNP,小的插入缺失,多肽重复元素,微卫星变异的数据库

Human Genome Project Data
ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/ 这个目录包括为每条染色体设立的文件夹,文件夹中包括来自已完成和未完成序列数据构建而成的染色体组contig。这些 contig有多种格式的文件,包括ASN.1,FASTA,GenBank flat file format,GenBank summary format

Other Genomes
ftp://ftp.ncbi.nih.gov/genomes/ ftp://ftp.ncbi.nih.gov/genbank/genomes/

Data from the Map Viewer
ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/maps/mapview/

Repository of Databases
ftp://ftp.ncbi.nih.gov/repository/ UniGene, GeneMap, dbEST, dbGSS, dbSTS, OMIM和一系列特殊用途的数据库

Taxonomy
ftp://ftp.ncbi.nih.gov/pub/taxonomy/ 下载各种各样物种的分类数据

FTP-软件下载
BLAST
ftp://ftp.ncbi.nih.gov/blast/ 下载单机版的BLAST软件,用于序列比对

Cn3D
ftp://ftp.ncbi.nih.gov/cn3d/ 下载单机版的Cn3D,用于三维结构

Sequin
ftp://ftp.ncbi.nih.gov/sequin/ 一个数据提交软件,用来向NCBI提交长序列,全基因组,队列,种群/系统发生/突变研究,支 持一到多条序列提交

Network Entrez
ftp://ftp.ncbi.nih.gov/entrez/ 基于TCP/IP协议的WWW Entrez的客户端/服务器版本。可以直接连接到NCBI数据库获取数 据。客户端软件支持PC,Mac,和Unix

Network-Client BLAST
ftp://ftp.ncbi.nih.gov/blast/blastcl3/CURRENT 连接到NCBI BLAST搜索引擎的BLAST客户端(blastcl3)

NCBI软件包
http://www.ncbi.nlm.nih.gov/IEB/ToolBox/index.cgi

GenBank
GenBank是美国国立卫生研究院维护的基因序列数据库, 汇集并注释了所有公开的核酸以及蛋白质序列 数据来源于捐献者 GenBank由位于马里兰州Bethesda的美国国立卫生研究院 下属国立生物技术信息中心建立,与日本DNA数据库 (DDBJ),欧洲分子生物学实验室核苷酸数据库(EMBL) 都是国际核苷酸序列数据库合作的成员 超过130000物种的核酸序列 在NCBI的查询系统中GenBank是每日更新的,而一个完整 的版本是在每年的2月,4月,6月,8月,10月,12月中旬 在FTP站点中发布。完整的版本包括到指定日期为止所有 GenBank中的数据。 FTP站点提供每天的更新文件

GenBank数据的快速增长

Locus Name

序列长度

序列类别

序列类别
genomic DNA, genomic RNA precursor RNA mRNA (cDNA) ribosomal RNA transfer RNA small nuclear RNA small cytoplasmic RNA

GenBank Division

GenBank Division
PRI - primate sequences ROD - rodent sequences MAM - other mammalian sequences VRT - other vertebrate sequences INV - invertebrate sequences PLN - plant, fungal, and algal sequences BCT - bacterial sequences VRL - viral sequences PHG - bacteriophage sequences SYN - synthetic sequences UNA - unannotated sequences EST - EST sequences (expressed sequence tags) PAT - patent sequences STS - STS sequences (sequence tagged sites) GSS - GSS sequences (genome survey sequences) HTG - HTG sequences (high-throughput genomic sequences) HTC - unfinished high-throughput cDNA sequencing

最后一次更新时 间

编码序列, DS feature 包括一个氨 基酸序列的翻译. 作者能指定CDS 的种类,通过用限定词 "/evidence=experimental"或者 "/evidence=not_experimental"

<1..206 生物学特征的碱基跨度指向左边,在这个例子中, 是一个CDS特征(碱基跨度包括起始密码子和终止密码 子)。特征可能是完整的,部分在5’末端,部分在3’末 端,或者在互补链。例如: 1.完整的特征可以写为n..m, 例如:687..3158,这个特征从 序列的687号碱基到碱基3158 。 2.< 表明是在5’末端的一部分 3.> 表明是在3’末端的一部分 4.(complement) 表明这个特征是在互补链上,例如 complement(3300..4037)

如何提交序列到GenBank
常用软件
Bankit:
你有一项或者多项序列提交 你更喜欢用基于WWW的提交工具 你的序列注释不复杂 你不需要序列分析工具

Sequin:
你提交长的或者复杂的序列 你提交关于突变的,动植物的,种群的,环境的,或者片段的 序列 你想要用图形界面观看以及包含一系列编辑器的编辑选项 你想要通过网络访问相关分析工具

GenBank 序列提交规范
在以下的几种提交形式是不被接受的:
序列长度小于50bp 没有内含子而只有多个外显子组成的染色体序列 只有引物序列 只有蛋白序列 非生物学相邻序列包含有未测序区域 序列包含有混合的染色体和mRNA序列的混合体而被当 作单条序列 EST提交(要通过dbEST) GSS提交(通过dbGSS)

Bankit:经由WWW的提交
http://www.ncbi.nlm.nih.gov/BankIt/ Bankit允许你输入序列信息到一个表单,可根据需要来编 辑,以及添加生物学的注释。当你的记录填写完成后 Bankit将你的数据转换为GenBank格式让你重新检栓,然 后可以直接提交到Genbank。你可以使用文本框添加序列 来源和它的生物特征。Genbank的注释方面的员工将对你 提交的文本信息进行核对,把它归并到适当的结构化的领 域里,然后用E-MAIL回复给你。 Bankit适用于UNIX,MACS,PCS上的NETSCAPE客户 端,此外,PC,MAC上也可以正常的使用INTERNET EXPLORE

Sequin
SEQUIN 是NCBI开发的专门用来向 GenBank、EMBL、DDBJ提交或者更新 序列的一个应用程序,这一程序最大的特 点就是进行单机操作来完成对所提交序列 的构建。sequin具有从简单的单序列到复 杂的几个序列的提交功能,用这个程序可 以对长的序列或者是一系列的几个序列 (比如一些片断和进行群体学、系统发育 学、突变等研究所需的一些序列)进行操 作,也可以对序列进行编辑和更新,并且 还可以对序列进行复杂的注释。另外, Sequin还有一些内建的确认功能,从而保 证所提交序列的质量可靠性。 Sequin具有编码区自动注释功能,以及图 形阅览、质量控制、可编辑等特性。 下载网址:ftp://ftp.ncbi.nih.gov/sequin/

Sequin框架
输入提交序列的作者的相关信息; 输入所提交的序列及物种名称; 输入strain、基因、蛋白质的名称; 浏览所提交序列的完整信息; 对所提交的序列信息进行编辑和注释

提交数据前的准备工作
Sequin 所需的提交序列是FASTA格式的。但是在Sequin 中进行种 群、系统发育、突变等研究的多个序列可以通过PHYLIP, NEXUS, MACAW, or FASTA+GAP等格式进行提交。 所要提交的序列数据需要进行文本编辑,并以ASCII 格式(即纯文本 格式)保存。如果一条核苷酸序列编码一个或多个蛋白质,最好做成 两个文本文件,一个存核苷酸序列,另外一个存蛋白质序列。

详细信息:

http://www.ncbi.nlm.nih.gov/Sequin/QuickGuide/ sequin.htm

检索GenBank-Entrez Browser
网址: http://www.ncbi.nlm.nih.gov/gquery/gquery .fcgi 具有强大的功能,可能用来搜索NCBI所有 的数据库

RefSeq
RefSeq = Reference Sequence 全面的,整合的,无冗余的序列
基因组DNA,RNA,蛋白产物

是医学、功能、多样性研究的一个基准 为基因组注释,基因鉴定和特性描述,突 变和多态性分析,表达研究和比较分析提 供稳定可靠的参考

ReqSeq的特性
无冗余 核酸和蛋白质序列之间有明确的联接 更新序列数据和生物学之间的对应关系 数据有效性和格式一致性 清楚明确的访问号 由NCBI和其合作者维护

Accession Format (1)

Accession Format(2)

Accession Format(3)

RefSeq数据格式
与GenBank格式一致 存在COMMENT说明数据可靠性

RefSeq数据可靠性
http://www.ncbi.nlm.nih.gov/RefSeq/key.html COMMENT
GENOME ANNOTATION,INFERRED,MODEL, PREDICTED,PROVISIONAL,WGS REVIEWED,VALIDATED

Genbank 与 RefSeq的比较?

可靠性 来源 修改权限 冗余性 物种范围 数据交换

访问方式

UniProt与Genbank,RefSeq的比较

基因检索

每页显示记 录数 显示类型

保存查 询结果

基因详细信息 (1)

基因详细信息 (2)

如何获取基因上游序列?

获取GenBank的信息
网络客户端/服务器的应用
Entrez
Entrez的客户端/服务器版本,称之为Network Entrez,提供了远端访问在NCBI中的 Entrez数据库。可以在匿名FTP:ftp.ncbi.nih.gov的/entrez/network目录下载Network Entrez软件,在安装使用前可参阅同一目录中的README文件。 软件支持的平台: · Macintosh (MacTCP) · MS Windows (WinSock 1.1 compatible) · Sun SparcStations (SunOS and Solaris) · DEC Alpha running OSF/1 · DEC Ultrix · SGI IRIX · DEC VMS (Multinet/TGV, Wollongong and UCX) 如果在安装和使用中有问题可以联系info@ncbi.nlm.nih.gov

Netblast
Netblast是BLAST客户端软件blastcl3的最新版本,它可连接到NCBI中gapped BLAST的 当前版本

Batch Entrez批量获取数据
网址:http://www.ncbi.nlm.nih.gov/entrez/batchentrez.cgi
例:
生成一个accession号的列表文件

打开http://www.ncbi.nlm.nih.gov/entrez/batchentrez.cgi,选择database栏中的 Nucleotide项

点击浏览选择保存在本地的accession列表文件 D:\test.txt

点击retrieve来查询数据

检索到数据后,在display选项选择需要的信息,这里我们以FASTA为例,也就是得到 FASTA格式的序列文件

选择all to file后,点击Send保存到本地的文件中

Entrez Programming Utilities - eUtils
使用自行开发的工具软件(如数据挖掘、信 息挖掘工具,或是一般的资料获取软件等) 来访问NCBI的数据资源 通过访问Entrez系统的核心查询和检索引擎 来发挥作用 由7个服务端程序构成 UID:核酸和蛋白质的GI, PubMed的PMID、 分子结构的MMDB 一ID等都是UID

eUtils服务端程序
Elnfo:提供给定数据库中记录索引的数量、数据库最后更 新日期和其他相关Entrez数据库的可用链接。 EGQuery:对文件查询进行响应,并提供每个数据库中符 合查询条件的记录的数量。 ESearch:对文件查询进行响应,并根据查询条件的变 化,在指定的数据库中找出符合查询条件的UID。 ESummary:对UID列表进行响应,并提供相应的文献摘 要。 EPost:接收UID列表,将其保存在历史服务器上,并提供 相应的Query Key和WebEnv。 EFetch:对UID列表进行响应,并提供相应的数据记录。 ELink:在指定的数据库中对UID列表进行响应,并提供这 个数据库中的相关ID列表或者其它Entrez数据库跟它相链 接了的ID列表。

URL参数
除了&WebEnv之外,其他参数名均为小写 空格的问题
Incorrect: &id=352, 25125, 234, ... Correct: &id=352,25125,234,... Incorrect: &term=biomol mrna[properties] AND mouse[organism] Correct: &term=biomol+mrna[properties]+AND+mouse[organism] &tool :用户识别 &email :出问题时Email通知

EInfo

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/einfo.fcgi?db=pubmed

Database primary IDs

ESearch – 获得UID
Examples:
Search in PubMed for the term cancer for the entrez date from the last 60 days and retrieve the first 100 IDs and translations using the history parameter: 、 http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=cancer& reldate=60&datetype=edat&retmax=100&usehistory=y Search in PubMed Central for stem cells in free fulltext articles: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pmc&term=stem+cells+ AND+free+fulltext[filter] Search in Nucleotide for a property of the sequence: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=nucleotide&term=biomol+trna[ prop] Search in Protein for a molecular weight: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=protein&term=200020[molecul ar+weight]

http://eutils.ncbi.nlm.nih.gov/entrez/query/static/esearch_help.html

EPost
Database:
db=database name

Record Identifier: UIs required if web environment (i.e., WebEnv=) is not used.
id=11877539,11822933,11871444

Current values:
PubMed ID MEDLINE UI GI number MMDB ID TaxID MIM number

Example
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/epost.fcgi?db=pubmed &id=11237011
http://eutils.ncbi.nlm.nih.gov/entrez/query/static/epost_help.html

ESummary
In PubMed display records for PMIDs 11850928 and 11482001 in xml retrieval mode: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=pubmed&id=11850928,11482001&re tmode=xml In Journals display records for journal IDs 27731,439,735,905: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=journals&id=27731,439,735,905 In Protein display records for GIs 28800982 and 28628843 in xml retrieval mode: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=protein&id=28800982,28628843&ret mode=xml In Nucleotide display records for GIs 28864546 and 28800981 in xml retrieval mode: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=nucleotide&id=28864546,28800981 &retmode=xml In Structure display records for MMDB IDs 19923 and 12120 in xml retrieval mode: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=structure&id=19923,12120&retmode =xml In Taxonomy display records for TAXIDs 9913 and 30521 in xml retrieval mode: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=taxonomy&id=9913,30521&retmode =xml In UniSTS display records for IDs 254085 and 254086 in xml retrieval mode: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=unists&id=254085,254086&retmode =xml

EFetch
Database (Click the appropriate section in the Table of Contents for database specific URL parameters.)
db=database name

Web Environment: Value previously returned in XML results from ESearch and used with EFetch in place of primary ID result list.
WebEnv=WgHmIcDG], etc.

Query_key: The value used for a history search number or previously returned in XML results from ESearch or EPost.
query_key=6

ELink
To retrieve IDs from PubMed for PMID 9298984 to the PubMed database: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&id=92 98984&cmd=neighbor To retrieve IDs from Nucleotide for GI 48819, 7140345 to Protein: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=nucleotide&db= protein&id=48819,7140345 To retrieve PubMed related articles for PMIDs 11812492 11774222 with a publication date from 1995 to the present: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&id=11 812492,11774222&db=pubmed&mindate=1995&datetype=pdat To retrieve MEDLINE indexed only related articles for PMID 12242737: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&id=12 242737&db=pubmed&term=medline[sb] To create a hyperlink to the first link available for PMID 10611131 in PubMed: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&id=10 611131&retmode=ref&cmd=prlinks

http://eutils.ncbi.nlm.nih.gov/entrez/query/static/elink_help.html

EGQuery
Display counts in XML for stem cells in each Entrez database: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/e gquery.fcgi?term=stem+cells Display counts in XML for brca1 or brca2 for each Entrez database: http://eutils.ncbi.nlm.nih.gov/entrez/eutils/e gquery.fcgi?term=brca1+OR+brca2
http://eutils.ncbi.nlm.nih.gov/entrez/query/static/egquery_help.html

eUtils工具的组合应用流程
Basic Pipelines Retrieving data records matching an Entrez query
ESearch → ESummary ESearch → EFetch

Advanced Pipelines Retrieving data records in database B linked to records in database A matching an Entrez query
ESearch → ELink → ESummary ESearch → ELink → EFetch

? Retrieving data records matching a list of UIDs
EPost → ESummary EPost → EFetch

? Retrieving data records from a subset of an ID list defined by an Entrez query
EPost → ESearch → ESummary EPost → ESearch → EFetch

? Finding IDs linked to records matching an Entrez query
ESearch → ELink

? Finding IDs linked to other UIDs
EPost → ELink

? Retrieving a subset of data records, defined by an Entrez query, from a set of records in database B linked to a list of UIDs in database A
ELink → EPost → ESearch → ESummary ELink → EPost → ESearch → EFetch

dbEST
dbEST是表达序列标签数据库,存储了短的、单次(测序)阅读的cDNA 序列,也包括来自于差异显示和RACE实验的cDNA序列 dbEST的数据量
公开的条目数:47,338,783 (release 113007) 网址:http://www.ncbi.nlm.nih.gov/dbEST/dbEST_summary.html

List

如何访问dbEST
通过匿名ftp和Entrez从NCBI获得
ftp.ncbi.nih.gov中的/repository/dbEST

核酸序列可以使用BLAST电子邮件服务来查询。TBLASTN程序 (将一个氨基酸序列和一个dbEST DNA序列的六个读框的翻译 后的序列做比较)是特别的有用。 网页搜索:http://www.ncbi.nlm.nih.gov/dbEST/index.html

OMIM

* + # % no prefix

已知序列的基因 已知序列和表现型的基因 表型与分子组分已知的 孟德尔表显,定位, 分子主份已知的 other, mainly phenotypes with suspected mendelian basis

Kinase AND receptor “kinase receptor” kinase NOT receptor

回顾
NCBI有哪些常用数据库资源可供使用? 如何进行文献检索? 怎样在图谱中查询和显示基因? NCBI常用工具的简单使用 GenBank的数据格式及其相关内容 如何批量获取信息? 如何查找一个基因并获取其上游序列?

问题
NCBI在线服务与本地信息分析的选择? NCBI中不可靠序列信息的干扰问题? 有哪些方法可以从NCBI获取数据?


相关文章:
NCBI资源介绍及使用手册
NCBI 资源介绍及使用手册 NCBI 资源介绍 本文目录: NCBI(美国国立生物技术信息中心) 简介 NCBI 站点地图 NCBI 癌症基因组研究 NCBI-Coffee Break NCBI-基因和疾病 ...
NBCI介绍与使用方法
NBCI介绍与使用方法_生物学_自然科学_专业资料。NBCI 介绍与使用方法 2012-02-...Protein Sequence (蛋白质序列库):与核酸类似,也是从 NCBI 多个不同资源中编译...
NCBI使用方法
可以独立使用,或者用基于 TCP/IP 的“network aware”模式,可以链接到其他 NCBI资源和软件比如 Entrez 和 PowerBLAST。(请在提交 前用 VecScreen 去除载体) ...
NCBI使用攻略
NCBI使用攻略_计算机软件及应用_IT/计算机_专业资料。(一) DNA 序列比对分析 一...点击所有资源(All Resources) 3.点击工(一) DNA 序列比对分析 一)两个 DNA ...
生物信息学-ncbi的应用
NCBI的数据库资源及其应... 4页 免费生​物​信​息​学​-​n​...它综合运用数学、计算机科学和生物学的各种工具进行研究,目 的在于了解大量的生...
NCBI使用说明
NCBI使用说明_理学_高等教育_教育专区。说明NCBI 使用说明 声明: 1、 本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学 习参考用,...
怎么用NCBI
一步一步教你使用 NCBI 查找 DNA、mRNA、 cDNA、Protein、promoter、引物设计、BLAST 序列比对等最近看到很多战友在论坛上询问如何查询基因序列、如何进行引物设计、...
NCBI工具概述
这个系统也使 NCBI 更有效的使用计算资源, 更好的为大家服务。 到 1999 年秋季, QBLAST 系统用于所有的 BLAST 搜索。 · PSI-BLAST - 位点特异迭代 BLAST -...
NCBI使用方法
NCBI使用方法_生物学_自然科学_专业资料。王路敏 1 天 NCBI 使用方法作者 : 郭亚雄 NCBI NCBI (National Center for Biotechnology Information), 美国国家生物技术...
怎样使用NCBI
怎样使用NCBI_自然科学_专业资料。NCBI (National Center for Biotechnology ...感兴趣的区域的更详细的图谱视图,并且链接到序列数据和包含更多信息的相 关资源...
更多相关标签:
乡土教学资源运用 | 乡土教学资源的运用 | 运用社会养老资源 | 资源运用与整合 | wlan在人力资源的运用 | 校内资源的运用 | 如何运用网络资源教学 | 数字校园资源运用总结 |