学习如何用NCBI查找基因转录本序列和相关编码蛋白

2026-06-03

来源/作者:普拉特泽生物-医学整体课题外包

  做分子实验的谁还在NCBI瞎找序列!
  很多新手踩坑:选错转录本、拿到预测序列、分不清mRNA/CDS/蛋白,导致引物设计、载体构建全部翻车!
  今天整理零门槛NCBI实操流程,一键搞定基因转录本、编码区、对应蛋白序列,科研人直接收藏备用

🔍 核心编号口诀(重中之重)

NM_|权威验证mRNA转录本(实验首选,靠谱不翻车)
XM_|基因组预测转录本(无实验验证,仅参考,慎用)
NP_|NM转录本对应的编码蛋白(实验首选)
XP_|预测蛋白序列(不建议用于正式实验)
NR_|非编码RNA(不编码蛋白,直接忽略)


1. 进入 NCBI Gene 数据库

打开 NCBI 官网(www.ncbi.nlm.nih.gov),在搜索框左侧的"All Databases"下拉菜单中选择 Gene,然后输入目标基因名称(如 TP53),可在基因名后加上物种限定(如 TP53 [sym] AND human [orgn])来精准定位,点击 Search 搜索。



2. 选择目标基因和物种

搜索结果页会显示多个物种的基因条目,找到你需要的物种(如 Homo sapiens 人),点击基因名进入基因详情页。


3. 找到转录本信息

在基因详情页向下滑动,找到 NCBI Reference Sequences (RefSeq) 板块,这里会列出该基因的所有转录本信息,在 mRNA and Protein(s) 下方可以看到不同转录本的编号(如 NM_000546.6)。


4、点击转录本编号(如 NM_000546.6)进入详情页:

  • mRNA 序列:页面底部点击 Send to → 选择 FASTACreate File 下载
  • CDS 序列(编码区):在页面中找到 CDS 区域,点击后高亮显示编码区序列,再按上述方法导出(CDS序列自动深褐色标记,从起始密码子开始到终止密码子结束)
  • 蛋白质序列:点击 Protein 编号(如 NP_000537.3),同样用 Send to → FASTA 导出
  • 5. 查看基因组位置

    在基因详情页的 Genomic regions, transcripts, and products 部分可以看到基因在染色体上的位置、转录方向(箭头方向)、外显子/内含子结构等信息,这对设计引物或分析启动子很有帮助。

    ⚠️ 新手必避3大雷区

    1. 严禁用XM预测转录本做实验,大概率存在剪接错误,体内不真实表达
    2. 序列版本号优先选最新版,新版本已修正序列误差
    3. 同一基因多条NM为可变剪接体,对应不同蛋白,实验需匹配文献指定转录本
    告别盲目找序列!整套流程适配引物设计、质粒构建、序列比对等各类基础实验✨