初探生物信息数据库——生信原理第一次实验报告(华农)

news/2024/7/5 3:57:19

初探生物信息数据库——生信原理第一次实验报告(华农)

1 实验目的

熟悉NCBI数据库Entrez检索系统,会使用关键词检索NCBI、UnitProtKB、PubMed等数据库,能理解检索结果页面各条目含义。

2 实验题目与解答

2.1 水稻抗病基因Xa21

2.1.1 详细题目

水稻抗病基因Xa21有多少条序列具有全长CDS,分别由多少碱基构成?编码多少个氨基酸?选择修改时间最早的一条序列,指出该基因exon和intron的位置。该基因编码的蛋白质有多少个氨基酸残基?该蛋白质可能位于细胞中哪个位置?是否有三维结构信息?

2.1.2 解答过程

2.1.2.1 高级检索Xa21

为了找到水稻基因Xa21有多少条续流具有全长CDS,我们需要在高级搜索中将Organism限定为rice,此外在也需要将Xa21和complete CDS添加到Title中。

图1 在高级搜索中添加关键词及限定关键词类型

图1 在高级搜索中添加关键词及限定关键词类型

2.1.2.2 分析碱基构成及编码氨基酸个数

由检索结果(图二)可知,共有三条序列具有全长CDS,从每一条序列名称的第二行可以看到其碱基数,点击protein选项可以查看其氨基酸个数。
图2 Xa21的检索结果

图2 Xa21的检索结果

图3 点击Protein选项后的蛋白质GeneBank数据

图3 点击Protein选项后的蛋白质GeneBank数据

三条具有全长CDS的序列的碱基数以及编码氨基酸数目如下表:

表1 三条序列的碱基和氨基酸数目
Accession碱基数氨基酸数
AB21279846231025
AB21279946231025
U3713339211025

2.1.2.3 查找修改时间最早的序列的相关信息

在检索结果页面将排序方式改为“Sort by Data Modified”,找到最后一条即修改时间最早的那条序列,其Accession是U37133查看其GeneBank数据,得知其外显区区在1-2677和3521-3921,内含子区在2678-3520。编码氨基酸残基由上文可知是1025个。

图4 U37133的外显子与内含子区数据

图4 U37133的外显子与内含子区数据

为了获取其编码蛋白的亚细胞定位和三维结构信息,我们在UniProt数据库中检索其Accession,在其检索结果的“Sequence”中也可以知道共有1025个氨基酸残基,在“Subcellular Location”中可以知道该蛋白位于细胞膜上,在“Structure”中可以看到AlphaFold预测的三维结构。
图5 在UniProt中检索U37133

图5 在UniProt中检索U37133

图6 U37133的序列信息

图6 U37133的序列信息

图7 U37133的亚细胞定位

图7 U37133的亚细胞定位
![图8 U37133的三维结构(AlphaFold)](https://img-blog.csdnimg.cn/b920b696636b4aeaaf19e267fe7ac9b4.png)
图8 U37133的三维结构(AlphaFold)

2.2 检索特定序列并批量下载FASTA序列

2.2.1 详细题目

检索注册号在AF123456-AF123478之间并且序列长度在1500到1800 bp之间的核苷酸数据,共有多少条?如何批量下载它们FASTA的序列?

2.2.2 解答过程

2.2.2.1 高级检索

我们将关键词的类型设置为Accession和Sequence Length,并添加关键词进行高级检索。

图9 问题二高级检索

图9 问题二高级检索

2.2.2.2 批量下载FASTA格式文件

点击“Send to”,并如图9一样设置,点击“Create File”即可下载。
图10 批量下载FASTA格式文件

图10 批量下载FASTA格式文件

3. 讨论

这次实验学习了如何在NCBI上查找核苷酸数据,并且在UniProt上查找蛋白质的相关信息,可以看到这次查找的蛋白质没有已经测定的三维结构,而是用AlphaFold预测得到的,这在三年前是不能实现的,我不禁人工智能对生命科学的贡献感到又一次震撼,在之后的学习生活中,我会好好学习计算机知识,并争取为生命科学做出大贡献!


http://lihuaxi.xjx100.cn/news/133262.html

相关文章

Go语言躲坑经验总结

作者 | 百度小程序团队 导读 本文收集一些使用Go开发过程中非常容易踩坑的case,所有的case都有具体的代码示例,以及针对的代码修复方法,以避免大家再次踩坑。通常这些坑的特点就是代码正常能编译,但运行结果不及预期或是引入内存漏…

Ansible 部署的时候提示错误 SSH password instead

在使用 Ansible 部署的时候提示: fatal: [*.*.*.*]: FAILED! > {"msg": "Using a SSH password instead of a key is not possible because Host Key checking is enabled and sshpass does not support this. Please add this hosts fingerpri…

中国现货白银中的跳空形态

别人不知道,小编我在市场中碰到跳空形态,就像爱上一个不回家的男人一样——又爱又恨。为何跳空形态如何招人既爱且恨呢?因为跳空意味着某一方行情的爆发,行情的爆发不好吗?如果你与市场的方向一致,当然是好…

FPGA硬件工程师Verilog面试题(四)

✅作者简介:大家好我是:嵌入式基地,是一名嵌入式工程师,希望一起努力,一起进步! 📃个人主页:嵌入式基地 🔥系列专栏:FPGA Verilog 习题专栏 💬网上…

信奥中的数学基础:因式分解

【小蓝本】因式分解技巧 合集 【小蓝本】因式分解技巧 合集_哔哩哔哩_bilibili 小蓝本一本学完,降维打击初中所有因式分解 小蓝本一本学完,降维打击初中所有因式分解_哔哩哔哩_bilibili 一次性搞定因式分解(13种解法大全) 一次…

丁鹿学堂:移动端开发之css常用单位总结

css中常见的单位 我们使用css的长度单位,最常用的是px。其实,css中除了px 之外,还有很多长度单位。今天就跟大家分享一下。 css中长度单位的分类 我们把css中的长度单位分成两类。 一类是绝对长度单位。 绝对长度单位不受其他任何东西的影…

fastlio2 论文笔记

贡献 点云不需要提特征,直接用原始点云和地图对齐。ikd-tree,对点云增量增删、降采样。运算效率高,各种arm板子上都能跑。 继承fastlio优点 考虑反向传播,提升运动补偿精度。推导公式,找到等效计算卡尔曼增益的方法…

青少年python系列 35.自定义函数

青少年python教学视频ppt源码 青少年python系列目录_老程序员115的博客-CSDN博客 使用过了Python自带的函数,你有什么感觉?是不是觉得让你的编程更加顺畅、代码变得更加简洁了呢?可是有时发现Python自带的函数无法满足我们的编程需求&#x…