莱茵衣藻叶绿体生物反应器的密码子优化(2)

莱茵衣藻是一种单细胞的藻类植物,它属于真核生物,通常有“绿色酵母”之美誉。近年来,莱茵衣藻叶绿体基因组被作为一种外源基因插入靶点被广泛研


莱茵衣藻是一种单细胞的藻类植物,它属于真核生物,通常有“绿色酵母”之美誉。近年来,莱茵衣藻叶绿体基因组被作为一种外源基因插入靶点被广泛研究,同时由于多拷贝、小基因组和不易横向转移等优势,叶绿体基因组作为一种新型反应器,被普遍认可。早前研究可知,莱茵衣藻具有一个巨大的杯状叶绿体,占细胞总体积的40%以上,围绕着细胞核[3];核酸的序列的长度大约为200kb左右,每一个细胞内大约有80套等同的基因[4];它特别之处在于光照条件和黑暗条件下都能够生长,而且能够把外界提供的碳源与光合成的碳物质分隔开来,是目前发现的唯一能够特异的对线粒体、叶绿体和核分别建立转化体系的生物[5]。目前,莱茵衣藻的叶绿体基因组序列已完全测定,序列结构也比较清楚,已经有多种外源基因在莱茵衣藻的叶绿体基因组中得到了稳定的表达[6]。因此本文以已发表的莱茵衣藻叶绿体基因组序列为基础,对其密码子的用法进行了初步分析,研究结果可为莱茵衣藻光合效率、叶绿体分子进化以及外源基因表达研究等方面提供理论依据[7]。

1材料与方法

1.1衣藻叶绿体基因组下载

衣藻是一种模式藻类植物,其叶绿体基因组序列已经被测定。本研究直接从NCBI数据库中,检索到衣藻叶绿体基因组的登录号NC_005353,并下载叶绿体基因组序列。具体下载步骤如下:登录NCBI主页,直接利用NC_005353检索,在Genome子数据库中得到基因组序列,并得到注释信息显示,基因组尺寸为0.203828Mb,GC含量为34.5%,编码蛋白69个基因,编码rRNA有10个基因,编码tRNA有29个基因,编码其它RNA有1个基因,共包括109个基因。

1.2衣藻叶绿体基因读码框的确定与编码序列下载

基于衣藻叶绿体基因组序列,利用ORFfinder(http://www.ualberta.ca/)工具对这些序列的开放通读框进行扫描,结合已知衣藻叶绿体基因组的注释信息,对于以前没有注释的新ORF框,直接推导翻译出蛋白,提交到NCBI的BLAST工具检索其同源蛋白,如果没有匹配蛋白,则认为该蛋白并不存在[8]。最终,确定下来这个基因组中存在的编码蛋白基因数目,这些基因进入下游分析。

为消除基因长度以及其他因素对密码子用法分析带来的影响,本研究重点选择蛋白编码基因进行下一步密码子偏好性分析,同时将小于300bp基因删除,这些基因包括ChreCp004、ChreCp010、ChreCp011、ChreCp013、ChreCp022、ChreCp026、ChreCp027、ChreCp029、ChreCp030、ChreCp040、ChreCp043、ChreCp044、ChreCp045、ChreCp051、ChreCp053、ChreCp061、ChreCp063、ChreCp067和ChreCp068。对剩余的59个蛋白基因进行整理,同时从CoGe数据库中下载这些基因序列[9]。

1.3有效密码子数目ENC值的计算

ENC值可以直接表征一个或一列基因中所用到的密码子类型数目多少,ENC值往往有一个范围,即20-61;为了消除不同基因长短和氨基酸组分多样化产生不利影响,一些算法采用了特殊的规避手段,因此ENC值在特定条件下,可能不是整数,也可能大于61[10]。据研究可知,ENC值越小,其密码子偏爱程度越高,基因表达量就越高;反之,ENC值越大,密码子偏爱程度就低,基因表达量就越低[11]。

1.4相对同义密码子用法RSCU值的计算

RSCU值可以表征一个蛋白或多个蛋白编码基因中每一种类型同义密码子被使用的频率情况,这个RSCU值的范围在0到K之间,其中K表示该氨基酸同义密码子数目[12]。

1.5衣藻叶绿体高表达最优密码子的鉴定

基于ENC值大小,将衣藻59个基因的ENC值进行排序,基于ENC值和表达量之间的负相关关系原理,从这些排序结果中筛选出高表达和低表达样本组。接下来,对高表达与低表达样本组的RSCU值进行分析,结果用T-检验进行比较分析[13]。就某一个密码子看,T-检验的概率值P大于0.05。