CFVisual(https://github.com/ChenHuilong1223/CFVisual/)自推出来,有了一些小用户,这段期间也发现了很多需要优化的地方。最主要的是基因结构哈!上个礼拜帮忙抽时间处理了50多个物种的GFF3文件,涨了见识。原来GFF3文件中可以没有mRNA,原来mRNA的start和end可以和gene的start和end的不一样,原来GFF3文件中的CDS,UTR,exon等信息对应的第9列的注释中可以没有Parent=这个标签......
呃呃呃。。。涨见识的同时,处理这些文件自然头疼,哈哈哈!
今天就来聊聊这个基因结构,首先,what is the gene structure? 学生物的同学都知道基因结构一般包括启动子、增强子、内含子、编码区、非编码区......(如图1)那我们做基因家族分析有一步就是做基因结构分析(细心的小小伙伴会发现GFF3文件也没启动子、增强子等信息啊!所以作者想说我们做基因家族常说的基因结构分析其实叫分析转录本结构更贴切一些呢?(如图2)——个人愚见哈),那怎么做呢?往往是根据数据库下载的GFF3文件的信息来绘制成基因结构图再分析。最经典的GSDS(http://gsds.gao-lab.org/index.php)就是一款最好的绘制基因结构图的工具了,网站平台,用户免安装,是网站平台相比软件的优势之一!绘制出来的图也是极其美观。但是用过的小伙伴会有一个切身的体会,就是一旦你的准备文件不满足GSDS的要求的格式,就会报出一系列的错误。所以GSDS官网很是强调GFF3文件的格式标准。千万不能错!
图1 基因结构
所以CFVisual一开始设计基因结构的时候就是假象很多奇奇怪怪的GFF3文件,因此作者在根据家族ID去匹配GFF3里的注释信息的时候,就压根不根据ID=,Parent=,等等标签来匹配,而是只要ID处于第9列这一长串的字符串中,CFVisual就认为匹配到了,这点跟GSDS的设计理念应该不一样。因此,虽然这种做法可以让用户省去很多处理GFF3格式要跟软件格式完全一致的揪心步骤。适用性似乎更广,但是会带来一个潜在的风险:如果你把自己的ID的转录本编号.1,.2,.3,.4.......或_2,_3,_4......去掉,那你就会把所有转录本的信息都给匹配到,这样CFVisual会将所有转录本的信息都绘制在一个基因ID的地方——也就是说这个结果是错的!!!
因此,作者这里强调,使用CFVisual的用户最好用原始的ID(如图3、图4),不要把转录本编号删除(作者以前所在学校的团队都是保留的,尊重事实,就表示我用的是这个转录本来代表这个基因。)。当你这样的时候,使用CFVisual软件就不用再担心这个潜在的风险了!
图3
或者说你有强迫症,非要将这个转录本编号(AT1G01020.1的.1)去掉,直接用基因名(AT1G01020),那你就要保证你的GFF3文件只有AT1G01020.1这个转录本对应的信息,没有AT1G01020.2、AT1G01020.3、AT1G01020.4.....的信息。这样处理之后,使用CFVisual绘制出来的基因结构图自然就是正确的了(如图5)!
图5