fasta格式
>seq1
AGCTAGGGCCACT
>seq2
AGCTAGGGCCACTAAATTCGAGAG
>seq3
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAG
fasta文件中,每一条序列至少由两行组成。
- 第一行由
>
开头,其后紧跟序列的名字(ID),这个名字需要保证在文件中只出现一次,即是唯一的; - 第二行放置的就是序列的本身,在fasta中,序列本身可以放置一行,也可以放置多行。
fastq格式
@read1
CCCTTCTTGTCTTCAGCGTTTCTCC
+
;;3;;;;;;;;;;;;7;;;;;;;88
@read2
TTGGCAGGCCAAGGCCGATGGATCA
+
;;;;;;;;;;;7;;;;;-;;;3;83
@read3
GTTGCTTCTGGCGTGGGTGGGGGGG
+read3
;;;;;;;;;;;9;7;;.7;393333
fastq文件中,每一条序列至少由四行组成。
- 与fasta不同的是,第一行由
@
开头,其后紧跟序列的名字; - 第二行放置的就是序列本身;
- 第三行是一个固定的字符
+
,其后可以跟序列名,也可以不跟 - 第四行是与第二行序列对应的质量值,由一些字符组成,数值大小等于字符对应的ASCII码(ASCII码是在计算机中存储字符时的整数与字符的对应表)
GFF格式
GFF(General Feature Format)是文本文件,是用来记录基因特征的文件,目前最新的版本是gff3版本。 下面是苹果GFF文件开头的一部分,我也将以此为例
##gff-version 3
1 GDDH13 gene 6557 19041 . - . ID=MD01G0000000;biotype=protein_coding;gene_id=MD01G0000000;logic_name=genes_gddh
1 GDDH13 mRNA 6557 19041 . - . ID=MD01G0000000;Parent=MD01G0000000;biotype=protein_coding;transcript_id=MD01G0000000
1 GDDH13 three_prime_UTR 6557 6930 . - . Parent=MD01G0000000
1 GDDH13 exon 6557 8110 . - . Parent=MD01G0000000;Name=MD01G0000000-E3;constitutive=1;ensembl_end_phase=-1;ensembl_phase=2;exon_id=MD01G0000000-E3;rank=3
1 GDDH13 CDS 6931 8110 . - 1 ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000
1 GDDH13 exon 9412 11077 . - . Parent=MD01G0000000;Name=MD01G0000000-E2;constitutive=1;ensembl_end_phase=2;ensembl_phase=1;exon_id=MD01G0000000-E2;rank=2
1 GDDH13 CDS 9412 11077 . - 2 ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000
1 GDDH13 CDS 18512 18884 . - 0 ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000
1 GDDH13 exon 18512 19041 . - . Parent=MD01G0000000;Name=MD01G0000000-E1;constitutive=1;ensembl_end_phase=1;ensembl_phase=-1;exon_id=MD01G0000000-E1;rank=1
1 GDDH13 five_prime_UTR 18885 19041 . - . Parent=MD01G0000000
首先gff文件由9列组成,列于列之间由\t
隔开,\t
你可能还不认识,它更为常见的是用在Excel
的csv
格式文件中作为列于列的分割符,你完全可以使用Excel
将一个gff文件打开,因为他们组成是相同的,gff文件中,每一行称为一个feature,由#
开头的行不记录feature信息,只用作注释。九列信息分别是:
seqid
序列IDSource
资料来源Feature Type
功能的类型 比如基因、mRNA或外显子等Feature Start
feature开始的位置Feature end
feature结束的位置Score
得分,可以用来记录序列相似性等Strand
链的正负+
为正链,-
为负链Phase
指示阅读框从何处开始,值为0、1、2中的一个,表示从这个特征开始到达下一个密码子的第一个碱基的碱基数目Atributes
这个特征的一些其他属性,通常会有一个唯一的ID
gff文件可用来绘制基因结构图,确定基因在染色体中的位置,又或者是用来将基因组比对到参考基因组上。