序列格式

fasta格式

>seq1
AGCTAGGGCCACT
>seq2
AGCTAGGGCCACTAAATTCGAGAG
>seq3
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAG

fasta文件中，每一条序列至少由两行组成。

第一行由>开头，其后紧跟序列的名字（ID），这个名字需要保证在文件中只出现一次，即是唯一的；
第二行放置的就是序列的本身，在fasta中，序列本身可以放置一行，也可以放置多行。

fastq格式

@read1
CCCTTCTTGTCTTCAGCGTTTCTCC
+
;;3;;;;;;;;;;;;7;;;;;;;88
@read2
TTGGCAGGCCAAGGCCGATGGATCA
+
;;;;;;;;;;;7;;;;;-;;;3;83
@read3
GTTGCTTCTGGCGTGGGTGGGGGGG
+read3
;;;;;;;;;;;9;7;;.7;393333

fastq文件中，每一条序列至少由四行组成。

与fasta不同的是，第一行由@开头，其后紧跟序列的名字；
第二行放置的就是序列本身；
第三行是一个固定的字符+，其后可以跟序列名，也可以不跟
第四行是与第二行序列对应的质量值，由一些字符组成，数值大小等于字符对应的ASCII码（ASCII码是在计算机中存储字符时的整数与字符的对应表）

GFF格式

GFF(General Feature Format)是文本文件，是用来记录基因特征的文件，目前最新的版本是gff3版本。下面是苹果GFF文件开头的一部分，我也将以此为例

##gff-version 3
1	GDDH13	gene	6557	19041	.	-	.	ID=MD01G0000000;biotype=protein_coding;gene_id=MD01G0000000;logic_name=genes_gddh
1	GDDH13	mRNA	6557	19041	.	-	.	ID=MD01G0000000;Parent=MD01G0000000;biotype=protein_coding;transcript_id=MD01G0000000
1	GDDH13	three_prime_UTR	6557	6930	.	-	.	Parent=MD01G0000000
1	GDDH13	exon	6557	8110	.	-	.	Parent=MD01G0000000;Name=MD01G0000000-E3;constitutive=1;ensembl_end_phase=-1;ensembl_phase=2;exon_id=MD01G0000000-E3;rank=3
1	GDDH13	CDS	6931	8110	.	-	1	ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000
1	GDDH13	exon	9412	11077	.	-	.	Parent=MD01G0000000;Name=MD01G0000000-E2;constitutive=1;ensembl_end_phase=2;ensembl_phase=1;exon_id=MD01G0000000-E2;rank=2
1	GDDH13	CDS	9412	11077	.	-	2	ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000
1	GDDH13	CDS	18512	18884	.	-	0	ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000
1	GDDH13	exon	18512	19041	.	-	.	Parent=MD01G0000000;Name=MD01G0000000-E1;constitutive=1;ensembl_end_phase=1;ensembl_phase=-1;exon_id=MD01G0000000-E1;rank=1
1	GDDH13	five_prime_UTR	18885	19041	.	-	.	Parent=MD01G0000000

首先gff文件由9列组成，列于列之间由\t隔开，\t你可能还不认识，它更为常见的是用在Excel的csv格式文件中作为列于列的分割符，你完全可以使用Excel将一个gff文件打开，因为他们组成是相同的，gff文件中，每一行称为一个feature，由#开头的行不记录feature信息，只用作注释。九列信息分别是：

seqid 序列ID
Source 资料来源
Feature Type 功能的类型比如基因、mRNA或外显子等
Feature Start feature开始的位置
Feature end feature结束的位置
Score 得分，可以用来记录序列相似性等
Strand 链的正负 +为正链，-为负链
Phase 指示阅读框从何处开始，值为0、1、2中的一个，表示从这个特征开始到达下一个密码子的第一个碱基的碱基数目
Atributes 这个特征的一些其他属性，通常会有一个唯一的ID

gff文件可用来绘制基因结构图，确定基因在染色体中的位置，又或者是用来将基因组比对到参考基因组上。