序列格式

关注微信公众号塔容万物

fasta格式

>seq1
AGCTAGGGCCACT
>seq2
AGCTAGGGCCACTAAATTCGAGAG
>seq3
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAG

fasta文件中,每一条序列至少由两行组成。

fastq格式

@read1
CCCTTCTTGTCTTCAGCGTTTCTCC
+
;;3;;;;;;;;;;;;7;;;;;;;88
@read2
TTGGCAGGCCAAGGCCGATGGATCA
+
;;;;;;;;;;;7;;;;;-;;;3;83
@read3
GTTGCTTCTGGCGTGGGTGGGGGGG
+read3
;;;;;;;;;;;9;7;;.7;393333

fastq文件中,每一条序列至少由四行组成。

GFF格式

GFF(General Feature Format)是文本文件,是用来记录基因特征的文件,目前最新的版本是gff3版本。 下面是苹果GFF文件开头的一部分,我也将以此为例

##gff-version 3
1	GDDH13	gene	6557	19041	.	-	.	ID=MD01G0000000;biotype=protein_coding;gene_id=MD01G0000000;logic_name=genes_gddh
1	GDDH13	mRNA	6557	19041	.	-	.	ID=MD01G0000000;Parent=MD01G0000000;biotype=protein_coding;transcript_id=MD01G0000000
1	GDDH13	three_prime_UTR	6557	6930	.	-	.	Parent=MD01G0000000
1	GDDH13	exon	6557	8110	.	-	.	Parent=MD01G0000000;Name=MD01G0000000-E3;constitutive=1;ensembl_end_phase=-1;ensembl_phase=2;exon_id=MD01G0000000-E3;rank=3
1	GDDH13	CDS	6931	8110	.	-	1	ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000
1	GDDH13	exon	9412	11077	.	-	.	Parent=MD01G0000000;Name=MD01G0000000-E2;constitutive=1;ensembl_end_phase=2;ensembl_phase=1;exon_id=MD01G0000000-E2;rank=2
1	GDDH13	CDS	9412	11077	.	-	2	ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000
1	GDDH13	CDS	18512	18884	.	-	0	ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000
1	GDDH13	exon	18512	19041	.	-	.	Parent=MD01G0000000;Name=MD01G0000000-E1;constitutive=1;ensembl_end_phase=1;ensembl_phase=-1;exon_id=MD01G0000000-E1;rank=1
1	GDDH13	five_prime_UTR	18885	19041	.	-	.	Parent=MD01G0000000

首先gff文件由9列组成,列于列之间由\t隔开,\t你可能还不认识,它更为常见的是用在Excelcsv格式文件中作为列于列的分割符,你完全可以使用Excel将一个gff文件打开,因为他们组成是相同的,gff文件中,每一行称为一个feature,由#开头的行不记录feature信息,只用作注释。九列信息分别是:

  1. seqid 序列ID
  2. Source 资料来源
  3. Feature Type 功能的类型 比如基因、mRNA或外显子等
  4. Feature Start feature开始的位置
  5. Feature end feature结束的位置
  6. Score 得分,可以用来记录序列相似性等
  7. Strand 链的正负 +为正链,-为负链
  8. Phase 指示阅读框从何处开始,值为0、1、2中的一个,表示从这个特征开始到达下一个密码子的第一个碱基的碱基数目
  9. Atributes 这个特征的一些其他属性,通常会有一个唯一的ID

gff文件可用来绘制基因结构图,确定基因在染色体中的位置,又或者是用来将基因组比对到参考基因组上。