GTX.Zip 基因组大数据压缩系统

GTX.Zip是一个面向基因行业的高性能压缩系统,支持所有文件格式的无损压缩,并对基因测序数据进行定向优化。该系统具有业界最优压缩倍率和速度,能以800MB/s的极致速度,将基因测序数据压缩至原大小的2%,大大降低海量基因数据的存储与传输成本。

产品优势
动态优化

自动识别文件格式,
自适应优化压缩过程。

高倍无损

FASTQ格式可压缩至原文件大小
的2%,是Gzip压缩后文件大小的1/6。

急速如飞

IO性能非受限的情况下,
单节点压缩速度高达800MB/s。

安全无忧

分块MD5校验技术,确保压缩
和解压过程的可靠性和数据一致性。

产品功能
1
专门优化
Specialized optimization

支持任意格式文件的无损压缩。对fastq、fastq.gz、bam等基因数据进行专门的压缩优化,使用基于参考基因组的模式压缩率更高。

2
方便灵活
Convenient and flexible

支持Linux、Windows、Mac OSX平台,提供命令行和图形化安装方式,可灵活设置并发线程数,解压无license限制。

3
生态完整
Ecological integrity

与Genetalks公司的GTX.Trans、GTX.CAT、GTX.Digest无缝对接,实现边压边传、边解边算、压缩归档。提供python、C/C++语言的SDK接口,方便第三方开发者的软件集成。

典型应用场景
测序数据压缩

对所有物种的基因测序数据,与Gzip压缩相比,GTX.Zip能够平均提升3-4倍的压缩密度,最高获得超过6倍的压缩密度,大大节省基因检测与分析机构对数据进行处理与归档的存储与传输开销。

对比测试
不同测序平台的数据压缩情况比较
不同测序数据的压缩比率和压缩速率表格
文件名称物种测序仪类型原始文件大小(G)GzipGTX.Zip
压缩时间(秒)文件大小(G)压缩率(%)压缩时间(秒)文件大小(G)压缩率(%)
SRR6737547小鼠Illumina/Miseq5.29914661.35125.49680.37527.08
ERR3929511Illumina/Novaseq 600095.0393669118.646519.622263.03993.2
SRR12922210Illumina/Xten14.580812942.928920.09810.52473.6
SRR12072893Illumina/Hiseq18.698214604.392323.49921.0645.69
ERR3528872Illumina/Nextseq11.54419852.614622.651270.70876.14
SRR12845693大鼠MGI/BGISEQ-5002.98911100.509817.05480.16785.61
SRR15829874MGI/MGISEQ-200024.247923218.236933.97903.830415.8
SRR14773546MGI/DNBSEQ-T716.382915694.937230.141313.006118.35
SRR3206414IonTorent/Proton10.39259644.570543.981632.42723.35
SRR12448025芝麻IonTorent/S52.71672641.178343.37640.677224.93
ERR1397639PacBio/RS1.5221370.660543.4540.471831
SRR5943529PacBio/RS II2.62873621.127242.88720.843932.1
SRR11816799ONT/GridION14.127810986.840548.421694.503531.88
SRR11073097ONT/MinION31.5085235515.945150.6132110.180332.31
ERR2585114ONT/PromethION53.2615399925.313347.5348817.23532.36
测试硬件配置:Intel(R) Core(TM) i9-7980XE CPU @ 2.60GHz / 18核36线程 / 128GB内存磁盘类型:HDD SATA接口
问题反馈为了能及时联系到您,请准确填写如下信息