本操作最关键是检查每一步文件的大小!!!
1、检查文件是否完整
从公司获得Rawdata和cleandata,rawdata到cleandata经过了质控的过程。本次将直接从cleandata开始进行分析。(此步骤上传服务器的话,需要检查文件是否都上传成功)
md5sum -c md5.txt
2、 解压并检查文件大小
检查cleandata文件大小是否符合,解压后的fastq文件基本在7G左右(解压时间较长),简化文件名,Windows可以用7-zip软件批量解压缩。也可以上传后再进行解压缩和重命名(去掉前缀和后缀):参考第3步骤。
3、利用vim将如下代码写入.sh文件,进行解压缩和重命名
#!/bin/bash #指定解压缩的路径和输出路径 gz_path="/home/hztext/dai/Ana_trans/cleandata" output_path="/home/hztext/dai/Ana_trans/cleandata/fastq" #新建文件夹 mkdir -p "$output_path" #批量解压缩 for file in "$gz_path"/*.gz; do new_file=$(basename "$file" .fastq.gz) prefix_removed=${new_file#??????????????} gzip -d -c "$file" > "$output_path/$prefix_removed.fastq" done
4、利用WinSCP将fastq文件上传到服务器指定文件夹中(上传时间较长),可根据需要,分别传入多个文件夹(以当前服务器大小来算,比对时一次最好处理18个fastq文件,多了容易蹦)
5、上传完成后,使用ll -h检查文件的大小和数量。
ll -h Tc_Female Tc_Fruit Tc_Male Tc_Petals Tc_VegOr
Cleandata的数据预处理基本完毕,获得的fastq文件将用于下一步。
前排沙发
欢迎大家评论区交流