转录组表达量分析(数据预处理)

本操作最关键是检查每一步文件的大小!!!

1、检查文件是否完整

从公司获得Rawdata和cleandata,rawdata到cleandata经过了质控的过程。本次将直接从cleandata开始进行分析。(此步骤上传服务器的话,需要检查文件是否都上传成功)


md5sum -c md5.txt

2、 解压并检查文件大小

检查cleandata文件大小是否符合,解压后的fastq文件基本在7G左右(解压时间较长),简化文件名,Windows可以用7-zip软件批量解压缩。也可以上传后再进行解压缩和重命名(去掉前缀和后缀):参考第3步骤。

3、利用vim将如下代码写入.sh文件,进行解压缩和重命名

#!/bin/bash

#指定解压缩的路径和输出路径

gz_path="/home/hztext/dai/Ana_trans/cleandata"

output_path="/home/hztext/dai/Ana_trans/cleandata/fastq"

#新建文件夹

mkdir -p "$output_path"

#批量解压缩

for file in "$gz_path"/*.gz; do

    new_file=$(basename "$file" .fastq.gz)

    prefix_removed=${new_file#??????????????}

    gzip -d -c "$file" > "$output_path/$prefix_removed.fastq"

done

4、利用WinSCP将fastq文件上传到服务器指定文件夹中(上传时间较长),可根据需要,分别传入多个文件夹(以当前服务器大小来算,比对时一次最好处理18个fastq文件,多了容易蹦)

5、上传完成后,使用ll -h检查文件的大小和数量。

ll -h Tc_Female Tc_Fruit Tc_Male Tc_Petals Tc_VegOr

Cleandata的数据预处理基本完毕,获得的fastq文件将用于下一步。

Loading

“转录组表达量分析(数据预处理)”的2个回复

发表回复