1、安装hisat2
conda install -c bioconda hisat2
2、hisat2构建索引
#-p:选择使用的线程数;Toona_ciliata_LG_Genome.fasta:基因组染色体文件;index_:索引文件的前缀,必须包含index_
hisat2-build -p 50 /home/hztext/dai/Ana_trans/Toona_cilita_var_Genome/Toona_ciliata_LG_Genome.fasta /home/hztext/dai/Ana_trans/hisat2_index/index_
索引结果文件中包含多个以index_开头的文件
3、利用索引文件批量比对fastq文件,生成sam文件,香椿转录组sam文件大小一般为20G左右。该代码只针对一个文件夹的文件进行处理,需要多文件夹自动化处理,需增加文件夹的自动访问,具体代码参考后续的sam文件转bam文件。
#!/bin/bash #index_dir:指定索引文件的路径和前缀 index_dir="/home/hztext/dai/Ana_trans/hisat2_index/index_" #input_dir:指定fastq文件的路径 input_dir="/home/hztext/dai/Ana_trans/Total_fastq/Tc_Fruit" #output_dir:指定比对后的sam文件输出路径 output_dir="/home/hztext/dai/Ana_trans/hisat/Tc_Fruit" # 在{input_dir}路径中遍历输入fastq结尾的文件 for file in ${input_dir}/*.fastq; do # 提取文件名和ID filename=$(basename "$file") #提取不包含扩展名.fastq的部分 id="${filename%%.*}" # 拼接输入文件路径 input_1="${input_dir}/${id}.clean.1.fastq" input_2="${input_dir}/${id}.clean.2.fastq" # 拼接输出文件路径 output="${output_dir}/${id}_hisat2.sam" # 执行比对命令 hisat2 -p 50 -x "${index_dir}" -1 "${input_1}" -2 "${input_2}" -S "${output}" done