转录组表达量分析(SAM)

1、安装hisat2

conda install -c bioconda hisat2

2、hisat2构建索引

#-p:选择使用的线程数;Toona_ciliata_LG_Genome.fasta:基因组染色体文件;index_:索引文件的前缀,必须包含index_

hisat2-build -p 50 /home/hztext/dai/Ana_trans/Toona_cilita_var_Genome/Toona_ciliata_LG_Genome.fasta /home/hztext/dai/Ana_trans/hisat2_index/index_

索引结果文件中包含多个以index_开头的文件

3、利用索引文件批量比对fastq文件,生成sam文件,香椿转录组sam文件大小一般为20G左右。该代码只针对一个文件夹的文件进行处理,需要多文件夹自动化处理,需增加文件夹的自动访问,具体代码参考后续的sam文件转bam文件。

#!/bin/bash

#index_dir:指定索引文件的路径和前缀

index_dir="/home/hztext/dai/Ana_trans/hisat2_index/index_"

#input_dir:指定fastq文件的路径

input_dir="/home/hztext/dai/Ana_trans/Total_fastq/Tc_Fruit"

#output_dir:指定比对后的sam文件输出路径

output_dir="/home/hztext/dai/Ana_trans/hisat/Tc_Fruit"

 # 在{input_dir}路径中遍历输入fastq结尾的文件

for file in ${input_dir}/*.fastq; do

  # 提取文件名和ID

  filename=$(basename "$file")

  #提取不包含扩展名.fastq的部分

  id="${filename%%.*}"

   # 拼接输入文件路径

  input_1="${input_dir}/${id}.clean.1.fastq"

  input_2="${input_dir}/${id}.clean.2.fastq"

 # 拼接输出文件路径

 output="${output_dir}/${id}_hisat2.sam"

  # 执行比对命令

  hisat2 -p 50  -x "${index_dir}" -1 "${input_1}" -2 "${input_2}" -S "${output}"

done

 

Loading