pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです!

Fastx tool kitを用いたフィルタリング (RNAseq)

個人的にはcutadaptやtrimomaticが使いやすいと思いますが、先行研究などと合わせたい場合に使用することがあるため、Fastx tool kitに関してまとめてみました!


  1. クオリティの算出
  2. 塩基比率の算出
  3. アダプター配列の除去
  4. 配列長の調整
  5. クオリティが低い領域を除去
  6. 参考




クオリティの算出

[-h] 使い方を表示
[INFILE] input ファイルを指定 (FASTAファイルの場合、塩基比率のみ算出)
[OUTFILE] アウトプットをテキストファイルで出力

fastx_quality_stats [-h] -i [INFILE] -o [OUTFILE]




塩基比率の算出

fastx_nucleotide_distribution_graph.sh -i [input file] -t [title name] [-p] -o [output file]




アダプター配列の除去

fastx_clipper [-h] -a [ADAPTER] -I [min_length] -d [N] [-k] [-c] [-C] [-n] [-v] [-z] -i [INFILE] -o [OUTFILE]

[-h] ヘルプを表示 [ADAPTER] アダプター配列を指定 デフォルトはCCTTAAGG
[min_length] 指定した塩基長より短い場合、解析から除外 デフォルトは5
[N] アダプター配列以降の配列をN数塩基保持?
[-c] アダプター配列が存在しないリードを解析から除外
[-C] アダプター配列が存在したリードを解析から除外
[-k] アダプター配列だけのリードを報告する?
[-n] Nが存在する配列を保持 デフォルトはNが持つリードを除去
[-v] リード数を報告
[-z] outputファイルをGZIP圧縮する
[INFILE] input ファイルを指定
[OUTFILE] output ファイルを指定




配列長の調整

fastx_trimmer [-h] -f [first_base] -I [last_base] [-z] [-v] -i [INFILE] -o [OUTFILE]

[-h] ヘルプを表示
[first_base] 指定した塩基以降を保持する デフォルトは1 (1塩基目)
[last_base] 指定したlast_base以降の塩基を除去 デフォルトは全塩基を保持
[-z] GZIP で圧縮
[INFILE] input ファイルを指定
[OUTFILE] output ファイルを指定




クオリティが低い領域を除去

fastq_quality_filter [-h] [-v] -q [min_quality] -p [min_quality_percent] [-z] -i [INFILE] -o [OUTFILE]

[-h] ヘルプを表示
[min_quality] N以下のクオリティ塩基を除去する
[min_quality_percent] [min_quality] 以下のクオリティ塩基がN%以上のリードを除去
[-z] GZIP形式で圧縮
[INFILE] input ファイルを指定
[OUTFILE] output ファイルを指定
[-v] リード数を報告する



参考

hannonlab.cshl.edu

bi.biopapyrus.jp