pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです!

Hisat2を用いたマッピング (RNAseq)

indexの作成

hisat2-build  [解析対象とするゲノムfastaファイル] [保存先を指定]

e.g.
hisat2-build Arabidopsis_thaliana.TAIR10.dna.fa TAIR10

基本設定

シングルエンド(SE)
hisat2 [options] -x [作成したindexファイル] -U [解析対象とするfastaファイル] -S [出力先を指定]

ペアエンド(PE)
hisat2 [options] -x [作成したindexファイル] -1 [リード1] -2 [リード2] -S [出力先を指定]

詳細な設定

option(共通)説明
-pスレッド数の変更 デフォルト1
-sスキップするリード数を指定 
-u指定した数をinputとして使用
-55' 末端から指定した数を削る
-33' 末端から指定した数を削る
--no-softclipソフトクリップを解析から除外
--score-min最小のアライメントスコアを指定する
--min-intronlenイントロンの最小長を指定
--max-intronlenイントロンの最長を指定
--known-splicesite-infile既知のスプライシングサイトを考慮する
--novel-splicesite-outfileスプライシングサイトを出力する
--no-unalマッピングされなかったリードを出力しない
--un-gz アンマップリードを出力する
--summary-fileサマリーを出す
--new-summary新形式のサマリーを出す

PE説明
-Iペアエンドでマップされた際の最小長を指定 デフォルト0
-Xペアエンドでマップされた際の最大長を指定 デフォルト500
--no-mixedペアでマップされなかった場合、各々でアライメント箇所の探索を行わない
--no-discordantリード1とリード2が適切な順序、領域でない場合(遺伝子をまたぐなど)、アライメントを行わない

参考

HISAT2 MANUAL