pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです！

Hisat2を用いたマッピング (RNAseq)

RNAseq

indexの作成

hisat2-build  [解析対象とするゲノムfastaファイル] [保存先を指定]

e.g.
hisat2-build Arabidopsis_thaliana.TAIR10.dna.fa TAIR10

基本設定

シングルエンド（SE）
hisat2 [options] -x [作成したindexファイル] -U [解析対象とするfastaファイル] -S [出力先を指定]

ペアエンド（PE）
hisat2 [options] -x [作成したindexファイル] -1 [リード１] -2 [リード２] -S [出力先を指定]

詳細な設定

option（共通）	説明
-p	スレッド数の変更　デフォルト１
-s	スキップするリード数を指定
-u	指定した数をinputとして使用
-5	5' 末端から指定した数を削る
-3	3' 末端から指定した数を削る
--no-softclip	ソフトクリップを解析から除外
--score-min	最小のアライメントスコアを指定する
--min-intronlen	イントロンの最小長を指定
--max-intronlen	イントロンの最長を指定
--known-splicesite-infile	既知のスプライシングサイトを考慮する
--novel-splicesite-outfile	スプライシングサイトを出力する
--no-unal	マッピングされなかったリードを出力しない
--un-gz	アンマップリードを出力する
--summary-file	サマリーを出す
--new-summary	新形式のサマリーを出す

PE	説明
-I	ペアエンドでマップされた際の最小長を指定　デフォルト0
-X	ペアエンドでマップされた際の最大長を指定　デフォルト５００
--no-mixed	ペアでマップされなかった場合、各々でアライメント箇所の探索を行わない
--no-discordant	リード１とリード２が適切な順序、領域でない場合（遺伝子をまたぐなど）、アライメントを行わない

参考

HISAT2　MANUAL