pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです!

RNAseq解析で使うソフトウェアのリンク集

たまにRNAseq解析を行うため、覚え書きようにまとめてみました。最近ですと、ロングリードシーケンサーが出てきましたが、今回はショートリードシーケンサーを中心に書いていきます。

大まかな手順

RNAseq解析の手順は大まかに4つの段階があります。

[1] RNAseqで取得したリードのクオリティをテェックします。

[2] アダプター、クオリティが低いリードを除去 (フィルタリング)

[3] リードをゲノムに貼り付けていく (マッピング)

[4] マッピングしたリードがどの遺伝子に由来するかを定義づけし (アノテーション)、各遺伝子ごとにリード数をカウントする

リードのクオリティーチェック

リードのクオリティチェックとしては、FastQCをよく使うと思います。

フィルタリング

フィルタリングに関しては、いくつかあります。

cutadaptに関しては、RNAseq解析よりもRibosome profiling解析でよく見かけます。分野にもよりますが、FASTX-toolkitを使う論文をよく見ます。

マッピング

マッピングソフトに関しては、特にこだわりがなければHISAT2を使用するのがいいのかと思います。

STARもよく使われるマッピングソフトですが、PCのスペックが必要となってきます。どのマッピングソフトを使った場合においても、全体的な傾向は類似すると言われているので、使いやすいソフトを選べばいいのかと思います。

リードのアノテーション、リード数のカウント

アノテーション、リード数のカウントには以下のソフトウェアが挙げられます。

参考にしたブログ

日本語の説明
bioinformatics

英語の説明
[1] Introduction to RNA-Seq using high-performance computing

[2] RNA-Seq reads to counts