pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです!

バイオ系の解析でよく使うpythonのパッケージ集(個人的感想)

pythonを始めたばかりの人に役立てればと思い、バイオ系の解析でよく使うパッケージをまとめました。

Pandas

生物系の解析だとデータフレーム形式(エクセル表など)を取り扱う事が多いと思います。pandasはそのようなデータ形式に特化していて、データの入力、出力、相関行列、データの集計など、さまざまな解析ができます。

詳しい解析方法に関しては、以下のサイトに記載されています。

Python データ処理ライブラリ Pandas の導入とそのデータ型

Numpy

Numpyは数値計算に適しており、Pandasなどと組み合わせ、対数変換、ピアソン相関係数などの処理に用います。

詳しい解析方法に関しては、以下のサイトに記載されています。

【Python入門】numpyで計算をしてみよう

Scipy

Scipyに関しても数値計算、統計検定に用います。特に、KSテストやT検定、カイ二乗検定など、生物系の解析でよく使う処理を行う事ができます。

http://pythonttesugoine.com/2020/08/05/%e3%83%90%e3%82%a4%e3%82%aa%e7%b3%bb%e3%81%ae%e8%a7%a3%e6%9e%90%e3%81%a7%e4%bd%bf%e3%81%86%e7%b5%b1%e8%a8%88%e6%a4%9c%e5%ae%9a-python/

Statsmodels

このパッケージの中には、多重比較検定に使用するFalse Discovery Rate(FDR)が含まれています。他のパッケージに比べると使用頻度は低いかもしれませんが、FDRを行えるパッケージはあまりないので、このパッケージを使っています。

Matplotlib or Seaborn

主に図を描写する際に使用します。どちらを使うかは、個人の好みです。matplotlibの方がトラブルを解決する際の情報が多いです。seabornの方は、デフォルト設定でも比較的、綺麗な図を描けますが、問題が生じた際の情報が少ない印象を受けます。

http://pythonttesugoine.com/2020/07/27/python%e3%81%a7%e6%8f%8f%e3%81%8f%e6%95%a3%e5%b8%83%e5%9b%b3/

http://pythonttesugoine.com/2020/07/31/python%e3%81%a7%e6%8f%8f%e3%81%8f%e7%ae%b1%e3%81%b2%e3%81%92%e5%9b%b3/

まとめ

今回は、pythonのパッケージの中でも特によく使う物を紹介しました。この他にも、とても便利なパッケージがpythonにはたくさんあるので、いろいろ試して下さい!