pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです!

2020-01-01から1年間の記事一覧

シングルセル解析におけるCSVファイルの取り込み(scanpy)

シングルセル解析を行う際、scanpyを使った解析をよく見ます。その中で、CSVファイルを取り込む方法が、情報として少なかったため、まとめて見ました。 通常の解析に関しては、【Python】Scanpyを使った single cell RNA解析 - ばいばいバイオに詳しく書かれ…

StringTieを用いたリード数の計算 (RNAseq)

マッピング後のSAM、BAMから、各遺伝子ごとにリード数を算出します。今回は、StringTieについてまとめてみました。 SAMファイルは重たいので、BMAファイルに変換した方が解析がしやすいと思います。 The main input of the program is a BAM file with RNA-S…

SRAからシーケンスデータをダウンロードする(RNAseq)

NCBI Sequence Read Archive (SRA) とは? Sequence Read Archive (SRA) data, available through multiple cloud providers and NCBI servers, is the largest publicly available repository of high throughput sequencing data. SRA stores raw sequenci…

SAMファイルの変換(RNAseq)

目次 マッピング後の処理(SAM、BAM)SAMファイルをBAMファイルに変換BAMファイルをBEDファイルに変換BAMファイルをソート、インデックスを付加参考 マッピング後の処理(SAM、BAM) samファイルはシーケンスリードがゲノムのどの位置にあるかを記述するファ…

Hisat2を用いたマッピング (RNAseq)

indexの作成 hisat2-build [解析対象とするゲノムfastaファイル] [保存先を指定] e.g. hisat2-build Arabidopsis_thaliana.TAIR10.dna.fa TAIR10 基本設定 シングルエンド(SE) hisat2 [options] -x [作成したindexファイル] -U [解析対象とするfastaファイ…

Fastx tool kitを用いたフィルタリング (RNAseq)

個人的にはcutadaptやtrimomaticが使いやすいと思いますが、先行研究などと合わせたい場合に使用することがあるため、Fastx tool kitに関してまとめてみました! クオリティの算出 塩基比率の算出 アダプター配列の除去 配列長の調整 クオリティが低い領域を…

博士課程に向いているなと思った人の特徴を挙げてみた

主体的に物事を考えられる 一般的にどのような事をする際も主体性は大切です。特に、博士課程に行く場合、指導教員の方はずっと側にいる事は少ないので、自分で考え、自分で行動する習慣が必要となってきます。 金銭的面に不安がない、もしくは余裕がある 博…

博士の学位取得に必要だと思った心得

博士課程の学位を取得する上で、大事だと思った習慣を箇条書きしました。(とても当たり前のことが多いです) 全ての意見を聞かない 他人の意見を聞くことは、とても重要ですが、全ての意見を聞く必要はないと思います。特に、博士学生だと教授などの指導教…

Trimomaticを用いたアダプター配列の除去 (RNAseq)

目次 基本文 詳細な設定 参考 基本文 シングルエンド (SE) java -jar <trimmomatic.jarのパス> SE -threads <スレッド数> -phred33 or -phred64 -trimlog <logの保存先> <inputのパス> <outputのパス> <option> 現在は、だいたい-phred33だと思われる e.g. / java -jar trimmomatic-0.39.jar SE -threads 4 -phred33 -trimlog log.txt</option></outputのパス></inputのパス></logの保存先></trimmomatic.jarのパス>…

Tophat2を用いたマッピング (RNAseq)

目次 インデックスの作成 基本文 オプションの設定 参考 インデックスの作成 Tophat2は内部的にBowtieを使用しているため、Bowtieを用いてゲノムのインデックスを作ります。 bowtie2-build -f [対象とするゲノムのファスタファイル] [output] bowtie2-build…

cutadaptを用いたアダプター配列の除去(RNAseq)

cutadapt結構便利なんですが、ホームページの説明がとても長いので、簡略化し、まとめてみました。 cutadaptとは? シンプルな設定 詳細な設定 4.参考 cutadapt結構便利なんですが、ホームページの説明がとても長いので、簡略化し、まとめてみました。 cutad…

データフレームの条件分岐 (pandas)

pandasでは、if文のように、カラムの値に応じて任意の領域を選択、取り出す事ができます。 import pandas as pd #使うパッケージをimportする from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data, columns=iris.featur…

博士課程に進む前に知っておけば良かったこと(3つ)

私自身が博士課程に進む際、情報の少なさに苦労した事があったため、少しでも役立てればと思い、博士課程に進む前に知っておけば良かった事を簡単にまとめてみました。 Contents そもそも博士課程とは? 研究は政治的な力が大きい場合がある 博士100人の…

pythonを使った多重比較検定補正

pythonのパッケージの一つである、statsmodelsを使うことで、多重比較検定補正を行う事ができます。 なぜ、多重比較検定補正が必要? 例えば、有意水準を5%とし、3回の検定を行った場合、どれか一つが有意になる確率は1-全てが有意ではない確率=1-(0.95)3=…

ポストドクターの先輩達を見て感じたこと(個人的感想)

私自身、博士を取得後は、企業に就職しました。しかし、最後まで一般企業に就職するか、ポストドクターをするか迷いました。 博士課程を目指す方に、少しでも役立てればと思い、ポストドクターをやられている方々を見て、思った事をまとめました。 Pyてよん …

バイオ系の解析でよく使うpythonのパッケージ集(個人的感想)

pythonを始めたばかりの人に役立てればと思い、バイオ系の解析でよく使うパッケージをまとめました。 Contents Pandas Numpy Scipy Statsmodels (FDR 検定など) Matplotlib or Seaborn Pandas 生物系の解析だとデータフレーム形式(エクセル表など)を取り扱…

TOEIC850点を超えるまでにしたこと

私の能力 中学生の頃、英語ができなくて先生に怒られるセンター試験の英語6割ぐらい初めてのTOEICはちょうど500点 使った教材 新公式問題集 https://www.amazon.co.jp/gp/product/4906033466/ref=as_li_qf_asin_il_tl?ie=UTF8&tag=daueno-22&creative=12…

ESを書く際に気をつけた3つのこと (バイオ系博士の就活)

まず、いろいろなESの書き方に関する本を読んだ結果 だるまさん 情報が多すぎて、結局何を書いていいのかがわからない。。。 よく物語には、起承転結がありますが、自分なりに、ESを書く際に意識した起承転結をまとめました! Contents これまで、自分は何を…

BigWig→Wig→Bedに変換する (File 形式変換)

Bam形式からBigWig形式に変換する方法は多く見ましたが、BigWig形式をbed形式に変換する情報が少なかったのでまとめて見ました。 そもそも、Wig file とは? WIGフォーマットはGC含量やprobability scoresやトランスクリプトームデータなどのような密で連続…

Python学んで人生変わった(バイオ系博士)

大学院に入るまでの私の能力 大学時代まで体育学部(脳みそ筋肉じゃないと信じたい笑)プログラミング言語なんて聞いたこともなかったパソコン苦手のバリバリの文系 今回の内容 私は、学部生の頃はスポーツ科学を学んでおり、大学院から専攻を基礎生物学に変…

バイオ系の解析で使う統計検定 (python)

Contents student's t-test welch's t-test Mann-WhitneyU 検定 カイ二乗検定 Kolmogorov–Smirnov 検定 参考にしたサイト student's t-test (two-side) [1] 2つのデータ間に対応がない[2] データが正規分布である (パラメトリック)[3] 平均値の比較[4] 分…

RNAseq解析で使うソフトウェアのリンク集

たまにRNAseq解析を行うため、覚え書きようにまとめてみました。最近ですと、ロングリードシーケンサーが出てきましたが、今回はショートリードシーケンサーを中心に書いていきます。 Contents 大まかな手順 リードのクオリティーテェック フィルタリング マ…

インデックスの選択・インデックスの再設定 (pandas)

pythonのパッケージをimportする from sklearn.datasets import load_iris import pandas as pd データを表示する iris = load_iris() #テストデータとしてirisをロード df = pd.DataFrame(iris.data, columns=iris.feature_names)#データフレームを作成 col…

リスト内表記とは?

私自身、これまでも、これからも使うかはわかりませんが、リスト内表記についてまとめたいと思います。 まず、リスト内表記とは??? こんな感じです↓ a=[True if i >4 else False for i in range(10)] 正直、初めて見た時はpythonだと思えませんでした(笑…

pythonを使った相補鎖、逆相補鎖配列の生成

解析には、biopythonというツールを使っていきます https://biopython.org/ より引用 文字列の型はSeqの型に変換するデータフレームやリストにappendする場合は、str型に直して処理を行う パッケージをimportする from Bio.Seq import Seq 相補鎖 seq="AGTAG…

pythonで描く箱ひげ図

pythonで箱ひげ図を描く場合、matplotlibもしくは、seabornのどちらかで描くことが多いと思います。微妙に書き方が違う部分があるのでまとめていこうと思います。 Contents matplotlibで描く箱ひげ図seabornで描く箱ひげ図 matplotlibで描く箱ひげ図 まずmat…

博士就活の面接質問集

博士の就活をした際に、面接でされた質問、されそうな質問をまとめてみました。 Contents 基本編 企業に関すること 研究系 研究室の生活 その他 基本編 研究概要 志望動機 自己PR 履歴書、もしくはESに記載したことについて 企業に関すること なぜこの会社(…

pythonで描く折れ線グラフ

pythonで折れ線グラフを描く場合、matplotlibもしくは、seabornのどちらかで描くことが多いと思います。微妙に書き方が違う部分があるのでまとめていこうと思います。 Contents matplotlibで描く棒グラフ seabornで描く棒グラフ matplotlibで描く折れ線グラ…

pythonで描く棒グラフ

pythonで棒グラフを描く場合、matplotlibもしくは、seabornのどちらかで描くことが多いと思います。微妙に書き方が違う部分があるのでまとめていこうと思います。 Contents matplotlibで描く棒グラフ seabornで描く棒グラフ matplotlibで描く折れ線グラフ im…

Pythonで描く散布図

バイオ系博士 pythonで散布図を描く場合、matplotlibもしくは、seabornのどちらかで描くことが多いと思います。微妙に書き方が違う部分があるのでまとめていこうと思います。 Contents matplotlibで描く散布図 seabornで描く散布図 matplotlibで描く散布図 …