GEOの発現データを使いこなす

GEOのデータを使って、特定の条件での特定遺伝子の発現量を求める方法を何人かに聞かれたので、需要があるのかな?と思って、描いておく。

DataSetsを使いこなす

DataSetsとは、NCBIによってcurationされたGEOデータのことだそうだ。

http://www.ncbi.nlm.nih.gov/geo/ を開いたら、まずはDataSetsのところをクリックする。

すると、登録されているDataSetsの一覧画面になる。ここで、自分の欲しい条件で検索する。
とりあえず、Triple Negative Breast Cancerで検索してみたら、2件ヒットした。

このうちのGDS4069の方を見ることにして、Data Analysis Toolsというところをクリックする。

ここで遺伝子の発現量を検索できるので、試しにESR1を検索してみる。

2件ヒットしたようだ。
1件目の方の、チャートの絵のところをクリックする。

すると、triple negativeではほとんど発現していないが、non-triple negativeの一部では高発現でした、ということが分かった。

実に簡単だ。簡単すぎる。もし、自分が考えている実験条件に近いものがDataSetsとして登録されていたら、実験をする必要はないかもしれない。事前検討を減らせるかもしれない。

という具合に、研究室で「ちょっとPCに詳しい人」程度のBioInformaticianは失業の危機である。