R

PythonでSVMをやってみる

「Pythonで機械学習」って、流行語過ぎるので、乗っかる。irisの分類をSVMでやるっていう、Rの例題でよく見るヤツ。 RでSVM ## irisデータの読み込み data(iris) ## 半分をトレーニングセットにするために、ランダムに選択する train_ids <- sample(nrow(iri…

震央plot続き

4月1日から4月29日までの震度を日本全国の単位でplotしてみて、日ごとにanimated gifにしてみた。 コレを見ると、日本という単位では、毎日どこかしらで、それなりのmagnitudeの地震が観測されている。備えは大切だ言われる所以だ。さて、熊本に着目してみる…

震央plot

カーネル密度推定など - fukuitの日記 の続き。 データのダウンロード ダウンロードできるデータは、 http://www.data.jma.go.jp/svd/eqev/data/daily_map/20160414.html のように、日付別になっているので、とりあえず、4/14〜4/19までのデータをダウンロー…

カーネル密度推定など

ちょっと仕事で必要があって、ggplotを使ったりしたカーネル密度推定と、それを二次元座標系で図示化するのをやってたんだけれど、仕事じゃなくても二次元の地図上にマッピングして見てみたくなるものがあった。 データをダウンロードする 気象庁のサイトで…

BioConductor needs fortran library...

先日のBioConductorでlibgfortran周りでエラーが出る件だけれど、http://cran.ism.ac.jp/bin/macosx/tools/ にあるgfortranの.pkgをインストールすればOKだった。 こういうのって分かるように書いといてくれよーって思うけれど、ホントはどこかにちゃんと分…

R-3.0.0 release but ...

R-3.0.0がリリースされてた。新しもの好きなので、早速インストールして、BioConductorもインストールしなおす。 試しに、ちょっとGEOのデータを使ってみるか、、、と、思ったら、さっそくハマった。 preprocessCoreといういつもお世話になっているlibraryが…

複数のSeriesMatrixファイルをGeoQueryで読む方法が分からない

弊社の社内からftp-proxyを経由してBioConductorのGEOQueryでデータをダウンロードする方法が分からない。そういうワケで、GEOの画面からhttp経由でSeriesMatrixファイルをダウンロードして、そのファイルをgetGEO(file="...")のようにすることが、多々ある…

Rのproxy

Mac R

Mac版のRでproxyを使う方法は、昔から Sys.putenv("http_proxy"="http://proxy.example.com:8080/") のようにすれと言われていて、いやいやイマドキは Sys.setenv("http_proxy"="http://proxy.example.com:8080/") ですよと言われたりして、そういうのはイチ…

多変量解析

これまで、自分の仕事関連の分野では「多変量解析」というとMicroarrayの処理的な感じなモノが対象で、とりあえずデンドログラムを描いたりPCAしたりすると、ソレっぽい感じで誤魔化せたのだけれど、最近は別業界の用語としての「多変量解析」をする必要が出…

PCAしようとしたら

青木先生の主成分分析のページ(http://aoki2.si.gunma-u.ac.jp/R/pca.html)を見ながら、でかいファイルを特にマッサージもしないで、PCAしようとしたら、エラーが出た。 メモリサイズの問題らしいので、メモリサイズを増やそうとしたら、こんなメッセージが…

今年の夏は暑かったか

今年の夏は暑かった。で、大人の間で、こういう時によく話題になるのは、「子供の頃って、こんなに暑くなかったよね?」ってハナシだ。印象としては、そうだが、それを統計的に検証してみよう。 データ収集 とりあえず、子供の頃=1980年ということにする。19…

Microarrayの解析

とりあえず、NCBI GEOで公開されているMicroarrayのデータを使って、特徴的な遺伝子のリストを得るための、覚え書き。 例題は、GSE16515として公開されている、膵臓癌のデータを使うことにする。 library(GEOquery) gse16515.eset <- getGEO("GSE16515")[[1]…

3次元の散布図を描く

仕事で、ある3項目(X,Y,Zとする)の相関を確認するための実験をしていて、良いデータが得られた。 で、「XとY、XとZ、YとZ」それぞれの相関係数を求めて、それぞれの2軸の散布図を描いてみたりして、満足してたんだけれど、これを3次元の散布図に表してみたら…

続・RでAffinity propagation

http://d.hatena.ne.jp/fukuit/20100418/1271556448というのを、数ヶ月前に書いたんだけれど、お恥ずかしいことに、CRANに既にAffnity propagationによるclusteringをするためのパッケージが公開されていた。CRAN - Package apclusterいずれ、CRANで公開でき…

RでAffinity propagation

とりあえず、必要があってRでaffinity propagationを書いてみた。MATLABやCのコードは公開されているけれど、Rのコードは公開されてない。必要なら作るしかない。Rでちゃんと関数を書く方法がよく分からないので、その辺は適当に。まずは、Rでdata.frame間の…

R(とBioConductor)とGEO

R(とBioConductor)で、GEOにて公開されているマイクロアレイのデータを読み込んでみる企画。 準備 Rを起動して、GEOqueryを使えるようにしておく。 > Sys.setenv("http_proxy"="http://proxy.example.com/") > Sys.setenv("ftp_proxy"="http://proxy.example…

Rで引数がvectorの時にdata.frameとして扱う方法

ところで、function()で指定している引数(df)が、data.frameかvectorか?を判別する方法はあるだろうか?nrow(df)が1になった時は、vectorと判断して、各要素間でdist()するようにして、nrow(df)が1でない時は、各行をrbindしてdist()するようにする、、、と…

Rでdata.frame間の距離を測ってmatrixにする

昨日の続き。昨日は、vectorのユークリッド距離を直接計算してたけど、data.frameの各行ごとの距離を測ろうとするとそういうワケにはいかんし。どうすんべ?と思っていたら、dist()という関数があった。何度か、「やっぱりObjective-Cで書いてみようか、C#で…

今日はRに挑戦

昨日の続きである。とりあえず、Rで1次元のベクトルを受け取って、2次元の配列にするには、以下のように書いてみた。 input<-c(-1,0,1,5,6,7) s<-matrix(NA,length(input),length(input)) for(i in 1:length(input)){ for(j in 1:length(input)){ k <- -1*(i…

R-2.7.0をインストールする→2.6.1に戻す

R-2.7.0をインストール R-2.7.0が出てるようなので、インストールしてみた。 早速起動してみると、切ないメッセージが。 WARNING: You're using a non-UTF8 locale, therefore only ASCII characters will work. Please read R for Mac OS X FAQ (see Help) …