Osaka.R #4で「TwitterのデータをRであれこれ」を発表してきました

僭越ながら,先日2日(木)にOsaka.R #4で発表してきました.
タイトルは「TwitterのデータをRであれこれ」.あんまりあれこれになってないですが…

Rに用意されているデータは基本的な操作を学ぶには綺麗な結果が出るし誰がやっても同じ結果になるので良いんですが,
意欲的に勉強するには物足りないかなぁと思ったので身近なデータを使いたくてTwitterのデータを選びました.

発表スライド

※Windowsでスライド中のコードを実行するとうまくいかない部分があるので以下からコードをダウンロードして実行してください
たどたどしい発表のUstreamはこちら↓
http://www.ustream.tv/recorded/11204336
※音声が動画より10秒ほど早いです
※plot.defaultだと日付が横軸に取れないと言っていますが,(調べた限りでは)日付のフォーマットを指定できないということです

ちなみにスライドで紹介していた参考文献はこちら

前半の内容でのデータ操作は「Rデータ自由自在」をかなり参考にしています.
なかなかコアな内容が載っているので,これからRをバリバリ使おうと思っている人は一度読むべき本かなぁと思いました.

後半の内容は「Rで学ぶクラスタ解析」を参考にしています.
こちらはどちらかというとクラスタ解析の入門書+Rの入門書といった感じです.

コード

https://github.com/abicky/osakar4_abicky/

コードを実行するまでの手順

もっとキレイなスライドを作りたかったし発表練習もちゃんとして上手く説明したかったんですが,
スライドは直前まで作成して発表後もだいぶ修正,発表練習全くなしと醜い感じになってしまいました…

最もまずかったのはクラスタリングの妥当性を評価していないことで,
主観的に見て良さそうかどうかすら確認していないので他の方が実行したときにうまくいくかどうか….
あと,結果がID番号なのでアカウント名にするためには一工夫必要なのも問題です.
アカウント名にするには例えば次のようにします.どちらも私の作成した関数で,twitter.Rというファイルに記述されています.

ids <- getFriendsIDs()
friends <- getUsers(ids)
screenNames <- sapply(friends, function(x) x$screen_name)

または

friends <- getFriends()
screenNames <- sapply(friends, function(x) x$screen_name)

※こっちの方が無駄がない

勉強会での発表の準備は想像以上に大変で,様々な勉強会でスピーカーをやられてる方は本当にすごいなぁと痛感しました.
とても良い経験になりました.

今回の発表内容でRに興味を持ったという方や勉強になったという方が全国で10人ぐらいいれば嬉しい限りです.

しかし思えばRを使い始めたのがB4の秋からで,「R」でググッても所望の情報が得られないので当時は「Rなんて使いたくない!」と言っていたのが懐かしいです.
そんな私が発表をするようになるとは…
RjpWikiのサイト内検索を教えてもらってからRに親しみを持つようになったので,同じ理由でRを敬遠している方はRjpWikiのサイト内検索を利用されてみてはどうでしょうか?

広告
Google Chart APIの文字数制限を回避するために… Rの文字出力に便利な関数を作ってみた
※このエントリーははてなダイアリーから移行したものです。過去のコメントなどはそちらを参照してください