RのUnicode正規化関数(パッケージ)を作ってみた

自然言語を処理する場合,表記の揺れが問題になることがあります.
例えば半角カタカナと全角カタカナ,全角記号と半角記号の違いによる表記の揺れに関してはUnicode正規化で解決できます.

MacのZumoDriveでFinderから日本語ファイルにアクセスするために

ZumoDriveに濁音・半濁音を含む日本語ファイルを作成すると

$ echo test >/Volumes/ZumoDrive-501/テストだよ.txt
$ open -a TextEdit /Volumes/ZumoDrive-501/テストだよ.txt 
The file /Volumes/ZumoDrive-501/テストだよ.txt does not exist.

となってアクセスできなくなります.Finderからアクセスしようとすると
20110320194841
となります.
ちなみにアクセスできないのはMac用のアプリで,UNIXコマンドからはアクセスできます.

Twitterなどを装ったフィッシングサイトにご用心!

「YAFOO! JAPAN」とか「おめでとうございます!○○に当選しました!今すぐ (ry」とか”見え見えの”詐欺の手口ってありますよね.

.pkgでインストールしたパッケージを削除した時のメモ

訳あって,Homebrewでインストールしたgfortranを削除して.pkgからgfortranをインストールしてみたんですが,元に戻そうと思ってふと思いました.

Google Docs Documentのフォントをシステム上のフォントに変更するブックマークレット

Google Docs Documentを印刷しようと思ってもフォントがしょぼいじゃないですか.
次の内容を参考にすればフォントを好きなものに変更できそうだったんですが,Google Docsの仕様変更があったみたいで無理でした.

TeXファイル内の数式をPNGで出力するスクリプト

LaTeXで作成した論文をWordに変換しなければいけない作業ってありますよね.
TeX2Wordってものも存在しますが,数式はちゃんと出力してくれないらしいじゃないですか…
以前変換作業をした時には数式を画像に出力するためにLaTeX2HTMLを使ったんですが,数式内でcasesを使うと途中で分割されてTeXのコンパイルの時点でエラーになったり,eqnarrayなどはご丁寧にも画像が可能な限り分割されたりします.

iTerm2でSwapOptCmdが使えるようにしてみた

2011/03/19追記
iTerm2-alpha17からModifierキーがカスタマイズできるようになったみたいです!
SwapOptCmdと同じ動作を実現するには
iTerm > Preferences… > Keyboard で Left Command Key を Left Option にして,Left Option Key を Left Command にして,Global Shortcut Keys で Do Not Remap Modifiers に Command + Space を追加します.
簡単ですねっ!!

単純グッド・チューリング推定法 (Simple Good-Turing Estimation) とは何ぞや?

単語頻度のディスカウンティング(スムージング)について説明してる日本語の文献って,ほとんど北先生の「確率的言語モデル」の内容で,あまり情報がないんですよね.

10行でナイーブベイズ ~Rって便利だね!~

某企業がデータマイニングエンジニアの望ましい条件として「R言語の使用経験」を挙げていて一部では話題になってたりしますね.
そんなわけで,Rだとこんなに簡単にコードが書けちゃうよって紹介です.

Rのrepmat実装を修正しました

こちらのエントリーで R の repmat 実装について書きましたが醜い内容だったので修正しました.

広告