RのUnicode正規化関数(パッケージ)を作ってみた
自然言語を処理する場合,表記の揺れが問題になることがあります.
例えば半角カタカナと全角カタカナ,全角記号と半角記号の違いによる表記の揺れに関してはUnicode正規化で解決できます.
MacのZumoDriveでFinderから日本語ファイルにアクセスするために
ZumoDriveに濁音・半濁音を含む日本語ファイルを作成すると
$ echo test >/Volumes/ZumoDrive-501/テストだよ.txt
$ open -a TextEdit /Volumes/ZumoDrive-501/テストだよ.txt
The file /Volumes/ZumoDrive-501/テストだよ.txt does not exist.
となってアクセスできなくなります.Finderからアクセスしようとすると
となります.
ちなみにアクセスできないのはMac用のアプリで,UNIXコマンドからはアクセスできます.
Twitterなどを装ったフィッシングサイトにご用心!
「YAFOO! JAPAN」とか「おめでとうございます!○○に当選しました!今すぐ (ry」とか”見え見えの”詐欺の手口ってありますよね.
.pkgでインストールしたパッケージを削除した時のメモ
訳あって,Homebrewでインストールしたgfortranを削除して.pkgからgfortranをインストールしてみたんですが,元に戻そうと思ってふと思いました.
Google Docs Documentのフォントをシステム上のフォントに変更するブックマークレット
Google Docs Documentを印刷しようと思ってもフォントがしょぼいじゃないですか.
次の内容を参考にすればフォントを好きなものに変更できそうだったんですが,Google Docsの仕様変更があったみたいで無理でした.
- Googleドキュメントで(それなりに)見栄えの良い書類を作る方法 | H2O Blog. ver.1.0
- Googleドキュメントの文書に、メイリオを適用してみた。 いつも『あとちょっと…』/ウェブリブログ
※フォントを強制的に変更してもGoogle Docsの印刷を利用すると意味がないのでブラウザの印刷を利用してください.Firefoxだと残念な感じになりましたがChromeなら大丈夫でした.
TeXファイル内の数式をPNGで出力するスクリプト
LaTeXで作成した論文をWordに変換しなければいけない作業ってありますよね.
TeX2Wordってものも存在しますが,数式はちゃんと出力してくれないらしいじゃないですか…
以前変換作業をした時には数式を画像に出力するためにLaTeX2HTMLを使ったんですが,数式内でcasesを使うと途中で分割されてTeXのコンパイルの時点でエラーになったり,eqnarrayなどはご丁寧にも画像が可能な限り分割されたりします.
iTerm2でSwapOptCmdが使えるようにしてみた
2011/03/19追記
iTerm2-alpha17からModifierキーがカスタマイズできるようになったみたいです!
SwapOptCmdと同じ動作を実現するには
iTerm > Preferences… > Keyboard で Left Command Key を Left Option にして,Left Option Key を Left Command にして,Global Shortcut Keys で Do Not Remap Modifiers に Command + Space を追加します.
簡単ですねっ!!
単純グッド・チューリング推定法 (Simple Good-Turing Estimation) とは何ぞや?
単語頻度のディスカウンティング(スムージング)について説明してる日本語の文献って,ほとんど北先生の「確率的言語モデル」の内容で,あまり情報がないんですよね.
10行でナイーブベイズ ~Rって便利だね!~
某企業がデータマイニングエンジニアの望ましい条件として「R言語の使用経験」を挙げていて一部では話題になってたりしますね.
そんなわけで,Rだとこんなに簡単にコードが書けちゃうよって紹介です.
Rのrepmat実装を修正しました
こちらのエントリーで R の repmat 実装について書きましたが醜い内容だったので修正しました.