F値に調和平均を使う理由

追記 2010/8/15: 自分の頭の中で「必要な文書の数」 = 「検索結果の文書の数」としてしまっていたところを修正しました
追記 2010/11/20: F値に調和平均を使う理由(再)というエントリーを書きました.こっちの方がわかりやすいと思います!

Filefoxでファイルの非同期アップロード with 複数パラメータ

1ヶ月前に書こうと思ってたネタなんですが,後回しにしていて今に至ります…
HTML5のFile APIを使って,って内容にするつもりだったんですが,W3CのHTML5の仕様にあるのはDrag and Dropだけで,ひょっとすると他の機能はFirefoxの独自機能じゃないかと思ってHTML5とは言わないことにします.

索引語の重要度の指標TDVの定義って…

現在「情報検索と言語処理」を読んでます.(図書館で借りたせいで第2刷だからだいぶ古い…)
2.2節 索引付け で索引語の識別値(term discrimination value)という,索引語としての重要度を表す指標が紹介されていました.
新しく増刷されているものでは訂正されているかもしれませんが,次のように定義されています.

L-BFGS法はだからメモリが節約できるのか!

L-BFGS法 は limited memory BFGS ということで,準ニュートン法をBFGS法に基づいて省メモリで実現する方法です.(その程度の理解度です…)

HMM, MEMM, CRF まとめ

系列ラベリングで有名なHidden Markov Model(HMM)とConditional Random Fields(CRF).
CRFの前身(?)でもあるMaximum Entropy Markov Model(MEMM)も含めてこれらの3つについて自分なりにまとめてみたのでアップします.
ちなみにCRFの正則化などには触れていません.

PC版mixiボイスで手軽に絵文字を使えるようにするブックマークレット

2011/3/12追記: mixiボイスで絵文字入力が正式にサポートされましたね

PHPでsubstrをファイルポインタ操作に対応させるとこうなる

ここの PNG_Reader を ファイルポインタ 使わずに実装する必要があったので,ファイルポインタを使って実装したコードを substr で実装してみた例です.
※PNG_URI(PNG画像のURI)とCHUNK_HEADER_SIZE(最初のチャンクのサイズ)はどこかで定義されているものとみなしてください.

Google Docsのドキュメントで数式画像をキレイにリサイズするブックマークレット

2011/2/14 追記
Google Docsがいつの間にか仕様変更したようで,現在の数式はjsMathのフォントを使っているため拡大(というより文字サイズを大きく)してもキレイです.
その分使える数式が格段に減りましたが…

正規表現の先読み・後読みを極める!

柔軟性の高い正規表現を書こうとすると,避けて通れないのが先読み・後読みです.
先読み・後読みに関して,いままではとりあえず的な理解をしていたのですが,それだと説明できない正規表現に遭遇したので,説明できるまで理解を深めてみました.

RでMATLABのrepmat実装

—– 2010/12/25 追記 ————–
コードを修正したんで新しくエントリー書きました
———————————–

広告