Emacs で Helm v1.8.0 をストレスなく使うための個人的な設定
約 2 年前に helm に移行して、ずっと古いバージョンを使い続けていたんですが helm-ls-git が使えなかったのでアップグレードしました。
それに伴って、以下のエントリーの設定内容を v1.8.0 に対応させました。
CRFsuite で推定に使われるパラメータ情報を出力する
CRFsuite を使っていると、「このケースでこの結果だったら、このケースでも同じような結果になりそうなのにどうして異なる結果になるんだ????」と思うことがあるでしょうが、デバッグするのがけっこう大変です。
CRFsuite の正則化パラメータ最適化
例えば CRFsuite で l2sgd を使う場合、正則化パラメータとして c2 を指定できます。デフォルトは 1 です。
Mac で SimString を使ってみた
類似文字列検索ライブラリの SimString を Mac で使ってみました。
ちょっとググった感じだと Mac でのインストール方法が見つからなかったので、しょーもない内容ですが載せておきます。
Ruby で Crfsuite::ItemSequence を作成する処理を 2 倍以上速くした
CRFsuite は柔軟な素性を指定できることが特徴の一つですが、それ故に CRF++ と違って素性を全て与えてやる必要があり、オンラインで推定しようとするとこの処理がボトルネックになります。
R で擬似アクセスログを作ってみた
アクセスログっぽいものに対する単純な分析の練習用のデータがほしくて、擬似アクセスログを生成するコードを書いてみました。
https://gist.github.com/abicky/dfdeaec9efded25b733a#file-access_logs-r
MeCab で N-Best 解の累積コストを出力する
能動学習の考え方を適用すると、MeCab の学習データを作成する際には第 1 候補と第 2 候補の累積コストの差が小さいものを優先的にアノテーションすれば良さそうな気がします。
CRFsuite を Ruby から実行してみた
CRFsuite は最新バージョン1から SWIG のインタフェースが提供されており、SWIG がサポートしている言語であれば手軽に利用することができます。
-
といっても 4 年ぐらい前にリリースされたやつですが ↩
情報抽出タスクで流行りの distant supervision について調べてみた
最近(?)、情報抽出の分野で distant supervision という学習方法が注目されているみたいなので概要と基論文の内容をまとめてみました。
コロケーション抽出に使われる C-value とは何か?
コロケーションの定義が割りと曖昧な気がしますが、ここでは「よく利用される連続した単語列」とします。
例えば「辞書を引く」(イディオム)、「濃いコーヒー」(形容詞+名詞)、「交通安全」(複合名詞)とかです。
以下、[1] の要約みたいなものです。1996 年の論文なので、コロケーション抽出に使われる最新指標ってわけではないはずです。