CRFsuite の正則化パラメータ最適化

2015-06-24

NLP

例えば CRFsuite で l2sgd を使う場合、正則化パラメータとして c2 を指定できます。デフォルトは 1 です。

Mac で SimString を使ってみた

2015-06-19

(

)

類似文字列検索ライブラリの SimString を Mac で使ってみました。
ちょっとググった感じだと Mac でのインストール方法が見つからなかったので、しょーもない内容ですが載せておきます。

Ruby で Crfsuite::ItemSequence を作成する処理を 2 倍以上速くした

2015-05-31

Ruby

CRFsuite は柔軟な素性を指定できることが特徴の一つですが、それ故に CRF++ と違って素性を全て与えてやる必要があり、オンラインで推定しようとするとこの処理がボトルネックになります。

R で擬似アクセスログを作ってみた

2015-05-04

R

(

)

アクセスログっぽいものに対する単純な分析の練習用のデータがほしくて、擬似アクセスログを生成するコードを書いてみました。
https://gist.github.com/abicky/dfdeaec9efded25b733a#file-access_logs-r

MeCab で N-Best 解の累積コストを出力する

2015-04-13

NLP

(

)

能動学習の考え方を適用すると、MeCab の学習データを作成する際には第 1 候補と第 2 候補の累積コストの差が小さいものを優先的にアノテーションすれば良さそうな気がします。

CRFsuite を Ruby から実行してみた

2015-04-12

NLP
Ruby

(

)

CRFsuite は最新バージョン¹から SWIG のインタフェースが提供されており、SWIG がサポートしている言語であれば手軽に利用することができます。

といっても 4 年ぐらい前にリリースされたやつですが ↩

情報抽出タスクで流行りの distant supervision について調べてみた

2015-03-09

NLP

(

)

最近（？）、情報抽出の分野で distant supervision という学習方法が注目されているみたいなので概要と基論文の内容をまとめてみました。

コロケーション抽出に使われる C-value とは何か？

2015-03-08

NLP

(

)

コロケーションの定義が割りと曖昧な気がしますが、ここでは「よく利用される連続した単語列」とします。
例えば「辞書を引く」（イディオム）、「濃いコーヒー」（形容詞＋名詞）、「交通安全」（複合名詞）とかです。
以下、[1] の要約みたいなものです。1996 年の論文なので、コロケーション抽出に使われる最新指標ってわけではないはずです。