日本語形態素解析の初歩

社内で LT をする機会があったので、最近趣味で MeCab のソースコードを読んでいることもあって日本語形態素解析について初歩的な説明をしてみました。

今まで系列ラベリングとか勉強したことがあるくせに、日本語みたいに分かち書きされてない言語の形態素解析がどう行われているかよくわかっていませんでした・・・。
形態素解析の解説資料は色々目を通したことがあったんですが、単語分割と品詞タグ付けを合わせて系列ラベリングの問題として扱っていると思い込んでいたので「????」な状態でした。思い込みって怖いですね。

ちなみに、スライド内でチラッと言及しているダブル配列については次のエントリーが素晴らしくわかりやすいです。
情報系修士にもわかるダブル配列 - アスペ日記

広告
十分統計量 (Sufficient Statistics) って何なのさ? tmux で簡単に pane を swap するスクリプトを書いた
※このエントリーははてなダイアリーから移行したものです。過去のコメントなどはそちらを参照してください