MeCab の形態素解析誤りを修正する生起コストの求め方

2016-11-28

NLP

「かつおたたき」、「りんごジュース」、「ロース肉薄切り」を MeCab + IPA 辞書で形態素解析すると以下のようになります。

Redshift の UDF では非 ASCII 文字を含む unicode 型を返すとエラーになる

2016-08-29

次のように unicode 型を返す UDF を定義すると、返り値に非 ASCII 文字を含む場合にエラーになります。

Rails の send_data で Windows 用の zip ファイルを送る

2016-06-27

Ruby

(

)

Windows 用にファイル名の文字コードを CP932 にしたいわけですが、ハマりどころが多かったのでメモです。
次のようなコードで send_data (not send_file) に指定する zip データを生成可能です。

MeCab ソースコードリーディング私的メモ（形態素解析編）

2016-05-16

NLP

(

)

先日、次のエントリーを書きました。
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

日本語を含む Keynote を slideshare にアップロードする

2016-05-16

(

)

次のエントリーにあるように、最近 Keynote を PDF に変換して slideshare にアップロードすると、Osaka 等一部のフォントを除いて日本語が表示されなくなりました。
KeynoteのスライドをSlideShareにアップロードすると日本語が表示されない問題 - Qiita

MobileSafari でプログレスバーを出さないように画像を読み込む

2016-04-02

JavaScript

MobileSafari では、どうやら window load のタイミングで画像の読み込みを開始したとしても、その画像の読み込みが完了するまでプログレスバーが表示され続けます。setTimeout などで読み込み開始時間をずらせば回避できますが、プログレスバーが消えたタイミングを取得する術はありません。
何が困るって、バックグラウンドで画像を読み込みたいのに、プログレスバーの表示が終わる前に読み込みを開始するとめちゃくちゃ重いページみたいな印象を与えてしまうわけです。

Ruby で upcasting 的なことがしたくて upcastable という gem を作った

2016-01-12

Ruby

Ruby の良さを殺してると言われそうですが、upcasting っぽいことができる gem を作りました。初めて公開した gem なので至らないところもありますが…
https://github.com/abicky/upcastable

Redshift で UDF を使って YAML をパースする

2016-01-04

Redshift で YAML の配列データをパースして、Hive の lateral view、Presto の unset 的な感じで配列を展開したかったんですが、結論から言うと、実用的なレベルでは実現できませんでした。
YAML の配列を Redshift でよしなに扱いたい場合、Redshift にデータを入れる時点で配列を複数の行に展開するのが良いんじゃないかと思います。