Redshift で UDF を使って YAML をパースする
Redshift で YAML の配列データをパースして、Hive の lateral view、Presto の unset 的な感じで配列を展開したかったんですが、結論から言うと、実用的なレベルでは実現できませんでした。
YAML の配列を Redshift でよしなに扱いたい場合、Redshift にデータを入れる時点で配列を複数の行に展開するのが良いんじゃないかと思います。
ert のテストには fundamental-mode の syntax table が使われる
nodejs-repl.el のテストを el-expectations から ert-expectations に移行したらテストにコケるようになったのでメモです。
Emacs で Helm v1.8.0 をストレスなく使うための個人的な設定
約 2 年前に helm に移行して、ずっと古いバージョンを使い続けていたんですが helm-ls-git が使えなかったのでアップグレードしました。
それに伴って、以下のエントリーの設定内容を v1.8.0 に対応させました。
CRFsuite で推定に使われるパラメータ情報を出力する
CRFsuite を使っていると、「このケースでこの結果だったら、このケースでも同じような結果になりそうなのにどうして異なる結果になるんだ????」と思うことがあるでしょうが、デバッグするのがけっこう大変です。
CRFsuite の正則化パラメータ最適化
例えば CRFsuite で l2sgd を使う場合、正則化パラメータとして c2 を指定できます。デフォルトは 1 です。
Mac で SimString を使ってみた
類似文字列検索ライブラリの SimString を Mac で使ってみました。
ちょっとググった感じだと Mac でのインストール方法が見つからなかったので、しょーもない内容ですが載せておきます。
Ruby で Crfsuite::ItemSequence を作成する処理を 2 倍以上速くした
CRFsuite は柔軟な素性を指定できることが特徴の一つですが、それ故に CRF++ と違って素性を全て与えてやる必要があり、オンラインで推定しようとするとこの処理がボトルネックになります。
R で擬似アクセスログを作ってみた
アクセスログっぽいものに対する単純な分析の練習用のデータがほしくて、擬似アクセスログを生成するコードを書いてみました。
https://gist.github.com/abicky/dfdeaec9efded25b733a#file-access_logs-r
MeCab で N-Best 解の累積コストを出力する
能動学習の考え方を適用すると、MeCab の学習データを作成する際には第 1 候補と第 2 候補の累積コストの差が小さいものを優先的にアノテーションすれば良さそうな気がします。
CRFsuite を Ruby から実行してみた
CRFsuite は最新バージョン1から SWIG のインタフェースが提供されており、SWIG がサポートしている言語であれば手軽に利用することができます。
-
といっても 4 年ぐらい前にリリースされたやつですが ↩