1 つの HiveQL でグループごとの集約結果上位のものを抽出する

数年前は Pig で鬼畜なことをしていましたが、最近は Hive とかを使うようになって四苦八苦しているところです。
今回は 1 つの HiveQL で key ごとの集約結果上位のものを抽出してみました。

fakes3 と fakefs で Amazon S3 連携のテストを書いてみた

Amazon S3 からファイルを取得して、ローカルでごにょごにょするようなスクリプトに対してテストを書きたくて、なんとかそれっぽいものが書けたので備忘録として残しておきます。

PukiWiki の代わりに Gollum を導入してみた

プライベート用の技術メモとして学生時代から PukiWiki を使ってたんですが、今どき PukiWiki を使っててもなぁと思って Gollum を導入してみました。
Qiita の private posts もありかと思ったんですが、ちょっと使ってみた感じだと private posts には検索をかけられない感じでしょうか。

R の named vector から subset を得る際の最悪計算量は O(n^2)

昨日、久しぶりに Tokyo.R に参加して意識が高まったので、久しぶりに誰得な R ネタを投下してみようと思います。
使用した R のバージョンは 3.1.0 です。

Emacs で勝手に vc-follow-link が実行されて辛い

vc-follow-link が勝手に実行されるため、enhanced ruby mode で erm が死んで、毎回 erm-reset を実行することを強いられて辛い思いをしていました。
以下、再現手順、原因、対応方法です。

inf-ruby をちょっと使いやすくしてみた

最近 Atom をインストールしたにも関わらず相変わらず Emacs 使っててごめんなさい。

Chrome で Emacs の kill-region 相当のことがしたくて extension を作ってみた

メインで使っているブラウザを Firefox から Chrome に乗り変えてからだいぶ経ったんですが、未だに不満なことが2つあります。
1つは browser.sessionstore.restore_on_demand に相当する機能がないこと、もう1つは Firemacs や KeySnail のような extension がないこと。

tmux で簡単に pane を swap するスクリプトを書いた

去年まで shell は Emacs 上で multi-shell を使っていたんですが、補完が微妙なのと遅いのと less などが使えないのを理由に、数年使っていた multi-shell を捨てて tmux 上で Emacs と zsh を立ち上げるようなスタイルに変更しました。1
っで、基本的に横 2 分割でバッファを切り替えて作業する私にとって、このスタイルだと Emacs の pane を表示しながら使用できる shell が 1 つしかないのが非常に苦痛でした。

  1. 一時期 multi-term を自分好みに改造しようと試みましたが挫折しました

日本語形態素解析の初歩

社内で LT をする機会があったので、最近趣味で MeCab のソースコードを読んでいることもあって日本語形態素解析について初歩的な説明をしてみました。

十分統計量 (Sufficient Statistics) って何なのさ?

「十分統計量」、よく聞くけどいまいちよくわからない用語ですよね。
Wikipedia によれば、次のような場合、その統計量は十分統計量らしいです。(定義ではなくざっくりとした意味です)

広告