Pigでの"正しい"繰り返し処理の書き方

最近Pigで変態的な使い方をしていますが今回もそんな話です。

改良版gruntで豚さんともっと対話して仲良くなろう!

「PigかわいいよPig!」と自分に言い聞かせながらHiveへの浮気心を抑えている今日この頃です。(いや、Hiveも勉強しないとなんですが・・・)
Hiveで便利なのはSQLライクに使えることも然ることながら、一度テーブルを作成してしまえば読み込み(select)の際にスキーマを定義しなくていいことじゃないかと思います。
Pigでデータ読み込む際に毎回同じ記述をしなければならないとか不毛な作業!
ちょっとしたデータだと読み込む際にスキーマ定義するのが面倒で列番号を指定して処理したりしますが、所望のフィールドが何番目か数えるのもこれまた不毛!

公式RTと非公開ツイートの関係についてのメモ

8月下旬に、Favmemoに公式RT・非公式RT機能を加えてほしいという要望を受けて「今月中を目処に実装します」と返答してから早2ヶ月が経ちました・・・
非公開ユーザのツイートは仕様上公式RTできないことや、RT元のツイートが削除されると公式RTも削除されることは有名かと思いますが、RT元のツイートが非公開ツイートになった場合どうなるのか知らなかったのでちょっと調べてみました。

Pigで直接データを記述する裏技

どうも、豚さんと戯れるようになってから早いもので半年近く経ちました。
Pigを使い始めて最初に思ったこと。

R用のコマンドラインオプションパーサ(PerlのGetopt::Longもどき)を作ってみた

@y_benjoさんがRのコマンドライン引数関係で苦しんでいらっしゃったので、以前作成した簡単なパーサをブログで公開しようと思いました。
Rのコマンドラインオプションをパースしたいなんて需要があるとは思っていなかったんですが、CRANにgetoptパッケージとoptparseパッケージという凝ったパッケージが存在するではないですか!!

Pigで構文エラーの出ている箇所の行番号が知りたいっ!

Pig の文法的なデバッグには run とか describe とかがめちゃくちゃ便利ですが、そもそもエラーの箇所を教えてくれない言語ってどうなんですかね!!

Pig 0.9より前のバージョンでマクロもどきを実現する2つのスクリプト

みなさんPig 0.9って使ってます?個人的にPig 0.9の最大の魅力はマクロのサポートだと思います。
これによって、今まで同じ処理を記述するためにコピペしたり(さらにはエイリアス名を少しいじったり)、Pigを生成するためのスクリプトを書いたりしなければいけなかったのがグッと楽になります。
メンテナンス性も飛躍的に上がりますね!!

「文字列カーネルSVMによる辞書なしツイート分類」を発表してきました

第7回自然言語処理勉強会で「文字列カーネルSVMによる辞書なしツイート分類 ~文字列カーネル入門~」を発表してきました。

Tokyo.R #16で「Rデバッグあれこれ」を発表してきました

Tsukuba.R #9 でデバッグ関連のLTをする予定だったんですが、いろいろあって Tokyo.R #16 で発表してきました。
Tsukuba.R で発表しようと思っていた時は @kohske さんのデバッグ関連の優良記事がなかったのでけっこう価値があるかと思ったんですが、今回の発表内容は半分以上その記事の内容と重複してるんでなんかあれですね・・・

PigでNULLを扱う場合の挙動まとめ

最近、象とか豚と戯れるサファリパークな日々が続いていますが、豚と戯れる時に一番気を付けないといけないのは NULL の扱い方だと思います。
そんなわけで NULL を扱った場合の挙動についてまとめました。

広告