hopping around

~ヘタレ研究者は今日も逝く~

zipf's law

FBで流れてきた,「AKB48の得票数はZipf's lawに乗るのか?」という分析で,Google検索数は乗るけれど,得票数はあまり乗らない,という評価がある。でも,この得票数の方のグラフって,縦軸と横軸が対数化されていなくて,Zipf's Lawの検証としてはおかしくないか?と思って,念のために作り直してみた:

(赤い実線はlinear fit,緑の破線はlowess fit)

引用先にある「1位は完全に外れていて、2~6位、7~11位、12~16位で別々の線に乗っていると見える」という感覚は,確かにそういう感じがする。ちょっと各部分の傾きのイメージが違うんだけれども。

ちなみに,OLSの推定結果は

Ln(vote) = 11.78 - 0.544 Ln(rank)

(SE on beta=0.0620)

adjusted R^2=0.8353

となっていて,引用先のGoogle検索数の場合に比べて,R^2のパフォーマンスが多少悪い(そもそもデータが違うので,R^2を比較することにあまり意味はないけれど)。順位と得票数は高い相関関係を持つのは当たり前なので,その中で0.84っていうのは,確かにやや低めな印象を受ける値ではある。

ちなみに,全員の得票数について同じ分析をすると,こういう形になる:

これを見ると,順位の低いところほどあまり「票の操作」がなくて,上位(特に11位以上)ほど怪しい,ってことが分かる。

12位以下(特に22位以下)は,ほぼlinear fitに乗っているので,「一人でCDを何枚も買う」っていう行動はあんまりない(あるいは,あっても,それによってさほど得票数が影響されていない)のに対し,11位以上(あるいは21位以上)については,そういう行動が強い(あるいは,そういう行動による得票数への影響が特に強い),って言えそうだ。