good exam - hopping around

某誌においてしほーしけんについて対談せよ，とのリクエストが来てたんだけど，そしたらちょうど今朝の日経で大学入試のことが取り上げられていたので，ちょっと感想をば。

いい試験っていうのは，その試験が測定したいと考えている能力を，できるだけ小さな誤差で測定できるかどうかによって決まってくる。

y = x + e

なら，eができるだけ小さければ小さいほどいい。もちろん，x（能力）とy（試験の点数）との間の相関が強い（≒測定したい能力を測っていること）ことが必要だけれど，基本的に，相関が大きければeは小さくなり，相関が小さければeは大きくなるので，まぁとりあえず，測定しようと狙っている能力にフォーカスした試験になっていることを前提にすれば，能力ができるだけ正確に反映される試験がいいよね，ってことになる。

で，たとえば，ある試験をやってみて，分布がきれいな正規分布をしていたとしよう（まぁ別に正規分布でなくてもいいんだけど）：

こういった分布をしている場合，この試験によって最も誤差が小さくx（能力）を測定できる可能性があるのは，点数が真ん中（この場合だと100点）あたりだ。これに対し，上の方（200点満点近く）や下の方（0点近く）では，この試験による誤差が大きくなってくる。なぜなら，試験の点数は，満点（200点）より高い点数が付くことはないし，0点より低い点数が付くこともない，というcensoringが働いているからだ（←これについては法セミ連載第15回（11月発売予定）を参照）。

なお，censoringが働いているのなら，200点満点とか0点とかの人数がもっと多くなってもいいはずだ（なのに，上の図はそうではない），と思うかもしれないけれど，それは間違い。普通の試験は，1問だけから構成されているのではなくて，多数の問題から構成されている。1問だけから構成された試験ならば，確かに200点満点の人や0点の人が多く出る。けれども，複数の問題から構成されている場合は，個別のランダムな誤差の総和になるので，CLTによって正規分布に近い分布へと収束していくからだ。

ともあれ，試験の点数の上限に近いところと下限に近いところでは，誤差が大きくなってしまい，受験者の能力を正確に測定することができなくなってしまう。

たとえば，センター試験を考えてみよう（ここではさしあたり，センター試験が，大学入学に必要な能力にフォーカスした試験になっていることを前提とする）。センター試験の点数で，中間層が受験してくるような大学では，センター試験の点数によれば，かなり誤差が小さく受験者の能力を測定できる。こういった大学では，センター試験に追加して個別の大学毎の二次試験をする意味は，実はあまりない。むしろ，二次試験やった挙げ句に入試ミスが起きて，記者会見を開いて謝罪しなけりゃ，なんて事態に陥る危険性があることを考えれば，無理しなくてもいいのになーと思ってしまう。

ところが，たとえば東大京大のような上位校では，センター試験で高得点者ばかりが受ける。こういったタイプの大学で，センター試験の得点だけで合格者を決めてしまうと，censoringによって誤差の大きなテストになってしまう。それを避けるためには，二次試験でもっと難しい問題を解かせることによって受験者の能力を再測定する必要がある。

同じことは，USの大学の上位校（ハーバードとかスタンフォードとか）での入試についても言えて。こういった上位校だと，受験者はSATで満点近い点数をとってしまうので，そこでは差が付かない。だから，それ以外の能力とかGPAとかさまざまな要因を考慮した入試にする必要がある（ちなみに，この辺の事情を分かってないと，TVドラマgleeの背景が今ひとつ理解できないんじゃないかという気がするけれど）。

逆に，中位校でAOなんかでいろいろがんばっても，入学者の質という意味では逆効果だ，というのもそれなりに理解できる。センター試験でかなり正確に受験者の能力を測定できているのに，あえて誤差の大きな別のテストを使ったら，それは，結果はひどいものになるよねぇ，と。特に，受験者のself-selection効果を考えると，センター試験では不利になることを予想する受験生がAOに出願する蓋然性が高まるから，AO組はセンター組よりも能力が落ちる，という事態が発生する蓋然性は高まることになる。

で，以上の話をしほーしけんに応用するとどうなるか，っていうのは対談のお楽しみにとっておきます。