Pelin Akyol, James Key, Kala Krishna, “Precision versus bias in multiple choice exams“, (VOX, 24 August 2016)
山勘による回答 [guessing answers] はマルチプルチョイス方式試験の有効性を損なう可能性がある。誤答にペナルティが課されるネガティブマーキング方式を採用すれば山勘による回答を抑制できるが、リスク忌避的受験者に対し不利なバイアスを掛けかねない。本稿ではトルコの大学における入学試験データを利用しつつ、ネガティブマーキング方式が試験に対し、とりわけ相対的にリスク忌避的傾向が強いことが知られている女性に不利な形で、バイアスを掛けるものであるかを調べる。リスク忌避度の違いからくる影響は限定的であるらしく、優秀な学生に関しては殊更そうした傾向があるようだ。
試験は、受験者の能力を評価し、労働者に職業を割当て、学生に教育機会を付与しようとする際に数千年来もちいられてきた。よく利用されるのがマルチプルチョイス方式で、この場合受験者は限られた答えの選択肢から1つを選択するだけでよい。この試験方式は、採点の迅速性・精度のために教育者にとって魅力的なものになっている。しかしながら、同方式はテスト受験者が山勘で回答できてしまうという事実のためにしばしば批判を受けている – 正答は理解を示すとは言い切れないのである。こうした事情が在る故に試験の精度は損なわれてしまう – つまり山勘行動が試験スコアにノイズを混入させるので、割当てプロセスの効率性が阻害されてしまうのだ (Baker et al. 2010)。
試験スコアにおけるこうしたノイズの低減をめざすアプローチの1つに、誤答に対するペナルティの設定がある – 学生は問題をスキップすることが許されるが、誤った回答をした場合は、失点となる1,2。これは正解がどれか確信できない学生に山勘回答を敬遠させるもので、とりわけ学生がリスク忌避的であるほどこの傾向は強まる。もし学生がリスク忌避的でなく、しかも無作為な山勘回答が0点となるようなペナルティが設定されている場合、学生は最善の選択肢が分かれば、その選択肢への確信度とは無関係に、山勘で回答しようとするはずだ。しかしながら、リスク忌避性の相対的に高い学生は、その最善の回答に 『十分に確信』 しているときでなければ山勘で回答せず、それ以外のときには問題をスキップするだろう。こうした結果、リスク忌避性が相対的に低い学生の平均スコアはリスク忌避性が相対的に高い学生との比べて高くなる。ネガティブマーキング方式を用いればより正確な能力測定が望めるだろうし (Espinosa and Gardeazabal 2010)、したがって入学者の構成するクラスの能力水準も高まるだろうが、その代償としてリスク忌避度の相対的に高い学生に不利な差別が生ずることになる。そんなネガティブマーキング方式だが、トルコやフィンランドの大学入試をはじめ、また (最近までは) SATでも利用され続けてきた3。
リスク忌避とジェンダー
リスクに対する態度がジェンダーによって大きく異なるのなら、つまり女性のほうが相対的にリスク忌避度が高いのなら (Eckel and Grossman 2008)、ネガティブマーキング方式は、事実上、より頻繁に問題をスキップする傾向が有り、したがってスコア期待値ならびに試験突破の確率も低減させてしまう女性に対し不利な形でテストにバイアスを掛けることになる (Pekkarinen 2014, Tannenbaum 2012, Baldiga 2013)。となれば、重要なのは現実世界における精度と公平性の間のトレードオフ問題だ。
我々の最近の論文では、この問題にトルコの大学入学試験 (ÖSS) データを利用してアプローチしている (Akyol et al 2016)。同入学試験は、誤答にペナルティを課し、無作為な山勘回答によるスコア期待値が0点に等しくなるようにされた一大重要試験 [high-stakes exam] である。正答は1点の加算となるが、4つある正しくない回答を選んだ場合、スコアが0.25点分引かれる。リスク忌避が大きな役割を果たすこうした設定が現実生活に多大な影響を及ぼす局面で実際に採用されるのは稀であり、本試験はその貴重な一例となっている。
通常の採点形式では、テスト受験者は単純に正答の可能性が最も高い回答を選択することになる (必要ならば無作為選択も行いつつ)。しかしながらペナルティが課される場合、受験者はそもそも回答するか否かを決定しなくてはならない。そこで次の様なアドバイスが掲示される例もままある: 「SATでは勘に頼った無作為な選択をすべきではありません。しかし、答えの分からない問題があっても選択肢を最低1つ除外できたなら、勘に賭けてみる価値はあります4 」
さて我々は、トルコの大学入試におけるテスト受験行動の推定を試みたのだった (Akyol et al. 2016)。我々の見る所では、先ほどの方針が必ずしも助けにならない状況も数多く存在する。学生が所与の1選択肢を除外できないとしても、それでもその選択肢が正答である確率に関しては否定的な見解をもっているかもしれないのだから。とはいえ、そのテスト受験者にとって一番選びたくない選択肢というのは恐らく存在する – 選択肢の全てが正答らしく見える場合であっても、みな一様の正答らしさを持つわけではない。逆に、或る選択肢がテスト受験者にとって最も正答らしいと思われるとき、つまりペナルティさえ無ければそれを選ぶのに、という選択肢が存在する場合もあるはずだ。仮に最も正答らしく思われる選択肢について、それが正答である確率は30%だと考えられているとしよう。問題の学生はその選択肢を選択すべきだろうか? それともスキップすべきだろうか? そこで我々は閾値といして該当選択肢が正答である確率cを定義した。この閾値を超える所では、学生はその問題の回答を試みることになる。そしてリスク忌避度が高い学生ほどこの閾値も高くなる。テスト目的との関連では、cはリスク選好を把捉するものである。
意思決定のモデル化
我々は学生のテスト受験行動を明示的にモデル化したうえで、このモデルを利用して学生のリスク選好 – 前述の閾値 – の推定を行った。
閾値は、ジェンダーと学生の能力水準の双方に従属させている。最優秀層の学生ならば僅かな失点を極端に気にしてトップ大学への入学率を低減させてしまい、したがってリスク忌避的になる可能性も考えられるが、能力の劣る学生は自らのスコア期待値を確保したところで入学を勝ち取れないかもしれず、したがって恐らくリスク愛好的でもあるだろう。
事前の予想と違わず、女性のほうがリスク忌避度が相対的に高いことが明らかになった。図1は、様々なスコア期待値 (能力) をもつ男性・女性についてcの推定値をプロットしたものだが、そこに示されているように、リスク忌避度はスコアとともに上昇し、また問題回答にあたって要求する確実性については全てのスコアで女性のほうが高くなっている。ジェンダー間の差異は殆どの部分で統計的に有意な値を取っているが、比較的小さい。本データでは選択肢は5つだったので、無作為な山勘が功を成す確率は20%である一方; 高い能力をもった男性は約26%の確信を得なければ問題をスキップするが、高い能力をもった女性は27%の確信を要する、ということになる。
図1 境界値: ジェンダーとテストスコア期待値毎に見た、テスト受験者が問題をスキップする予想正答確率下限
ジェンダーバイアスはどの程度の重要性をもっているのか?
リスク選好が分かったので、本モデルを利用しつつ反実仮想 [counterfactuals] を行い、別の試験形態の下ではアウトカムにどの様な違いが出るのかを検証できるようになった。我々は幾つかの試験形態を検討し、大学への学生割当てに何が生ずるのかを調べた。例えば、ペナルティの撤廃、ペナルティの増加、或いは問題数を増加してみたらどの様な影響が出るのだろうか?
我々はアウトカムをシミュレートしたうえで諸スコアグループの構成、例えばトップ5%のスコア獲得者における男性の割合などを調べた。結果、所与のスコアパーセンタイルグループにおけるジェンダー比率 (男性の割合) への影響は極めて小さな値を取った – リスク忌避の差異がもつアウトカムへの影響は、無視出来る程度だったのだ。図2に見られるように、トップスコアグループにおけるジェンダー比率は大まかに言って、諸般のテスト形式を通し不変である。
図2. 別テスト形式における様々なスコアパーセンタイルで見た男子学生の割合, べースラインモデルとの比較。
一方、ペナルティが確かにテストの精度の上昇に繋がることも明らかになった – トップスコアパーセンタイルにおける学生の能力は、ペナルティを増加するにつれ上昇し、ペナルティを撤廃すると下降するのである。図3にこの点が示されており、成績トップの学生の能力は、高度のペナルティを設定したり問題数を増やしたりした試験によって選別を行う場合に (後者でもテストの精度は僅かに高まるが、費用が非常に嵩む) 高まりを見せる。この様に、ペナルティは入学者の構成するクラスの質の向上につながるのである。実際我々の明らかにしたところでは、ペナルティを0.25点から1点に上昇させるのは、試験の問題数を45から70に増加させるのに匹敵する効果をもつほどなのだ!
図3. 別テスト形式での様々なスコアパーセンタイルで見た学生の社会科学学力, ベースラインモデルとの比較。
リスク忌避の差異が斯くも小さな重要性しかもたないようなのは何故なのか? こうした差異が重要性をもつためには、2つの条件が成立している必要がある。第一に、最善の選択肢が正答である確率が、ちょうど男性・女性のもつcの間に位置すること – つまり、0.26と0.27の間になければならない。こうしてみると、この差異が所与の問題に関して関連性をもってくる確率は、男性・女性の境界値の隔たりが狭いために、比較的小さいことがわかる。これに加えて、仮に各人の信念 [belief] がちょうどこの領域に在ったとしても、テスト受験者のリスク忌避度も取り立てて高いわけではないので、回答する場合の得点期待値は極めて低くなる。基本的に、スキップ行動によって生じた選択の差異は稀なので、それが発生した場合でも、その影響は小さい。こうした事情を直感的に言い表せば次の様になる。レストランで注文するとき、ふつう最善の選択肢は自明であるが、そうでないような時にはどんな選択をしても大差ない、というわけだ!
参考文献
Akyol, S P, J Key and K Krishna (2016) “Hit or miss? Test taking behavior in multiple choice exams”, NBER, Working Paper 22401.
Baker, E L, P E Barton, L Darling-Hammond, E Haertel, H F Ladd, R L Linn, … & L A Shepard (2010) “Problems with the use of student test scores to evaluate teachers”, EPI Briefing Paper# 278, Economic Policy Institute.
Espinosa, M P and J Gardeazabal (2010) “Optimal correction for guessing in multiple-choice tests”, Journal of Mathematical Psychology, 54(5): 4.
Pekkarinen, T (2015) “Gender differences in behaviour under competitive pressure: Evidence on omission patterns in university entrance examinations”, Journal of Economic Behavior & Organization, 115: 94-110.
Baldiga, K (2013) “Gender differences in willingness to guess”, Management Science, 60(2): 434-448.
Eckel, C C and P J Grossman (2008) “Men, women and risk aversion: Experimental evidence”, Handbook of experimental economics results, 1: 1061-107.
原註
[1] 他にも様々なアプローチが在る。例えば、適正スコアリング方針 [proper scoring rule] では、テスト受験者は各選択肢についてそれが正答である確率がどの程度だと考えているかの信念を明示することになる。しかしながら、こうしたアプローチの効果的な実施が困難である場合もままある。 [2] 代わりに、誤答にペナルティを課さず、スキップした場合に得点の一部を付与するというものがある。これは理論上でも実証実験データでもペナルティ賦課と同様の結果がでるように設定できる。 (Espinosa and Gardeazabal 2013)。 [3] 誤答に対するペナルティは2016年5月に撤廃された。更なる情報はこちらを参照。 [4] http://www.math.com/students/kaplan/sat_intro/guess2.htmを参照。