読解力って何?(その2):シミュレーションを用いた分析

【基礎的読解力調査における興味深い特徴】

 前回、新井氏の著作「AI vs. 教科書が読めない子どもたち」から、新井氏が実施した基礎的読解力調査における「イメージ同定問題」の能力値別正答率と、適性検査模試における模試偏差値と東葛中への合格率の関係との類似性についてご紹介しました。

 

 「イメージ同定問題」とは、「文章の正確な理解力に加え、図やグラフの意味を読み取る能力」を測るための問題であり、新井氏によれば、主語と述語、修飾語と被修飾語の関係を問うような「係り受け問題」などと異なり、現在のAI技術ではまったく歯が立たない分野です。

 

 新井氏によれば、すでにAIが得意としつつあるような係り受け問題では能力値と正答率の関係が右肩上がりとなりますが、イメージ同定問題では非連続的な関係、すなわちある閾値以下の能力値では能力値に関わらず正答率は横ばいで、閾値を越えると正答率が能力値に比例する関係が見られるということです。

 

 上記が、適性検査模試受験者の偏差値別合格率に見られる、

 

・模試偏差値70以上はかなり高い合格率になる

・模試偏差値60から70未満については、合格率は偏差値によらず50%近辺となっていて偏差値と合格率の間に有意な関係性が見られない(無相関)

 

という特徴に似ている点に私は興味を持ちました。

 

【模試偏差値と合格率の無相関性】

 私はこの、「模試偏差値と合格率の無相関性」こそが千葉県適性検査に挑戦するご家庭の悩みの根源であると同時に、千葉県適性検査にある種の畏敬の念をもたらしているものであると考えています。

 

 それは、お子さんの努力の方向性が正しいのか、あるいはそもそも「努力は報われるのか?」という不安を惹起しますし、また一方で、非常に訓練された私立中学受験組でも容易には合格できない検査として認知され、「単純に偏差値では測れない学校」との評価をもたらしているように思います。

 

 そのような観点から、この「模試偏差値と合格率の無相関性」を生み出しているものを是非とも解明してみたいと考えるわけです。

 

【無相関性のメカニズムをシミュレートしてみる】

  そこで今回は「模試偏差値と合格率の無相関性」を解明する方法としてその数量的な関係について仮説(モデル)を立て、シミュレーションを行ってみました。

 

  この、「模試偏差値と合格率の無相関性」を生み出すメカニズムですが、まず最初に、

 

<受検者の能力の散らばりかたに関する仮定> 

 まず受検者の能力に関して、

 「試験、検査を受ける人は固有の能力を持っていて、その能力を数値化できる。」

と仮定します。

 横軸に能力値、縦軸に各能力値を持つ人の数をとってグラフにしたものを度数分布と呼び、その背後にあってその度数分布を生じさせるメカニズムを「確率分布」などと呼びますが、ここではこの能力値の度数分布は平均値付近でピークをつけてなだらかな左右対称の裾野を持つ富士山のような形をしている(正規分布)と仮定します。

 

https://moro241.files.wordpress.com/2018/06/rplot_hist.pdf 

<能力値と正答率との関係が異なる2種類の問題>

 次に、試験、検査を構成する問題には

・能力値とその問題に対する正答率が綺麗に比例するような問題(A問題)と、

・一定の能力値に達するまでは能力値によらず正答率が低く、一定の能力値を超えるとその正答率が能力値に応じて上昇するような問題(B問題)

の2種類がある

 

https://moro241.files.wordpress.com/2018/06/logit.pdf

と仮定します。

 基礎的読解力調査で言えば、問題Aは「係り受け問題」、問題Bは「イメージ同定問題」に対応します。また、一般的な適性検査模試は問題Aの割合が多い試験、千葉県の適性検査は問題 Bの割合を多く含む検査であると言えるでしょう。

 

<正答率の不確実性> 

 先ほど能力値と正答率の関係に関して仮定を置きましたが(モデル化)、これはあくまで同じ個人が何百回と試験、検査を受けた場合に平均的に現れる正答率(これは「期待値」などと呼ばれます)であって、実際には出題された問題に対する得意・不得意や当日の精神状態、体調に応じて正答率は変化するものと考えられます。

 自身の経験と長女の受検を通じて得られた知見から、問題Aのようなタイプの問題はこの正答率の不確実性が比較的小さく、期待値通りの正答率を得られやすいと考えます。今回のシミュレーションでは思い切って、問題Aには正答率に関する不確実性はない(いつでも期待値通りの正答率が得られる)と仮定してしまいます。

 また同様の知見から、問題Bのようなタイプの問題は正当率の不確実性が高く、それはとりわけ、正答率が大きく伸びる時期(以下のグラフを参照)において言えると考えます。

 

https://moro241.files.wordpress.com/2018/06/pcagrowth1.pdf

 今回のシミュレーションでは問題Bの正答率に関する不確実性は、正答率の伸びに比例して大きくなると仮定します。

 つまり、上のグラフで言えば、正答率の伸びの低い能力値0(偏差値50に相当;平均的な能力)以下の人や、あるいは逆に能力値が3(偏差値80に相当;かなり突出した能力)を超える人に正答率の不確実性はほとんどないのですが、正答率の伸びの大きい、能力値1から2(偏差値60から70に相当)の人の正答率は不確実性が大きく、一回一回の正答率が大きく変動すると仮定します。

 

<模擬試験及び適性検査における問題A、Bの割合>

 長女が受検した際に受けた模擬試験や本番の検査、千葉県の過去問等から、

模擬試験    :問題A 8割、問題B 2割

本番の適性検査 :問題A 2割、問題B 8割

と仮定します。

 

<適性検査における合否判定に関する仮定>

 適性検査における合格者数は定員80名に、繰上げ合格の推定人数40名(ゆず母さんの推定を参考にしました。繰上げ合格人数に関してはゆず母さんによる直営校合格者人数に関する実地調査の結果を勘案すると多少のブレがあるかもしれませんが、

直営校行脚 - white board

とりあえず40名と置いています)を加えて120名、受検者全体の上位12%と仮定します。

 

<シミュレーションの目的>

 上記のような仮定の下で、さらに細かな調整(「パラメータのカリブレーション」などと言います)なども行って模試偏差値別の合格率をシミュレートし、適性検査模試受験者の偏差値別合格率に見られる、

 

・模試偏差値70以上はかなり高い合格率になる

・模試偏差値60から70未満については、合格率は偏差値によらず50%近辺となっていて偏差値と合格率の間に有意な関係性が見られない(無相関)

 

という特徴が再現できるかどうか?つまり、

「上記のような仮定に基づくモデルはおおよそ正しいのかどうか?」を確かめること。

また、特徴を再現するために行った細かなパラメータの値などから、

「無相関性を生み出すメカニズムのうち、最も重要なものはなにか?」を知ることが今回のシミュレーションの目的です。

 

【シミュレーションの結果】

<シミュレーションの概要>

シミュレーションの概要は以下の通りです。

1)1,000人の受検者を想定し、各受検者に能力値を割り当てる。

2)能力値と問題A、Bの正答率に関する仮定、正答率の不確実性に関する仮定、適正検査模試における問題A、Bの比率に関する仮定に基づき、1,000人の受検者の模試偏差値をシミュレートし、決定する。

3)能力値と問題A、Bの正答率に関する仮定、正答率の不確実性に関する仮定、適正検査における問題A、Bの比率に関する仮定、本番適性検査における合否判定に関する仮定に基づき、1,000人の受検者の合否を判定する。

4)上記3)で得られた合否情報と、2)で得られた模試偏差値情報を用いて、模試偏差値ランク(模試偏差値60-65等模試偏差値を5刻みでランク分け)別の合格率を計算。

 

<シミュレーション結果>

 長女が受検した際、公中検模試が提供する模試偏差値ランク別の合格率は、たった1回の受検結果(サンプル数=1)に基づくものでした。めでたく三期生を迎えた現在でもサンプル数はようやく3になったにすぎません。

 そこで、まずは上で述べたシミュレーションを3回繰り返した場合の模試偏差値ランク別の合格率の散らばりかたを、ボックス・プロットで示すと以下のようになります。

https://moro241.files.wordpress.com/2018/07/simu.pdf

 ボックス・プロットとは変数の散らばり具合を、度数分布よりもより要約された記号として書き表したものです。より深くご存知になりたい方は、以下リンクをご参照ください。

箱ひげ図 - Wikipedia

 ボックス・プロットの横軸は問題Aが8割を占める適性検査模試を受けた際に得られる模試偏差値の区分であり、縦軸は当該区分に属する人たちの適性検査合格率を表します(例えば同区分"60"のところに示されているボックス・プロットは模試偏差値55〜60に位置する受検者の適性検査合格率の散らばりを表します)。

 ボックス・プロット内にある"+"印は当該模試偏差値区分に属する受検者の適性検査合格率(あくまでシミュレーションベースでの合格率ですが)の平均値です。

 この平均値を読み取ってみますと

 模試偏差値55〜60 :26%

 模試偏差値60〜65 :47%

 模試偏差値65〜70 :48%

 模試偏差値70〜75 :64%

 模試偏差値75〜80 :90%

と、偏差値60〜70の区分で模試偏差値と合格率の無相関性が再現されていることがわかります。

 また、シミュレートされた適性検査における正答率の散らばりは以下の通りです。

https://moro241.files.wordpress.com/2018/07/dist.pdf

 若干、ボーダーラインが下の方へ寄ってしまっており、また80点台にある高得点組の分布の塊についてはやや高得点に寄りすぎていると考えますが、100点満点換算で「平均点20点台、ボーダーライン50点前後」と言われている適性検査の得点の散らばりをうまく表現しており、私が持っていたイメージをうまく再現できていると考えます。

 度数分布から視覚的に読み取れるように、千葉県の適性検査は「解ける人、解けない人」がはっきりしており、少なくとも「解ける人」を、たった1,2問の問題のミスで「落としてしまう」という、検査をする側にとっての不幸が起きにくい検査だと言うことができます。つまり、ボーダーライン近辺に受検者が密集していないため、得点が数点動いても大した順位の変動が起きません。

 このことは、仮に千葉県の適性検査が模試のような内容(問題Aが8割、問題Bが2割)だった場合に、先ほどの正答率の散らばりがどうなるかを示す、以下のグラフを見るとその違いがよくわかります。

https://moro241.files.wordpress.com/2018/07/dist2.pdf

 また逆に、適正検査の場合は、偏差値60〜70というボリュームゾーンにおける努力の差がはっきり表れないというデメリットがありますが、このゾーンに関して言えば、適性検査が重視していると考えられる問題Bの正答率が大きく変動する「成長過程にいるゾーン」(前掲のグラフ「能力値別正答率と正答率の伸び」をご参照ください)であり、例えば検査時期があと1ヶ月先であったら順位がどう入れ替わっているかわからないゾーンですので、検査を行う側としては、「ちょっとしたミスが勝敗を分けるような精緻な計測を行うよりも、幅広に受検者を集め、合格者の適性・能力の分散化を図る」ことを重視しているのかもしれません。

 

<一発勝負では発揮されない"真の力">

 構造変化のない、同じメカニズムから生み出される変数の平均値は、サンプル数を多くとればとるほど、その背後にある"真の値"に近づいて行きます。

 模試偏差値区分と適性検査合格確率について、先ほどは少ない試行回数のもとでのシミュレーション結果をお見せしましたが、例えば試行回数を10,000回に増やすとどうなるでしょうか?

https://moro241.files.wordpress.com/2018/07/simu2.pdf

 試行回数を増やすと上のボックス・プロットの通り、模試偏差値区分と合格率は右肩上がりの関係となり、無相関性は観測されません。ちなみに合格率の平均値は

 模試偏差値55〜60 :27%

 模試偏差値60〜65 :46%

 模試偏差値65〜70 :55%

 模試偏差値70〜75 :64%

 模試偏差値75〜80 :94%

となっています。

つまり、「千葉県の適性検査はそれなりに解く力を持っていても、正答率の不確実性がとりわけ模試偏差値60〜70程度の力を持つ階層において大きいために、一発勝負の試験では模試偏差値60〜70程度の力の差は、正答率の不確実性に対して十分大きいとは言えず、結果的に合格率の差に現れてこない。」と結論づけることができそうです。

 

以上、様々な仮定の上に立ったモデルを用いて千葉県適性検査の特徴について考察を行ってみました。この「モデル」というものは非常に便利で、いろいろな考察を導いてくれますので、次回もこのモデルを用いた考察を行ってみたいと思います。