7月24日,中共中央辦公廳、國務(wù)院辦公廳印發(fā)《關(guān)于進(jìn)一步減輕義務(wù)教育階段學(xué)生作業(yè)負(fù)擔(dān)和校外培訓(xùn)負(fù)擔(dān)的意見》(簡稱“雙減”政策),力求減少廣大在校學(xué)生的學(xué)科壓力,使得應(yīng)試培訓(xùn)向綜合素質(zhì)提高的方向上做出良性轉(zhuǎn)型。在這樣的社會大背景之下,應(yīng)試教育的缺欠有必要引起廣大家長和學(xué)生的高度重視。因此,美國密歇根州立大學(xué)教育測試學(xué)博士王鶴群從專業(yè)角度,分析講解應(yīng)試型教育的弊端及其對于教育培養(yǎng)和人格形成的害處,從而讓廣大家長和學(xué)生防微杜漸,趨利避害。
大型標(biāo)準(zhǔn)化測試的主要特征
在當(dāng)前的“教育全球一體化”(Educational Globalization)的形勢下,大型標(biāo)準(zhǔn)化測試(Large-scale Standardized Tests)對于廣大考生而言已經(jīng)不再陌生:托福(TOEFL)、雅思(IELTS)、SAT、ACT、GRE、GMAT等世界規(guī)模的留學(xué)相關(guān)的考試都是大型標(biāo)準(zhǔn)化測試,而中國的大學(xué)英語四級、六級考試經(jīng)過這么多年的發(fā)展,也成為了比較成熟的大型標(biāo)準(zhǔn)化測試。
針對大型標(biāo)準(zhǔn)化測試,目前世界上通用的測試分析模型為英國常用的Rasch模型和美國常用的IRT 模型。這兩種在教育測試領(lǐng)域所應(yīng)用的潛在特質(zhì)概率分析模型都搭建在(0,1)數(shù)據(jù)庫之上,用“0”代表答題錯(cuò)誤,用“1”代表答題正確。
為了能夠讓這個(gè)數(shù)據(jù)庫可以成功的搭建,大多數(shù)大型標(biāo)準(zhǔn)化測試所采用的題型都是選擇題,尤其是單選題(Multiple Choice Items), 讓考生在四項(xiàng)或者五項(xiàng)選項(xiàng)里,選擇他們認(rèn)為正確的答案。一旦答對,該題目在試題分析數(shù)據(jù)庫中被標(biāo)記為“1”, 一旦答錯(cuò),該題目則被標(biāo)記為“0”。
當(dāng)然,也有的題型是判斷題,針對某一道題目讓考生判斷正誤,打勾表示正確,或者打叉表示錯(cuò)誤。這種題目和選擇題一樣,一旦答對,在試題分析數(shù)據(jù)庫中被標(biāo)記為“1”, 一旦答錯(cuò),則被標(biāo)記為“0”。然而,近些年判斷題并不常見,因?yàn)榭忌聦Φ母怕室呀?jīng)達(dá)到了50%,這種題目被認(rèn)為沒有單選題更加有效。
對于填空題、簡答題和問答題,大型標(biāo)準(zhǔn)化測試則盡量避開,因?yàn)檫@些題目學(xué)生的答案是自主提供的,不同的思考角度提供了不同的正確答案,并且判分人員的不同水平和背景知識會導(dǎo)致判分過程的疏漏和失誤,因此這會降低大型標(biāo)準(zhǔn)化測試的信度和效度,影響該種試題的時(shí)效性和聲望。故而,這些題目就被大型標(biāo)準(zhǔn)化測試忽略了。當(dāng)然,在目前的一些語言類大型標(biāo)準(zhǔn)化測試中,特別增設(shè)了作文這一題型,但是為了迎合考試的特征,這一題型首先是單獨(dú)計(jì)分,不放入數(shù)據(jù)庫進(jìn)行分析,其次為了方便于分析,這些作文的題目和判分過程也存在弊端。
特征決定了其功能,而功能內(nèi)部就潛藏著弊端。大型標(biāo)準(zhǔn)化測試的弊端恰恰體現(xiàn)在他們所使用的題目類型上。這些細(xì)節(jié)如下所述。
選擇題、判斷題的設(shè)計(jì)弊端
選擇題通常被我們叫做“客觀性題目”,這真的是一種美化。這種題目談不上任何客觀,并且答題過程中存在分?jǐn)?shù)膨脹(score inflation)。這種現(xiàn)象包含但是不限于以下幾種情況:
(1) 一個(gè)學(xué)生即使能力為0, 也有20-25%的可能性能夠猜對題目。如果一次考試有100道“四項(xiàng)里面選擇一項(xiàng)”的單選題,每道題分值為1分,而考生實(shí)際水平為0,那么這個(gè)考生能夠得到的分?jǐn)?shù)也會在25分左右。
。2) 在實(shí)際學(xué)習(xí)過程中,考生的水平很少為0,或多或少的能夠掌握一些知識的片段和局部內(nèi)容。這些并不完整的知識掌握能夠幫學(xué)生排除兩個(gè)干擾項(xiàng)的話,這個(gè)考生的分?jǐn)?shù)就能達(dá)到50分。我們看到分?jǐn)?shù),會認(rèn)為學(xué)生已經(jīng)掌握了一半的知識內(nèi)容,但是事實(shí)上學(xué)生單憑自己的能力和知識累積很有可能無法將知識付諸于實(shí)際運(yùn)用,所學(xué)皆是虛無。
(3) 假定一個(gè)學(xué)生掌握了一半的知識,對另外一半的內(nèi)容全都不會。那么對于他掌握的知識,他可以答對50道題目,得到50分,而對于他全都不會的題目,他仍然可以憑借猜測“蒙對”12題,得到12分。這樣他的總分就是62分,及格了。但是事實(shí)上他所掌握的知識并沒有達(dá)到及格線。
。4) 假定一個(gè)學(xué)生掌握了一半的知識,對另外一半的內(nèi)容一知半解。對于他已經(jīng)掌握的知識,他可以得到50分,而對于一知半解的題目,他可以排除兩個(gè)干擾項(xiàng),就可以讓自己得到25分。這樣,他的總分可以達(dá)到75分,但是事實(shí)上他只有50分的水平。
凡此種種,就構(gòu)成了我們?nèi)粘Kf的“高分低能”的狀態(tài)。首先,學(xué)生的分?jǐn)?shù)并沒有反應(yīng)他們的知識掌握和運(yùn)用的真實(shí)狀況。其次,這樣的題目滋生懶惰,而這樣的分?jǐn)?shù)也滋長嬌縱,給學(xué)生過度而盲目的自信。
判斷題的弊端就更大,因?yàn)椴聦Φ目赡苄赃_(dá)到50%,這種題目對于區(qū)分學(xué)生的能力差別非常無效。
選擇題、判斷題對于教育培養(yǎng)和人格形成的害處
上述我們展示了選擇題和判斷題在題目設(shè)計(jì)上存在的先天不足和弊端。然而,鑒于考試是教育培養(yǎng)的指揮棒,這些題目經(jīng)年日久的使用,對于教育培養(yǎng)本身,乃至于對于學(xué)生的人格形成上,都有不可忽視的害處。
首先,學(xué)生自己的探索、開創(chuàng)、想象力和解決問題的能力被扼殺。
教育的目的,在于讓學(xué)生能夠?qū)W有所得,學(xué)有所用,學(xué)有所成,能夠把知識付諸于實(shí)施并且取得良好的效果,從而為社會做出正向的貢獻(xiàn)。每當(dāng)學(xué)習(xí)新知識,學(xué)生應(yīng)該能夠自主接受新知識,把這些知識點(diǎn)放置于自己已經(jīng)掌握的知識脈絡(luò)中,看到所學(xué)知識和自己已知知識之間的聯(lián)系,并且盡量將知識投入使用。在這個(gè)逐漸的認(rèn)知過程中,學(xué)生可以多方面、多角度的嘗試使用知識,糾正錯(cuò)誤和偏差,鞏固正確的認(rèn)識,從而實(shí)踐出真知,有所成就和感悟。
然而,選擇題和判斷題并不鼓勵(lì)學(xué)生自己發(fā)掘和探索。它們把學(xué)生的思維禁錮在幾個(gè)選擇項(xiàng)之內(nèi),學(xué)生只要看到這幾個(gè)選項(xiàng)能夠快速“嗅”出正確答案,就可以得到高分。久而久之,學(xué)生會有一個(gè)潛在假設(shè):萬事萬物都有一個(gè)所謂的“標(biāo)準(zhǔn)答案”,自己只要能夠認(rèn)真觀察,站對了隊(duì)伍,就萬事大吉了。對于探索和開拓,學(xué)生早已沒有了勇氣和興趣,而對于和所謂的“標(biāo)準(zhǔn)答案”不符、不一致的答案,學(xué)生更加沒有膽量去正視和思考。所謂的探索、開創(chuàng)、想象力和實(shí)踐能力,都被選擇題扼殺在學(xué)生的成長過程中。
其次,學(xué)生,尤其是高分的“學(xué)霸”學(xué)生,習(xí)慣性的學(xué)會了選擇和放棄。
“十年樹木,百年樹人”,學(xué)生的人格是在日常的學(xué)習(xí)和生活中逐漸形成的。這個(gè)過程中,考試作為教育的指揮棒不僅規(guī)范了學(xué)生的學(xué)習(xí)行為,也推而廣之,逐漸塑造了學(xué)生的生活習(xí)慣和人生觀。
近些年來,一些“學(xué)霸”現(xiàn)象不斷見諸于報(bào)端,諸如“精致的利己主義者”這樣的批評也不絕于耳。人們在批評和嘆息的同時(shí),沒有深究這種社會現(xiàn)象的成因。事實(shí)上,形成了“精致的利己主義者”,恰恰是試題中的選擇題造的孽。
常年做選擇題并且強(qiáng)迫自己一定要找到“正確答案”的人,在潛移默化中學(xué)會并且接受了放棄。所謂的錯(cuò)誤答案并非毫無是處,但是在高分的誘導(dǎo)下,“學(xué)霸”們早就習(xí)慣了忍痛割愛,為了高分果斷舍棄。
后來,這種行為也被他們放在了生活中。例如:
(1)有的在國外留學(xué)并且定居的“學(xué)霸”,遇到國內(nèi)的親人過世,不會回來。他們的邏輯是這樣的:回來一趟要花費(fèi)數(shù)千美金的成本,然而親人已經(jīng)過世,回來也不會改變什么,除非有遺產(chǎn)繼承可以彌補(bǔ)這數(shù)千美金的成本或者讓自己收益更多,否則回國一趟是“賠本買賣”。而與此同時(shí),如果在美國繼續(xù)工作,可以掙得數(shù)千美金。這兩下的差值是上萬美金,因此他們不會回來。那么不能參加親人的葬禮不會心痛嗎?會,但是他們早已經(jīng)習(xí)慣了舍棄,并將之視為生活的必然或者是一種更為“理性、理智”的決策方法。在他們的思考過程中,情感因?yàn)椴豢捎?jì)量,“情義無價(jià)”,早就被他們放在計(jì)算的模型之外,忽略不計(jì)了。
(2)有的“學(xué)霸”年輕的時(shí)候找一個(gè)學(xué)習(xí)好的、和自己一樣高學(xué)歷的人組建家庭,而當(dāng)他們?nèi)说街心、事業(yè)有成的時(shí)候,他們會果斷離婚,再找一個(gè)和自己一樣有財(cái)富、有人脈的配偶重新組建家庭。因?yàn)樵谒麄兊膬?nèi)心牢牢扎根的就是選擇題的策略,永遠(yuǎn)在自己可見的范圍內(nèi)尋找“最好的、最佳的”,從而讓自己的家庭穩(wěn)定淪為空談。那么當(dāng)他們事業(yè)受挫、財(cái)富縮水的時(shí)候,當(dāng)他們的配偶離開他們而去的時(shí)候,他們能按照同樣的“選擇原則”讓自己釋懷嗎?不能,因?yàn)樗麄儚男〉酱罅?xí)慣了自己得高分,自己得到,自己有選擇權(quán),而沒有習(xí)慣自己成為落魄而被放棄的一方!凹核挥,寧施于人”成了世人對他們品行的詬病。
凡此種種,不勝枚舉。當(dāng)這些人給自己冠以“理智”之名而在人世間制造傷痛的時(shí)候,他們自己都不知道,自己其實(shí)是應(yīng)試教育中選擇題的犧牲品。正是一次又一次的高分,作為他們這種行為的推進(jìn)劑,給了他們膽量和盲目的自信,讓他們敢于忽視情感和良知來做出于己于人都無所裨益的選擇。
最后,“高分低能”的所謂人才被培養(yǎng)成型了。
“高分低能”這個(gè)詞被喊了不下20年了,這個(gè)過程中不同的教育家、教育工作者和老師們對于這個(gè)詞也有不同的看法。就我們看來,有哪些是“高分低能”的表現(xiàn)呢?
(1) 分?jǐn)?shù)高、學(xué)歷高,但是解決問題的能力不高。不能夠?qū)W以致用。
(2) 學(xué)歷高、待遇高,但是對社會的貢獻(xiàn)不高。不能夠“為天下立心,為百姓立命,為往圣繼絕學(xué),為萬世開太平”。
(3) 分?jǐn)?shù)高、學(xué)歷高,但是獨(dú)當(dāng)一面的工作能力不高,同時(shí)和團(tuán)隊(duì)合作的能力也不高。不能夠很好的融入并且引領(lǐng)社會。
這樣的“高分低能”就是選擇題做得太多的惡果。習(xí)慣于唾手可得的選項(xiàng),而讓自己放棄了開拓和創(chuàng)新。習(xí)慣于高分和高薪,習(xí)慣于掐尖和攫取,愿意獲得別人的艷羨而讓自己失去了對世界的敬畏和別人能夠給予自己的尊重和信賴。醉心于以往的高分成就而讓自己脫離群眾,既不能成為“挑大梁”的人,也不能成為友善的“背景板”。
試題之殤,超乎想象!
填空題、簡答題和問答題的優(yōu)勢和劣勢
填空題、簡答題和問答題經(jīng)常被叫做“主觀性題目”,是因?yàn)樗鼈冃枰忌约禾峁┐鸢。不同的學(xué)生提供的答案千差萬別,這其中體現(xiàn)了他們不同的知識儲備和思考角度,也檢驗(yàn)了他們的表達(dá)水平,更鍛煉他們把知識付諸于實(shí)際運(yùn)用的能力。這樣的題目,容不得水分,實(shí)打?qū)嵉恼宫F(xiàn)學(xué)生的真實(shí)學(xué)習(xí)水平。
然而,這樣貌似“完美”的題目類型只適用于日常小考和學(xué)校內(nèi)部考試,并不適用于大型標(biāo)準(zhǔn)化測試。在大型標(biāo)準(zhǔn)化測試中,他們有以下幾項(xiàng)劣勢:
。1) 答題時(shí)間久,不容易在考試時(shí)間和管理上達(dá)到效率。問答題需要占用學(xué)生巨量的書寫或者打字時(shí)間,因此一場本來應(yīng)該100分鐘的考試,很有可能因?yàn)楦某蓡柎痤}而變?yōu)楹臅r(shí)7-12小時(shí)的長時(shí)間考試,這在大型標(biāo)準(zhǔn)化測試實(shí)踐中無法操作。
。2) “一人千面、千人千面”,同一道題目所引發(fā)的回答可能千差萬別。同一個(gè)考生在不同時(shí)間考同一道題,都有可能答案有差別,因此試題的信度(Reliability)會受到影響。同時(shí),不同的考生在考同一道題目的時(shí)候有可能答題角度不同,但答案都正確,這就會影響試題的效度(Validity)。信度和效度都低于門檻值的試題不可能被投向市場,這就決定了用填空、簡答和問答題的試卷無法成為大型標(biāo)準(zhǔn)化測試的試卷。
。3) “千里馬常有,而伯樂不常有”,“千人千面”的試題答案極大的考驗(yàn)了判分者的綜合知識和素養(yǎng),這使得一些判分結(jié)果會引起爭議。同時(shí),不同人有不同的正確角度,也使得眾多考生無法在同一個(gè)標(biāo)準(zhǔn)和維度上進(jìn)行能力衡量。試卷的公平性會受到質(zhì)疑。
綜上所述,大型標(biāo)準(zhǔn)化測試的實(shí)質(zhì)和基本要求,決定了他們不能重用填空、簡答和問答題這三種題型,而恰恰是這三種題型才能真正檢驗(yàn)和督促學(xué)生的學(xué)習(xí)。
以應(yīng)試為主要目標(biāo)的教育選拔機(jī)制的害處
通過以上四個(gè)部分的分析,我們可以看到:考試作為教育的衡量機(jī)制和指揮棒,并不是萬能萬有的。試題設(shè)計(jì)和分析,作為應(yīng)用數(shù)學(xué)和應(yīng)用統(tǒng)計(jì)模型的一個(gè)分支,有其固有的局限性。
1. 試題模型是量化的模型,而日常生活中不能被量化的部分則被忽略。這種忽略,使得試題的結(jié)果不能被奉為金科玉律。
在測試界流傳著一個(gè)經(jīng)典笑話:“一個(gè)人把戒指掉在黑漆漆的馬路邊,而他在路燈下被照亮的路段尋找。別人問他:你的戒指是掉在這里嗎?他說:不是。但是這里亮堂,好找,就在這里找吧!蔽覀兂3S眠@個(gè)笑話比喻測試模型的缺欠。要解決的問題其實(shí)不知道怎么解決,但是有些不能量化的部分被忽略以后,把可以量化的部分做成模型,然后就拿這個(gè)試題模型來湊合事兒了。那么這個(gè)模型的結(jié)果是完全正確的衡量指標(biāo)嗎?當(dāng)然不是,而且很有可能是誤導(dǎo)的,但是既然沒有更好的選擇,權(quán)且就拿來用用看吧。
比方說,在考察決策能力和決策方案的時(shí)候,我們會假設(shè):所有人的選擇都是理性的,情感這個(gè)因素可以忽略不計(jì)。在這個(gè)假設(shè)的基礎(chǔ)上,不同的決策選擇被賦予不同的數(shù)值,從而進(jìn)入了運(yùn)算。然而實(shí)際生活的經(jīng)驗(yàn)告訴我們:理智和情感都是每個(gè)人生活的必需品,并且人生來就有情感,卻在后天教育中得到理智,從而情感能力對一個(gè)人的決策的影響程度會更大。但是,情感是不能量化、不可計(jì)量的,不能被放入計(jì)算模型中,因此以理智分析作為主要判斷指標(biāo)的測試模型所得到的結(jié)果在實(shí)際應(yīng)用中完全沒有用武之地,甚至是南轅北轍。
2. 大多數(shù)試題模型是單維模型,只考慮一個(gè)方面而忽略學(xué)生的全方位特征,因此“唯分?jǐn)?shù)論”會埋沒人才,并且畸形扭曲人才的發(fā)展方向。
無須贅述,這個(gè)方面在日常生活中隨處可見。例如,當(dāng)我們用托?荚嚨某煽儊磉x拔英語人才的時(shí)候,我們就忽略了在英語溝通中可以合理使用肢體語言和面部表情的人,忽略了在能夠?qū)懽餍≌f、童話、寓言等生動(dòng)的文學(xué)故事的人,忽略了能夠聆聽別人的弦外之音并且由此做出舉措和判斷的人,也忽略了能夠閱讀小說、歷史、政治等文章并且有入木三分洞察力的人。這些能力,都高于托福所考察的能力,因此他們的水平并不在分?jǐn)?shù)中得以體現(xiàn)!拔ǚ?jǐn)?shù)論”遇到了天花板效應(yīng),則試題的分?jǐn)?shù)本身就是無效也沒有指導(dǎo)意義的。
又如,當(dāng)我們用英文版的數(shù)學(xué)考試(例如SAT數(shù)學(xué)考試)來衡量中國學(xué)生的數(shù)學(xué)能力的時(shí)候,一些高水平學(xué)生因?yàn)榭床欢⑽膯卧~而做錯(cuò)題,我們會認(rèn)為他們的數(shù)學(xué)能力不高。但是事實(shí)上他們的數(shù)學(xué)水平可能高于題目所考核的難度。這種情況下,這個(gè)測試模型是數(shù)學(xué)和英語的二維測試模型,而我們只用一個(gè)維度的分?jǐn)?shù)來做衡量,本身就會埋沒人才。一方面,數(shù)學(xué)的水平遇到天花板效應(yīng),不能充分體現(xiàn),另外一方面,英語的水平會對分?jǐn)?shù)有所牽制,導(dǎo)致一些數(shù)學(xué)天才沒有得到充分的發(fā)揮和培養(yǎng),卻轉(zhuǎn)而提高自己的英語水平,發(fā)展方向被扭曲。
3. 學(xué)生的發(fā)展擁有無限可能,而試題只是其中非常有限的一個(gè)方面的模型化展示,忽略了太多。因此,跳出試題的限制,才有可能收獲更多。
學(xué)校的職責(zé)是“教書育人”,而不是讓學(xué)生成長為做題機(jī)器或者社會某一項(xiàng)或者幾項(xiàng)工作的工具人。任何一個(gè)學(xué)生,即使他是數(shù)理化的天才,也有權(quán)利享受音樂、體育、文學(xué)等帶來的喜悅和樂趣。生活是豐富多彩的,因此學(xué)生也不應(yīng)該以分?jǐn)?shù)和應(yīng)試作為自己的人生主要目標(biāo)。