中學校本成績校驗模型及其在考試評價中的應用研究
發布時間:2017-05-04
  •   課題批準號: GFA111003

      選 題 依 據: 自選課題

      學 科 分 類: 教育經濟與管理

      課 題負 責 人: 姚云 教授

      課 題 類 別: 教育考試研究專項

      負責人所在單位: 北京師范大學

      課題鑒定時間: 2017年

      主要成員: 章建石 孫志軍 景春麗 杜瑞軍

      張鞠松 黃紅波

      一、內容與方法

      校本評價可以稱之為以學校為中心的評價或以學校為主體的評價。具體來講校本評價是指在學校進行,由任課教師評分的評價活動,學生的分數計算入學生的公開評價成績內。當前基礎教育領域的各類考試成績都可以看做是校本評價的結果,為了區別于中考、高考等選拔性的考試,將之稱為校本成績。校本成績是學生在學校學習階段中學科能力發展最為直接的表現,它不但即時性的反映了學生各科的學習狀況和學習結果,更歷時性的反映出學生在不同學習階段間的成長變化情況。校本成績是學生在各學習階段中的詳細記錄,是學生學科能力發展的寫實性檔案,顯然比單一的外部考試能夠彰顯出學習的內涵。校本成績的這個基本屬性,又使得其帶有以下幾個特點。第一,評價結果更加可靠。在教育評價理論論域中,“誰來評”與“評什么”、“怎么評”密切相關。第二,評價結果更加穩定。從教育測量的角度來看,單次考試的結果具有一定的偶然性,而且測量的誤差無法避免。校本成績記錄了學生不同學習階段的長期表現,在評價的內容、時間、方式上都客服了單次考試高度抽樣所帶來的弊端,顯然能夠更為穩定、有效的反應學生的能力發展狀況。然而,在目前國內各階段的入學考試中,校本成績被使用的情形很少。不過在目前國內各階段的入學考試中,校本成績被使用的情形很少。究其原因,主要是擔心納入校本成績會造成不公平的現象。如果能找到一種機制,對學生的校本成績進行合理的校正,基于學生平時的平時成績和老師對學生的評價來進行大學選拔和錄取,必然會有助于打破“一考定終身”、“應試教育”等違犯教育規律和人才選拔規律的現象。

     ?。ㄒ唬┭芯磕諶?/p>

      1.校本評價理論以及在實踐層面的應用

      主要包括校本評價的內涵與意義,在主要國家和地區的大學選拔中使用的的現狀、主要的類型與存在的問題,在我國基礎教育領域使用的具體情況以及一線教師對校本評價結果的看法和建議等。

      2.校本成績校驗方法以及有關模型的有效性

      采用了回歸、多層線性、馬爾科夫鏈模型,探討了利用統一考試成績來校驗校本考試成績的可行性,比較不同統計分析模型的成效。

      3.校本成績校驗對成績以及學科的影響

      結合我國的實踐,在全國高水平大學自主選拔考試中,將不同模型的結果應用到中學校本成績的校驗中,進一步分析經過校驗的校本成績的變化以及有效性,比較不同學科之間、不同試題之間在統計學和測量學等層面的差異。

     ?。ǘ┭芯糠椒?/p>

      本研究主要采用定量的研究方法,如結構方程模型、多水平模型以及項目反應理論(IRT)的有關模型,來進行深入的數據挖掘。(1)文獻研究。搜集、查閱與校本成績、綜合評價相關的文獻資料,進行總結。(2)調查研究。針對中學教師,就我國校本評價結果的實施情況、存在的問題等進行問卷調查。(3)模型建立。針對我國考試的實踐,提出校本成績校驗的若干模型。(4)模型的成效分析。使用校本成績校驗模型對學生的校本成績進行調整,了解校驗模型的有效性。(5)校驗評估。分析統計調整對調整組別及個別學生的校本成績的影響。

      數據處理分析將采用以下軟件:AMOS、HLM、PARSCALE、SPSS。

      本研究的創新點如下有以下幾點:

     ?。?)研究的問題新穎,與我國考試招生制度的實際聯系緊密。

     ?。?)在方法上,探索以統計方來來校驗校本成績。以往有關高考綜合評價的研究大多局限于理論思辨和模擬研究,尚缺乏針對該問題的量化研究。

     ?。?)研究的導向上突出維護高考選拔的公平性。本研究以實際考試數據為基礎,通過量化分析來尋找新的方法,為保證校本評價的公平性提供了新思路,同時,該方法使得校本成績的應用具有很強的操作性。

     ?。?)在技術上,建立相應的數學模型來挖掘大規??際允?,以解決政策、實踐中長期以來的難題。

      二、結論

     ?。ㄒ唬┗窘崧?/p>

      第一,目前,校本評價正在廣泛開展,形式多樣,取得了一定成效。作為過程性評價,校本評價的育人功能也得到了廣大教師的認可。但是,如何保證評價結果的真實性、科學性,是一個需要解決的難題。從不同的群體來看,教師對校本評價的認識存在一定的差異。具體表現為:非畢業班的教師、年輕教師、初中教師和非升學考試科目的任課老師更加認同校本評價,積極性也更高。校本成績作為校本評價的重要內容,其在教學改進中的價值得到了教師的高度認可,在保證真實、可信的前提下,應當在考試選拔中發揮更重要的作用。

      第二,在使用上,我國中學階段開展的校本評價沒有與高校的人才選拔標準緊密結合起來,考試成績仍舊是高校選拔的主要指標,這在很大程度上限制了綜合素質評價的深入開展。與大規模統一考試相比,校本評價在在人才選拔的成效上具有明顯的優勢,但可能對公平帶來嚴峻的挑戰,并且難以被社會廣泛的接受。校本評價在評價對象上的“不可比性”與評價結果使用要求的“可比性”,是當前招生考試制度改革面臨的一個深層次的矛盾。改革的突破口,需要消解這種“可比性”,一方面要求教育工作者不斷提高校本評價的信度和效度,在此前提下,把它逐步納入到高校人才選拔標準中去,打破長期以來形成的以終結性評價代替過程性評價的局面。另一方面,高校需要從自身的辦學地位出發,根據人才培養目標建立多樣化,特色化的人才選拔標準,在高校自主辦學的空間里逐步建立以高校為評價主體,服務于自身發展的教育評價范式。這樣,才能對中學產生積極的反饋作用,推動基礎教育領域綜合素質評價的深入開展。

      第三,作為一種過程性評價,校本評價結果在教學過程中發揮著重要的反撥作用。同時,強化校本的、過程性的評價結果在高校錄取標準中的作用是國內外高校人才選拔的一個共同趨勢。但是,評價主體的差異化使得校本評價結果的可比性打上了折扣并進而影響公平。因而,不同高校在使用校本評價結果的方式上具有了多樣化的特點。從國際上來看,校本成績以及其他校本評價結果的使用主要有以下幾種類型:折算錄取指數、統計校驗、特殊招生等是幾種比較普遍的類型。折算錄取指數以美國為代表。其中 GPA、高中課程的強度、中學排名等是很重要的校本評價的結果,屬于過程性評價范疇的內容。而AP成績、SAT或ACT成績則是外部評價的結果,屬于終結性評價的范疇。為了操作上的便利,不少高?;嶠鮮鋈舾芍匾撓跋煲蛩亟屑幼?,折算成學業指數(academic index),將其作為錄取學生的重要依據。香港和澳大利亞則主要采用對校本成績進行統計校驗的方式,這種用統計方法來調整分數的基本思路是考試的組織機構通過建立相應的模型,用終結性評價結果來校驗過程性的評價結果,即參照各學校學生在統考中的成績來對校內考試成績進行統計調整,以消弭不同學校之間評分標準上的差異調。在這個過程中,如果某學校的校內成績低于與其在終結性考試中水平相當學校的校內成績,該校內成績就被適當調高。相反,如果分數高于其他學校則會被調低。需要強調的是,盡管經過調整后學生的校本成績會發生變化,但其在學校中的位次不會發生變化。臺灣地區主要采用另設特殊招生類型的方式。臺灣的大學在招生上主要有“考試分發入學”、“甄選入學”和“繁星計劃”三種方式。其中,校本評價的使用主要體現后兩種方式中。在“甄選入學”中,考生由高中推薦或者個人申請,只須參加“學科能力測驗”并且達到校系規定的成績標準,同時要參加由校系單獨主辦的考核,包括筆試、口試、書面審查資料、小論文、實驗等。在這個過程中,學生在中學期間的學習表現,普遍得到高校的關注。校本評價的結果與其他方式的評價結果共同決定是否錄取學生。“繁星計劃”是為縮減城鄉差距而實施的,給予城鄉高中平等的大學入學機會,采用各高中單獨“推薦保送”的入學方式。學生只要“學科能力考試”成績符合大學要求,且高一、高二學期總平均成績排在所在中學前20%者,就可以由所在中學向大學直接推薦錄取,同一所大學只能在每所中學錄取一人。通過“繁星計劃”的實施,增加了偏遠地區高中學生進入優質大學的機會,有利于促進教育公平。

      第四,不同模型對校本成績的校驗有一定的差異。從統計結果來看,回歸模型與HLM的成效相差不大,但后者得結果更符合實際情況?;毓櫸治霾僮骱徒饈透虻?,在實際應用中也體現出一定的優勢,這一點在大規??際災芯透匾?。利用馬爾科夫模型分別預測校本成績及高考成績在各區間的概率,結果表明馬爾科夫預測模型能比較準確的預測校本成績的狀態,也能夠在一定程度上預測高考成績的狀態,但是預測能力非常有限。

      第五,對校本成績的校驗成效,在學科之間有一定的差異。語文成績的多水平效應并不明顯(跨級相關<0.08),在數學和英語成績上,學校差異顯得比較突出,特別是數學。數學和英語的校本成績對統考成績的預測比語文更強。

     ?。ǘ┒圓?/p>

      首先,理性認識校本評價的價值,借鑒國際上的先進經驗,改進校本評價的做法,確保評價結果的準確性。在教學過程中,校本評價沖破了分數的桎梏,拓展了評價的維度,它在教學改進中的作用是毋庸置疑的。但是,如何發揮其在教育選拔中的功能,卻是一個難題,而且會反過來制約學??剮1酒蘭鄣幕院徒峁目煽啃?。校本評價一般由學?;虻胤澆萄脅棵爬詞凳?,評價的水平參差不齊。其中,評價工具、評價過程和評價結果的解釋都可能存在較大差異。因此,如果對不同學校的校本評價結果直接進行比較,顯然不利于那些評價標準嚴格、學生整體水平較高的學校。針對這個現實難題,國際上一些主要國家探索了一些基本經驗,主要可以分為兩類。第一類是改革選拔的標準。其中,選拔標準的多元化是不少國家的典型做法。例如美國高校的選拔標準就呈現出了多樣化的特點。高中課程的成績、入學考試成績、班級排名、課外活動情況、教師推薦信等等構成了復雜而又各具特色的選拔體系。不同類型、層次的高校,其選拔標準有較大的差異,各個因素在選拔中所起的作用也各不相同。標準的多元化有效避免了在其中某一個標準上斤斤計較的做法,消解了單一標準的在選拔中的絕對權威。第二類是采用統計的方法,將不同地區、學校之間的校本評價結果進行一定的調整,使之盡可能具有可比性。澳大利亞、臺灣、香港等地在一些大規模的考試中都采用了該類方法。這兩類做法各有特色,各有利弊,但一個共同的特點是對校本評價的科學性、準確性都提出了更高的要求。

      其次,中學、大學和政府機構需要加強合作與交流,共同努力,探索校本評價可信、可用的現實途徑。校本評價的結果得不到足夠的重視,這與我國中學、大學之間的隔閡不無關系。長期以來,對于校本評價結果,大學常常認為其“不真實,不可靠”,而中學則因為大學不用而逐漸失去開展校本評價的積極性。要打破這種隔閡,中學、大學和政府機構走到一起,共同尋找解決的方法。香港在這方面積累了寶貴的經驗。從2007年開始,香港開始探索如何有效使用校本評價的結果,教育行政部門期望將學校任課教師在日常教學過程中對學生的評價,納入其文憑考試的成績之中,在幾年試驗的基礎上,2012年共計進行校本評價的科目達到了12科,包括中文、英語和通識教育3門核心科目以及9門選修科目。在推進過程中,為了保證校本評價的公正、公平以及評價主體之間的一致性,政府部門出臺了詳細的規范與實施細則,采取了一系列措施,包括:廣泛開展校本評價的專業培訓,在各個學區配置專門人員來提供專業支持,應用統計方法對校本評價的結果進行調整等等,這些工作涉及面廣,各方面的投入比較多,主要由政府部門來主導完成。中學在專業機構的引導下,遵循科學的方法,步調統一,按照要求來開展校本評價,有效避免了一些可能影響評價結果準確性的做法。校本評價經過統計調整后得到的結果,高?;蚱淥褂枰勻峽?。經過多年的探索,目前校本評價已經形成了良性循環,社會各界的認可程度也在不斷提升。

      再次,進一步拓展校本評價的領域,創新評價的方法和手段,促進更深層次意義上的教育公平。與大規模統一考試相比,校本評價在“評什么”、“怎么評”等方面具有較大的自主空間,這在很大程度上保證了學校的辦學和人才培養的特色。校本評價領域的拓展以及與之相匹配的評價方法、手段的創新,在根本上是由學生在能力、素質、素養等方面的復雜性、多元性和差異性所決定的。這也從一個側面表明:很多學生層面的評價結果天然就不具備可比性。在教學中,校本評價的實施恰恰彰顯了對這種差異、多元和個性化的尊重,也只有這樣,才能使評價結果在讓學生充分認知自己,明確下一步的努力方向以及進一步改進教學等方面發揮積極的作用。但是,一貫以來,我們對學生的評價過度受制于學科成績,人才選拔中也過于關注絕對的公平,這使得學校和學生在單一的分數維度上拼命掙扎,從而喪失了太多教育的本真價值。把所有的學生都放置在同一個標準下,讓他們進行激烈的競爭,這看上去是公平的做法,實際上是對學生個體差異的漠視,有違學生的天性,有削足適履的傾向。在教育活動中,限制大多數的個性以妥協于現實需要的共性,這對大多數反而是不公平的。在教育的現實情境中,如何為每一個學生提供適合他們教育和評價方式,是每一個教育工作者需要思考的問題。為此,評價之“履”需要根據不同的足“之所需”來進行調整,只有這樣,才是真正的尊重學生,才能保證教育之本源意義的公平。

      最后,對于專業化的考試機構來說,需要探索對校本評價結果進行再評價的方式,以確保校本評價的科學性和可比性。其中,用統計模型來解決這一難題具有一定的可行性,在多個模型的比較中,回歸模型的校驗成效相對最好,在大規模教育考試中容易操作,有推廣價值。

      三、改進與完善

      本研究結合我國考試的實際,提出了校本評價結果的校驗模型,對于探索校本成績的使用方式,完善綜合評價有一定的借鑒意義??翁庋芯恐兩?,我國高考在制度層面出現了一些新情況,這對于改進與完善這方面的研究,就顯得很有必要。

     ?。?)在當前高考改革“兩依據、一參考”政策背景下,如何真正參考綜合評價的結果,是一個難題。高校、中學都面臨如何實質性地推動綜合評價在高考中的使用的難題,這一直以來也是考試招生制度改革中的難題。該課題提出的方法在高校自主選拔中進行了實驗,具有良好的成效,但是,能否直接在高風險的考試之中應用,以及應用之后可能出現的學生轉學等情況,仍舊需要在政策層面出臺相應的配套措施。另外,在高考招生分省計劃的制度設計下,校本成績的地區、省際差異也比較大,成績校驗的模型需要進一步探討。

     ?。?)課題的實踐和探索,在研究問題上有鮮明的中國特色,在研究方法上有創新,在研究結論上也符合我國招生考試制度的實際。但是,校本成績校驗價值并不僅在追求統計學生上的高解釋率,它彰顯了把過程性評價結果納入綜合考查的合理訴求,并為相應的權重設置提供了實證依據。校驗的方式及其成效完全可以通過具體的干預而更加科學、合理。只是這里的合理性很容易在高考的博弈中被扭曲或打亂,校本成績校驗的成效會隨著對這一結果使用的程度而降低,后續的研究需要追蹤這種影響以及由此給校驗模型帶來變異的可能。

     ?。?)在不同學科之間,不同的校本成績校驗模型具有一定的差異,這符合高考各學科的實際情況。如語文學科,需要長期的積累過程,所考查的并不僅限于在學校學到的知識內容,而是考查的廣泛的,有深度的,和整個學生自身層次有關的內容,語文成績的學校差異相對于其他學科較小,一定程度上限制了校驗模型成效的發揮。建議可以結合具體的學科,進一步提煉學科化的校驗模型。

      四、成果統計一覽表

      課題組成果統計一覽表

  • 序號

      作者

    成果形式

      成果名稱

    出版單位/發表刊物

    刊物級別

    (CSSCI/核心)

    出版時間/刊物期號

      轉載

     獲獎情況

     決策采納

      1

      姚云、章建石

     論文

      牽好“牛鼻子” 讓校本評價結果可信可用—基于2745 名一線教師的問卷調查與分析

      中小學管理

    中文核心

     2016年第12期

         

      2

      姚云、章建石、杜瑞軍

     

      大規模教育考試中的校本成績校驗及其對中學的影響

      教育測量與評價

     

     2016年第10期

         

      3

      章建石、景春麗

     論文

      基于馬爾科夫鏈的校本成績評價合理性的探索.

    首都師范大學學報(自然科學版)

    中國科技核心期刊

     2016年第2期

         

      4

      章建石、景春麗、莫春暉、姚云

     論文

      如何使校本成績在高校選拔中發揮作用——來自高考自主選拔考試的探索

      考試研究

     

     2016年第2期

         

      5

      章建石

     論文

      高校自主招生選拔中校本成績校驗的模型及成效比較.

      清華大學教育研究

    CSSCI

     2016年第1期

      人大復印轉載

       

      6

      章建石

     論文

      校本評價在國內外考試招生中的使用

      中小學管理

    中文核心

     2015年第12期

         

      7

      章建石

     論文

      校本評價在高校人才選拔中的困境與出路

      當代教育科學

    中文核心

     2014年第19 期

    新華文摘論點摘編;中國社會科學文摘全文轉載、人大復印轉載。