時間:2023-02-28 16:00:55
導言:作為寫作愛好者,不可錯過為您精心挑選的10篇教育測量評價論文,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
一
高中語文人教版“表達與交流”模塊對高中寫作教學無疑具有指揮棒的作用。由五本課本中“表達與交流”內容編排的分析,我們可以看出教材注重什么淡化什么。具體為必修一:心音共鳴――寫觸動心靈的人和事,親近自然――寫景要抓住特征,人性光輝――寫人要凸顯個性,黃河九曲――寫事要有點波瀾。必修二:直面挫折學習描寫,美的發(fā)現(xiàn)學習抒情,想象世界學習虛構。必修三:多思善想――學習選取理論的角度,學會寬容――學習選擇和使用論據,善待生命――學習論證,愛的奉獻――學習議論中的記敘。必修四:解讀時間――學習橫向展開議論,發(fā)現(xiàn)幸福――學習縱向展開議論,確立自信――學習反駁,善于思辨――學習辯證分析。必修五:緣事析理,學習寫得深刻;謳歌親情,學習寫得充實;錘煉思想,學習寫得有文采;注重創(chuàng)新,學習寫得新穎。
不管從標題上,還是從篇目內容及課后練習上,認真分析比較,我們都可以歸納出“表達與交流”的三大內容:一談如何寫好記敘,描寫,抒情,議論,二談“虛構”與真實,側重虛構,三談好文章的四項指標――深刻、充實、文采、新穎。沒有涉及它們與文體的相關,更沒有涉及文體的理論知識與實際操作指導。必修教材的“表達與交流”忠實地執(zhí)行了我國《語文課程標準》的要求。我國《語文課程標準》并不特別強調文體,小學以敘述文為主;初中有明確的文體要求:“寫記敘文,做到內容具體;寫簡單的說明文,做到明白清楚;寫簡單的議論文,努力做到有理有據;根據生活需要,寫日常應用文。”普通高中只要求綜合運用記敘、說明、描寫、議論和抒情等表達方式,并沒有明確的文體規(guī)定。這反映出《語文課程標準》淡化文體意識的價值取向。
美國高中作文教學卻與我們不同,文體教學在美國高中作文教學中有著重要地位,在作文教學的幾大模塊中占有相當大的比重。
如在作文教學綱要和指導觀念里,實用文體的寫作訓練和寫作基本能力訓練與表達方式的訓練共同組成美國的寫作教學的三大內容。這三大訓練有多種訓練體系,有單向的也有綜合的?!拔捏w”意識和實際指導在這些體系中隨處可見,如“思維―表達訓練體系”主要進行思維和文體寫作的訓練,其他還有一般文體寫作訓練體系、實用文體寫作訓練體系。如美國加利福尼亞州的《公立學校英語課程標準》明確要求學生寫敘述文、文學評論、研究報告、勸說文、技術性文章及常用應用文,對每一文體都有明確規(guī)定。
在實際教學操作中,文體教學得到了同樣的重視。
如三冊《美國語文》(2004年同心出版社出版的《美國語文―――美國著名中學課文精選》,以下簡稱《美國語文》)是中國大陸第一套系統(tǒng)引進的西方著名中學語文教材。文體類型(除編譯時由于篇幅關系刪去的戲劇、詩歌外)統(tǒng)計如下:
文體類型具體類型舉例:
(1)小說:短篇小說、科幻小說、長篇小說;
(2)散文:分析散文、諷刺散文、說明散文、思考性散文;
(3)其他類:日志、神話、傳說、故事、敘述文、布道、自傳、勸說文、演講、格言、書信、通告、游記、回憶錄等。
課后寫作練習文體訓練類型舉例:
(1)想象、娛樂、感受類:神話、短篇小說、科幻小說、電影情景、人物傳記、日記、續(xù)寫、改寫、廣告、網頁制作、格言等;
(2)通告、闡釋、描述類:通信、通告、新聞報道、報告、描述性信件、摘要、訃告、課程描述、競賽公告等;
(3)勸說、建議、說明類:說服性的短文、給校長的建議、建議專欄、收藏者指南、提議、有說服力的信條等;
(4)分析、評論類:文學分析、社論、批判性回應、說服力評價、比較研究等。
與淡化文體教學對應的是中國作文評價標準是面向文學性、詩意和哲理性很強的記敘文、議論文、說明文的通用標準;與注重文體訓練對應的是美國評價標準鮮明地體現(xiàn)為分文體定標準。這種分文體制訂評價標準的做法是較為嚴謹的。它能充分反映評價學生駕馭不同文體的能力,較之抽象地評價內容充實否、結構完整否、符合要求的“通用”標準否,更能起到實際的評分指導與規(guī)范作用。
我認為美國作文教學對文體教學的重視,是美國作文教學卓有成效的原因之一。在美國教學中最令全球教育界驚奇的事就是美國人普遍具有良好的寫作能力,只要受過普通教育的美國人,都能把自己要說的話寫在紙上且表達清楚,同時盡可能遣詞造句,使意義更準確。而這種情況,反映的正是美國高中作文評價有相當高的效度。
美國作文教學之所以卓有成效,注重文體教學和注重效標效度的分文體制訂評價標準的作文評價功不可沒。這樣的結論不是主觀臆測,而是通過客觀分析得出的。了解美國文體教學與分文體制訂評價標準的作文評價,并對評價效度進行分析,我國作文評價的效度問題亟待解決。
二
怎么改進甚至改革高中作文教學呢?作文成績與寫作能力是否成正比呢?
舉個比較絕對的例子,假如高中作文教學只有新詩教學,作文練習與測評題只有新詩形式的測評題,有這么一個可能結果,老師抱怨作文難教,學生抱怨作文難學難寫、沒東西可寫、太多束縛不自由……還有一個可能結果是,作文測評成績不錯的高中畢業(yè)生在社會上不會寫讀書筆記,不會寫文學評論,不會寫報告,不會寫社論,不會寫計劃書,不會寫基本的商業(yè)策劃,不會寫比賽公告……作文測評成績不好的高中畢業(yè)生在社會上卻成了新興作家或者公司的文案高手……于是作文教學改革呼聲四起,興起了半命題寫詩、話題寫詩、材料寫詩、漫畫寫詩、不定題材寫詩、生活化寫詩、心靈化寫詩、學生詩作互評、多就少改詩、總評詩、面評詩、每日一詩……
當然,上述是一個較為絕對的例子,可事實是,這個絕對例子與當下高中作文教學內容的關系只不過是五十步與百步的差別。高中作文教學中并未有更多樣的文體介紹和指導,在大部分學生的腦海中,他們知道的文體就只有文學性質的記敘文、散文、論點論據論證式議論文、詩歌和戲劇,就在這有限的三四個文體中選擇,較之于事實上豐富多樣的文體而言,“文體不限”能算是真正意義上的文體不限么?腦海中根本就沒有多少文體概念知識,何談文體不限的選擇呢?在記敘文、散文、論點論據論證式議論文、詩歌和戲劇范圍內分文體定標準的作文評價是否是真正意義上的分文體定標準作文評價呢?如前文所示美國中學文體訓練類型涵蓋了工作崗位上大部分的文體寫作,培養(yǎng)了美國人而不是美國學生普遍良好的寫作能力,而大部分接受過高中作文教學的中國高中畢業(yè)生,在進行工作崗位上基本的文案寫作時一般都是初次接觸,能力匱乏。這不僅是高中語文作文教學中文體教學缺失造成的后果,還反映了對應于淡化文體教學的淡化文體評價的作文評價的低效度。
任何測評都涉及效度。效度是指所測量到的結果反映所想要考察內容的程度,測量結果與要考察的內容越吻合,則效度越高;反之,則效度越低。在作文教學中或者在升學考試中指作文測評的分數反映學生作文真實能力的程度。在判斷作文測評是否有效性時,在考慮到測評的內容效度的同時還必須考慮到效標效度。
內容效度最容易理解,它關心的是測量的內容。比如某一個學段進行詩歌寫作教學,內容效度就會考察詩歌寫作測題是不是與這個學段教授的詩歌寫作知識、方法和技能有正相關。
效標效度稍微復雜些,是指當前一項測驗結果與作為效標的資料或數量之間的相關程度。效度的高與低,需要有一定的參照點加以考查,尤其是能力的測試。實際上能力都是無法測量的,因此我們只能確定一個或幾個能反映能力的標準,然后做間接的比較。這種人為確定的效度標準簡稱“效標”。效標效度關心的是測量結果和另外一個效標(criterion)的符合程度。比如,據說微軟公司招人的時候會考一些類似腦筋急轉彎的問題,像“紐約有多少個水井蓋”之類。考察者并不真的關心答題者是不是真的知道紐約有多少個水井蓋,他關心的是答題者以后的工作業(yè)績(相當于效標)。那么考題到底能在多大程度上預測工作業(yè)績呢,或者說這些考題和工作業(yè)績的相關程度到底如何呢,這就是效標效度。比如,在美國高中作文教學進行的同時,進行多種文體的訓練與測評,這個測評,除了關心測評題與教學內容的相關程度外,更關心學生實際生活和工作中的寫作能力及發(fā)展。測題到底能在多大程度上預測寫作能力呢?或者說這些測題與日后的寫作能力的相關程度到底如何呢?這就是效標效度。
內容效度和效標效度的區(qū)別首先是調查者(investigator)的觀察的取向(orientation)不同。使用內容效度的調查者,關心的是測量的得分。比如教師對學生進行寫作測驗,那么學生在這張試卷上的得分正是教師所關心的。使用效標效度的調查者,他關心的是效標的得分。比如上面舉的招聘的例子,公司并不真正在乎你在招聘試題上的得分,他在乎的是你以后的工作業(yè)績(相當于效標),上面舉的作文測評的例子,教師還關心學生在以后的生活和工作中的寫作能力(相當于效標)。
這是兩種效度在觀察重心上的區(qū)別,另一個明顯的區(qū)別就是推論(inference)的程度的不同。對使用內容效度的測量者來說,基本上不存在推論。還以作文測題為例,作文成績高分就說明這學生作文能力好,教師不需要進行推論,作文成績得分直接說明問題(如果要引申到學生的學習態(tài)度就是在進行推論了)。在效標效度的例子里,推論是很明顯的。招聘試題上的得分真的能預測將來的工作業(yè)績嗎,詩歌寫作成績好真的能預測將來生活和工作中的寫作能力嗎?局限于記敘文、散文、小說、論點論據論證式議論文和詩歌的寫作成績好,真的能預測將來的寫作能力嗎?這時候推論的意味已經很強烈了,實際上效標效度就是用來衡量這種推論的可靠性的。
測量者關心的是測量得分時,用內容效度;測量者關心的是效標得分時,用效標效度,也許還需要解釋一下,這兩種效度并非只能用于不同的作文測題,而是取決于測量者如何使用作文測題。比如,同樣是一套或一系列作文測題,兩種效度都可以用來考核它,這取決于施測者如何使用這套或者一系列作文測題。如果施測者只想從中知道學生對相關的寫作知識和能力的掌握情況,那么他應該關心這套或這個系列作文測題的內容效度如何;如果施測者想以此推斷學生將來工作生活中的寫作能力,那么他應該關心這套或者這個系列的寫作測題的效標效度如何。
在關注效標效度時,不能忽略了同時效度和預測效度。它們是在時間上對效標效度進行的分類。它們的區(qū)別是時間上不同,同時效度的效標和原測量工具是同時施測的,而預測效度的效標是在原測量工具之后施測的。比如學習期間正式進行的作文寫作測驗的同時效度的效標是與這些測驗并行的學生寫作練習成績和老師觀察評價等,而預測效度的效標則可以是期末考作文成績,高考作文成績和生活工作中的寫作能力。
前文已經說道,效標效度的使用者真正關心的是效標上的結果,因而待檢驗的測量工具其實是作為效標的替代物出現(xiàn)的。為什么要使用替代物呢?其理由在預測效度這里很明顯,效標是作用于將來的,我現(xiàn)在要知道結果就必須使用替代物。比如要知道學生在將來正式高考時的可能成績,那么我們需要使用有較高的預測效度的模擬試卷。又或者要知道學生將來寫研究報告的能力,那么教學時應該使用有較高的預測性的作文測題;這兩個例子里的模擬試卷和寫作測題都是為了實現(xiàn)預測的目的而必須使用的替代性的測量工具。
結合以上關于內容效度和效標效度的分析,我國作文教學和作文評價的現(xiàn)狀如下:高中作文教學模塊“表達與交流”有三大內容:一談如何寫好記敘,描寫,抒情,議論,二談“虛構”與真實,側重虛構,三談好文章的四項指標――深刻,充實,文采,新穎。作文評價對應于這三大內容的評價標準。那么從理論上說作文評價已有了較高的內容效度。可是內容效度高并不代表作文評價的效度高,并不能真實反映作文教學的成效如何,是否科學合理。在作文教學中,文體教學的嚴重缺失,文體意識嚴重匱乏導致學生日后生活中自由寫作思維極為狹隘,沒有可供自由選擇的文體寫作,駕馭文體能力相當乏弱導致學生日后無法快速應對豐富多樣的文體寫作,這反映了我國高中作文教學評價相當低的效標效度。
事實上,高中畢業(yè)后大部分人都有這樣的經驗,開始社會生活、走上工作崗位后,沒有多少人會繼續(xù)進行我國高中作文類型的寫作,例如寫文學性、詩意、哲理性很強的記敘文、散文、議論文,反而是當下高中作文教學所淡化的形式規(guī)范性很嚴格而且思維能力要求各具特色的其他文體寫作特別是實用文體寫作成了很多人的日常寫作,可是在作文評價過程中,忽視對效標效度的分析,并沒有把駕馭這些文體的寫作能力當做預測效標來分析和重視。缺少這種效標效度分析的作文評價就無法發(fā)現(xiàn)當下作文教學成效低微,學生應對生活與工作的實際寫作能力低弱的真正原因。
參考文獻:
[1]黃全愈.高考招生制度改革的追問[J].全球教育展望,2005(5).
[2]陳文中.外國大學入學作文考試的啟示[J].中學語文教學,2004(4).
[3]周鸞飛.近五年我國高中教學作文評價的研究[J].湖南師范大學碩士學位論文,2009.5.
[4]賀義廉.高考備考作文訓練的現(xiàn)狀與誤區(qū)[J].當代教育論壇,2008第5期.
[5]王選遨.構建符合課程標準要求的寫作教學新思路[J].語文教學通訊高中版,2005(3)
[6]朱曉斌.西方寫作教學研究的新進展[J].心理科學,2001,VOL24(4).
[7]張娟.我國高考作文命題及評價回歸生活的訴求[J].教育測量與評價,2008.9.
[8]黃全愈.“高考”在美國[M].廣西師范大學出版社.
[9]瞿寶奎.教育學文集?教育評價[M].人民教育出版社,1989.
隨著知識經濟時代的到來,科學技術和創(chuàng)新能力已成為國家間競爭的核心要素。高校作為國家科技創(chuàng)新體系的重要組成部分,扮演著越來越重要的角色。作為科研生產活動的主體,高校教師的科研生產力在很大程度上影響著高校整體的科研產出水平和創(chuàng)新能力。
因為科研產出具有不確定性(即較多的投入并不一定能夠獲得相應的產出結果,在自然科學研究中表現(xiàn)得尤為明顯)、多樣性、連續(xù)性(即本期的研究成果可能會影響下一期的項目申請)、直接傳播性、社會影響深遠性等,所以,教育界對于高校教師科研生產力的測量指標莫衷一是。
一、概念界定
科學研究是科學工作者生產知識、應用知識的活動,這種活動屬于高度社會化的一般勞動,使人類擁有認識和改造自然的巨大力量,反映了人與自然的關系,應該歸屬于生產力的范疇。學者趙紅州認為,社會的科學能力應該屬于特殊的生產力,也就是科學領域的生產力或科研生產力。謝彩霞等人指出,科研生產力由科研生產要素構成,整個科學研究過程離不開科研生產要素。姚東瑞進一步指出,科研生產力作為科學研究活動的一種產出能力,既包括通過發(fā)現(xiàn)、創(chuàng)造而實現(xiàn)創(chuàng)新理論、生產知識與發(fā)展科學的能力,又包括通過整合和應用而實現(xiàn)技術創(chuàng)新、知識運用和轉化的能力。葉鐘靈就美國對科研生產力的評價指標進行了綜述,按研究開發(fā)工作的成果進行統(tǒng)計,常見的指標有專利發(fā)明數、論文出版數、成果得獎數、論文引述數等??蒲猩a力是科學勞動社會化的必然結果,結合已有研究,本文中的科研生產力是指科學研究活動的產出能力,具體表現(xiàn)在產出的數量和質量上。
二、文獻綜述
(一)數量測量
從國家層面上看,國外對高校教師科研生產力的評價非常重視,尤其是美國和英國。美國主要是從教學、科研以及服務三個方面對高校教師進行評價,其中科研評價包括學術研究和科研項目。學術研究包括舉行學術報告、展覽,發(fā)表學術論文、專著,申請專利等;科研項目包括開展各級政府部門的縱向基金項目研究,為社會上的公司、企業(yè)進行人員培訓,提供技術服務等。英國對高校教師的科研評價也比較系統(tǒng),設有英國大學科研評價體系,由專家組按照統(tǒng)一的標準,依據達到國內或國際先進水平的成果數量,將評價結果分為七個等級同。澳大利亞科研評價體系則包括文獻計量指標和非文獻計量指標。文獻計量指標包括出版物(賦有權重)、引用、展現(xiàn)科研特色的結構指標(包括出版物的領域分布、合作級別、科研類別)。非文獻計量指標包括常用非文獻計量指標(科研人員數量、科研時間、外部資金、研究生數據、榮譽和獎勵、演講、國際訪問),適用于人文社會科學的非文獻計量指標(與校外機構的研究合作產生的方案以及合作發(fā)表的出版物、參與大學管理、為社會提供學術服務等),以及適用于創(chuàng)造性藝術學科的非文獻計量指標(舞蹈家、演員、音樂家、劇作家在公開場合的表演,建筑師和設計師的建筑或者創(chuàng)造等)三個方面。
國外研究者認為,雖然用出版物的數量來衡量高校教師的科研產出有諸多局限性,但是從數據的可得性以及可靠性出發(fā),出版物的數量是一個很好的評價高校教師科研產出的指標。出版物主要指發(fā)表的論文和所著專著兩個方面。
國內學者在測量高校教師科研生產力時,也傾向于采用出版物的數量作為重要指標,但是,考慮到學科性質的不同以及科研產出的多樣性,在借鑒國外經驗的同時,國內學者對高校教師科研產出的測量指標做了進一步整理,主要從指標分類、指標篩選兩個方面進行。他們認為,科研產出主要表現(xiàn)為學術專著、、專利授權、成果鑒定、技術轉讓等方面。
1.指標分類
有學者根據科技績效評價產出指標性質,將指標分為源生指標、追加指標和派生指標三類。源生指標包括論文、專著、專利授權、成果鑒定、技術轉讓、人才培養(yǎng)等;追加指標建立在源生指標的基礎之上,包括科技獎勵、論著引證、文章被索引及摘錄情況等;派生指標是建立在優(yōu)秀的源生指標和優(yōu)秀的追加指標基礎之上的,包括學會、研究會、專業(yè)期刊的兼職、獲得榮譽稱號等。學者劉丹平、周建方等人采用層次分析法將高校教師科研能力評價指標體系分為目標層、準則層和指標層。目標層即高校教師科研能力評價,準則層包括科研項目、科技成果、論文、論著、專利與著作權、科研綜合能力6個方面,指標層包括國家級科研項目、省部級科研成果、三大檢索論文、學術專著、發(fā)明專利、專業(yè)創(chuàng)新能力、學科建設和團隊合作精神等24項。
2.指標篩選
在各類指標中可能存在一些次要的評價指標,因此,需要對這些指標進行篩選,分清主次。通常使用的篩選方法主要有系統(tǒng)分析法、文獻資料分析優(yōu)選法以及應用數理統(tǒng)計法等。靳希、張火春和姚力等人在總結國內外有關業(yè)績考核工作經驗的基礎上,根據專業(yè)技術人員業(yè)績考核的目的,高校教師從事科研工作的特點以及模型設計的基本原則,建立了教師業(yè)績考核的指標體系。這個體系包括研究任務、科研專著、科技論文、鑒定科技成果、獲獎科技成果、專利成果以及研究效益7項指標。在這7項指標的基礎上,根據科研績效定量評價體系的設計原則,賀天偉和張景林增加了培養(yǎng)人才這一指標。鄭秀才從承擔的科研任務和取得的科研成果兩個方面綜合設定了高校教師科研績效評價指標:科研項目及經費、科研論著(期刊和專著)、科技成果(專利等)、科技成果應用、科技成果獲獎。胡金秀、周國強等人從縱向科研立項、科研經費、成果鑒定、科技獎勵、學術論文、專利及計算機軟件、著作、對合作完成科研業(yè)績的分配這幾個方面來考察科研績效。胡俊在分析了國內外教師科研業(yè)績以及高校教師科研特點的基礎上,建構了包括學術論文、著作、鑒定成果、技術轉讓等在內的新的指標體系。
為使對高校教師科研生產力的評價科學、合理、全面、有效,在已有研究的基礎上,學者們進一步完善了科研生產力的評價指標體系。劉仁義選定以下指標作為科研產出指標:學術論文,學術著作,專利申請與授權,科技成果鑒定,研發(fā)成果應用和其他科技服務,人才培養(yǎng),科技獎勵,論著被引、被索及被摘,學術兼職,縱向項目,縱向科技經費,排名與貢獻率,這些指標下又分二級指標,以計算教師的科研產出。吳小妹通過專家訪談和問卷調查的方式,對高校教師科研能力指標框架進行了修正,其中,科研產出指標又分為、發(fā)表專著、獲取專利、獲得獎項、研究報告、項目資助6個二級指標,這6個二級指標下又分論文級別、作者排名、出版社等級、專著字數等15個三級指標。張宏琴在對當前國內許多高校正在使用的評價體系進行考察的基礎上,提出了科學研究指標、成果指標、學術論文指標、人才培養(yǎng)情況、社會工作情況(指學術講座、黨政職務)等適用于教學研究型大學的高校教師科研績效評價指標體系。
(二)質量測量
國外學者考慮到出版物之間存在著質量差異,高校教師在一本引用率很高的期刊上發(fā)表文章和在一本幾乎沒有人引用的期刊上發(fā)表文章所付出的努力和時間是不同的,因此,僅以出版物的數量來衡量高校教師的科研產出是片面的。于是,不少學者在計算出版物數量的基礎上增加了期刊質量權重以及文章引用率,英國學者杰蘭特·瓊斯和吉爾·瓊斯為了區(qū)分文章的質量,將出版物分為學術期刊上的論文、學術期刊上的書信、專業(yè)期刊上的文章、流行雜志上的文章、專著、書籍、官方報告、對編輯工作的貢獻8類。還有學者認為,不同的學科面臨著不同的文章發(fā)表的競爭壓力,因此,不同學科學者的發(fā)表文章數量應該用競爭壓力進行修正。而競爭壓力可以用與該學科相關的期刊提供的空間和教師的發(fā)表需求之間的比值計算。
中圖分類號:G641
文獻標識碼:A
文章編號:1672-0717(2015)01-0059-05
收稿日期:2014-11-30
基金項目:湖南省教育科學“十二五”規(guī)劃2012年度項目“高校有效學生學業(yè)評價研究”(XJK012CGD002);湖南省社科基金項目“高校發(fā)展性學習評估的國際經驗與借鑒”(13YBA077);全國教科規(guī)劃教育部重點項目“高校學業(yè)評估的國際比較研究”(DIA130302)。本文同時受湖南大學青年教師成長計劃經費資助。
作者簡介:劉聲濤(1976-),女,江西萍鄉(xiāng)人,教育學博士,湖南大學講師,主要從事高校教學與學習評估研究。
《高等學校章程制定暫行辦法》實施以來,教育部核準了多所大學的章程,這些章程對學生學業(yè)評價工作的表述高度一致,即:學生公正地獲得學業(yè)上的評價。這個表述中有兩個看似平常實則復雜多義的概念:公正、學業(yè)評價。博登海墨(Edgar Bodenheimer)說:“公正有一張普洛透斯似的臉,變幻無常,隨時可呈不同形狀,并且有極不相同的面貌。當我們仔細查看這張臉并試圖揭開隱藏其表面之后的秘密時,我們往往會深感迷惑?!盵1]在不同的時代與人類活動中,人們對公正的涵義有不同的理解,不同的學者對于公正也有不完全相同的闡述,迄今尚未形成一個統(tǒng)一的公正論。教育領域中的評價是一個正在發(fā)展中的概念,其內涵在不斷地擴大與豐富中。國際上,學生學業(yè)評價近幾十年正在產生教育評價歷史上從未有過的變革[2]。當公正與學業(yè)評價兩個復雜的概念在一起時,有必要了解高校行政管理人員、教師、學生如何理解公正評價學生學業(yè),這種理解是否有偏差,如果有偏差那么更合適的理解又是什么。章程是高等學校依法自主辦學、實施管理和履行公正職責的基本準則,探討上述問題有益于高校章程制定及以章程為依據來辦學。
一、對高校公正評價學生學業(yè)的實際理解
有三方面的證據表明,當前我國高校學業(yè)評價相關群體主要將公正評價學生學業(yè)理解為通過以考試為主的方式來給予學生應得的分數或等級的活動。第一方面的證據來自于學生調查。2014年1月,筆者在某高校對大學生進行了學業(yè)評價書面調查。調查包括三個問題:(1)大學期間,你的學業(yè)有沒有得到公正的評價?(2)請給出你或同學的學業(yè)被不公正評價的例子;(3)你認為被不公正評價的原因是什么?學生針對這三個問題主要圍繞教師如何考及如何評分作答。第二方面的證據來自于高校相關政策文本的分析。有研究者對E大學學生評價管理機構的管理職責、課程學習評價規(guī)定、學生實習評定和畢業(yè)論文評定的相關規(guī)定、畢業(yè)資格和學士學位授予資格的政策文本進行分析,發(fā)現(xiàn)我國現(xiàn)行高校對學生評價的理解與要求是以專業(yè)知識為主要評價內容,以考試為主要手段進行考試成績鑒定[3]。第三方面的證據來自于研究文獻的內容分析。以“高校、公正、評價”或“大學、公正、評價”為關鍵詞在CNKI數據庫中查詢到論述高校公正評價學生學業(yè)相關問題的3篇論文,這些論文對公正評價學生學業(yè)的界定都是給予學生客觀公平的學業(yè)成績??梢?,人們對于高校公正評價學生學業(yè)的理解與實踐主要是圍繞學業(yè)考試和評分進行,評價即考試,公正即評分準確。
注重考試和評分的學業(yè)評價活動發(fā)揮了評價的測量功能:收集并量化信息。從測量功能角度理解學生學業(yè)評價并不奇怪。我國考試文化盛行,在不少人看來,學業(yè)評價即考試是自然而然的。首先,考試在我國有長期的歷史。1930年教育評價專家泰勒(R.W.Tyler)開始在教育領域使用評價一詞,此前評價學習的術語就是考試和測驗,而西方的考試和測驗發(fā)展的源頭正是我國的科舉制。其次,我國人口眾多,經濟尚欠發(fā)達,社會誠信體系不成熟,考試依然是對社會有重大影響力的人才選拔手段。
測量意義上的公正評價學生學業(yè)要求評分準確。簡單地說,公正是在一定社會范圍內通過對社會資源的公平合理分配使每一個成員得其所應得[4]。測量意義上的學生學業(yè)評價分配什么?最容易被想到的就是學業(yè)評價的直接分配――分數或等級。直接的分配類似于代幣,用來獲得真正的分配,如保研資格、獎學金、工作機會等社會資源或和社會資源密切相關的東西。分數或等級是學生學業(yè)成就客觀真實狀態(tài)的數字表征,公正則意味著數字表征準確或地位表征準確。數字表征準確指數字完全和學生學業(yè)成就客觀真實狀態(tài)相符。因為公正主要和分配有關,數字對學生學業(yè)成就在其團體中所處位置表征準確也能確保學生在分配時得其所應得,這就是地位表征準確。本文中將數字表征準確或地位表征準確統(tǒng)稱為準確。
二、測量視角下公正評價學生學業(yè)的挑戰(zhàn)
研究者若對測量意義上的學業(yè)評價的基本技術有更多的了解和思考,會發(fā)現(xiàn)準確評價學生學業(yè)在測量的各環(huán)節(jié)上都面臨著挑戰(zhàn)。
首先是收集哪些方面的信息。學業(yè)評價需要收集學生在預期學習成果上的表現(xiàn)信息。高校中的學業(yè)評價主要是課程學業(yè)成就評價。為了保護高校教師的學術自由,同時也因為高校課程多且不斷變化,課程應該有怎樣的學習成果由教師自行決定。在制定高校學術標準和質量標準方面世界領先的英國高等教育質量保障署(Quality Assurance Agency for Higher Education, QAA) 也僅是在學科層次上制定基準,不再細化到專業(yè)、課程層次。表層上,教師理解課程、設定合適的教學目標的能力以及個人風格等方面的差異導致課程目標多樣化。深層上,課程到底該取得何種學習成果及價值判斷,原本就是一個難有統(tǒng)一答案的問題。因而,不同教師授課的同一門課程上被評價的很可能是學生不同的學習成果的表現(xiàn)。
其次是用什么評價方法去收集信息。按學生在評價活動中要做出的反應,測量學意義上的學業(yè)評價可分為選擇――反應評價和建構――反應評價。選擇――反應評價包括選擇題、判斷題、匹配題等需要學生找出答案的評價形式,建構――反應評價包括論文題、表現(xiàn)性測試、檔案袋評價等需要學生自己產生答案的評價形式。每種評價方式都有其適用情形及局限。選擇――反應評價能考察學生大范圍的知識掌握情況,易于計分,但難以考察高層次能力;建構――反應評價能引發(fā)學生在高層次能力上的表現(xiàn),但難以對學生的真實狀況做準確推論,難以計分。迄今為止,從測量技術上沒有找到能很好地克服每類評價方式局限性的方法。
再次是收集多少信息。由于用于信息收集的時間有限,實際工作中只能在預期學習成果中選擇若干并設計有限的評價任務,因而學業(yè)評價只能測量學生特定的、有限的行為樣本。測量實質上是對學生的真實狀態(tài)作出推論,推論基于有限的行為樣本,同時推論本身會有或多或少的誤差,這些都導致評分有誤差。
最后是收集到的信息如何量化。選擇――反應評價具有易于計分但難以測量高層次能力的特點。高等教育的重要教學目標,如理解分析綜合能力、溝通合作能力、自主學習創(chuàng)新能力等都需要借助建構――反應評價方法來評價。教育測量學中,建構――反應評價的評分者一致性受到高度關注。因為高等教育的重要教學目標難以量化,人們希望至少不同評分者對同一行為樣本的評分不要相差太遠。但這種對評分者間一致性的期望也面臨挑戰(zhàn):評分者的標準設定或對已有標準的理解不盡相同,同時教育測量學已經證實學業(yè)評價中各種心理效應導致的評價偏差客觀存在且難以克服?;谠u分的困難,波帕姆(W.James Popham)等著名教育評價專家都認為應對論文題或檔案袋評價的使用持謹慎態(tài)度[5](P139)。
事實上,對測量技術有更多了解和反思的學者對考試有著冷靜而客觀的認識。波帕姆認為應該降低教師對分數能反映學生實際成就水平的迷信[5](P28);沃爾弗德(Barbara E.Walvoord)建議放棄擁有完美、簡單的等級評分體系的幻想,接受它會有缺陷和限制的現(xiàn)實[6](P10);劉易斯(Harry R.Lewis)認為分數決不可能成為準確比較不同學科成績的標尺,即使在一門課程內,分數也是不準確的[7];韋墨(Maryellen Weimer)指出分數能夠精確地衡量與客觀評價學習的認識是錯誤的[8]。
可以說,準確評價學生學業(yè)是一種誤解和想象,但當前我國高校卻對它有著過度的依賴和關注,并且高校教和學中的很多負面現(xiàn)象都和這種依賴和關注有關。
盡管多數教師不能從測量技術的角度說清楚給學生準確評價學業(yè)有多困難,但是他們會感受到這點,尤其是面對建構――反應題時。有的教師會因沒有合理評價學生而內心不安,還有教師擔心評分不合理導致學生投訴。為避免評分可能帶來的麻煩,高校教師經常使用以下策略:(1)抬高分數。給全體同學更高的分數,盡管這對于優(yōu)秀的學生不公正,但可以避免因評分過低而被學生投訴;(2)對學生按正態(tài)分布評分。正態(tài)分布是眾所周知的能力分布,按正態(tài)分布分配不同分數等級的人數比例,這樣使得分數看起來很正常;(3)盡量用選擇――反應題。選擇――反應題好評分,在理工科的測驗中普遍使用;(4)秘而不宣的標準與任務。若公開標準與任務,教師擔心學生通過不同的渠道做準備,導致分數看起來不符合學生水平。
一直以來,大學生學習研究不斷地證明著學業(yè)評價對于學生學習的影響[9]。學業(yè)評價過于依賴與關注考試對學生的負面影響包括:(1)膚淺學習。選擇――反應評價主要考查記憶、再認等低層次的認知能力,這只需要學生的膚淺學習即能應對。即便是形式上的建構――反應評價,若沒有對題目及評分進行精心設計,也可能只是考查學生低層次能力。(2)突擊學習??荚嚢l(fā)生在學習告一段落后,再加上考察低層次能力,學生完全可以通過突擊學習通過考試,部分學生甚至還能獲得高分。(3)舞弊。既然評價注重的是分數而不是學習,學生就會想方設法獲得分數,包括以舞弊的方式。(4)對課程的誤解。事實上,學生是根據學業(yè)評價而不是教師的課程介紹來定義課程[10]。一門只要求死記硬背的課程在學生眼中就是枯燥無味、干巴巴的。不合適的學業(yè)評價會讓學生對真實的成人智力世界產生誤解。(5)失去通過學業(yè)評價調整自己學習的機會??荚囋趯W期末進行,沒有反饋,而反饋被認為是改進學習的核心要素。
三、高校公正評價學生學業(yè):以改進 學習為首要目標
面對測量意義上公正評價學生學業(yè)的挑戰(zhàn),自然要提高測量技術,以不斷提高對學業(yè)的測量能力及測量準確程度。更重要的是,要意識到并承認考試固有的局限性。承認這種局限性不僅是正確使用考試的關鍵,更是一種基本的科學態(tài)度,它告訴我們要改變對考試與分數的過分依賴與關注,正確認識公正評價學生學業(yè)的內涵。
首先要正確認識學業(yè)評價的內涵。在過去的幾十年中,學業(yè)評價被不斷地審視與反思。早在1930年,泰勒開始在教育領域使用評價概念,提出評價比考試和測驗有更多的功能和目的,認為教育評價僅用于檢測學生的成就是不夠的,同時也要關注課程內容、課程形式、學生活動、學習的多種結果。20世紀60年代初,克龍巴赫(Cronbach,L.J.)建議評價者們重新確定評價的概念――不是根據競爭的成績,而是作為一個搜集和報告對課程研制有指導意義的信息過程,強調評價的診斷和反饋作用[11]。可見,在評價的最初發(fā)展階段,學者主要就“什么需要被評價”及“評價起什么作用”擴展了評價的含義,認為評價的功能是信息收集及分析反饋,這一功能不僅學業(yè)成就檢測上需要,與學習相關的多項工作上都需要。在此階段,教師被認為是評價的組織實施者及評價信息的分析使用者。1968年,布盧姆(Benjamin Bloom)將形成性評價的概念用于學生學習,認為應在學生學習過程中通過檢測診斷學習中的問題。形成性評價主要就“什么時候評價”擴展了評價的含義。20世紀80年代后,社會經濟發(fā)展不斷對人才培養(yǎng)工作提出更高要求,同時認知心理學等學科揭示了學生在學習中發(fā)揮積極主動性的作用,大量學者開始進一步挖掘評價在學習中所能起的作用。學者主要就“評價的核心功能及其實現(xiàn)途徑”、“學生在評價中的角色”擴展評價的含義。評價依然是信息收集及分析反饋工具,但這一工具被認為應該是以改進學習為首要目標。不同學者或研究組織用不同的名稱來稱呼這種以改進學習為首要目標的評價,如學習導向評價、為了學習的評價等,并且總結了這類評價的特征。英國的評價改革研究小組(Assessment Reform Group,ARG)認為,為了學習的評價應該是:有效的教學設計中的一部分;關注學生如何學習;課堂活動的核心內容;教師需要掌握的關鍵專業(yè)技能;建設性的,因為任何評價都會帶來學生情緒、情感的影響;考慮到學生學習動機的重要性;促進對學習目標的理解,在評價標準上應該達成共識;保證學生得到如何取得進步的建設性指導;發(fā)展學生自我評價的能力,促進他們進行反思和自我管理;認可學生各個方面的成就[12]。不同學者或研究組織總結的為了學習的評價的特征大同小異,從這些特征中可以明顯看出為了學習的學業(yè)評價從目的到形式完全不同于考試。
其次要正確認識學業(yè)評價中公正的內涵。為了學習的學業(yè)評價分配什么?分配的是能改進學生學習的信息以及根據這些信息所確定的合適的教育。聯(lián)合國教科文組織的著名報告《學會生存――教育世界的今天和明天》在談及教育中的機會平等時指出:“給每個人平等的機會,并不是指名義上的平等,即對每一個人一視同仁,如目前許多人所認為的那樣。機會平等是要肯定每一個人都能受到適當的教育,而且這種教育的進度和方法是適合個人的特點的?!盵13]應像理解教育中的機會平等一樣理解學業(yè)評價中的公正,因為它們有著共同的使命――讓學生學會生存,獲得發(fā)展。
澄清學業(yè)評價工作的首要目標不僅是評價內涵擴展和豐富的結果,還是使評價活動有效的要求。選拔、甄別、診斷、鑒定、認證、發(fā)現(xiàn)、發(fā)展、管理等等都是評價可能具備的目標。研究者認為,包括學業(yè)評價在內的評價活動之所以很困難就在于評價可以同時具備多種目標[14],但難以同等良好地實現(xiàn)所有目標,得到最重視的目標決定評價的內在結構與外在形式。這也就是為什么在學業(yè)評價的研究文獻中總是可以看到學者指出對某些評價功能和目標“過于重視”、“過于關注”、“過于依賴”、“過分強調”,認為對某些評價功能和目標應該“突顯”、“強調”。評價工作需要確定首要目標,并從這個首要目標出發(fā)設計評價,以確保首要目標的達成而不是其它。
人們依賴考試一方面是對考試的局限性了解不夠,另一方面是強調了學業(yè)評價在人才培養(yǎng)中不合適的目標――管理。當前我國高校中的學業(yè)評價,與其說是一種教育方式,不如說是一種管理方式。在高校管理中,考試是高效且便利的以考促學的工具。高校中的學業(yè)考試是高利害的,因為它和畢業(yè)及各種榮譽有關,這樣的考試自然能促使學生學習。但我們必須追問,有沒有導致正確的學習?不管考試在管理上多么高效和便利,它終究是以犧牲學生的利益為代價。正是對于以管理為目標的學業(yè)評價的依賴,人們很難看到它和改進學生學習的關系。只有把學生的利益放在第一位,而不是把管理的效率和方便放在第一位,才能正確理解公正評價學生學業(yè)的內涵。
為了學習的學業(yè)評價在國外高校人才培養(yǎng)工作中正在發(fā)揮著重要作用。首先政府部門和相關組織明確將以改進學習為首要目標的評價寫進政策文件中。美國高等教育協(xié)會(The American Association for Higher Education,AAHE)制定的良好學生學習評價活動的第一條原則是:評價學生的學習必須從教育的價值開始[6](P171)。QAA明確要求:評估實踐應促進有效學習[15]。其次學者積極進行理論研究,并和教師一起進行學業(yè)評價改革。如,美國學者安吉洛和克羅斯(Anglo,T.&Cross,P.)等在20世紀80年代組織的課堂研究項目;澳大利亞學者南丁格爾(Nightingale,P.)等在20世紀90年代中期組織的大學教學促進項目(Committee for the Advancement of University Teaching,CAUT)。這些項目均是由評價專家組織及指導教師進行學業(yè)評價改革行動研究,在實踐中發(fā)現(xiàn)問題,解決問題,形成豐富的學業(yè)評價資源。如,學業(yè)評價方法、學業(yè)評價范例供更多教師使用,并致力于在高校形成以改進學習為目標的評價文化。相比之下,我國對高校學業(yè)評價的認識及實踐還停留在考試階段,高校中盛行的依然是考試文化而不是評價文化。
四、結語
在各項教育改革中,評價均被視為最難點或瓶頸。評價的首要目標選擇不當是評價不能取得預期效果的重要原因之一。長期以來,我國高校學業(yè)評價均承擔著測量者的角色,人們認為公正評價即公正評分。在這種情況下,需要從政策層面對人們的認識和實踐進行正確引導。翻看我國《教育法》,可以發(fā)現(xiàn)教育部已核準的章程中,對學生學業(yè)評價工作的表述基本上和《教育法》中的表述一致。章程要與教育法保持一致無可厚非,但保持一致并不意味著原封不動,其遣詞造句若能有利于糾正對高校學業(yè)評價即考試的片面認識,引導高校進行有利于改進學生學習的評價則更有益于高校提高人才培養(yǎng)質量。即使對學生學業(yè)評價工作沿用和教育法一致的表述,也需要高校相關群體正確認識與實踐公正評價學生學業(yè),讓學生真正從學業(yè)評價活動中受益。
參考文獻
[1] [美]博登海墨.法理學――法哲學及其方法[M].北京:華夏出版社,1987:238.
[2] 崔允t.促進學習:學業(yè)評價的新范式[J].教育科學研究,2010(03):11-15.
[3] 沈曉麗.我國普通高校學生評價實踐研究――以E大學為個案[D].華東師范大學碩士學位論文,2008:摘要.
[4] 洋龍.平等與公平、正義、公正之比較 [J].文史哲,2004(04):145-151.
[5] [美]W.James Popham.促進教學的課堂評價[M].北京:中國輕工業(yè)出版社,2003.
[6] [美]Barbara E.Walvoord & Virginia Johnson Anderson.等級評分――學習和評價的有效工具[M].北京:中國輕工業(yè)出版社,2004.
[7] [美]哈瑞.劉易斯.失去靈魂的卓越[M].侯定凱,等譯.上海:華東師范大學出版社,2012:117.
[8] [美]瑪麗埃倫.韋默.以學習者為中心的教學――給教學實踐帶來的五項關鍵變化[M].洪崗譯.杭州:浙江大學出版社,2006:82.
[9] Nightingale,P.,Te Wiata,I.,Toohey,S.,Ryan,G.,Hughes,C.,and Magin,D.Assessing Learning in Universities.Sydney:University of New South Wales Press,1996.117.
[10] David Carless,Gordon Joughin,Ngar-Fun Liu.How Assessment Supports Learning:Learning-oriented Assessment in Action[M].Hong Kong University Press.2006:2.
[11] 王萍,高凌飚.“教育評價”概念變化溯源[J].華南師范大學學報(社會科學版),2009(04):39-43.
[12] Assessment Reform Group.Assessment for Learning:10 Principles[R].Cambridge:University of Cambridge,2002.
隨著高校擴招,我國的高等教育進入大眾化階段,越來越多的學生有機會走進大學校園接受高等教育。然而,越來越多的人開始懷疑我國高校培養(yǎng)的這些學生的質量,這些學生是不是高質量的人才?他們能不能滿足社會各界對人才的需要?他們還是所謂的“天之驕子”嗎?
這些疑問漸漸地不再是疑問了,人們看到當代大學生的素質正在逐漸降低,一方面社會各行各業(yè)對人才的需求如饑似渴,另一方面越來越多的大學生失業(yè)。本科畢業(yè)不好找工作就考研,碩士畢業(yè)不好找工作就繼續(xù)考博,博士畢業(yè)呢?如今我國的高等教育廣受詬病,“讀書無用論”一再泛濫,廣大教育界師生一直在探討如何能提高我國高等教育的質量,如何讓高等教育真正培養(yǎng)社會所需要的人才。
我們知道,高考具有“指揮棒”的作用,即“考什么,就學什么;怎么考,就怎么學”。到了高等教育階段之后,考試仍然發(fā)揮重要的作用,卻已不是對學生考核的唯一方法,對學生的評價也不能僅僅看分數了。既然考核評價機制的改革有助于提高我國高等教育的質量,我們首先要全面了解考核評價機制的含義、內容和作用。
考核評價機制包括考核和評價兩方面內容,考核是考察核實、研究考證之義,評價是衡量、評估價值之義,一套完整的考核評價機制要有完善的考核方法,并根據考核的結果做出評價??己嗽u價機制的作用有三個方面:
第一,考核評價機制是測量教育教學效果的工具,教學質量的判定既有定性描述又有定量分析,考核評價機制就是教育效果的測量工具。舉例來說,考試是一種重要的考核方法,分數是評價教學效果的重要媒介。第二,考核評價的結果是對教育教學信息的反饋??己嗽u價的結果可以為教育教學系統(tǒng)反饋重要的信息。這種信息反饋給教研人員,能使教研活動更具針對性和實效性;這種信息反饋給教師,能使教師及時改進教學方法,提高教學效率;這種信息反饋給學生,為學生改進學習方法提供依據。第三,考核評價機制對教育教學的發(fā)展具有重要導向作用。學生會根據考核評價機制的要求進行學習,教師會按照考核評價機制的要求進行教學,學校會按照考核評價機制的要求布置教學任務,什么樣的考核評價機制就會使教育教學教學機構培養(yǎng)出什么樣的學生??己嗽u價機制導向作用的突出表現(xiàn)之一是高考的“指揮棒”作用。
因為考核評價機制對教育教學有如此重要的影響,所以改革考核評價機制對教育質量的影響也是巨大的。相比于初、中等教育,國家和社會對高等教育的質量更為關注,因為高等教育培養(yǎng)的人才直接面向社會需要,完成高等教育的學生會直接進入社會、參與社會。因而,本文著重分析改革考核評級機制對提高我國高等教育質量的作用。
長期以來,我國高等教育系統(tǒng)中對學生的考核評價機制存在諸多不合理之處,這些不合理之處表現(xiàn)在以下五個方面:
(一)考核形式單一,缺乏多樣性。目前我國高等教育階段對學生的考核仍然以考試為主,而且多數是閉卷的筆試,除外語類的其他科目考試基本沒有口試。筆試多是期末一次性考試,考試成績的偶然性較大,很少有平時的考試,這種考核方式與應試教育的考核方式沒有差別,并不能真正考察教育教學的效果??荚囋谄谀┻M行,削弱了考試對教育教學信息反饋的作用。雖然許多高校都設有平時成績這一項,但平時成績名存實亡,平時成績的多少由老師給定,有些老師以出勤定成績,有些老師甚至不考慮出勤情況,完全忽視對平時成績的考察,多數情況下平時成績成為老師為不及格學生提分的工具。另一方面,增加平時的考核內容會增加老師的負擔,由于學校缺少對平時考核的監(jiān)督檢查,在缺少監(jiān)督的情況下,多數老師對平時的考核很懈怠,平時成績儼然已成為“雞肋”。論文是對學生綜合運用知識能力的考核,但僅有少數課程以論文的形式就行考核,而且論文多是期末交,缺乏對平時學習效果的考核。
(二)考試內容以記憶性知識為主,缺少對學生創(chuàng)新性和對知識運用能力的考核。閉卷考試的題型固定,分值固定,考試的知識點多為記憶性的。很多老師在考前為學生劃重點,讓學生加強記憶,甚至有些老師通過漏題的形式提高學生的成績。這樣的考試形式使記憶能力強的學生能考得好成績,很多學生依靠考前的突擊式的背書就能考高分,而記憶能力差的學生就會吃虧,而且這樣的考試也不能考察學生的分析能力和創(chuàng)新性,對知識缺乏應用。
(三)我國嚴進寬出的高等教育模式使考核缺乏嚴格性。學生一旦進入大學,意味著不再需要像高中那樣刻苦學習,“六十分萬歲”的思想頗為流行,如果僅僅是為了拿畢業(yè)證和學位證,大學可以說無學習壓力可言。對于辛辛苦苦考上大學的學生來說,如果因為考試不及格而無法畢業(yè),別說學生,就是家長和老師恐怕都無法接受,因而老師自然而然就降低了考試判分的嚴格性??荚嚨膰栏裥越档?,再加上伸縮性極強的平時成績,學生很容易就能及格,這樣的考核根本不能真實反映高等教育的效果,教育質量怎能提升?此外,學生的自由選課權給老師造成一定的壓力,如果一個老師給分低了學生就不選他的課了,這在一定程度上使考試客觀性和嚴格性受到影響。
(四)對學生的評價過度依賴考試成績。學校評獎學金、保送研究生、評優(yōu)秀班干部、推優(yōu)入黨都和考試成績掛鉤,這一方面使得成績好的同學追求更好的成績,造成類似應試教育的效果,另一方面使得成績不好的同學放棄對好成績的追求,學生對待考試成績的態(tài)度“兩極分化”,使考試失去激勵作用。無論是哪個結果,都無法發(fā)揮考試應有的作用,考核評價機制檢測教育教學效果和反饋教育教學信息的作用嚴重削弱。
(五)對于期末一次性的考試,考完后學生只知道自己考了多少分,而究竟哪些題做錯了,哪些知識點丟分則完全不知道,由于一門課考完后就不再學了,學生也就不去想到底哪兒出錯了,這樣不利于學生全面掌握知識。學校沒有相關的規(guī)定要求老師向學生完整地反饋考試結果,學生也很少主動向老師索要,老師則更不會主動去勞神費心地為學生提供分析。
我國高等教育考核評價機制存在的這些問題嚴重影響我國高等教育的質量,考核評價機制在我國高等教育教學中發(fā)揮的作用不容忽視,因而,構建科學的考核評價機制勢在必行。根據我國高等教育考核評價機制存在的問題,為了達到高等教育質量的提升的目的,改革考核評價機制應該包括以下五個方面:
(一)考核形式的多樣化,注重平時成績的考核。高校應該增加平時成績在綜合成績中所占的比重,并增加平時成績考核的多樣性,利用平時小論文、課堂展示、課程設計、課堂討論和小組合作等形式進行考核。平時成績的考察能增強考核評價機制反饋教育教學信息的作用,并能減少期末考試一考定成績的偶然性,真實反映學生在教學過程中學習情況。利用口試的形式全面了解學生對知識的掌握和運用能力。期末考試應更多利用論文、案例分析、開卷考試等形式,綜合考察學生的各項能力,尤其是注重利用論文作為考核的方式,論文的寫作需要查閱大量相關文獻,能綜合考核學生的理解、分析和寫作能力。
(二)考核內容的全面性與科學性。要減少對記憶性知識的考核,增加對知識運用和分析能力的考核;試卷中減少客觀題比例,增加主觀題比例,考察學生運用所學知識進行論述和案例分析的能力。發(fā)達國家高等教育階段對學生的考核很少涉及記憶性內容,更側重綜合能力的考核,這一點值得我們學習。
(三)增強考核的嚴格性和客觀性。要想通過考核檢測教育教學效果和反饋教育教學信息,必須增強考核的嚴格性和客觀性。要統(tǒng)一判分的標準,不能因人而異,判分要嚴格依照判分標準,對于主觀題,老師要根據學生答題內容公平地給分,不能通融不及格的學生。考核嚴格了,學生們自然不敢懈怠,考核的目的也就達到了。不僅期末考試要嚴格,平時考核也要嚴格,考核方式一旦確定,老師和學生都要嚴格遵守考核規(guī)定,對于違反規(guī)定的,學校要依照規(guī)章制度予以懲罰。
(四)評價學生不能單純依靠學習成績。學習成績固然是評價學生的重要工具,但是對于高等教育階段的學生,其綜合素質不僅表現(xiàn)在學習成績方面,還表現(xiàn)在思想上和道德上。評價學生要考慮其參與社會實踐的程度,思想道德的發(fā)展和其他學術成果等,關注其綜合素質。鼓勵大學生參與社會實踐,培養(yǎng)自身興趣愛好,提高自身解決問題的能力。
(五)老師要把考核結果及學生存在的問題反饋給學生。大學生通常只知道自己考試得了多少分,至于哪些知識點上丟分則不知道,加之一門課只學一學期,考完后學生們也不想知道到底哪些知識點沒學好。因此,要想讓學生學好,必須把考核結果完整地反饋給學生,使學生真正明白。
我國的高等教育正處在快速發(fā)展階段,而考核評價機制卻沒有跟上高等教育發(fā)展的步伐,考核評價方式與初、中等教育階段沒有太大的區(qū)別,落后的考核評價機制制約了我國高等教育質量的提升,不符合培養(yǎng)高質量人才的要求。因而必須改革我國高等教育的考核評價機制,引導高等教育發(fā)展,通過考核提高學生學習的積極性,全方位培養(yǎng)學生能力,公正、客觀地評價教育教學效果,發(fā)揮高等教育培養(yǎng)高端人才的作用。
[參考文獻]
[1]胡海霞,李鋼.談教學型高??己嗽u價機制下的考試制度[J].考試周刊(考試研究版),2010(9):1-3
[2]楊愛英,宋揚.高等教育考核方式改革初探[J].常州信息職業(yè)技術學院學報,2009(2):19-20
[3]趙麗娟,孟憲國.淺論素質教育考核評價體系之構建與創(chuàng)新[J].齊齊哈爾大學學報(哲學社會科學版),2005.7:151-152
一、活動背景
光污染是繼水、氣、聲和渣污染之后的一種新型污染,主要包括白亮污染、人工白晝和彩光污染。光污染的影響首先在于破壞天文觀測環(huán)境,歷史上天文臺因此而被迫搬遷的案例屢見不鮮。英國格林尼治天文臺早在1948年就為躲避光污染和大氣污染而遷往東南沿海環(huán)境優(yōu)美、觀測條件更好的赫斯特蒙蘇堡地區(qū)。在美國、加拿大、日本、西班牙、葡萄牙等國,多個著名天文臺都曾幾次遷址。我國紫金山天文臺的觀測工作也全部轉移到了其他觀測站點,紫臺園區(qū)則已改建為天文博物館,以天文科普和天文旅游為主,僅保留了少量與太陽觀測有關的科研工作。
光污染的影響其實并不局限于天文觀測。居高不下的學生近視率、迷途的海龜幼崽、撞上玻璃幕墻的飛鳥、爆發(fā)性增殖的水藻、能源緊缺與氣候變暖,這些看似并無關聯(lián)的人與事,其實背后都與燈光之擾息息相關。
作為長三角地區(qū)的重要城市之一――無錫的光污染較為嚴重。在距市中心三陽廣場約6.2公里遠的天一中學校園里,天空是白的是灰的是橙的是多彩的,北斗七星中的天權是看不到的,獅子座的鐮刀是認不全的……在距三陽廣場16.9公里遠的斗山山頂,連仙女座大星系M31和獵戶座大星云M42都僅能勉強分辨,山腳下的路燈和遠近城鎮(zhèn)的光源清晰可見,天空泛著淺淺的灰白色……在與市區(qū)間隔有10公里的太湖十八灣地區(qū)竟連天頂附近的銀河都徹夜不現(xiàn),三角座星系M33也必須要通過雙筒鏡才能被觀察到……
為提高學生及公眾對光污染的認識,學校針對性地引進了一批測光儀,并依托天一天文社加賀谷穰工作室(文化宣傳部)、達蓋爾工作室(學術委員會)、伽利略工作室(普及委員會)和斯科特工作室(項目辦公室),設計了“多層次城市夜空光度測量科技教育活動”,策劃并實施了多個文宣、教育、科普和研究性項目。
二、活動目標
知識與技能:
1.理解夜空光度、光污染的概念,了解導致夜空光度增大的主要原因。
2.掌握夜空光度分級的方法,并能運用器材測量夜空光度值。
3.了解背景光對天文觀測的影響,
學會設計反映此原理的科普實驗。
過程與方法:
1.開展觀星活動、光污染攝影與夜空光度測量活動,掌握天文觀測及夜空光度測量的基本方法。
2.了解策劃、組織活動的過程,學會科學研究的一般方法,實驗設計的一般結構。
情感、態(tài)度和價值觀:
1.了解城市對自然地理環(huán)境的改變,不合理的城市亮化帶來的環(huán)境問題,敢于解決問題。
2.在活動中,提升科學素養(yǎng),發(fā)展科學思維、合作創(chuàng)新精神。
三、參與對象與活動形式
活動對象以天一天文社社員為主體,包括國際分社約40人,少年分社約40人,高中分社約70人,榮譽分社約20人。此外,還包括無錫市中小學天文聯(lián)合會(錫天聯(lián))下屬成員學校約150人,以及其他相關單位的學生約300人。
活動主體――天一天文社社員參與了“多層次城市夜空光度測量科技教育活動”的全部項目、環(huán)節(jié)的活動,包括項目研究、實驗設計、科普觀測和攝影活動。錫天聯(lián)成員學校、無錫市少年宮等其他相關單位的學生主要參與了科普觀測和攝影活動。
四、活動的重點、難點、創(chuàng)新點
活動重點:搭建天文研究平臺,以光污染研究為抓手,調動學生積極性,讓更多的學生參與到天文活動中來。
活動難點:城市夜空光度測量研
究,光污染相關實驗設計。
活動創(chuàng)新點:由中學發(fā)起并組織
的使用國際頂尖測光儀對城市進行高覆蓋度的夜空光度測量研究,夜天光監(jiān)測站點建設在世界范圍內都具有唯一性;由中學生開展科普實驗設計與教材編寫同樣具有開創(chuàng)性;以光污染為主題的攝影大賽在當今世界也是少見的。
五、可利用的各類科技教育資源
1.技術指導:中科院紫金山天文臺科普部、北京師范大學天文系高爽老師、國家天文臺劉博洋博士等以技術顧問的身份,參與了“城市夜空光度測量”的相關活動指導。此外,南京大學、中國科技大學、北京天文館的專家教授們也曾多次來校指導天文課程建設。
2.團隊建設:錫天聯(lián)成員學校、無錫市少年宮等作為天一天文社緊密的合作伙伴,不僅為開展與夜空光度相關的科普活動提供了場地與學生支持,而且還有一批教師參與共同開展天文教研活動,形成了教研團隊。
3.資金支持:天一中學為開展天文教育投入了大量的資金,已多批次采購天文實驗器材如望遠鏡、測光儀、相機、野營設備、圖書等,并已建設完成天文創(chuàng)新實驗室一間;天文創(chuàng)新實驗室作為學校“STS綜合創(chuàng)新課程基地”的重要組成部分,還得到了省市區(qū)各級教育部門的專項建設資金支持;錫天聯(lián)成員學校、無錫市少年宮等單位也配套投入了相關的天文基地建設。
六、活動內容
“多層次城市夜空光度測量科技教育活動”的全部項目、環(huán)節(jié)的活動,包括項目研究、實驗設計、觀測實踐和攝影活動等多個層次,分別由天一天文社斯科特工作室(項目辦公室)、伽利略工作室(普及委員會)、達蓋爾工作室(學術委員會)和加賀谷穰工作室(文化宣傳部)等四大工作室具體負責。表1為各工作室的智能類型列表。
(一)主題活動一:城市夜空光度測量(項目研究)
1.選題背景及意義:
無錫作為長三角地區(qū)的重要城市之一,經濟發(fā)達,城市光污染情況總體比較嚴重,但是不同區(qū)域的污染程度也存在明顯差異。夜空光度是衡量城市光污染程度的重要指標,通過使用專門的測光儀器,對無錫城區(qū)進行高覆蓋度的光度測量,從而了解無錫城區(qū)整體的污染程度,不同區(qū)域的污染水平差異,以及分析光污染產生的背景,并嘗試提出防治的建議,有利于提高公眾對光污染的認識,也能為城市管理部門在優(yōu)化城市燈光設置時提供參考。
2.活動過程和步驟:
(1)編寫《無錫市夜空光度測量指導》方案。指導學生收集、整理與夜空光度測量相關的研究論文及其他材料,對“光污染”“夜空光度”等概念進行界定,并組織編寫《無錫市夜空光度測量指導》方案,就測量時間、地點、方法及報告填寫的格式予以統(tǒng)一規(guī)范。
(2)撰寫開題報告。指導學生撰寫《無錫城市夜空光度測量》開題報告,對研究背景、要解決的問題、選題意義及研究價值,核心概念的界定、相關現(xiàn)狀、參考文獻,研究目標、研究內容、研究假設,研究思路、研究計劃,預期成果等內容進行項目論證。經論證后的項目被中國教育學會地理教學專業(yè)委員會研究性學習課題專家組立項。
(3)開展測量活動。指導學生開展城市夜空光度測量活動,具體步驟有:
①儀器編號:為支持本課題組
的研究工作,學校從加拿大購置了9臺SQM測光儀,并予以編號(以分辨儀器本身存在的機械誤差)。
②路線設計:將無錫市區(qū)劃分為
不同的片區(qū),并設計好測光的具體行
進路線和測光任務。
③實地測量:將課題組成員分成不同的小組,每組由3人組成,分別負責儀器操作、數據記錄和坐標定位,每個坐標點測5個數據,以減小誤差。
④數據處理:將測光所得的數據(經度、緯度、時間、測光值)輸入EXCEL表格,進行誤差分析,取平均值,得到各坐標點夜空光亮度的最終值。
(4)撰寫結題論文。指導學生根據開題報告中預期成果的要求對收集的數據進行不同角度的分析,并將結論撰寫成結題論文《無錫城市夜空光度測量研究》。結題論文主要結構包括:夜空光概述,測量儀器及方法,數據分析及測量結果(數據測量與分析步驟、夜空光亮度的地區(qū)分異、夜空光亮度的地區(qū)變化、夜空光亮度的地平高度及方位分異、夜空光亮度的時間變化),反思及討論等。于2015年第4期《地理教學》雜志。
3.活動效果及呈現(xiàn)方式:
活動進行過程中及之后,我們得到了諸多媒體的關注:指導教師受邀赴上海復旦大學為2015年第六屆全國天文社團發(fā)展論壇作了《也談高中天文社團建設》的專題報告,赴江陰為2015年第二屆無錫市高中生峰會作了《城市天文學》的專題報告。項目組還收到了國際天文學聯(lián)合會普及工作委員會及香港大學物理系的邀請函,受邀加入國際夜空光度監(jiān)測網絡并赴香港大學開展項目交流與培訓。
在前期活動的基礎上,天一天文社發(fā)起成立了錫天聯(lián)、無錫城市夜空光度監(jiān)測網絡兩個組織,吸引了南菁中學、青陽中學、山明中學、旺莊實驗小學等多家單位參與,將在無錫建設若干城市夜空光度監(jiān)測站,并以此為抓手,開展進一步的天文教育活動。
(二)主題活動二:光學相關實驗設計(科普實驗)
1.選題背景及意義:
激發(fā)學生對科學的熱情,培養(yǎng)并學習掌握科學研究的方法與技能是我國進行素質教育的目的之一??茖W研究的方法和技能至少應包括:分析和觀察周圍世界的技能,發(fā)現(xiàn)問題、提出問題、作出假設、安排實驗的技能,真實地記錄觀察結果與數據的技能,按照正確方法處理數據的技能。
天文因為不屬于中小學必修課程而不被大多數學生所了解,中學階段非常缺乏天文科普實驗或科技制作的教學內容,非常有必要利用天一天文社的資源優(yōu)勢整理、設計一些科普天文實驗或制作,這些源自我們身邊的天文科學知識將極大地激發(fā)學生對天文的興趣,增加他們對天文的認識,促進天文知識在基礎教育階段的普及。
2.活動過程和步驟:
(1)編寫“光學相關實驗設計”模板。指導學生學習《高中物理實驗手冊》等專業(yè)書籍,在此基礎上,編寫“光污染相關實驗設計”模板:活動目標、概念與方法、材料準備、活動步驟、活動建議、活動拓展等,同時,設計一份樣稿《在微光中辨認顏色》。
(2)開展“光學相關實驗設計”。指導學生開展“光學相關實驗設計”,具體步驟有:
①創(chuàng)意征集:發(fā)動學生提出光學
相關實驗(及制作)設計的創(chuàng)意,組織人員從投稿的創(chuàng)意中精選可操作性較高的方案。
②方案編寫:制訂編寫計劃,并為課題組每一位學生分配編寫方案(草案),指導他們根據模板和樣稿的格式及要求進行方案編寫。
③實驗驗證:將課題組成員分成不同的小組,每組2人,以小組為單位對所編寫的方案進行實驗驗證。
(3)組織“光學相關實驗設計”比賽。面向全校師生組織開展“光學相關實驗設計”比賽,吸引對天文有興趣、樂于動手實踐的學生參加“在微光中辨認顏色”“彗星為什么長尾巴”“簡易望遠鏡制作”等比賽,并評優(yōu)頒獎。
(4)舉辦“光學相關實驗設計”科普活動。面向錫天聯(lián)成員學校、無錫市少年宮及無錫地區(qū)其他中小學、幼兒園開展“光學相關實驗設計”科普活動,針對不同年齡階段的受眾舉辦光污染科普講座或科普游戲。
3.活動效果及呈現(xiàn)方式:
學生編寫的“光學相關實驗設計”將被編入校本教材《中小學生天文學習指南3》,這是一本專門介紹天文相關科普實驗及科技制作的教材,受眾定位為中小學天好者及天文指導教師。
上述科普實驗及科技制作被引入天文社“宇宙意識”少兒天文科普項目及“天文全球化”社區(qū)天文科普項目,作為寓教于樂的教學素材向少年兒童及社區(qū)的天好者推廣。
(三)主題活動三:星空光害旅行團(觀測實踐)
1.選題背景及意義:
對業(yè)余天好者來說,觀星是極大的樂趣所在。然而,嚴重的光污染正將燦爛的星空從我們身邊
奪走。
為便于普通學生及其他業(yè)余天好者通過對比觀測,直觀地了解無錫各地的光污染情況,我們依托天一天文社組織的“天一觀星營”項目,開展了“星空光害旅行團”活動,帶領旅行團的團員們利用晚上的時間,去往錫城不同的地點,實地觀測、考察并對比分析星星的數目,從而普及光污染的防治意識、夜空光度的概念。
2.活動過程和步驟:
(1)編寫觀測方案。指導學生編寫觀測方案,使用最常見的目視極限星等法,即通過肉眼能觀察到的最暗星等來進行估算:選擇2個或2個以上地平高度大于40°的定標天區(qū),數出該天區(qū)內能觀察到的恒星數目,與國際流星組織提供的表格對應來確定極限星等。同時,為便于零天文基礎的團員參與,我們設計了簡易觀測法,請同學們觀測標志性星座所在天區(qū)的恒星數量,來比較不同地點的光污染程度。
(2)開展觀測實踐。帶領旅行團的團員們利用晚上的時間,去往無錫城不同的地點,實地觀測、考察并對比分析星星的數目。具體觀測過的地點有太湖廣場、馨和苑廣場、天一中學、斗山、保利廣場、崇安寺廣場、南禪寺廣場、安鎮(zhèn)高鐵新城、太湖十八灣等。(見圖9、圖10)
3.活動效果及呈現(xiàn)方式:
通過“星空光害旅行團”活動,結識了一批無錫地區(qū)的成年及未成年業(yè)余天好者。以此為抓手,天一天文社發(fā)起成立了“無錫市業(yè)余天
好者協(xié)會”QQ群。以此活動為素材撰寫的《星星都去哪兒了》發(fā)表在《天好者》雜志2016年第2期。
(四)主題活動四:光污染攝影大賽(文化藝術)
1.選題背景及意義:
為推動公眾思考光污染在無錫及其所在社區(qū)的狀況,讓公眾參與光污染活動,我們發(fā)起了“光污染攝影大賽”活動。邀請公眾使用攝影設備捕捉各種光污染的畫面,從而了解及思考無錫地區(qū)乃至全世界日益嚴重的光污染問題。比賽主題分為:光污染與生態(tài)、光污染與健康、光污染與能源、光污染的分布、光污染的來源等。評選標準主要有:攝影照片視覺美感、作品說明表達技巧、光污染意涵、手法創(chuàng)意等。
2.活動過程和步驟:
指導學生起草“光污染攝影大賽章程”,包括組織單位、大賽目的、比賽主題、參賽資格、參賽設備、照片格式、相關權益、比賽日程、評選規(guī)則等。
章程起草完畢后,通過錫天聯(lián)官網、錫天聯(lián)微信公眾號(AUWS2015)、無錫市業(yè)余天好者協(xié)會QQ群(91462404)、牧夫天文論壇無錫天協(xié)專版等渠道向外比賽信息。
投稿截止后,組織專家對作品進行評審,并舉辦頒獎儀式。
3.活動效果及呈現(xiàn)方式:
通過光污染攝影比賽,一方面間接了解了無錫地區(qū)光污染的來源、分布情況,另一方面,在公眾中對光污染進行了有效的宣傳與普及。光污染攝影作品還被制作成海報,用于專題展覽。
七、活動可能出現(xiàn)的問題及解決預案
1.項目研究中的技術問題:
考慮到光污染問題在大陸地區(qū)的研究仍處于起步階段,即便在世界范圍內也未引起足夠的重視,我們在開展夜空光度測量時會遇到各種各樣的技術問題。對此我們的解決方案主要是:
(1)開題報告與測量指南兩個指
導性文件必須花大力氣保證質量,保證指導性和可操作性。
(2)爭取學校在測光儀采購上的
支持,以及年級組、班主任在學生活動時間上的支持。
(3)遇到實在難以解決的技術問題,請教中科院紫金山天文臺等相關研究機構。
2.科普實驗中的素材問題:
中學生的專業(yè)知識儲備畢竟是有限的,對生活的觀察能力也仍有待提高,這直接導致了科普實驗素材的缺乏。對此我們的解決方案主要是:
(1)大量、深度閱讀中小學階段及國外的實驗手冊,學習實驗編寫的一般結構,積累與光學相關的實驗和科技制作素材。
(2)通過天文科普書籍和天文歷
史故事,尋求實驗和科技制作素材。
(3)面向全校發(fā)起光污染相關實
驗和科技制作素材的征集活動。
3.觀測實踐中的安全問題:
夜間開展天文觀測實踐活動遇到的最大挑戰(zhàn)是人身與財產安全問題,很多學生、家長或教師不支持天文活動也主要是對此有深深的顧慮。對此我們的解決方案主要是:
(1)與參加活動的學生簽訂合同,
并要求學校同意、學生簽字、家長簽字。
(2)統(tǒng)一、強制購買意外險,分擔風險。
(3)與有資質、口碑好的旅行社合作,聯(lián)系包車或食宿。
(4)對每一個觀測地點進行事先
的實地探訪,確保觀測地的安全性,遠離陡坡與水體。
4.攝影大賽中的發(fā)動問題:
攝影大賽看似簡單,就是摁一下快門的事。但真正要發(fā)動公眾參加,激發(fā)大家的熱情卻并不是一件簡單的事。對此我們的解決方案主要是:
(1)通過錫天聯(lián)成員學校的天文
指導教師,發(fā)動學生中的天好者參賽。
(2)通過官網、微信公眾號、QQ群等網絡平臺推送攝影大賽比賽通知。
(3)積極聯(lián)系贊助,為獲獎選手準備證書、獎杯及獎品。
八、效果評價標準與方式
在評價的過程中,堅持“主體多元”“方式多樣”“向度多維”等原則。
1.主體多元:
在活動過程中,要求學生首先進行自評和互評,不同組別之間也可以進行他評。這有利于加深學生對評價標準的認識與理解,可以促進學生自我反思和自我發(fā)展。教師在此基礎上,對學生自評、互評及他評進行再評價,保證了評價的指導性。
2.方式多樣:
在活動過程中,靈活運用即時評價與延時評價。即時評價有利于表揚先進,糾正缺陷;延時評價則體現(xiàn)了尊重、關愛與期待。此外,還將口頭評價與書面評價,一次評價與多次評價,診斷性評價、過程性評價與終結性評價等多樣化的評價方式相結合,以保護學生的積極性,強化學生的成就感。
《教育的樞紐》主要有七個主體章節(jié),主要從公眾關注的熱點、難點問題入手,對中國高考的一系列重大事件進行解讀,并以云南省考試招生工作改革為主旨,詳細介紹了中央及云南省內教育改革和發(fā)展計劃。在個別章節(jié),作者倡導崇尚實學、突破創(chuàng)新的教育風氣,主張從現(xiàn)代教育的本質和發(fā)展趨勢出發(fā),提出新時期中國教育發(fā)展的新思維,建立符合中國文化特征、符合中國民眾意識、符合時代需要的中國特色社會主義現(xiàn)代教育制度。顯然,這也是華山先生的現(xiàn)代教育理想,它并非單純意義上的改革思路,而是于其中貫穿著的現(xiàn)代教育文化意識。在此基礎上,他列舉了大量事例,運用對比、互證等方式,總結研究出了眾多招考改革經驗和成果。
讀華山先生的《教育的樞紐》,還產生一些感慨。他說,“文章薈萃了一些實踐經驗,收藏了一些辛勤付出、聚集了一些關心呼聲,大多論述的是中國教育改革,都是以當事者的身份在解釋、評述、分析和探索教育的發(fā)展與改革,既表達了自己對中國教育改革成果的欣悅,也展開了自己對中國教育未來發(fā)展的憧憬?!泵孔x這段話,我都不禁怦然心動。這何嘗不是我們每一位關心中國教育改革和發(fā)展者的心聲呢!
推薦書目:《教育的樞紐》
作者:朱華山
出版社:云南教育出版社
Mislevy等(1993)指出,統(tǒng)計測驗理論的發(fā)展可以分為經典測驗理論(Classical Test Theory, CTT)階段、概化理論階段和項目反應理論(Item Response Theory, IRT)階段。CTT和IRT 都屬于標準測驗理論。標準測驗理論視所測的心理特質為一個單純的統(tǒng)計結構,目的在于從宏觀上給個體一個整體的評估。隨著心理測量學和認知心理學的進一步發(fā)展和現(xiàn)代教育技術水平的進步,學習者更加渴求獲得更具體的、細微水平的測量與診斷評估。Frederiksen、Mislevy和Bejar(1993)編著的Test theory for a new generation of tests正式出版,標志著新一代測量理論的誕生。如圖1所示,認知診斷評估逐步走入歷史舞臺,強調能力水平和認知水平維度能夠被同時診斷,不再僅僅是單一的宏觀維度的知識水平。計算機化自適應認知診斷測驗(Computerized Adaptive Test for Cognitive Diagnosis, CD-CAT)是計算機化自適應測驗理論和認知診斷理論相結合的產物,目的是達到因材施教量體裁衣式的自適應診斷,根據學習者當前狀態(tài),選取與之相適應的題目進行測試,進而診斷學習者能力水平和認知水平,以診斷報告的方式為學習者提供提升的建議和策略。
縱觀計算機技術與統(tǒng)計測驗的結合,其發(fā)展分為兩個階段:其一是以項目反應理論(IRT)為代表的標準計算機自適應測量階段;其二指新一代測量理論的計算機自適應階段(認知診斷是其核心內容)。項目反應理論的特點是以概率函數的形式來描述項目作答反映結果是如何受到被試能力水平和項目特征聯(lián)合作用的影響。自適應測驗起源于Alfred Binet(1904)開發(fā)的智力測驗,根據被試的不同特質水平和題目的不同難度與區(qū)分度,對被試實測不同的測驗題目,使這些題目與被試的實際水平盡可能相適應,這樣使測驗更具有針對性,從而每施測一道題就能獲得最大的信息量。
當現(xiàn)代技術手段計算機引入到測量領域中,計算機化自適應測驗(Computerized Adaptive Testing, CAT)由此誕生,由計算機自動從題庫中選擇合適的題目給學習者作答,一方面能夠在學習者做完后自動評估其能力水平,給出適合學習者的下一道題目;另一方面能夠自動設定終止規(guī)則,即當達到能夠評估學習者能力的題目數后,測試會自動停止。之后,運用CAT思想與認知診斷理論結合,從題庫中選擇最適合學習者水平和最能區(qū)分水平能力的題目作答,對其知識狀態(tài)達到最恰當的評估。CD-CAT更多關注被試掌握模式的自適應,根據可觀察的行為和反應,推測潛在的知識結構和技能掌握情況。例如,獲得相同分數的學生不能夠體現(xiàn)個體差異,如果在測驗中能夠對學生作答反應、知識反應和能力診斷,從而能夠進一步提出補救措施。CD-CAT的流程包括:開始測試初始題目選擇估計被試當前狀態(tài)選題策略認知診斷計量模型終止條件診斷報告。對于CD-CAT的研究目前處于探索開發(fā)階段,組成CD-CAT各個階段的問題仍需要摸索和實踐應用,例如如何確定知識狀態(tài)和表征能力屬性、認知診斷模型的應用研究,如何選擇初始題目,以及題庫的開發(fā)、建設與維護等方面。
綜上所述,為了從整體上把握CD-CAT在國內的發(fā)展脈絡,厘清發(fā)展現(xiàn)狀和研究聚焦,提出實施CD-CAT的科研建議和實施策略,分別從以下方面進行分析:一方面,以時間(2005-2015年)為軸,考察關于認知診斷自適應測試文獻的研究情況,采用內容分析方法對已有百余篇中英文文獻進行內容分析,并通過數據的可視化表征和社會網絡分析工具,探討其研究重心和內容;另一方面,通過分析國內外已有CD-CAT平臺和項目的實踐情況,總結和借鑒國外實施經驗,為我國今后的CD-CAT研究提供發(fā)展策略。
二、研究過程
(一) 研究方法與工具
本研究主要采用文獻研究法、內容分析法和數據可視化的方法,通過對有效文獻的各類屬性進行分析和標識,從而獲得不同維度的計量分析結果,即對本質內容進行不同方面、由淺入深、層層遞進的非線性分析。研究主要借助軟件管理軟件NoteExpress、數據處理軟件SPSS 20.0和詞云生成平臺Tagxedo。首先,界定研究內容和范圍CD-CAT;然后,團隊成員分別對2005-2015年的文章進行篩選,梳理成為研究樣本;接著,根據已有文獻確定分析維度,以理論概述、現(xiàn)狀實踐、研究方法等為分析內容,對樣本進行統(tǒng)計和處理。
(二) 數據收集
采用內容分析法對2005-2015年國內發(fā)表的關于自適應認知診斷的文獻進行比較、分析、綜合,對研究內容和現(xiàn)狀進行梳理和總結。為了研究的嚴謹性和數據分析的準確性,將學術論文與畢業(yè)論文分開統(tǒng)計,中文數據庫來源有中國知網和萬方數據庫,以認知診斷和認知診斷自適應測驗為關鍵詞進行搜索,與教育測量和教育技術領域相關的文獻匯總如下:中文學術期刊檢索到140篇,學位論文68篇;CSSCI期刊主要集中在《北京師范大學學報(社會科學版)》《教學學報》《心理科學》《心理科學進展》和《心理學探新》等。為了對比中英文文獻關于結果分析中初步印象部分的差異,即關注焦點可視化部分,選取以Computerized Adaptive Test for Cognitive Diagnosis和Cognitive Diagnosis為關鍵詞,在Computers Education、 Computers in Human Behavior和Journal of Computer Assisted Learning(數據庫分別為ScienceDirect、SpringerLink、Wiley Online和ERIC)等教育技術專業(yè)相關期刊中搜集到論文66篇。
本研究進行了兩輪文獻搜索和文獻篩選,共有5名團隊成員參與,針對不同期刊進行分工。第一輪主要對目標期刊和目標關鍵詞進行地毯式搜索,得到中文文獻233篇,英文論文79篇,利用文獻管理工具NoteExpress將其分類保存;第二輪采用內容分析法對自適應認知診斷文獻的關鍵詞、作者、研究主題進行分類,最終確定中文文獻140篇,英文文獻66篇。對作者進行分析的主要目的是對不同研究帶頭人和研究單位的分布進行研究,以辨識其影響力和規(guī)模。首先,主要對文獻的研究主題進行分析。團隊成員基于文獻閱讀和積累對計算機自適應測試、認知診斷、自適應認知診斷測試的過程進行分類,討論之后達成一致,構建初步框架;其次,在上述框架基礎上,根據文獻的關鍵詞進行記錄。如《小學數學圖形與幾何認知診斷測驗的編制》一文中,以認知診斷、多策略、多級評分和Q矩陣為關鍵詞,對多策略的多級評分認知診斷算法(多級評分廣義聚類判別法,GDD-P)進行改進與應用,并且介紹了測驗藍圖編制、Q矩陣,與單策略認知診斷方法進行對比,是對算法和理論的深入研究。因此,該文章涉及的分析內容分別是:理論研究、Q矩陣、認知診斷模型。該文章分析的一致性(5位成員)達到93%;最后,確定分析框架,對所有文獻進行閱讀,完善文獻分析內容。
(三) 結果分析
1. 初步印象:有哪些研究關注點
本研究選取數據可視化詞云的表達方式展示樣本研究的核心內容??紤]到支持中文統(tǒng)計的功能,選擇統(tǒng)計平臺Tagxedo(http://tagxedo.com/app.html),詞云支持中文輸入,對文字的輸入內容、形狀等可以個性化定義(如圖2所示)。中文詞云中認知診斷規(guī)則空間模型和屬性等頻
次最高,領銜關鍵詞說明了研究領域的聚焦,其中研究問題主要關注于學業(yè)評估診斷、認知診斷模型驗證與應用(如DINA模型)、紙筆考試與計算機自適應考試差異研究與效度研究??梢猿醪酵茢辔墨I研究集中于CD-CAT的知識屬性、認知診斷模型研究等初步應用階段。
為了使中英文文獻具有對照意義,同樣選取統(tǒng)計平臺Tagxedo進行詞頻統(tǒng)計和可視化處理(如圖3所示)。英文詞云中顯示具體的應用方法(蒙特卡羅模擬法)、語言程序(R語言)知識評估和學習干預成為僅次于測試、自適應等的關鍵詞。從宏觀角度看,一方面,英文文獻的關注點更加聚焦,能夠對實際的認知模型進行測驗和實踐應用;另一方面,體現(xiàn)了自適應認知診斷測驗的價值和意義所在,對學生的個性化學習進行指導和教學干預,利用技術促進測試診斷最大化的實現(xiàn)。
通過詞云分析,對CD-CAT的研究熱點有了初步了解。研究發(fā)現(xiàn),國內的研究關鍵詞集中在理論基礎、算法改進層面,與教育、學習等過程關聯(lián)較少;國外論文分析領域表示逐步通過技術方法作用于教育領域,與評估評價、反饋干預的實驗與應用關聯(lián)較多。如Sanja(2015)以C++面向對象編程課程為例,開發(fā)實現(xiàn)自適應測試平臺,選取實驗組與對照組,分別用自適應測試和筆紙測試進行比較,結合問卷、訪談的分析方法對自適應測試的過程、方法、優(yōu)勢、實驗應用進行詳細闡述;Triantafillou(2008)以計算機自適應測試理論為基礎,開發(fā)依托移動設備的自適應測試工具,將專家的評價靈活地運用于教育評估過程之中。
2. 漸入佳境:局部剖析
樣本分析單元分別從研究創(chuàng)新點、發(fā)表時間、單位、數量、研究方法和理論支撐等方面展開,具體統(tǒng)計維度涵蓋認知診斷測驗題庫建立、初始題選擇、選題策略、認知診斷計量模型、知識狀態(tài)估計方法、終止規(guī)則、原始題參數在線估計和屬性在線標定、理論研究和實踐應用等。
(1) CD-CAT研究歷程分析
借助NoteExpress 統(tǒng)計學術論文和學位情況,以圖4表現(xiàn)發(fā)展歷程。
作為量體裁衣式的測驗,CAT始于20世紀七八十年代。隨著網絡與科技進步,自適應測試可謂發(fā)揮到了極致,如GRE、GMAT、美國注冊管理會計師(CMA)等等。以認知診斷理論為基礎的CD-CAT相比較于CAT,更加能夠利用項目屬性和認知模型優(yōu)勢,進行診斷性的測驗編制和評測。從圖4可以看出,我國的發(fā)展從2006年起步,2008年研究文獻逐步增多,例如曾彥鈞等人(2006)提出CD-CAT以認知結構為基礎,在題庫建設、起始規(guī)則、選題策略、被試知識狀態(tài)估計、終止規(guī)則和曝光率等部分與傳統(tǒng)的CAT有很大區(qū)別。2011年,是學術論文和學位論文發(fā)展的高峰,之后學位論文研究數量所有下滑,期刊論文數量變化不大。
(2)CD-CAT研究內容分析
參照認知診斷評估的主要步驟包括:①描述測量目的和確定屬性;②創(chuàng)建認知模型;③設計測驗Q矩陣;④開發(fā)或選擇認知診斷模型(CDM);⑤評估Q矩陣和CDM;⑥模型參數估計;⑦評估診斷與干預。其中有的步驟可能循環(huán)或者迭代。對文獻的研究內容進行歸類(如表1所示)。
研究團隊詳細閱讀140篇學術文獻,發(fā)現(xiàn)很多文獻聚焦于診斷模型、Q矩陣,以及概況綜述和自適應認知診斷流程描述的研究,缺少完整的實踐應用的成功案例。統(tǒng)計數據表明:
①相比較于國外CD-CAT,國內相關研究進程較慢,并且研究內容集中在理論概述和小規(guī)模的實驗證明上,缺乏大規(guī)模應用CD-CAT相關的文獻支持。可見,國內自適應的教育評價方式應用還未大范圍普及,通過技術診斷學習者的能力水平和知識水平,并且提供有效的教學干預的案例還不夠成熟。
②基礎理論研究占文獻總數的74.2%。例如,唐小娟、丁樹良和俞宗火(2012)提出計算機化自適應測驗在認知中的應用,分別從認知診斷模型、題庫建設、起始規(guī)則、選題策略、被試知識狀態(tài)和終止規(guī)則等幾部分進行了詳細介紹。有64篇文獻(45.7%)對認知診斷模型進行介紹。截至2007年,常見的認知診斷模型有補償模型LLTM(線性邏輯斯蒂克測驗模型)和MIRT-C等,非補償模型RSM(規(guī)則空間模型)、DINA(確定性輸入噪音與門模型)、HO-DINA(高階DINA模型)、RUM(融合模型)和AHM(屬性層級模型)。
③實驗實踐比例為30%,其中有10%的文獻敘述了相應的教育干預措施,例如數學、物理、化學和英語??荡夯ǖ龋?015)以小學數學與幾何的知識點和問題解決能力作為認知屬性的分類,定義了數學知識和認知過程,并采用口語報告法對認知模型進行質性驗證,選取某校六年級1,128名學生進行了測驗。
近幾年,新模型的研究也為自適應認知診斷測試研究開拓了一片新天地,例如祝玉芳等(2009)的多級評分AHM模型,涂冬波等(2010)提出多級評分DINA模型。余娜(2009)提出診斷模型的評估問題由信度和效度決定,認知診斷評估中信度采用校正之后的模型產生兩組平行的模擬考生,分布估計每組掌握情況,計算相同考生被劃分到相同屬性掌握狀態(tài)的百分比。
3. 升華:合作關系追蹤
科學領域的研究往往存在學術帶頭人,也往往會以學術帶頭人為核心形成研究領域的網絡關系。本研究借鑒魏順平等(2008)提出的新的n-派系定義,利用研究者合作關系網絡研究,建立作者A-作者B關聯(lián)關系。在社會網絡分析中,派系(subgroup)是社群中的一小群人關系特別緊密。
首先,借助Excel統(tǒng)計研究者與文獻之間的關聯(lián)表(如表2所示),以作者-文獻-單位的方式表現(xiàn)。
本研究中CD-CAT文獻量大于5篇的作者見表3,通過論文作者和機構分析發(fā)現(xiàn),大部分文獻作者來源于高校和研究所,并且主要來源于江西師范大學的心理學院和計算機信息工程學院,以及北京師范大學心理學院。究其原因,計算機自適應認知診斷測驗研究屬于專業(yè)性較強、理論基礎扎實的研究領域,高校師生是新理念和方法的發(fā)起者和倡導者。認知診斷測試的最終目的在于以K-12教育為代表的評估教育,能夠實現(xiàn)學習者的自適應學習和診斷評價。文獻分布說明研究內容處于高校實驗室階段,缺乏社會的廣泛關注、實踐和推廣應用。
接下來,通過UCINET軟件呈現(xiàn)51個節(jié)點,借助作者間的合作,觀察圖中度計算并排序,選出處于前列的若干位作者(假定中心作者為學術帶頭人),然后計算以丁樹良為中心的合作關系網絡圖,如表4所示。
由于文章作者合作較多,本研究以文獻篇數最多的丁樹良派系作為研究范例,將上表的矩陣導入UCINET中,并繪圖(DRAW)得到科研合作關系網絡圖(如圖5)。
兩個節(jié)點的連線表示這兩個節(jié)點存在合作論文的關系,線條的粗細表示合作論文的篇數,線條越粗,則合作論文數量越多。
采用UCINET 社會網絡分析軟件將這些派系進行可視化處理。研究結果表明:
(1) 目前教育技術研究領域的合作類型主要為師生合作,較少跨校、跨區(qū)域合作;也存在少數的跨區(qū)域合作,因此形成了星狀輻射型。
(2) CD-CAT研究應走出團隊、校門,甚至跨越國界,開展跨校、跨區(qū)域、跨學科的科研合作,優(yōu)化研究團隊構成,從而進一步提高研究質量,加快知識擴散。
三、CD-CAT研究項目現(xiàn)狀
接下來對國內外認知診斷自適應測試的實驗與應用進行詳細介紹。從上述文獻分析可知,國內實踐案例較少,本研究團隊經過大量內容采集和梳理,選取相對規(guī)模較大的實驗案例分別進行闡述。而國外相對起步較早,2001年美國通過No Child Left Behind Act of 2001,表明有義務將施測結果告知學生和家長。因此,診斷測試的價值和意義不再僅僅是提供分數,而是需要提供補救措施等。本研究列舉美國應用較為廣泛的Smarter Balanced Assessment Consortium和最大的自適應系統(tǒng)平臺Knewton,并分別闡釋。
2009年,教育部基礎教育司組織北京師范大學、江西師范大學和中央教育科學研究所(現(xiàn)中國教育科學研究院)等一大批研究學者,以數學和英語為考試切入點,考察學生的核心知識和能力水平,以此命題進行認知診斷完成353道題目的編訂并且設定1套公共錨題,運用DINA模型進行診斷分析。
在北京師范大學心理學院劉紅云教授、美國伊利諾伊香檳分校張華華教授共同合作的The development of computerized adaptive testing with cognitive diagnosis for an English achievement test in China一文中介紹的研究,以國家基礎教育課程教材發(fā)展中心學生學業(yè)質量評價項目為依托,闡述了其在北京、大連等地進行計算機認知診斷的大規(guī)模測試的情況。由于軟件和硬件以及專業(yè)技能的限制,將CD-CAT應用于學校項目是一個巨大的挑戰(zhàn),該項目克服傳統(tǒng)C/S(Client/Server)框架,將B/S(Browser/Server)架構設計應用于國內的英語二級考試中。來自北京8所小學的584名學生首先參與了基于Web環(huán)境的測試,該測試有36道固定長度題目,規(guī)定40分鐘內完成。該實驗驗證了CD-CAT應用于大規(guī)??荚嚨木薮鬂摿透咝?,同時參與測試的考生可以從中獲取技能掌握情況的診斷報告,為后續(xù)進行學習干預和學習路徑調整提供了可能。此后,2011年1月,大約3萬名遼寧省大連市的五年級學生參加CD-CAT英語能力測試,該平臺利用網絡技術和自適應診斷技術,持續(xù)三天、同一時間承載2000人并發(fā)的測試。在此過程中,對題庫的優(yōu)化、采用香農熵方法選題算法,以及內容平衡和考試藍圖的限制的編制,都進行了較好的實驗。一方面,為學生和教師提供作答情況評定和診斷報告;另一方面,為研究者提供對CD-CAT效度全面審視的實踐機會,為認知診斷技術的大規(guī)模推廣奠定了堅實的基礎。
美國也有諸多公司關注和投入CAT的領域,如ASSESSMENT SYSTEMS的Smarter Balanced評估 系統(tǒng)(http://smarterbalanced.org/practice-test/)。在能力測驗方面,主要應用于評估學生的英語和數學能力。2010年,美國針對K-12提出了全美教育標準(Common Core States Standards, 簡稱CCSS),用于評估各個年級學生的數學能力和英語能力,并且已經在全美46個州和哥倫比亞區(qū)施行。Smarter Balanced 評估系統(tǒng)利用強制性的終結性評價和可選的中期評估來提升計算機自適應測試(CAT)的效率。在該評估系統(tǒng)中,計算機程序可以根據學生的響應來調整整個評估問題的難度。例如,一個學生如果回答正確,則會收到一個更具挑戰(zhàn)性的題目,而一個不正確的答案產生一個更簡單的問題。通過適應學生的能力水平,系統(tǒng)推薦了一系列量身定制的測驗問題給每個學生,可以快速識別哪些技能學生已經掌握,哪些知識維度學生還沒有掌握。Smarter Balanced Practice Tests包括評分指南,現(xiàn)可用于三年級到八年級的英語、藝術和數學的認知診斷,能夠為學習者提供一份可預覽的Smarter Balanced評估,清晰地反映每一位考生在當前學習中每一門學科中的強項和弱項,以及在未來學習中需要重點關注的領域。這種計算機評估能夠方便家長、校長和老師在很短的時間內看到成效,并且通過這些診斷反饋,對學生因材施教,滿足其個性化學習需求。
此外,熟知的Knewton公司基于項目反應理論,真實地測量出學生對知識點的掌握程度,避免因題目的難易程度不同造成測量誤差。Knewton自適應系統(tǒng)利用學生的歷史學習數據的網絡效應來優(yōu)化推薦,提高學生學習效率。建立學生學習檔案,預設一些學習路徑點(根據知識技能圖譜),根據實際學生的使用數據(學習資源的使用效果和學習路徑點的學習效果),為后來的學習者推送下一個學習路徑點和學習資源。
綜上所述,國外CD-CAT發(fā)展已經將智能學習系統(tǒng)、評估系統(tǒng)和教育測評融入其中。雖然從應用角度來說,自適應的成分居多,認知的成分較少,但是將診斷功能結合到計算機自適應測驗中,已經成為研究熱點之一,吸引了眾多學者繼續(xù)推進CD-CAT的實施應用。雖然國內很多研究者已經意識到CD-CAT的優(yōu)勢,也有研究者提出了中國教育進展評估基于CD-CAT的改進與展望,但是實踐應用還處于研究或者起步階段。例如實際教學過程中,對相同分數的學生還不能從能力和認知水平角度進行很好的診斷和評估,教師往往僅根據個人經驗來判斷學生的知識掌握狀態(tài)和認知錯誤,其教學設計與教學干預不能滿足學生的個性化需求。
四、對我國教育評價診斷的啟示
新一代測驗理論階段在認知水平的研究范式下產生,強調測驗應同時在宏觀能力水平和微觀認知水平下進行,認知水平的研究應深入到被試作答的認知加工過程,其目的在于診斷認知能力結構,亦在于揭示不同被試的認知加工特點,是能力水平研究的深入。認知診斷實現(xiàn)了傳統(tǒng)教育考試無法企及的診斷功能,它在實踐中的運用價值是不言而喻的:根據診斷結果,學生可以有針對性地學,教師可以有針對性地教;教育教學機構部門來說則可以了解當前教育情況,為教育規(guī)劃及教育決策的制定提供依據。
計算機自適應認知診斷測試在教育評估中具有重要的發(fā)展意愿,目前混合式的學習環(huán)境中需要個性化的、實時的、及時的診斷和評估報告。隨著網絡技術的發(fā)展,MOOC等一大批在線課程蜂擁而至,但縱觀眾多網絡課程和實踐研究,其中缺少對學習者量體裁衣式的診斷評估。同時,在我國教育的測評中,紙筆考試仍舊保留重要地位,然而缺少有效甄別、準確評估和學習知識建議等內容。同時,隨著高考改革的實施與推進,構建健全的教育評價體系顯得尤為重要。通過針對學習過程、學習能力評價的綜合診斷方法,可以提升學生綜合素質。華南師范大學心理學院張敏強教授談到如何運用認知診斷方法與技術來評價學生的認知能力,從而讓學生知道自己優(yōu)勢在哪里、不足在哪里、有什么方法可以補救。
因此,本研究結合我國發(fā)展現(xiàn)狀與需求和國外已有應用研究的優(yōu)勢,對國內教育評價如何走向CD-CAT提出以下建議:
(一)教育評估方面
相比經典測量理論和項目反應理論,認知診斷理論能把認知過程與測量手段結合起來,不僅能對考生的整體水平做出評價,還可以將考生的認知結構模式化,利用合適的測量模型對不同的認知結構模式進行診斷,從而定時考察學生的認知結構和個體差異。認知診斷方法可以應用于會考、能力水平考試;課堂上運用認知診斷功能,可以幫助教師分析學生的優(yōu)勢和不足,不僅能對學生的整體水平進行評價,還能將學生的認知結構模式化,通過數據定量地分析出學生的認知結構和個體差異,這樣得到的信息量大且細,有助于個性化教學的實現(xiàn)。
1. 重視測量工具的研究和應用
實現(xiàn)個性化的測試平臺和題庫,不僅需要熟悉測量理論,還需要掌握測量模型和工具、計算機程序、統(tǒng)計程序等,因而需要有關教育部門與研究團隊投入人力、物力,依托信息技術、網絡技術和硬件設備開發(fā)有價值的題庫和測試平臺。
2. 對教師進行評測培訓
認知診斷測試過程中,教師不僅能夠依據經驗和教學目標提供考試題目,而且需要對學生所需的認知水平和能力水平進行詳細劃分,與研究團隊配合共同繪制測驗藍圖,從而確定測試屬性和知識點。因此,教育評測的培訓是教學過程中必不可少的工具,對教師的專業(yè)培訓尤其重要。
3. 題庫和測試平臺的地位
相比較紙筆考試,CD-CAT能夠更快地獲知考試成績或者錄取結果,測試能夠不受時間和地點限制,考試環(huán)境更加舒適和個性化。通過搭建題庫和測試平臺,能夠保障和實現(xiàn)認知診斷自適應測試:既快速獲取診斷結果、報告,又可實施大規(guī)模題庫,保障大部分學生的考試題目難度和區(qū)分度一致,為教育公平提供可能。
(二)科研創(chuàng)新方面
打造精銳團隊,延伸研究深度。從文獻數據分析說明,目前我國研究派系較為集中,能夠拓展實踐應用的驅動項目較少。因此,應當加強跨團隊、跨區(qū)域甚至跨國界的學術交流和合作,共享資源與經驗,共同豐富和深化CD-CAT。
(三)實踐應用方面
1. 利用現(xiàn)有資源進行校際合作
當前大部分測驗只能提供單一的測驗總分或能力值,但是具有相同分數或能力值學生的認知結構(或稱知識狀態(tài))可能不同,因此,對他們采取的教學補救措施是不一樣的。由此產生了一個很重要的問題:如何才能精確地測量出學生的知識狀態(tài)呢?認知診斷理論能夠回答該問題。
一、認知診斷的發(fā)展
理論和實際需求推動了認知診斷的快速發(fā)展。理論上,認知診斷的計量模型可以提供一個有效機制來驗證認知理論;實踐中,美國政府于2001年提出的《不讓一個孩子掉隊》的法案更是促進了認知診斷的蓬勃發(fā)展。其實早在20世紀80年代,就已經有眾多學者開始注重認知科學和心理測量學的結合對教育領域的指導作用。Glaser曾批判傳統(tǒng)的教育測驗缺乏對被測心理特征的關注[1],Snow和Lohman在其編寫的《認知心理學對教育測量的影響》中曾預測,教育測驗可能會要求提供更多的學習診斷及教學指導信息。Nichols首次將認知科學和心理測量學的結合稱作認知診斷評估,并在1995年出版專著《認知診斷評估》,從而使得該名稱沿用至今[2]。Stout認為在21世紀,認知診斷將會成為新的測驗范式[3],并得到廣泛的研究。許多認知診斷研究者先后出版專著,從各個角度詳細地介紹了認知診斷理論及其應用,其中包括:Leighton和Gierl在2007年出版的《教育認知診斷評估:理論及應用》[4],Tatsuoka于2009年出版的《認知評估:規(guī)則空間簡介》[5],以及Rupp等人于2010年出版的《診斷測量:理論,方法及應用》[6]。
近幾年國際和國內更是掀起了認知診斷的研究熱潮。2012年9月在南昌舉辦的第十屆海峽兩岸心理與教育測驗學術研討會出版了專著《認知診斷理論、方法與應用》,對國內的認知診斷研究起到了極大的推動作用。作者僅在CNKI輸入“認知診斷”關鍵詞查詢所有期刊后,就得到了23835條結果,而且呈逐年遞增趨勢,可以看出認知診斷研究正在蓬勃發(fā)展。
二、認知診斷的相關理論
認知診斷理論主要包含Q矩陣理論及認知診斷模型(CDM)兩部分,下面分別對這兩部分進行介紹。
(一)Q矩陣理論
Q矩陣理論的先驅是Tatsuoka教授,她認為Q矩陣理論欲確定學生不可直接觀察的知識狀態(tài),并且運用可以直接得到的觀察反應模式(ORP)表示這些知識狀態(tài)[7]。學生的知識狀態(tài)由屬性向量表征,“屬性”表示測驗項目的特征,是學生正確解決特定項目所需要的認知加工能力和技能[8]。一個完整的Q矩陣理論包含:屬性層級結構(AHS)、鄰接矩陣(A)、可達矩陣(R)、縮減矩陣(Qr)、學生Q矩陣(Qs)、測驗Q矩陣(Qt)及期望反應模式(ERP)[9]。下面用一個具體例子對Q矩陣理論進行詳細闡述。圖1為假定的關于某份認知診斷測驗的屬性層級結構。
如圖1所示,該份測驗界定的6個屬性之間存在層級關系。例如,屬性1是屬性2和4的先決條件,即掌握屬性2之前必須首先掌握屬性1。這種層級關系是必要的,比如掌握乘法之前,必須先掌握加法。根據圖1所示結構,可以得到鄰接矩陣A陣,它是描述屬性間直接關系的矩陣,圖1的A陣如表1左側所示。由A與同階單位陣I的和A+I,通過Warshall算法可得到可達矩陣R陣,它是描述屬性間直接、間接以及和自身關系的矩陣,如表1所示。
注:A1-A6表示圖1中的6個屬性,“1”表示存在關系,“0”表示不存在關系
在得到R陣之后,可以通過刪除法[7]或擴張算法[10]導出所有可能存在的項目類別,即在圖1所示的屬性層級結構之下,一份測驗能夠編制出來的題目類型,記作縮減矩陣Qr陣,行代表屬性,列代表項目類。在圖1所示的層級結構下,最多只能出15種類型的題目,如表2所示。
將Qr矩陣轉置并加上一列全0向量(代表該學生一個屬性都未掌握)即可得到圖1下所有可能的知識狀態(tài)的集合,共有16種知識狀態(tài)。
測驗Q矩陣,即Qt矩陣是由Qr陣的列自由組合得到,但有一點十分關鍵,即自由組合中必須包含R陣,這樣才能使學生的知識狀態(tài)與期望反應模式一一對應[11],換句話說,Qt矩陣中必須包含R陣,才能保證對學生知識狀態(tài)評估的精確性。
期望反應模式指學生在不存在任何失誤和猜測的情況下對題目的作答反應模式,即學生掌握了題目考察的屬性就能答對該題,只要有一個屬性未掌握就答不對該題。但現(xiàn)實中,學生在作答時或多或少都會存在一些失誤或猜測,因此,期望反應模式是一種理想化的反應模式。
對上述概念進行串聯(lián)之后,我們可以通過圖2來理解Q矩陣理論:
(二)認知診斷模型
測驗施測后,只能得到學生的作答數據,要想得到學生的知識狀態(tài),就需要使用認知診斷模型進行估計。目前開發(fā)出來的認知診斷模型已達100多種[12]。下面僅簡單介紹幾個比較常用的認知診斷模型。
1.線型邏輯斯蒂克特質模型(LLTM)
Fischer提出的LLTM模型是認知診斷模型的雛形[13],它是在Rasch模型的基礎上改造而成的,其模型為:
,其中θi是學生的能力參數,bj是題目的難度參數,qjk是屬性k在題目 j上的復雜度計分, K為測量到的屬性個數,ηk是屬性k的復雜度權重,d是標準化常數。LLTM用屬性復雜度的線性組合表征題目難度,屬性對題目的貢獻越大,則題目的難度也越大。
2.規(guī)則空間模型(RSM)
Tatsuoka提出的規(guī)則空間模型是一種基于模式識別和分類技術的診斷方法。該方法首先基于Q矩陣理論,分析出測驗考察的所有認知屬性以及每道題目考察了這些認知屬性中的哪些,同時還能確定學生所有可能的知識狀態(tài)種類。RSM認為學生的作答還會出現(xiàn)失誤和猜測兩種意外情況,這時學生的ORP會與其ERP不符,那么該如何基于ORP估計出學生的知識狀態(tài)呢?RSM根據項目反應模型計算出一組序偶R(θ,ζ),它在規(guī)則空間中是一個坐標點,稱為純規(guī)則點。θ是學生的能力參數,ζ是基于項目反應理論的一個警戒指標,表示能力為θ的學生其實際作答反應模式偏離其真實能力水平相對應的項目反應模式的程度?;贠RP,可以計算出每個學生的序偶,然后使用貝葉斯判別或馬氏距離判別可將學生判歸為某個純規(guī)則點,這個純規(guī)則點即代表了相應的知識狀態(tài)。
3.屬性層級模型(AHM)
AHM是在RSM的基礎上發(fā)展起來的,該模型同樣采用了RSM模型的Q矩陣理論,但有兩點不同之處。第一,AHM強調首先要界定好屬性及其層級結構,據此來編制診斷測驗,RSM是在現(xiàn)有測驗的基礎之上,反推屬性及其層級結構。第二,AHM根據最大相似概率對學生進行判別,RSM通過建立規(guī)則空間,使用距離判別法對學生進行判別。Leighton等提出了兩種基于項目反應理論和概率論的分類方法:A方法和B方法。
方法A:
,其中
sj(01)表示學生i的期望反應為0,但觀察反應為1的所有題目的集合;sj(10)表示學生i的期望反應為1,但觀察反應為0的所有題目的集合。P(θi)為學生i的正確作答概率,由項目反應模型估計得到。
方法B:
。該方法與A方法的區(qū)別在于,B方法認為擁有某個觀察反應模式的學生,掌握了所有邏輯包含在其中的期望反應模式的屬性組合,對于那些邏輯不包含的期望反應模式,只需考慮失誤而不需考慮猜測[14]。
4.確定性輸入,噪音“與”門模型(DINA)
DINA模型是具有顯式項目特征函數的診斷模型[15],其數學表達式為:
,其中
是潛在反應指標,具體含義是指,若學生i掌握了項目j所考察的全部屬性,則ηj=1,否則,ηj=0。從中可以看出,DINA模型能將學生分為兩類,一類是掌握了題目考察的全部屬性,一類是至少有一個題目考察的屬性未掌握。αik 指學生i是否掌握了第k個屬性(k=1,2,…,K), αik =1表示掌握,αik =0表示未掌握。qjk表示項目j是否考察了屬性k,若qjk=1表示考察了,qjk=0表示未考察。sj是題目的失誤參數,它表示學生 i 掌握了題目 j 考察的全部屬性,反而答錯的概率;gj是題目的猜測參數,它表示學生 i 未全部掌握題目 j 考察的屬性,反而答對的概率。一個質量較好的題目,應該具有較小的 sj 和 gj 參數,并且要滿足1-sj>gj[16]。
5.融合模型(FM)
FM被認為是一個很成功的認知診斷模型[17],其數學表達式為:
。
其中
,表示掌握題目j考察的全部屬性的學生的正確作答概率,也稱作題目的難度參數,其值越大,題目難度越小。
表示學生未掌握屬性k所帶來的懲罰,每少掌握一個題目j考察的屬性,正答概率就會下降。r*ik也稱作屬性區(qū)分度,其值越小表明屬性越重要。cj 表示學生答對項目 j 所需殘余能力的程度,它是表征 Q 矩陣完整性的指標,cj值越大說明 Q 矩陣界定越完備[18]。
三、認知診斷測驗編制方法
認知診斷測驗與傳統(tǒng)測驗的主要區(qū)別在于:(1)認知診斷測驗的目的是偵查出學生的知識漏洞,進而采取針對性的補救措施,促進個體的認知發(fā)展;而傳統(tǒng)測驗意在對學生進行整體評價或篩選,較少關注個體的認知結構。(2)認知診斷測驗需要由認知心理學和心理測量學專家事先界定出完成測驗任務所需的認知屬性,以及它們之間的層級結構,然后根據Q矩陣理論編制測驗;傳統(tǒng)測驗一般是根據雙向細目表來編制測驗,無法偵查出學生在認知結構和認知加工過程方面的情況。(3)在編制認知診斷測驗時,不僅要滿足測驗考察的內容、題型、難度、區(qū)分度等標準,同時還要兼顧可達矩陣、每個屬性的考察次數以及每道題目所考察的屬性個數等因素。(4)傳統(tǒng)測驗追求的是總分分布形態(tài)盡量呈正態(tài)分布,分數之間的變異性越大越好[19],認知診斷測驗對總分形態(tài)沒有要求。
基于以上區(qū)別,認知診斷測驗的編制方法與傳統(tǒng)測驗大不相同。國外學者從不同方面對其編制方法進行了研究[20],包括:認知設計系統(tǒng)[21]、證據中心設計[22]及基于KL信息量的認知診斷測驗編制法[23]。在綜合了前人研究的基礎上,我們認為編制一份優(yōu)良的認知診斷測驗應該包含以下步驟:
1.確定認知診斷評估的目標和群體;
2.根據目標,由專家界定出完成測驗任務所需的認知屬性,以及它們之間的層級結構;
3.根據屬性層級結構,利用Q矩陣理論建立一系列矩陣,其中測驗矩陣Qt陣十分重要,是認知診斷的測驗藍圖[9];
4.根據Qt矩陣編制認知診斷題目;
5.選擇合適的認知診斷模型對題目參數和學生的知識狀態(tài)進行評估;
6.對題目質量進行分析,例如,題目參數是否合理,Q矩陣質量是否合格,界定是否完備;
7.根據第6步的結果對題目進行修訂或增刪,以及對Q矩陣進行重新標定,之后重復2-7步驟,直到所有的題目均達到理想標準;
8.測驗組卷。
四、認知診斷測驗的效度檢驗
效度檢驗不應該僅局限于對測驗本身是否達到預期測量目標的范圍(內容/結構效度),還應該包括補救和指導效果的考察(校標效度)[24]。關于效度檢驗,目前有以下兩派觀點。
(一)Messick框架
Messick提出的效度檢驗框架[25],關注的是由認知診斷設計帶來的正向或負向結果,它強調認知診斷設計與補救之間的聯(lián)系。Messick區(qū)分了認知診斷結構效度的7個方面:(1)內容是否體現(xiàn)了認知診斷的目標領域;(2)學生是否運用了相應的認知加工過程去完成測驗任務;(3)評分是否反映了學生能力與目標領域的交互作用;(4)認知診斷得到的結果是否能預測期望的結果;(5)認知診斷測驗的結果是否公平可信;(6)認知診斷測驗是否有較好的聚合效度和區(qū)分效度;(7)測驗結果的外推性如何,例如是否能夠推廣到不同時間、地點以及實測環(huán)境。
(二)荷蘭學者框架
Borsboom及其同事提出了認知診斷效度檢驗的三個主要概念[26]。(1)測量概念:認知診斷評估需要關注的是那些可以被量化的研究側面,其中包括測量到的內容與想要測量內容的一致性、在不同情況下測量到的結果是否具有不變性,以及測量到的結果是否準確。(2)決策概念:能夠用心理測量方法進行量化研究,包括額外評估,以及根據經驗與診斷評估分數相關聯(lián)的其他標準。強調對一個較穩(wěn)定特質的測量結果是否能準確預測未來,是否采用了最佳的測量方案等。(3)影響概念:量化基于診斷評估所進行的決策評價,不能直接追溯到診斷評價的心理測量性質本身,而應該根據測量結果的變異性來考察效度。該概念包括測量的結果是否可以被接受,對不同人群測量是否公平等。
以上兩派觀點均是從理論出發(fā),探討在認知診斷中該如何對效度進行檢驗,以及應該關注的方面。實踐中,一些學者采取具體措施對效度問題進行了檢驗。Tatsuoka和Tatsuoka將補救措施作為實證效度的證據[27],他們對學生進行前測后,根據診斷結果對學生實施了針對性的補救措施,然后在實施后測之后發(fā)現(xiàn),93%的學生有了進步,7%的學生發(fā)生了退步;Jang在對二語閱讀理解進行診斷后將結果反饋給教師和學生發(fā)現(xiàn),所有的教師認為診斷信息十分有效,能夠使學生了解未掌握的屬性有哪些,并有效指導教師教學,有39%的學生經常使用反饋的診斷信息來指導自己學習,50%的學生偶爾使用反饋信息[28]。Embretson和Yang還提出建立項目難度對認知屬性的回歸檢驗,來測量認知屬性對題目難度的解釋量,以此來驗證Q矩陣的內部效度[29]。
五、認知診斷在實踐中的應用
認知診斷在實踐中得到了廣泛的運用,概括起來,主要包含兩個領域:教育領域和臨床診斷領域。其中第一個領域的研究頗豐。
(一) 認知診斷在教育領域的應用
在數學學科方面,余嘉元運用RSM對江蘇省中學生解不等式題進行了診斷研究,這是RSM在國內的首次應用[30]。范士青用RSM,采用任務分析的方法歸納出加減法運算的屬性及其層級結構,以此編制測驗,調查了268名小學二、三年級學生對整數減法計算的掌握情況,研究發(fā)現(xiàn),有87%的學生被成功劃歸到18個理想反應模式中[31]。
在語言研究方面,Hartz等人運用融合模型對小學三年級學生的閱讀評估測驗及PSAT測驗進行了研究[32];劉慧以現(xiàn)代漢語普通話六個基本顏色詞為對象,運用RSM對漢語非母語者對這些顏色詞的認知模式作出判別,并對他們的掌握情況作出診斷性描述,這是RSM在漢語語言測試中的首次應用[33]。王靜用RSM對857名被試進行了C.TEST閱讀理解測驗的診斷性評價研究,將90.57%的被試成功地劃歸到50個理想反應模式中[34];趙雪晶用RSM對289名以漢語為第二語言學習者進行了量詞掌握模式的診斷研究,有95.16%的被試得到了成功歸類[35];蔡艷、丁樹良和涂冬波根據高考英語數據,采用AHM方法對82000名考生作了認知診斷分析,探明了目前高中生在英語閱讀問題解決的認知特征及存在的問題,為教學指導及評估提供了豐富信息[36]。
在認知能力測驗方面,康春花和戴海琦用LLTM對空間折疊能力(心理旋轉)進行了實證研究,取得了良好的效果[37]。戴海琦和劉聲濤還用LLTM對影響瑞文測驗項目認知難度因素進行了實證研究[38]。余嘉元用RSM編制了40道題目,對南京市中學生進行測量,發(fā)現(xiàn)其中有318人存在不同程度的認知缺陷,他們能夠被劃歸到16種不同的理想反應模式中[39]。趙頂位將AHM運用于三段論推理測驗編制及個體知識狀態(tài)的判別中[40]。趙頂位和戴海琦用高階DINA模型對江西省三所中小學4-8年級學生的幾何類比推理問題解決能力進行了診斷評估,探明了目前學生在解決幾何類比推理問題中所存在的問題,進而為提出針對性的補救措施提供依據,使學生能夠更好地掌握知識[41]。
在其他學科中的應用方面,劉啟亮用RSM作了初中化學認知診斷的研究,將91.46%的被試判歸為21種理想屬性反應模式,然后就根據診斷結果該如何進行補救進行了相關探討,從班級和個體兩個層面從理論上提出了一些補救方案[42]。黎嬌以歐姆定律學習為例,運用RSM進行了中學物理教學評價中的實證研究[43]。徐光建用高階DINA模型編制了高一物理認知診斷測驗[44]。
(二) 認知診斷在臨床診斷領域的應用
Templin等人運用DINO模型對593名被試在病理性賭博方面進行了臨床診斷研究,按照《精神障礙診斷與統(tǒng)計手冊》(DSM-IV-TR)給出的10條標準,估計出了每個被試在各條標準上的“掌握程度”,從而判斷該被試是否存在病理性賭博傾向[16]。
此外,Reif等人認為以往人格問卷的編制缺乏直觀性,并且題目的難度均是由實證研究所決定。為了增加問卷題目的結構效度,他們使用LLTM編制了人格問卷[45]。
六、結語
未來認知診斷的發(fā)展不僅需要關注對測量模型的研究,更需要加強理論建設(Q矩陣理論),只有兩者齊頭并進,才能更好地壯大認知診斷理論。正如Leighton等人曾說:“認知診斷評價還處于嬰兒期,但它的起源是非常牢固的?!盵5]最后,希望更多的心理學工作者能夠加入到認知診斷研究中,共同推進該測量理論的發(fā)展。
參考文獻:
[1]Glaser, R., The future of testing: A research agenda for cognitive psychology and psychometrics[J]. American Psychologist, 1981, 36(9): 923.
[2] Nichols, P.D., A framework for developing cognitively diagnostic assessments[J]. Review of Educational Research, 1994, 64(4): 575-603.
[3] Stout, W., Psychometrics: From practice to theory and back[J]. Psychometrika, 2002, 67(4): 485-518.
[4] Leighton, J. and M. Gierl, Cognitive diagnostic assessment for education: Theory and applications[M]. Cambridge University Press, 2007.
[5] Tatsuoka, K.K., Cognitive assessment: An introduction to the rule space method[M]. Routledge New York, NY,2009.
[6]Rupp, A., J. Templin, and R. Henson, Diagnostic measurement: Theory, methods, and applications[M]. Guilford Press, 2010.
[7]Tatsuoka, K.K., Architecture of knowledge structures and cognitive diagnosis: A statistical pattern recognition and classification approach[J]. Erlbaum: Hillsdale, 1995: 327-359.
[8]丁樹良, 王文義, 羅芬. 認知診斷中Q矩陣和Q矩陣理論[J].江西師范大學學報: 自然科學版, 2012, 36(5): 441-445.
[9]丁樹良, 汪文義, 楊淑群. 認知診斷測驗藍圖的設計[J].心理科學, 2011,34(2): 258-265.
[10]楊淑群, 蔡聲鎮(zhèn),丁樹良,林海菁,丁秋林. 求解簡化Q矩陣的擴張算法[J].蘭州大學學報: 自然科學版, 2008,44(3): 87-91.
[11]丁樹良, 楊淑群, 汪文義. 可達矩陣在認知診斷測驗編制中的重要作用.江西師范大學學報: 自然科學版, 2010,34(5): 490-494.
[12]辛濤, 樂美玲, 張佳慧. 教育測量理論新進展及發(fā)展趨勢[J].中國考試, 2012, 5: 002.
[13] Fischer, G.H., The linear logistic test model as an instrument in educational research[J]. Acta psychologica, 1973,37(6): 359-374.
[14]韓裕, 張敏強. AHM分類方法的改良[J].華南師范大學學報(自然科學版), 2012.
[15]Junker, B.W. and K. Sijtsma, Cognitive assessment models with few assumptions, and connections with nonparametric item response theory[J]. Applied Psychological Measurement, 2001, 25(3): 258-272.
[16] Templin, J.L. and R.A. Henson, Measurement of psychological disorders using cognitive diagnosis models[J]. Psychological Methods, 2006, 11(3): 287.
[17]涂冬波,蔡艷,戴海琦,漆書青. 現(xiàn)代測量理論下四大認知診斷模型述評[J].心理學探新, 2008. 28(2): 64-68.
[18] Hartz, S.M., A Bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality[D]. Unpublished doctoral dissertation, University of Illinois at Urbana-Champaign, Urbana-Champaign, IL., 2002.
[19]漆書青, 戴海崎,丁樹良, 現(xiàn)代教育與心理測量學原理[M].北京:高等教育出版社. 2002.
[20]蔡艷, 涂冬波, 丁樹良, 認知診斷測驗編制的理論及方法[J].考試研究, 2010(003): 79-92.
[21] Embretson, S.E., A cognitive design system approach to generating valid tests: Application to abstract reasoning[J]. Psychological Methods, 1998, 3(3): 380-396.
[22] Mislevy, R.J., L.S. Steinberg, and R.G. Almond, On the role of task model variables in assessment design. In Siring & P. Kyullonene ( Eds. ), Generating items for cognitive tests: Theory and practice[M]. Hillsdale, NJ: Erlbaum, 2003.
[23] Henson, R. and J. Douglas, Test construction for cognitive diagnosis[J]. Applied Psychological Measurement, 2005, 29(4): 262-277.
[24]王卓然, 郭磊, 邊玉芳, 從與標準測驗理論差異談認知診斷的特征[J].考試研究, 2012, 32(3): 10-20.
[25]Messick, S.. Validity. In R. Linn (Ed.), Educational measurement ( 3rd ed., pp. 13-103) [M].NewYork: Macmillan,1989.
[26]Borsboom, D., &Mellenbergh, G. J..Testvalidity in cognitive assessment.In J. P. Leighton&M. J. Gierl (Eds.). Cognitive diagnostic assessment for education:Theory andapplication(pp. 85-118) [M]. Cambridge, UK:Cambridge University Press,2007.
[27] Tatsuoka, K.K. and M.M. Tatsuoka, Computerized cognitive diagnostic adaptive testing: effect on remedial instruction as empirical validation[J]. Journal of Educational Measurement, 1997,34(1): 3-20.
[28] Jang, E.E., Cognitive diagnostic assessment of L2 reading comprehension ability: Validity arguments for Fusion Model application to LanguEdge assessment[J]. Language Testing, 2009,26(1): 31-73.
[29]Embretson, S.E., & Yang, X.. Construct validity and cognitive diagnostic assessment.In J. P. Leighton., & M. Gierl (Eds.), Cognitive Diagnostic Assessment for Education[M]. New York: Cambridge University Press,2007.
[30]余嘉元. 運用規(guī)則空間模型識別解題中的認知錯誤[J].心理學報, 1995,27(2): 196-203
[31]范士青. 小學生加減法計算錯誤的分類與認知分析[D],華中師范大學碩士學位論文,2008.
[32]Hartz, S., L. Roussos, and W. Stout, Skills diagnosis: Theory and practice[J]. User Manual for Arpeggio software. ETS, 2002.
[33]劉慧.規(guī)則空間模型在留學生漢語顏色詞掌握模式診斷中的應用[D],北京語言大學碩士學位論文,2006.
[34]王靜.C. TEST 閱讀理解測驗的診斷性評價研究[D], 北京語言大學碩士學位論文,2008.
[35]趙雪晶. 漢語作為第二語言學習者量詞掌握模式診斷研究[D],北京語言大學碩士學位論文,2009.
[36]蔡艷, 丁樹良, 涂冬波。英語閱讀問題解決的認知診斷[J].心理科學, 2011,34(2): 272-277.
[37]康春, 戴海崎. 采用LLTM作測量與認知結合研究的初步探討[J].心理科學, 2001,24(5): 569-572.
[38]戴海崎, 劉聲濤. 瑞文測驗項目認知難度因素分析及LLTM擬合驗證[J].心理與行為研究, 2004,2(2): 411-414.
[39]余嘉元. 關于新課程改革中的診斷性測驗研究[J].教育探索, 2006. 5: 24-25.
[40]趙頂位. 屬性層次方法下的三段論推理測驗制及個體屬性掌握模式的判別[D],江西師范大學碩士學位論文,2007.
[41]趙頂位, 戴海琦. 基于認知設計系統(tǒng)的幾何類比推理測驗的編制及認知模型分析[J].心理學探新, 2011,31(3): 278-283.
[42]劉啟亮. 規(guī)則空間模型在初中生化學知識學習診斷與補救中的應用研究[D],江西師范大學碩士學位論文,2008.
高等職業(yè)教育是高等教育的重要組成部分,其教學過程和培養(yǎng)目標有三個顯著特點:一是注重崗位能力培養(yǎng),根據“按需施教、學以致用”的原則,組織課程教學和實習實訓;二是強調課程體系的針對性,課程設置不是從學科出發(fā),而是從職業(yè)崗位需要出發(fā);三是突出實踐環(huán)節(jié)教學,主動適應地方社會經濟建設發(fā)展要求。因此,要對整個教學過程進行全面、系統(tǒng)、公正地評價,就要從考試內容、形式、成績構成等方面進行系統(tǒng)規(guī)劃與分析,力求探索出相對完整、切實可行的能充分發(fā)揮考試功能和實現(xiàn)高職教育教學目的的考試方法和手段,從而實現(xiàn)高職教育教學目的。
高職院校工程測量技術專業(yè)專業(yè)課程主要包括《地形測量》、《控制測量》、《工程測量》、《GPS測量技術》、《數字測圖》、《測量平差》、《攝影測量》等,各專業(yè)課程的考試均應具有顯示功能、反饋功能和導向功能,因此要結合現(xiàn)有工程測量技術專業(yè)專業(yè)課程考試存在的弊端,構建新的考試機制,同時促進數字化校園的建設。現(xiàn)有的考試模式存在著很多問題, 如形式單一、考試目標的模糊等情況,造成學生創(chuàng)造力的抵制,綜合能力的下降,具體分析主要包括是以下幾個方面的問題:
1、考試目標僵化??荚囀且粋€學習過程,這應該是一個考試的主題教育管理論文,其目的是促進學生更好、更全面、更深入學習的手段,是為了對所學知識的一種提升,為今后的運用打下堅實基礎,從而拓寬思路,成為創(chuàng)新人才的起步。而現(xiàn)在考試形式促使學生考試目標僵化,態(tài)度不明確,認為考試是學習的終結者。
2、考試方式過于單一。目前高職院校大部分學科考試主要是是采取終結式考核, 即教師出各種題型的試題,學生在規(guī)定時間內閉卷筆試,教師按標準答案進行閱卷,給出學生的期末考試成績,結合學生平時成績,做出學生該門課程的期末總評成績。考試的單一性,使學生學習一門課程之前便習慣性產生為了考試而學習的慣性思維。不光答題紙張耗材,教師閱卷、試卷回收也耗時。
3、考試內容主觀性過強。目前考試內容大多由任課教師或專業(yè)教師自主出題,自主閱卷。老師出卷自由度小,試卷質量低。多數老師在出卷時都只會側重大綱中的重難點,而忽略或者說是無法把各科知識進行鏈接,也無法區(qū)別對待,從而測試出個體真實的成績論文服務。導致學生為考試而學,教師為考試而教。教師在授課過程中注重強調考試內容,便會導致理論知識的傳授過于傾斜。試題內容的泄露,批改閱卷過程中存在的主觀判錯、計算錯誤等現(xiàn)象都會促使最后結果失去客觀真實性、公平性。不能客觀、真實地反映出學生的能力水平,同時又有測試內容不全面的因素,因此考試形式的改革和創(chuàng)新是迫在眉捷事宜,只有改革考試模式才能夠真正激發(fā)學生的創(chuàng)新意識,培養(yǎng)其創(chuàng)新能力。
4、考試評價方法片面。目前期末總評成績中,期末考試成績是主要的決定因素,而期末考試往往是書面閉卷形式,這就給學生造成了很大壓力和僥幸心理,有的同學在考前搞題海戰(zhàn)術,有的同學把“投機取巧”的功夫用在考場上,同時也不利于學生創(chuàng)造性和主動性的發(fā)揮,阻礙了創(chuàng)新思維的培養(yǎng)與發(fā)展。為培養(yǎng)學生學習的自主性、自覺性和創(chuàng)造性,促使學生充分利用平時時間努力學習,就必須對傳統(tǒng)的考試模式進行改革,建立一個真正全面、客觀、合理的課程考核體系。
5、考試反饋機制缺乏。由于考試是期末一次性終結考試,學生考試結束,就意味著本門課程學習的終結??荚囍写嬖诘膯栴},教師不能與學生進行及時的反饋與交流。這樣的考試模式有可能將學生引向一種僵化、死板的學習軌道。
這些弊端的出現(xiàn)都會降低學生學習的積極性、自主性、創(chuàng)新性以及個體綜合素質的全面發(fā)展,同時還導致高職教育教學目的失去重心。
現(xiàn)代科技的發(fā)展教育管理論文,信息技術廣泛應用,計算機已滲透到各行各業(yè)。其中,憑借計算機的考試系統(tǒng)以方便快捷等優(yōu)點得到了充分的肯定。駕駛理論考試就是運用計算機考試的一個實際應用,它實現(xiàn)了理論考試的無紙化,以往出題、印試卷、批改試卷等繁瑣的工作也隨之被計算機所替代??荚囀墙虒W過程中的重要環(huán)節(jié),它擔負著因材施教、選拔人才、評價教學等眾多功能。隨著時代變遷,這種計算機無紙化考試系統(tǒng)由于安全性高、便于組卷和評閱、資源消耗低、自動化程度高、可以實現(xiàn)遠程考試等特點,在學歷考試、各種職稱考試、證書考試中已被廣泛使用。
工程測量技術專業(yè)專業(yè)課程考試模式改革應首先通過對專業(yè)考試現(xiàn)狀的分析,收集資料建設試題庫,同時與計算機編程技術人員合作構建考試模擬系統(tǒng)。因此,核心內容便是依托建立的考試模擬系統(tǒng),其原理應同駕校理論考試一致,可以隨機抽取題庫試題組卷、計算機智能閱卷評分和試卷分析等功能于一身,更能體現(xiàn)客觀、公平、公正的考試特點,且不受時間和空間的限制,隨時隨地進行測試更適合信息時代的考試要求,也切合了高校數字校園的建設。采用此考試模式,不僅使得教學管理部門不再面臨人工印刷試卷的艱巨任務,也讓教師從此告別了出題、組卷、人工閱卷、評分、試卷分析、登記分數等繁瑣的工作,節(jié)省大量的人力物力,因此考試模擬系統(tǒng)代替?zhèn)鹘y(tǒng)的考試已經成為必然趨勢。以下從多方面對其特點進行分析探討:
1、隨機抽題功能,降低了考生作弊的可能性,達到公平、公正性。支持隨機組合卷,可以從指定的若干試卷中按要求隨機抽取考題進行考試,或從試題庫中隨機抽題供考生作答,保證每個考生的試卷都不一樣。用于考生平時自測也十分方便。由于試題是隨機抽取的,所以考生試卷的試題順序是不同的,這極大降低了考生作弊的可能性,有效防止相互抄襲行為,也確保了考試的公平性。
2、題型可以豐富,自主選擇性強。教師可以在選擇單選、多選、簡答等題型的基礎上,如條件充裕,可以設計新增判斷題、不定項選擇題、填空題、計算題、識圖題、簡答題等題型。
3、考試過程自動控制,在規(guī)定的時間內自動交卷、評分。整個考試過程由系統(tǒng)自動計時,時間到系統(tǒng)將自動提交試卷,避免了傳統(tǒng)考試中考試結束時,考生還不愿意停筆交卷的拖延現(xiàn)象論文服務。
4、成績分析功能,有效幫助教師了解教學情況??忌峤辉嚲砗?,系統(tǒng)將立刻對試卷進行自動評分,生成成績通知單。最終將整個班級學生的成績匯總教育管理論文,并按分數段排列,形成分析報告。真正實現(xiàn)考生考完即刻知道考試成績的愿望,也體現(xiàn)出考試高效、快捷的特點。
5、可支持試題庫管理,方便錄入、導出試題,也可以在網上共享題庫資源。該系統(tǒng)可擁有簡單快捷的試題錄入模式,方便對試題庫的管理。試卷可以直接導出到WORD文檔或打印出來??梢园阉性囶}保存到數據庫,通過互聯(lián)網方便地進行模擬考試,也允許設置為練習模式,讓學生考試過程自行判題。
6、考試模擬系統(tǒng)擴展性強。其可以根據自己需求,在計算機技術基礎上增加各種功能。如新增考生身份檢查功能:對考生重考、二次登陸和考后查卷時進行身份檢查,只有班級、考號、姓名和第一次考試輸入的信息一致方允許登錄,防止考生身份信息輸入出錯的情況。
7、界面可設計人性化,操作簡便。在實際使用中,從每一位學生到教師,在操作方面都沒有障礙,界面人性化,方便可行。
〔中圖分類號〕G44 〔文獻標識碼〕A
〔文章編號〕1671-2684(2014)04-0004-03
心理健康(mental health)是指個體在適應環(huán)境的過程中,生理、心理和社會性方面達到協(xié)調一致,保持良好的心理功能狀態(tài)[1]。它是影響人們幸福感的重要因素。然而,據美國衛(wèi)生局報告,我國精神疾病目前占所有疾病的14.3%,預計到2020年將上升到17.4%[2],這表明我國心理健康問題形勢嚴峻。小學生情緒能力和認知能力處于迅速發(fā)展的關鍵期,其心理健康狀況不僅影響其幸福感,更對其健康成長起著不可忽視的作用。對此,有學者就我國小學生的心理健康狀況進行了調查,結果發(fā)現(xiàn),小學生中有中度心理和行為問題的占16.4%,有嚴重心理問題的占4.2%[3]。這反映了我國小學生的心理健康問題堪憂。
越來越多的研究認識到研究小學生心理健康問題不僅是學術議題,更是進行小學生心理健康教育的必要基礎,因此大量的研究先后探究了小學生心理健康狀況。為了把握小學生心理健康研究的具體情況,本文對源自中國期刊網的453篇相關論文進行文獻計量學分析,以深入了解小學生心理健康研究的具體開展情況,為今后的理論研究與應用實踐提供參考。
一、研究方法
1.統(tǒng)計方法
文獻計量法,以頻次、百分比為主。
2.文獻取樣
以中國期刊網為平臺,對2003年1月至2012年12月所發(fā)表的有關小學生心理健康方面的所有文獻進行統(tǒng)計,發(fā)現(xiàn)有453篇包含“小學生心理健康”的文章題錄。
3.分析類目與單元
在對代表性論文進行參考的基礎上,對以下6個單元作統(tǒng)計分析:年代分布、受資助狀況、合作者人數、內容分布、作者機構及作者所在地區(qū)。
二、結果與分析
1.研究論文的年代分布
對2003~2012年發(fā)表的453篇小學生心理健康方面的文章進行年代分布統(tǒng)計分析,如下頁表1所示。除2005年(4.4%)和2009年(10.2%)出現(xiàn)稍大的波動外,我國關于小學生心理健康研究的論文數量總體呈現(xiàn)增長趨勢。2003~2007年的論文數為159篇,2008~2012年的論文數為294篇,分別占總數的35.1%和64.9%,后者較前者增長了29.8個百分點,這說明近十年來小學生的心理健康問題越來越受到研究者的關注。
2.研究論文的受資助情況
對近十年來的453篇論文的受資助情況進行分析,如表2所示,結果發(fā)現(xiàn)有84.1%不受任何項目資助,僅有15.9%的論文受資助。在受資助的文章中,最多的是省部級項目(9.5%),來自“相關協(xié)會”(1.1%)及“國家級”(1.3%)資助的項目相對較少。整體而言,受資助的研究數比例低且不同級別間數額差異很大。這給未來的研究以啟示:小學生心理健康研究的全面開展需更多資助,尤其是國家級項目及相關協(xié)會項目的支持。
3.研究論文的內容
對453篇文章的內容進行具體分析(見表3),結果發(fā)現(xiàn)“現(xiàn)狀調查”(18.9%)、“相關研究”(21.9%)及“對策研究”(19.4%)這三項研究內容所占比例相當,但都低于“其他”內容類別(37.1%)的研究論文,而這部分論文是作者基于小學生心理健康問題某角度而提出的一般性看法或陳述,缺乏科學研究的嚴謹性?!熬C述研究”及“測量方法研究”則分別只占總體的0.9%、1.8%,這提示著綜述性與測量方法類研究目前呈現(xiàn)出一定困境,亟待突破。
4.研究論文的形式及其研究力量
對研究論文的合作形式和研究力量進行分析(見
表4),結果發(fā)現(xiàn),獨著論文數占論文總數的67.8%,合著論文僅占32.2%,且論文合著以兩人合作形式(17.2%)為主,課題組合作形式僅占0.7%。這表明研究者需加強各種形式的合作力度,組建課題組形式的專業(yè)研究團隊,增強研究的系統(tǒng)性和全面性。
以第一作者的單位作為研究力量機構分析的基礎,“其他(小學教師及協(xié)會等)”占研究力量的55.8%,其次為“師范類院校”(17.7%),而來自其他單位的研究相對缺乏,見表5。這表明,小學教師及協(xié)會是最主要的者,這些發(fā)表者的研究內容基本上是一般陳述性的研究,這與表3中關于研究內容的數據結果(“其他”類別即一般性看法或陳述性研究占最大比重)契合。由此可以看出,專業(yè)研究團隊參與力度的薄弱可能影響到研究內容的的專業(yè)性與系統(tǒng)性,研究需更多專業(yè)力量的
投入。
為了進一步了解研究力量的分布,本研究對研究力量的省份分布情況作了分析,分布總體來說呈不平衡狀。研究力量位列前五位的省份分別為:江蘇(11.0%)、山東(7.5%)、甘肅(7.5%)、浙江(7.1%)與吉林(5.1%),表明小學生的心理健康問題在我國較發(fā)達地區(qū)已經普遍受到研究者的關注。位列后五位的省份分別為:青海(1.1%)、內蒙古(1.1%)、(0.9%)、寧夏(0.5%)及新疆(0.5%),即我國偏遠貧困地區(qū)的相關研究極度缺乏。
三、討論
1.拓展測量方法
本研究發(fā)現(xiàn),近十年來關于小學生心理健康的研究數量較多,同時內容涵蓋面較廣,包括現(xiàn)狀調查、相關研究、對策研究、綜述研究、測量方法研究及其他研究等,但關于測量方法的研究卻相對匱乏。目前國內研究仍較多引進國外的測量方法,易出現(xiàn)跨文化問題;此外,現(xiàn)有量表內容多側重負面心理特質,與小學生發(fā)展的實際有所偏離[4]。我國研究者也意識到這些問題,心理健康的評估工具已經從單純引進發(fā)展到自編問卷,量表內容在向多領域延伸,也編制出了一些信效度較好的量表。但總體來看,我國心理健康量表的信效度普遍較低,自編量表有低水平重復現(xiàn)象,測量積極心理的量表少[5]。即我國仍需本土化的較為統(tǒng)一的科學測查工具和標準。廣大研究者需加強對研究方法的探索,改善測量工具,以便為更深入的研究奠定基礎。
2.研究者的全面調動
小學生心理健康問題的研究需要研究者的積極參與。首先,對研究者合作積極性的調動。研究形式合作化已經是當今科研形式的主流,合作帶來的團隊資源整合有助于促進研究途徑多樣化以及研究本身的完整性、全面性與創(chuàng)新性。但上述數據顯示,獨立研究形式仍是小學生心理健康研究的主流。獨立性研究在一方面保留了研究縱向的獨特性及系統(tǒng)性,但另一方面獨立性研究缺少橫向文化間的合作交流。這與以往的研究一致[6,7],即跨文化、跨地區(qū)式大樣本研究缺乏。為此研究者應當積極尋找合作切入點,突破束縛,加強各種形式的合作以逐步完善研究維度。
其次,對經濟落后地區(qū)研究者的調動。有研究者在關于西部民族地區(qū)中小學心理健康教育需求現(xiàn)狀的研究中發(fā)現(xiàn),8.4%的中小學生認為自己的心理健康狀況較差或很差,其中有28.7%為小學生[8],這說明西部落后地區(qū)小學生對心理健康教育的需求非常強烈。但本文數據顯示,我國一些落后的偏遠地區(qū),如青海、內蒙古、、寧夏及新疆等地關于小學生心理健康的研究極少,發(fā)展極慢,這也反映了落后地區(qū)小學生對于心理健康教育的需求遠遠得不到滿足,客觀經濟條件的相對落后直接影響到理論研究與教育實踐的開展。同時研究工具的不完善、研究人力的不足等因素都妨礙了相關研究的發(fā)展。政府需增強支持,幫助其改善研究的物質環(huán)境與人文環(huán)境,呼吁更多其他地區(qū)的研究者多進行跨地域研究合作,提升研究意識,改善研究方法,加大研究力度。
最后,對各個單位研究力量的調動。本研究數據顯示,群體主要集中在小學教育者及有關協(xié)會方面,他們多以見解性、描述性的研究為主。這些研究與其自身教育實踐直接聯(lián)系,更具現(xiàn)實意義,且能為進一步的研究提供啟發(fā)與思考,但這類研究缺乏專業(yè)性、科學性與系統(tǒng)性。由此,對來自不同研究單位的研究力量的全面調動可以融合多種研究優(yōu)勢,實現(xiàn)不同單位研究力量之間的互補,以便研究成果能更高效地應用于
實踐。
3.展望
心理健康問題的低齡化趨勢已經受到社會的普遍關注,有關小學生心理健康的研究總體上正在不斷地深入和拓展。針對目前研究呈現(xiàn)的不足,未來的研究需要考慮以下幾方面:(1)加強研究的問題解決指向性,增加對策研究,將理論積極運用于實踐;(2)實證研究有待強化,研究方法需不斷改進,尤其是測量工具的改進;(3)研究要邁向全面化合作,突破孤立局限,嘗試跨單位、跨地域、跨文化研究;(4)研究可多圍繞具體、典型的心理健康問題展開,增加個案研究并綜合群體研究以增強研究的臨床應用性。
參考文獻:
[1] 姚本先.學校心理健康教育概論[M].北京:高等教育出版社,2010:3-9.
[2] 肖旻嬋.中小學心理健康教育研究[D].上海:華東師范大學,2005:1-2.
[3] 沃建中,馬紅中,劉軍.走向心理健康(發(fā)展篇)[M].北京:華文出版社,2002:9-10.
[4] 鄭日昌,張穎,劉視湘.小學生心理健康的結構和量表編制[J].教育測量與評價(理論版),2008,(2):30-34.
[5] 廖全明,蘇丹,黃希庭.目前國內常用心理健康量表的回顧與反思[J].心理學探新,2007,27(4):74-77.
[6] 楊宏飛.我國中小學心理健康研究的回顧[J].中國心理衛(wèi)生雜志,2001,15(4):289-290.