2. 大语言模型与教师对华文口语评分与反馈的比较 【中/新】王丽、陈志锐、李艳、戴嘉慧

【摘 要】开放式口语任务是口语自动评测的难点,大语言模型的出现或能提供解决方案。本研究基于GPT-4设计与开发了自动评分与反馈工具ArguFeedback1.0,为新加坡中学生的华文口头报告这一开放式口语任务提供评分与反馈。通过比较大语言模型与教师的评分与反馈,研究发现:在评分方面,人机之间的评分差异大于教师之间的评分差异,但在评分等级上二者一致性相对较高。这意味着大语言模型对开放式口语任务具备一定的评分能力。在反馈方面,与教师一样,大语言模型能够在提示语引导下生成任务层面、过程层面、自我调节层面以及情感层面的反馈,但二者各有侧重,大语言模型能够基于文本生成较为全面的反馈,然而其情感反馈仅限于语言层面;教师通常基于经验进行反馈,其反馈更为聚焦且注重情感互动。研究建议对于开放式口语任务可实行人机协同评价模式。

【关键词】大语言模型,评分,反馈,新加坡中学生,华文口语