log图标

toefl.viplgw.cn

  • 使用手机注册
  • 使用邮箱注册
  • 手机号不能为空!

    验证码不能为空!

    用户名不能为空!

    密码不能为空!

  • 邮箱不能为空!

    验证码不能为空!

    用户名不能为空!

    密码不能为空!

已有账号? 登录到雷哥托福
log图标
  • 使用手机找回密码
  • 使用邮箱找回密码
  • 手机号不能为空!

    验证码不能为空!

    密码不能为空!

  • 邮箱不能为空!

    验证码不能为空!

    密码不能为空!

加入生词本

listen

英['lɪs(ə)n] 美['lɪsn]
vi. 听,倾听;听从,听信
n. 听,倾听

已添加
×

我要举报草莓小菇凉评论

用户头像
草莓小菇凉:说的非常好,十分有道理,棒棒棒!

06-08 15:44:55

请选择举报类型:

举报电话:400 1816 180    举报QQ:2095453331
×
logo图标
分享到雷哥托福

分享成功图标分享成功

邀请名师点评成功,管理员正在安排老师进行点评。

继续做题 返回首页
支付雷豆失败图标 雷豆余额不足 购买雷豆 返回
报告题目错误
请选择错误类型:
请描述一下这个错误:

取消

下载雷哥托福APP

你的托福备考神器

雷哥托福

雷哥网托福APP

你的托福备考神器

去下载

号称100%公平公正的托福评分是怎么做到的?答卷还要取悦机器阅卷人?

2019-04-02 18:07:23 发布 来源:雷哥托福

托福作为一项对考生语言水平的考试,分数的一致性和准确性至关重要。在托福官网上,关于托福考试的宣传中有这么一句,100%公平公正的评分。考过的人都知道,正是由于这种公平客观的评分,托福相对于雅思考高分是相对容易的。雅思的口语考核部分,由于是主考官主观评分,所以掺杂了很多不可控的随机因素。而托福考试就不会出现这种情况,那么托福的公平评分是怎么做到的呢?

 

1.    托福评分系统和考试系统是分开的。

 

不同于我们参加的其他类型的机试,考完试成绩可以立即出来。ETS为了确保托福考试的安全性和完整性,分开了评分系统和测试管理流程,这样就保证了评分和考试系统的安全性且考分不受考试地点的影响。

 

2.    托福的电脑评分及工作原理

 

自从2010年1月起,iBT(Internet-based Testing)就已对写作评分系统进行了调整,由原来的2个阅卷人评分,取算术平均分作为原始分(raw score),改为1个阅卷人和1个电脑评分系统(E-Rater)评分。

 

托福的电脑评分主要针对口语和写作这两个项目。相较于人工评分,电脑评分更具有公平客观的特点,可以将因为人的疲惫、情绪、能力等具有较大差异化的因素对考分的影响降到最低。对于同一份考卷,无论何时何地,总会给出相同的评分。这样的评分系统严格准确可量化,这是人工阅卷远远比不上的。而且,评分通过集中评分网络进行,确保实施一致的评分标准。

 

电脑评分的工作原理主要是利用计算机语言学中的自然语言处理(Natural Language Process,简称NLP)方法,对于文本相关信息进行标签匹配,结合ETS的数据审查来评分。这其实和唱歌打分是非常类似的原理。但它更像一个基于强大数据系统支持的一个运算系统,能够将输入的文章内容和数据库里面的内容进行比照、批阅,有利于增强阅卷评分的灵活度和广泛度,还能节省一大批人力,考卷数量再多也不怕。

 

实际上,电脑评分系统是读不懂我们的答卷的,就是无法了解具体的语义水平。那对一篇文章的内容、结构、语言使用几个维度,电脑是如何打分的呢?

 

对于写作内容是否充实,它采取的方式是评估考生文章的 The Length of Discourse Element(话语元素长度)。话语元素长度主要包括两个方面:1、平均句长:如果全文的句子写的都很短,则证明考生的思想内容很简单,不能有效表述清楚自己的论述,托福官方建议写作的平均句长应该在15-20词左右比较合适。2、正文段句子数量:在中间发展段中,如果句子数量过少,证明考生没有话说,也就无法有效展开自己的观点。

 

而对于文章结构是否合理,电脑评分系统则从话语元素数量和逻辑连接词的使用两方面来把握。话语元素数量也就是合理分段。一般来说,建议文章分为4-5个段落。电脑能检测考生是否在文章中呈现了thesis statement、main ideas、supporting ideas、conclusion等。另外通过检测考生句子之间的逻辑连接词,去判断文章的逻辑是否存在,以及是否合理。

 

对于语言的使用,电脑评分系统通过对考生的语言表达进行数据分析,并匹配以往数据库里的语言数据,从而对考生的文章语言质量进行审核。一方面,从 Grammar 角度去审核考生文章中的 Fragments(句子碎片)、主谓一致(Subject-verb agreement)、 Missing or Extra Article(冠词错误)、Preposition Error(介词错误)、Wrong Part of Speech(词性错误)、Spelling(单词拼写)、Missing Comma(逗号缺失)等;另一方面,从 Style 角度去审核考生文章中的 Repetition of Words(词汇重复)、Short Sentences(过多短句使用)、Passive Voice(过多被动语态使用)等。

 

3.    人机搭配,干活不累(优势互补)

 

虽然电脑评分系统这么厉害,只有电脑评分也是不能全面评估一份答卷的水平的。因为电脑的评分标准相对机械、量化,评分规律被找到之后,就有可能出现考生针对性备考的情况。这样会使考试技巧决定了考试分数高低,而不是我们期望的语言水平来决定。

 

所以,电脑评分系统与人工评分互相分工,才能达到更好的互补效果。电脑评分系统主要负责文章的Grammar(语法)、Usage(用法)、Mechanics(格式体例)、Style(风格)、Organization & Development(组织与展开),而人工评分主要负责文章的内容和含义的理解。

 

说到人工评分,就绕不开公平的这一重要的原则。如何保证在不同地区甚至不同国家的人在参与考核时能获得公平的得分呢?ETS采取了一个非常重要的方式,就是由统一的阅卷人来进行批改。尤其是托福改革成iBT之后,利用网络进行统一阅卷评分变得更加便捷和容易实现。

 

另外,ETS的阅卷人是面向美国本土的人员通过特定的流程进行招募的。招募的对象主要是在美国本土工作的人员,他们不需要在ETS办公,甚至是在家里阅卷也可以。为了确保评分的科学性和准确性,所有的评分人员都必须参与评分培训,并且最终通过认证测试。在培训者熟练掌握所有的评分标准之后,就会进入线上评分环节,培训者必须利用大量的模板文章进行对比式评分,直至自己的打分和目标打分完全一致方能通过测试。而在整个过程中,ETS 官方人员充当的就是裁判和导师这个角色。

 

在完成培训任务之后,阅卷人会得到一个给定的账号用于登陆一个专门用于阅卷的软件。ETS 每个月会不定时地给这些阅卷人发送邮件,阅卷人需要在收到邮件后在七个工作日之内完成在线阅卷并给出反馈。

 

考生的作文在送到阅卷人手上之前会先经过机器检查一遍,也就是一个检查雷同、字数(主要针对托福写作)、逻辑连接词以及一些语言问题的软件,阅卷人会看到机器的反馈并在此基础上再去评分,但是看不到电脑评分的分数。阅卷人在阅卷时是会严格按照 ETS 给出的评分标准评分,他们只需要给出一个最终成绩而不需要给出相关的评价。

 

人工评分和电脑评分是独立的,相互之间看不到对方的分数。两者的分差在一定的区间内,取一个人工评分和一个电脑一同评分的算数平均分作为原始分(1—5分),然后再换算成满分30分的分值,从而得出最终的得分。如果人工评分和电脑评分的差值,超过合理的区间范围,则电脑评分和人工评分都无效,改换成下一个评分组重新评分,而现在人工评分和电脑评分已经达到很高的一致性。

 

电脑的评分能做到和人工评分这么高的一致性,是和每年大量的考试分不开的,也就是说,所有参与过的考生都有贡献。因为只有足够多的样本对系统进行不断测试、优化,才能使得评分系统更加准确,误差更小。这样看来,ETS宣称100%的公正评分真不是吹的。

 

面对这样公平的托福考试,还不赶快老老实实备考。


上一篇:托福口语怎样断句更合理【雷哥托福】 下一篇:3月27日托福考试回忆:总体难度比较简单,今天是个冲分的好日子




雷哥托福>备考技巧>号称100%公平公正的托福评分是怎么做到的?答卷还要取悦机器阅卷人?

号称100%公平公正的托福评分是怎么做到的?答卷还要取悦机器阅卷人?

2019-04-02 18:07:23 发布 来源: 雷哥托福 4866阅读

托福作为一项对考生语言水平的考试,分数的一致性和准确性至关重要。在托福官网上,关于托福考试的宣传中有这么一句,100%公平公正的评分。考过的人都知道,正是由于这种公平客观的评分,托福相对于雅思考高分是相对容易的。雅思的口语考核部分,由于是主考官主观评分,所以掺杂了很多不可控的随机因素。而托福考试就不会出现这种情况,那么托福的公平评分是怎么做到的呢?

 

1.    托福评分系统和考试系统是分开的。

 

不同于我们参加的其他类型的机试,考完试成绩可以立即出来。ETS为了确保托福考试的安全性和完整性,分开了评分系统和测试管理流程,这样就保证了评分和考试系统的安全性且考分不受考试地点的影响。

 

2.    托福的电脑评分及工作原理

 

自从2010年1月起,iBT(Internet-based Testing)就已对写作评分系统进行了调整,由原来的2个阅卷人评分,取算术平均分作为原始分(raw score),改为1个阅卷人和1个电脑评分系统(E-Rater)评分。

 

托福的电脑评分主要针对口语和写作这两个项目。相较于人工评分,电脑评分更具有公平客观的特点,可以将因为人的疲惫、情绪、能力等具有较大差异化的因素对考分的影响降到最低。对于同一份考卷,无论何时何地,总会给出相同的评分。这样的评分系统严格准确可量化,这是人工阅卷远远比不上的。而且,评分通过集中评分网络进行,确保实施一致的评分标准。

 

电脑评分的工作原理主要是利用计算机语言学中的自然语言处理(Natural Language Process,简称NLP)方法,对于文本相关信息进行标签匹配,结合ETS的数据审查来评分。这其实和唱歌打分是非常类似的原理。但它更像一个基于强大数据系统支持的一个运算系统,能够将输入的文章内容和数据库里面的内容进行比照、批阅,有利于增强阅卷评分的灵活度和广泛度,还能节省一大批人力,考卷数量再多也不怕。

 

实际上,电脑评分系统是读不懂我们的答卷的,就是无法了解具体的语义水平。那对一篇文章的内容、结构、语言使用几个维度,电脑是如何打分的呢?

 

对于写作内容是否充实,它采取的方式是评估考生文章的 The Length of Discourse Element(话语元素长度)。话语元素长度主要包括两个方面:1、平均句长:如果全文的句子写的都很短,则证明考生的思想内容很简单,不能有效表述清楚自己的论述,托福官方建议写作的平均句长应该在15-20词左右比较合适。2、正文段句子数量:在中间发展段中,如果句子数量过少,证明考生没有话说,也就无法有效展开自己的观点。

 

而对于文章结构是否合理,电脑评分系统则从话语元素数量和逻辑连接词的使用两方面来把握。话语元素数量也就是合理分段。一般来说,建议文章分为4-5个段落。电脑能检测考生是否在文章中呈现了thesis statement、main ideas、supporting ideas、conclusion等。另外通过检测考生句子之间的逻辑连接词,去判断文章的逻辑是否存在,以及是否合理。

 

对于语言的使用,电脑评分系统通过对考生的语言表达进行数据分析,并匹配以往数据库里的语言数据,从而对考生的文章语言质量进行审核。一方面,从 Grammar 角度去审核考生文章中的 Fragments(句子碎片)、主谓一致(Subject-verb agreement)、 Missing or Extra Article(冠词错误)、Preposition Error(介词错误)、Wrong Part of Speech(词性错误)、Spelling(单词拼写)、Missing Comma(逗号缺失)等;另一方面,从 Style 角度去审核考生文章中的 Repetition of Words(词汇重复)、Short Sentences(过多短句使用)、Passive Voice(过多被动语态使用)等。

 

3.    人机搭配,干活不累(优势互补)

 

虽然电脑评分系统这么厉害,只有电脑评分也是不能全面评估一份答卷的水平的。因为电脑的评分标准相对机械、量化,评分规律被找到之后,就有可能出现考生针对性备考的情况。这样会使考试技巧决定了考试分数高低,而不是我们期望的语言水平来决定。

 

所以,电脑评分系统与人工评分互相分工,才能达到更好的互补效果。电脑评分系统主要负责文章的Grammar(语法)、Usage(用法)、Mechanics(格式体例)、Style(风格)、Organization & Development(组织与展开),而人工评分主要负责文章的内容和含义的理解。

 

说到人工评分,就绕不开公平的这一重要的原则。如何保证在不同地区甚至不同国家的人在参与考核时能获得公平的得分呢?ETS采取了一个非常重要的方式,就是由统一的阅卷人来进行批改。尤其是托福改革成iBT之后,利用网络进行统一阅卷评分变得更加便捷和容易实现。

 

另外,ETS的阅卷人是面向美国本土的人员通过特定的流程进行招募的。招募的对象主要是在美国本土工作的人员,他们不需要在ETS办公,甚至是在家里阅卷也可以。为了确保评分的科学性和准确性,所有的评分人员都必须参与评分培训,并且最终通过认证测试。在培训者熟练掌握所有的评分标准之后,就会进入线上评分环节,培训者必须利用大量的模板文章进行对比式评分,直至自己的打分和目标打分完全一致方能通过测试。而在整个过程中,ETS 官方人员充当的就是裁判和导师这个角色。

 

在完成培训任务之后,阅卷人会得到一个给定的账号用于登陆一个专门用于阅卷的软件。ETS 每个月会不定时地给这些阅卷人发送邮件,阅卷人需要在收到邮件后在七个工作日之内完成在线阅卷并给出反馈。

 

考生的作文在送到阅卷人手上之前会先经过机器检查一遍,也就是一个检查雷同、字数(主要针对托福写作)、逻辑连接词以及一些语言问题的软件,阅卷人会看到机器的反馈并在此基础上再去评分,但是看不到电脑评分的分数。阅卷人在阅卷时是会严格按照 ETS 给出的评分标准评分,他们只需要给出一个最终成绩而不需要给出相关的评价。

 

人工评分和电脑评分是独立的,相互之间看不到对方的分数。两者的分差在一定的区间内,取一个人工评分和一个电脑一同评分的算数平均分作为原始分(1—5分),然后再换算成满分30分的分值,从而得出最终的得分。如果人工评分和电脑评分的差值,超过合理的区间范围,则电脑评分和人工评分都无效,改换成下一个评分组重新评分,而现在人工评分和电脑评分已经达到很高的一致性。

 

电脑的评分能做到和人工评分这么高的一致性,是和每年大量的考试分不开的,也就是说,所有参与过的考生都有贡献。因为只有足够多的样本对系统进行不断测试、优化,才能使得评分系统更加准确,误差更小。这样看来,ETS宣称100%的公正评分真不是吹的。

 

面对这样公平的托福考试,还不赶快老老实实备考。


上一篇:托福口语怎样断句更合理【雷哥托福】

下一篇:3月27日托福考试回忆:总体难度比较简单,今天是个冲分的好日子

热门文章

推荐课程