全国协议5人面授小班,企业级独立开发考核,转业者的IT软件工程师基地 登录/注册 | 如何报名

免费领取试听课程

并获得专业顾问一对一进行选课辅导

课程名称不能为空
姓名不能为空
手机号码不能为空

领取成功

AI和小学生比赛考试,谁的分数更高?

行业新闻 汉码未来 | AI 小学 考试

2021-11-06 10:06:27

如今小学生的数学问题不能简单地描述,有的家长还得思考半天,看是否还有别的解决办法。市场上更是各种拍题搜索答案的软件。

AI和小学生比赛考试,谁的分数更高?

最近,OpenAI开发了一种解决小学数学问题的新系统,极大地提高了GPT-3逻辑推理问题。

该系统可解决小学数学问题,60亿个参数GPT-3采用“新方法”,准确率直接翻倍!就连有1750亿个参数的GPT-3模型,也采用了微调方法。

此外,一名9-12岁的学生在测试中得分为60分,使用新方法的GPT-3在相同的题目上能得到55分,已达到小学生90%的水平!

训练验证器

GPT-3以前提到过很多令人钦佩的技巧,比如模仿某人的多种写作方式,20分钟内写完一篇论文,而且可以和人工写作媲美等等。但在进行精确多步推理时,遇到了一些困难,如小学数学问题。虽然类似的模型能够得出正确的解决方案,但是通常也会产生严重的逻辑错误。

模型要想在复杂的逻辑领域达到人类所能比拟的性能,就必须有能力识别自己的错误,并且小心地执行后续程序。

基于此,OpenAI研究人员提出了一种训练验证程序,以判断该模型是否正确完成。

多个候选解决方案将在测试阶段产生,并选出最高等级。证实验证(verification)能显著改善GSM8K的性能,此外,在这个观点(随着数据的增加,验证比精确调整基线更加有效)提供了有力的证据。

验证程序的具体培训方法分为三个步骤:

首先,在训练集中对模型的“生成器”做2个epoch微调。

在构建器中为每一个训练问题抽取100个答案,并将每一个答案标记为对或错。

对于数据集,验证程序将再次训练单个epoch。

构建者只训练2个epoch,因为2个epoch的训练足以学到这方面的基本技能。若进行较长时间的训练,所得到的解将过于匹配。

在测试中,解决一个新问题,首先要生成100个候选者,然后再由“验证者”评分,这个排名最高的结果将最终选出。

微调

OpenAI对模型参数进行了调整,从而使所有训练token的交叉熵损失降到最低。

显而易见,175B模型明显优于小型模型。

假定有一个对数线性趋势,在使用GSM8K完整训练集时,模型只需要10^16个参数就可以获得80%的求解率。然而,175B模型似乎需要至少两个额外的数量级的训练数据来获得80%的求解率。

下面的图表中,OpenAI显示在100个epoch训练期间,6B模型测试性能的变化。

如果每个问题都有N个独立的猜想,那么OpenAI就会使用test@Nafearchemasedevelopeasedevelopment。

虽然Test@1的性能几乎单调地提高,但是很快就开始了拟合性测试损失。而且,随着epoch的增加,test@100的性能比test@1下降得更快。

选取一个覆盖良好的模型是训练验证器成功的关键。

通过经验分析,test@100性能在前几个epoch内达到峰值。正因为如此,OpenAI使用两个epoch模型来训练您的验证程序,以产生样本。当6B模型微调时,不需要任何中间步骤就能直接输出结果,性能就会从20.6%急剧下降到5.2%。

GSM8K数据集。

山东济南汉码未来了解到,OpenAI基于四条设计原则创建GSM8K数据集:高质量、多样化、中等难度和自然语言解决方案。

品质优良:GSM8K的所有问题均由人工设计,以避免产生错误。

高度多样化:在GSM8K中,所有的问题都设计得比较独特,以避免仅仅是使用同一语言的模板,或者仅仅是表面的细节。

中度难度:GSM8K中的问题分布对于SOTA语言模型来说是一个挑战,但并非很难解决。这类问题并不需要超越早期代数的层次,并且大多数问题都能被解决,而无需明确定义变量。

SolutionalSolutions:GSM8K中的解决方案是以自然语言而非纯数学表达式写成的。结果是模型产生的解决方案也更易于理解。另外,OpenAI还希望它能够解释大型语言模型中的独白性。

GSM8K数据集由8.5K的优质小学数学应用题组成。每一个解题都需要2-8个步骤,其中的解题主要是通过一系列的基本算术运算来得到最后的结果。优化后的SOTA模型在此数据集上性能较差,主要是由于问题的多样性造成的。同时,GSM8K解决方案只依赖于基本概念,所以很容易达到高性能测试。


以上就是汉码未来给大家分享的文章,希望对小伙伴们有所帮助,想要了解更多AI和小学生比赛考试,谁的分数更高?相关内容的小伙伴可以登录汉码未来官网咨询,主打5人小班,全程面授,主打Java开发,web前端开发等课程,有专业的授课老师为你答疑解惑。

    

分享到:



【免责声明】由于政策等各方面情况的不断调整与变化,本网站所提供的信息仅供参考,请以权威部门公布的正式信息为准。本网站在文章内容来源出处标注为其他平台的稿件均为转载稿,免费转载出于非商业性学习目的,版权归原作者所有。如您对内容、版权等问题存在异议请与本站联系,我们会及时进行处理解决。 删除,请联系客服。
相关推荐
为什么选择汉码未来