AI和小学生比赛考试,谁的分数更高?
如今小学生的数学问题不能简单地描述,有的家长还得思考半天,看是否还有别的解决办法。市场上更是各种拍题搜索答案的软件。
AI和小学生比赛考试,谁的分数更高?
最近,OpenAI开发了一种解决小学数学问题的新系统,极大地提高了GPT-3逻辑推理问题。
该系统可解决小学数学问题,60亿个参数GPT-3采用“新方法”,准确率直接翻倍!就连有1750亿个参数的GPT-3模型,也采用了微调方法。
此外,一名9-12岁的学生在测试中得分为60分,使用新方法的GPT-3在相同的题目上能得到55分,已达到小学生90%的水平!
训练验证器
GPT-3以前提到过很多令人钦佩的技巧,比如模仿某人的多种写作方式,20分钟内写完一篇论文,而且可以和人工写作媲美等等。但在进行精确多步推理时,遇到了一些困难,如小学数学问题。虽然类似的模型能够得出正确的解决方案,但是通常也会产生严重的逻辑错误。
模型要想在复杂的逻辑领域达到人类所能比拟的性能,就必须有能力识别自己的错误,并且小心地执行后续程序。
基于此,OpenAI研究人员提出了一种训练验证程序,以判断该模型是否正确完成。
多个候选解决方案将在测试阶段产生,并选出最高等级。证实验证(verification)能显著改善GSM8K的性能,此外,在这个观点(随着数据的增加,验证比精确调整基线更加有效)提供了有力的证据。
验证程序的具体培训方法分为三个步骤:
首先,在训练集中对模型的“生成器”做2个epoch微调。
在构建器中为每一个训练问题抽取100个答案,并将每一个答案标记为对或错。
对于数据集,验证程序将再次训练单个epoch。
构建者只训练2个epoch,因为2个epoch的训练足以学到这方面的基本技能。若进行较长时间的训练,所得到的解将过于匹配。
在测试中,解决一个新问题,首先要生成100个候选者,然后再由“验证者”评分,这个排名最高的结果将最终选出。
微调
OpenAI对模型参数进行了调整,从而使所有训练token的交叉熵损失降到最低。
显而易见,175B模型明显优于小型模型。
假定有一个对数线性趋势,在使用GSM8K完整训练集时,模型只需要10^16个参数就可以获得80%的求解率。然而,175B模型似乎需要至少两个额外的数量级的训练数据来获得80%的求解率。
下面的图表中,OpenAI显示在100个epoch训练期间,6B模型测试性能的变化。
如果每个问题都有N个独立的猜想,那么OpenAI就会使用test@Nafearchemasedevelopeasedevelopment。
虽然Test@1的性能几乎单调地提高,但是很快就开始了拟合性测试损失。而且,随着epoch的增加,test@100的性能比test@1下降得更快。
选取一个覆盖良好的模型是训练验证器成功的关键。
通过经验分析,test@100性能在前几个epoch内达到峰值。正因为如此,OpenAI使用两个epoch模型来训练您的验证程序,以产生样本。当6B模型微调时,不需要任何中间步骤就能直接输出结果,性能就会从20.6%急剧下降到5.2%。
GSM8K数据集。
山东济南汉码未来了解到,OpenAI基于四条设计原则创建GSM8K数据集:高质量、多样化、中等难度和自然语言解决方案。
品质优良:GSM8K的所有问题均由人工设计,以避免产生错误。
高度多样化:在GSM8K中,所有的问题都设计得比较独特,以避免仅仅是使用同一语言的模板,或者仅仅是表面的细节。
中度难度:GSM8K中的问题分布对于SOTA语言模型来说是一个挑战,但并非很难解决。这类问题并不需要超越早期代数的层次,并且大多数问题都能被解决,而无需明确定义变量。
SolutionalSolutions:GSM8K中的解决方案是以自然语言而非纯数学表达式写成的。结果是模型产生的解决方案也更易于理解。另外,OpenAI还希望它能够解释大型语言模型中的独白性。
GSM8K数据集由8.5K的优质小学数学应用题组成。每一个解题都需要2-8个步骤,其中的解题主要是通过一系列的基本算术运算来得到最后的结果。优化后的SOTA模型在此数据集上性能较差,主要是由于问题的多样性造成的。同时,GSM8K解决方案只依赖于基本概念,所以很容易达到高性能测试。