对标GPT4代码解释器!港中大让模子写代码处置数学题,得分卓越GPT4

发布日期：2023-10-19 12:38 点击次数：108

对标GPT4代码解释器!港中大让模子写代码处置数学题，得分卓越GPT4

丰色发自凹非寺大发大8彩票

大发官方彩票

量子位 | 公众号 QbitAI

对标GPT-4代码解释器，港中大最新磋商放了个“大招”：

他们诞生了一个叫作念MathCoder的大模子，数学智商径直在竞赛级“题库”Math上逾越GPT-4。

△ 形象为羊驼是因为MathCoder底层模子来自羊驼眷属

作念到这极少靠的即是无缝集成代码的智商——

在遭受数知识题时，它不仅能用当然言语推理，还能自动编写和执行代码来建模、推导公式与方程。

这么的职责模样无疑和无边的GPT-4代码解释器相似。

在实质评测中，MathCoder除了逾越GPT-4，还班师在MATH和GSM8K两大数据集上赢得了开源LLM中的SOTA（击败了8月份才出身的WizardMath）

这个“新王”究竟是奈何出身的？

对标GPT-4代码解释器

总的来看，港大这项磋商为了提魁伟模子的数学推明智商，学习了GPT-4代码解释器的优点和职责旨趣，冷漠了一种微调开源言语模子的措施。

该措施最终使大模子无缝集成代码，愚弄代码来处置数知识题。

具体而言，他们领先冷漠了一个不错生成高质地数学题的数据集：MathCodeInstruct。

该数据集由两部分构成：

种子数据（D0）：主要基于GSM8K和MATH，并愚弄GPT-4网罗谜底。

插值数据（D1）：让GPT-4基于他们冷漠的一种叫作念“问题插值教导”的措施生成。

如下图所示：

示例1和2分别来自于GSM8K和MATH，1绵薄，2难一些，GPT-4要作念的“插值”即是生成比1难但比2更绵薄的新问题。

基于以上两类问题，最终MathCodeInstruct数据集一共网罗了8万说念数学题。

如下表所示，这比业内其他数据集范围稍小一些：

而与其他数据集比拟，它的脾气之一是同期弥补了GSM8K和MATH这两大热切数据逼近不及的部分，给出了一些难度范围更广的问题，增强了数据集的泛化智商。

脾气之二是数据逼近的每说念题目同期包含基于当然言语推理的部分+基于代码处置的部分（包括执行代码和代码输出效力）。

如下图所示，这是对上头GPT-4生成的“插值”问题的处置想路：

在数据集准备好以后，团队便冷漠了一种定制的监督微长入推理措施，大发彩票下载网站最终在Llama-2和Code Llama上微调出了MathCoder。

具体而言，该措施使用罕见的token（、、）来识别测验数据逼近哪一部分是当然言语、代码还是效力，让模子学习生成由这些罕见秀气分离的当然言语和代码。

在推理技巧，该措施还会将动态执行的效力附加到模子的先前展望中。

然后，不绝基于这个新版块的输入自转头展望下一个token，以及临了的执行效力。

作家暗意，通过这种模样，模子将大略“看到”执行效力，并不断地不绝推理。

最终，该措施使微调模子MathCoder以近似GPT-4代码解释器的模样初始。

在评测中，MathCoder凭此径直在MATH和GSM8K这俩数据集上赢得了45.2%和83.9%的好收货。

该收货解释：

其一，它逾越了ChatGPT-3.5和PaLM-2等9个闭源模子，并在以数学竞赛题为主的MATH集上逾越GPT-4。

其二，它击败了此前数学范围里最强的开源模子WizardMath，成为新的开源之最。

不外其三，效法但还未卓越，在这俩数据集上，MathCoder还是与GPT-4代码解释器（69.7%和97%高分）存在着一定的性能差距。

作家先容

本磋商一共10位作家，除了两位来自香港城市大学除外，其余均来自香港中语大学。

共并吞作一共有6位，分别是：Ke Wang、Houxing Ren、Aojun Zhou、Zimu Lu、Sichun Luo和Weikang Shi。

通信作家为李鸿升，为港中大电子工程系副讲授，同期也赴任于上海东说念主工智能磋商室。

论文地址：

https://arxiv.org/abs/2310.03731

— 完 —

量子位 QbitAI · 头条号签约大发大8彩票

大发大8彩票

对标GPT4代码解释器!港中大让模子写代码处置数学题,得分卓越GPT4

热点资讯

相关资讯