讯息:这可能是关于昆仑万维天工模型,最详尽的一次评测了

2023-05-04 07:59:45 来源: 阿尔法工场


(资料图片)

(原标题:这可能是关于昆仑万维天工模型,最详尽的一次评测了)


导语:天工作为国产大语言模型,在中文语境和特定场景下,其表现优于ChatGPT3.5。然而,在逻辑推理、代码分析和长对话能力方面,与ChatGPT3.5和Chat GPT4相比仍有明显差距。
天工模型背景昆仑万维天工大模型自 4 月 17 日宣布启动邀测,官方宣布:天工是由昆仑万维(SZ:300418)和奇点智源合作自研、中国第一个真正实现智能涌现的国产大语言模型。 “大”模型有一个重要的特性“涌现”。所谓涌现现象就是在越过了某个参数量和头尾数据量后,其能力曲线就会陡然提升,包括但不限于知识库的扩大和推理能力的提升。 昆仑万维表示天工用到了两个千亿模型 —— 千亿预训练基座模型和千亿 RLHF(Reinforcement Learning from Human Feedback)模型。 而其中的 RLHF 就是“涌现”能力的最重要由来。千亿级别的 RLHF 或许是未来模型进步的最重要模块。 LLM(大语言模型)的新范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。 RLHF 需要收集大量高质量的人类偏好数据,包括人工生成的文本和对模型输出的排名标签。除此之外,RLHF 还需要处理标注者的偏见和不一致以及模型输出的有害或不真实的风险。 总体来说,相较于传统算法,RLHF 需要更多的人工标注和数据清洗以向模型提供充足的带标注的文本数据(又或者是图片数据以训练多模态模型)。 本次天工还有一个重要宣传点为:超过20轮的对话能力和1万字以上的长篇文本记忆能力。这也是当前大部分国产模型最为欠缺的。 之前测试文心一言和 ChatGLM 的时候也表现出了明显的记忆丢失现象。而长记忆能力也是大语言模型的“涌现”现象的一个表征。本文也将着重于测试这项能力。 模型能力测试

本次测试我们主要将天工与 ChatGPT3.5做对比。在部分较难问题(ChatGPT3.5 和天工均无法完成),会引入当前公认最强大语言模型 ChatGPT4 作为参考模型。 对大语言模型能力的测试,常常使用三个模块来评价,分别为语言生成能力,逻辑推理能力,代码分析能力以及长对话连续生成能力。 一、语言生成能力 1.问题:“猜谜语:埋在奴家心底,打一字”。 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 本题中,仅有天工正确回答了这个字谜,而 OpenAI 旗下的两款 AI 模型都未正确答复。 ChatGPT4 则是看似正确地给出了一个不正确的答案。而这正说明本土的语言模型的优势,即针对本国语言的专业调优能力以更符合本地人的使用习惯。 2.“这首诗是什么意思:女娲炼石补天处,石破天惊逗秋雨。梦入神山教神妪,老鱼跳波瘦蛟舞。吴质不眠倚桂树,露脚斜飞湿寒兔。” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 事实上这一段句子是出自于李贺的《李凭箜篌引》。虽然天工和ChatGPT3.5均根据这首诗本身给出了解读,但是很显然由于知识库的欠缺,都无法基于诗词本身的背景解读,只能从文字本身推断诗词含义,自然水平有限。 3.“请帮我列举一个一份赛博朋克世界观的科幻小说的故事大纲和主要人物设定”。 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 从本题结果来看,生成效果 ChatGPT4 >天工 >ChatGPT3.5 。天工在面对中文类题目时表达能力不错,可以较好地理解中文问题并给出相关答案。 ChatGPT3.5在理解问题和给出答案方面表现也不错,但相较于 ChatGPT4 和天工,生成结果的流畅度和准确性稍有欠缺。ChatGPT4表现最好,能够更加准确地理解问题和生成相关内容,输出结果的流畅度和准确性也更高。 4.“从这封电子邮件中提取收货人姓名和地址:亲爱的凯利,很高兴在研讨会上与您交谈。我觉得简的演讲很好,谢谢你要送我的书,这是我的地址 2111 Ash Lane, Crestview CA 92002。Best, Maya”。 上图天工 中图 ChatGPT3.5 下图 ChatGPT4从本题结果来看,天工的表现好于 ChatGPT3.5 和 ChatGPT4。天工能够准确地识别并提取出邮件中的收货人姓名而ChatGPT3.5 则识别错误。

二、逻辑推理能力 1.“树上有9只鸟,猎人开枪打死1只,树上还剩几只鸟?” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 ChatGPT4 能够准确理解问题并给出正确的答案,即树上没有鸟。ChatGPT4 理解了这是一个脑经急转弯或者需要联合实际的题目,而另外两款模型则没有这种推理能力。 2.“假设False 与 True 是 False. 则True 与 not False 是?” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4ChatGPT3.5 和 ChatGPT4 能够理解问题并给出正确的答案,即 True 与 not False 都是 True。而天工则出现了错误的答案,这可能是因为它没有很好地理解问题中的逻辑关系,导致输出结果与实际不符。 3.“爸爸妈妈结婚为什么没有邀请我?” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4ChatGPT4 能够更好地理解问题并给出比较合理的答案,而天工也能理解到这其实是一个玩笑。ChatGPT3.5 则一本正经的胡说。 4.“确定给定句子是否表明两个事件之间存在因果关系、相关关系或中性关系。如果句子表示因果关系,则回答因果关系;如果句子表示相关关系,则回答相关;如果句子表示两个事件之间既没有因果关系也没有相关关系,则回答中性。句子为:“如果你去过博物馆,你就去过大英博物馆。” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 对于语言逻辑的推理,三者均能正确表达。

三、代码分析能力 1.“使用C语言解决:输入一行字符,分别统计出其中英文字母、空格、数字和其他字符的个数。提示:灵活使用getchar() 函数来按顺序读入所输入字符串里面的各个字符。” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 在给予了提示后二者均能正确完成这种基础题目。 2.下面是一道经典的力扣链表题: 上图天工 下图 ChatGPT3.5 这是一道基础的链表类题目,而天工已经无法正确解决。在代码数据集上,坐拥 GitHub 的微软联合 OpenAI 的实力异常强大。 3.给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。请你设计并实现时间复杂度为 O(n) 的算法解决此问题。 上图天工 下图 ChatGPT3.5 与上一题相同,本题天工依旧回答错误而 ChatGPT3.5 回答正确。

四、长对话能力 天工本次的宣传重点就在于20+轮长对话能力和超过1万字的记忆能力。而这也一直是除了 OpenAI 外的大模型的普遍痛点,即记忆能力不强。因此此次测试特此加入多轮对话的实测。 我们首先让他给出一个废土风格的科幻小说框架: 接着让他给出主人公的设定: 由于这个框架中没有女性角色,我们让他在原有的故事框架中添加女性角色: 全篇超过了1800字,而天工并没有丢失记忆。在目前的国产大模型中是效果最好的一档。天工也印证了其宣传的多轮对话能力。 总结

从上述评测结果来看,天工作为国产大语言模型,在中文语境和特定场景下表现出色,能够理解和回答相关问题。 在语言生成能力方面,天工和ChatGPT3.5都表现得相对不错,尤其是在中文问题上,天工的表现优于ChatGPT3.5。然而,在逻辑推理、代码分析和长对话能力方面,天工与ChatGPT3.5和ChatGPT4相比仍有明显差距。 在逻辑推断上,天工确实表现出了其宣称的“涌现”现象,获得了一定的逻辑推理能力。这是模型增大和引入 RLHF 的典型表现。其在算法积累和模型参数量扩大上有一定的成效。 但是天工的代码能力确实显著弱于ChatGPT3.5的能力。ChatGPT3.5可以出色的完成大部分的 leetcode 算法题并且可以一次通过。 而天工生成的代码一般都无法直接通过。这可能主要得益于微软旗下的 GitHub 的庞大积累以及其提供的巨量代码样例。 在天工自己宣传的多轮对话和涌现现象来看,可以看到天工确实具备了一定的多轮对话能力。 对于上下文的记忆能力当前处于国内领先水平。大语言模型的涌现现象,是指当一个语言模型的规模(参数量、训练数据量、计算量等)达到一定的阈值时,它会表现出一些小规模模型所不具备的能力。 例如在没有额外训练或梯度更新的情况下,通过少量的示例或提示来完成各种下游任务。这种能力是难以预测和解释的,因为它不符合简单的伸缩法则,而是在某个临界点发生了质变。 在目前来看,天工可能确实产生了涌现现象,极大提升了模型的能力并降低了模型对于定向数据的依赖。同时长期记忆能力也赋予了模型更多的可能性。 总体来说,天工作为国内大语言模型的代表,表现出了一定的竞争力。在未来,天工在不断优化和改进的过程中,有望在特定场景和应用领域取得更好的成绩。 然而,要在全球范围内与顶级模型展开竞争,天工仍需在各个方面加强提升。


每日热点