工联院大模型测评:360智脑位列国产第一梯队表现超ChatGPT

访客2年前AI生活223

近日,中国工业互联网研究院(以下简称“工联院”)针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示,360集团(601360.SH,下称“360”)自研大模型“360智脑”在多项指标超过GPT3.5,综合表现位于国产大模型前列。

工联院此次评测选取了工业领域典型的八大行业,集合五大院士,八大IEEE Fellow共13位顶级专家构成了专家委员会。每个行业抽取客观题和主观题,主观题主要考察基础能力、语句能力、概括能力和逻辑能力四大维度,最终八大行业共计超过1100道题,对大模型就行全方位评测。评测对象涵盖GPT4、GPT3.5、360智脑、文心一言等国内外具有代表性的头部大模型。

工联院大模型测评:360智脑位列国产第一梯队表现超ChatGPT

从评测结果可以看出,GPT4表现最佳,国内大模型表现亮眼,360智脑在多个行业均处于前列,其中装备制造业和纺织行业更是超过GPT-3.5,表现优异。

虽然国内大模型在本次评测表现较好,以360智脑为代表的国产大模型甚至在部分行业赶超GPT3.5,但工联院评测报告也指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,也缺乏行业针对性训练。

其实,360近期已经推出一个企业级的AI大模型解决方案,基于360智脑的能力,综合行业和企业的专业知识库,打造“行业化、企业化、垂直化、小型化、专有化”企业级大模型,目前已在智慧城市、智慧企服场景下落地应用实践,且双双入选“北京市通用人工智能大模型行业应用十大典型场景案例”。

这不是360智脑第一次在第三方评测中表现出优异成绩,早在不久前中文通用大模型基准(SuperCLUE)评测中,360智脑数次上榜,且多项能力蝉联国产大模型第一。

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

埋头钻研一年后,阶跃星辰交出了第一份答卷

埋头钻研一年后,阶跃星辰交出了第一份答卷

历经去年持续一年之久的百模大战后,今年伊始,落地应用开始成为大模型的主流叙事方式。本以为,在月之暗面、智谱、MiniMax、百川、零一万物等一...

区块链通证是什么意思?具有哪些功能呢?

区块链通证是什么意思?具有哪些功能呢?

Token一词,是意译和音译相结合,由CSDN中国内地最大的IT社区和服务平台副总裁孟岩先生提出的中文译名为通证。简单的讲,一个通证...

打造产业高质量发展新样板 浦东新区机器人产业提升行动试点正式启动

打造产业高质量发展新样板 浦东新区机器人产业提升行动试点正式启动

机器人被誉为“制造业皇冠顶端的明珠”,其研发、制造、应用是衡量一个国家科技创新和高端制造业水平的重要标志。今年5月,“浦东新区机器人产业”获...

“人工智能”会不会最终取代“人”?ChatGPT这么回答的

人工智能是否会最终取代人类是一个复杂而有争议的问题。当前的人工智能技术在特定任务上已经展现出了惊人的能力,但要取代人类在所有方面的功能,目前...

关于财报中阿里云业绩的几项分析

关于财报中阿里云业绩的几项分析

4日晚,阿里巴巴发布2023财年第一财季的最新业绩,其中关于阿里云的业绩部分,包括以下几个重点: 1、 阿里云营收继续增长,在抵销跨分部交易前...

数丹医疗宣布完成数千万元融资,通过非侵入式脑机接口技术打造智能化脑健康

杭州数丹医疗科技有限公司(以下简称“数丹医疗”)近⽇宣布完成数千万元融资,由山东健康基⾦和真格基⾦共同参与,将主要用于加速临床及消费端创新数字...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。