左手安全、右手产业深度融合,开普云找到大模型破局新路径
2023年,要说科技行业最大的变化,莫过于ChatGPT的崛起。“人工智能迎来iPhone时刻”“AI2.0时代到来”“颠覆性的创业机会”“下一代的操作系统”——人们给这个时刻赋予了各种代表时代变革意义的宏大名称。
自ChatGPT-3.5发布以来,AIGC如同打开了一扇创新之门,各种AI创新产品扑面而来。在这个探索过程中,大家对于大模型价值的认知也在迭代:从All in通用大模型到探索通过行业实现场景化落地。此前据媒体报道,OpenAI正计划推出一个类似“App store”的大模型商店,正式布局垂直领域大模型。
回到国内,目前AI产业对如何做行业大模型并没有一条清晰的道路,但这并没有阻止玩家们探索的热情。8月14日,开普云召开了开悟行业大模型成果发布会。在此发布会上,开普云介绍了其在行业大模型整体战略以及落地成果,并发布了《开悟大模型白皮书》。
通过开普云的发布会,我们也从中看出大模型行业化落地路径的蛛丝马迹。
01全流程安全可信,何以成为开悟大模型“杀手锏”
在本次发布会上,开普云介绍了开悟大模型的四大特点:场景融合、安全可信、灵活开放、高性价比。其中,全流程安全可信是重中之重。
为什么要强调“安全”?这是由大模型的特点决定的。生成式AI在极大提升内容生产效率的同时,其多模态、海量化、碎片型、变异快、反检测等内容特征,也进一步提高了网络内容的复杂性。
这也是为什么在国家发布的《生成式人工智能服务管理暂行办法》(简称《办法》)里,也强调了安全的重要性。办法指出,坚持发展和安全并重,明确了服务提供者和使用者的安全边界。
从数据看,基于大模型安全的市场潜力被极大低估了,这将是一个千亿规模的机会。华泰证券发布研报称,2030年我国人工智能核心产业规模将超过 1 万亿元。一般信息化投入中安全占比至少在5%-10%以上。
由于AI大模型特殊性,AI 安全未来将成为所有参与方必须考虑的问题,贯穿从数据标注、模型训练和开发、内容生成、应用开发的事前、事中、事后全过程,投入力度不亚于传统安全投入,因此假设AI监管在整个产业链中的占比按照5%-10%来测算的话,预计到2030年国内AI大模型的监管市场规模将达到500-1000亿元。
可以说,安全已经成为大模型发展过程中亟待解决的重要问题。但另一方面,我们必须要认识到,AI大模型的安全问题从来不是某一个单独的问题,它是一个复杂的、体系化的,涉及多个主体和整个产业链的系统工程。就拿模型训练阶段来说,数据输入可能会存在恶意操纵的风险,包括恶性输入、偏见、意识形态攻击、舆论操控、虚假信息、隐私泄露等风险情况。
这恰恰是开普云开悟大模型的价值所在。开悟大模型在训练数据输入阶段、内容生成阶段、大模型输出阶段的三个大模型安全保障核心关键进行严格防控,有效应对大模型AIGC内容安全挑战。
比如,在内容生成阶段,开悟大模型实时监控AI交互内容,在黄赌毒暴恐政等敏感信息、不规范表述的识别基础上,进一步强化上下文结合场景的语义和重复语句识别能力,增强了对复杂语句、上下文关联语境下的风险信息识别。
而这一切的背后,是开普云长期深耕内容安全市场的结果。具体来说,开普云在安全领域的优势体现在两个方面:
一是海量的安全数据。截至目前,开普云已经拥有一个涵盖500万中心词(涉政、涉黄、涉恐、涉暴、涉毒等),在算法加持下,已经能够实现亿级变种词纠错能力。
二是有成熟的安全治理产品体系。比如,开普云旗下的多媒体智能分析引擎,具备有害多媒体内容预警、多媒体信息智能分析以及检索等服务能力,利用图像、视频视觉内容分析算法,可以实现面向精准内容的智能综合检索。
过去几年,开普云的客户覆盖各级各类政府机构、事业单位、国有企业、社会团体、民营企业2100+家,其中公司在政府网站监测服务市场占有率更是高居行业第一。可以说,此前在内容安全领域的深厚积累,已经帮助开普云拿到一张角逐千亿大模型安全市场的“入场券“。
02聚焦场景深度融合,开普云找到了大模型新通路
除了安全性外,如何落地具体场景是大模型发展过程中另一大考验。
时至今日,尽管通用大模型已经具备强大的能力,甚至已经能够在一定程度上替代人工或辅助完成多场景任务,但大模型在产业落地和实现智能化到数字化变迁的过程中,依然会面临专业化场景实际应用问题。
原因不难理解,在高价值的深度行业应用场景中,大模型在解决专业知识复杂度较高的任务时,需要真正的行业经验和真实的行业数据进行更多的训练。依赖一般的通用大模型,仍无法解决高度专业化的实际应用问题。
这恰恰是开悟大模型又一大优势所在。与其他大模型相比,行业场景深度融合是开悟大模型的一大特点。
为什么开普云能做到行业场景深度融合?一是开普云自身有丰富的业务场景。截至目前,开普云的数智业务横跨政务、媒体、金融、电力等多个行业,并在部分领域做到了行业领先。就拿政务来说,开普云的数智政务业务已服务了80%的省级政府、60%的中直机关和国务院组成部门、60%的市级政府。通过大量业务一线的工作经验,开普云在为客户解决了大量实际问题的同时,积累了丰富的行业理解。
二是凭借此前的大数据布局,开普云也积累了大量的行业数据。据开普云总裁严妍介绍,截至目前,开普云已经积累了超过1.3PB的数据资产,包括有效网页链接超过 300 亿条,有效文章索引和专业 文献收录超过50亿篇,而我们精选采样后的优质训练数据更是达到了 4.7TB。
更为难得的是,开普云不仅数据规模大,数据的丰富也保持在一个很高的水平。从披露信息看,开普云数据覆盖政府、媒体、能源、法律、知识产权等多个领域;数据来源则包括网站、社交媒体、短视频平台、专业数据等渠道;在数据类型方面,包括文字、图片、音视频等多种模态。
正因为以上这些特点,开悟大模型能够直接为多个行业提供具体的大模型解决方案。在本次发布会中,开普云发布了开悟大模型的四大行业应用,分别是政务、能源、司法、媒体。
值得一提的是,开悟大模型能够解决细分场景下的具体问题。例如,在政务服务中,可为用户提供智能咨询服务,引导办事人员表单填写,辅助综合窗口人员更精准提供办事指引。
展望未来,开普云将推动开悟大模型进一步广泛应用于金融、知识产权、文化旅游、教育、医疗等各个领域。长期来看,与场景深度融合,将更有利于推动开悟大模型在行业内的实质性落地。
03筑起行业数据防火墙,加速行业大模型落地
当行业大模型逐渐百花齐放,随之也带来另一问题:如何在服务行业中如何保证客户数据的安全性。
尤其对于金融、政务等行业来说,数据安全的重要性更是毋庸置疑。就拿金融行业来说,作为长期以来受到强监管的行业,随着大模型的发展,金融行业数据的合规性和安全性成为亟待解决的问题。由于对数据安全的要求很高,现在金融领域普遍要求模型私有部署,即在加密环境中使用私有数据训练模型。
截至目前,我国网络安全行业的投入主体是以党政机关、电信运营商和各类金融机构为主,其中政府占比接近25%,电信和金融行业占比分别约为15%。其中,政务和金融恰恰是开普云所深度覆盖的领域。
政务领域不用多说,近年来开普云在金融领域也有不小突破。过去两年,开普云先后为国金证券和上交所提供基于数据和内容的信息化服务。根据规划,金融领域将是开悟大模型后续行业落地的重要场景。这也让开普云在行业大模型安全方面更加得心应手。
为了更好解决行业大模型在落地过程中的安全问题,开悟大模型做了两点设计:
一是开悟大模型根据政企客户的安全等级方面制度要求,开启安全等级调节控制功能,开悟大模型通过精准识别使用者的安全保密权限,分级别、分权限地输出符合安全保密级别要求的内容,最大程度满足客户对于信息安全等级保护和分级管理的使用需求。
二是根据行业客户在部署时对数据安全方面的需求,开悟大模型提供私有化部署模式能力,在行业客户私有数据不出库的情况下进行开悟大模型定制化专属训练,满足客户对业务数据和敏感数据的数据安全性要求。
通过以上两点,开悟大模型有望解决行业大模型在落地过程中的安全问题。长期来看,这将对开普云产生一系列积极的意义。其意义主要体现在两个层面:
一是能够覆盖金融、政府等信息化程度较高的场景,且更容易实现商业化闭环。据艾瑞咨询统计测算,2021年仅AI+金融核心市场规模达到296亿元,带动相关产业规模677亿元,到2026年,核心市场规模达到666亿元,CAGR为17.6%。
二是更高的产业壁垒。在行业大模型的竞争中,除了与场景深度融合外,开悟大模型对行业数据的安全性也将成为其一大优势。与通用大模型不同,由于每个行业特征不同,因而都会有自己的行业壁垒。换句话说,在政务、金融等数据安全敏感度较高的行业,开普云的优势有望被进一步拉大。
站在当下看,截至目前,国内AI产业对如何做行业大模型并没有一个清晰的道路。某种程度上说,开悟大模型的发布为行业提供了一个绝佳的参考样本。可以肯定的是,开悟大模型的发布仅仅只是开胃菜,由智能技术带来的产业化变革正席卷而来。
一位技术从业者断言:2023年一定是AIG发生「应用价值」质变的元年。而目前来看,开普云在形成商业闭环上已经先行半步,这来自于开普云在技术积累、数据体量以及应用探索等多个维度上的禀赋和布局,正如加缪所说的那样,「对未来真正的慷慨,是把一切都献给现在」。
本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!