■原题:算法训练几乎0成本!梧桐大模型让首批用户吃上“螃蟹”
■记者:思文
行业大模型正在爆炸式集中推出,关注大模型的人士都知道了行业大模型的简单公式,通用大模型+行业场景+训练调优=行业大模型,因此训练调优是企业自研大模型不可避开的重要环节。
然在其他企业还在观望,推出,演示或者调优的当下,宇视作为推出AIoT行业大模型的第一人,6月9号,其小范围召开了大模型“梧桐”种子合作伙伴签约会并公开了“梧桐”未来的规划。
目前“梧桐”针对需求计划细化出三种不同模型:
l CV(计算机视觉)行业大模型
提供AI训练、AI在线学习等服务,预计将在7月底上线,现阶段已经在小范围测试。
l NLP(自然语言处理)行业大模型
提供资料中心、大数据平台、代码开发等服务,这是一款自用行业大模型,目前阶段只在宇视内部使用,主要用在内部生产,精准度要求更高。
l MM(多模态)行业大模型
提供Vlog等服务,目前已在乐园景区、乡村振兴等场景的视频宣传上有丰富的落地案例。
那打出“AIGC平权”旗帜的宇视将怎么把技术平权和知识平权真正融进中小型企业业务里?
CPS中安网作为特邀媒体就此疑问与部分宇视核心高管面对面进行了“圆桌对话”。
1、大模型趋势下
中小型企业怎么用好数据?
中小企业作为中国经济发展的重要主体之一,据工信部公布的数据,2022年我国日均新设企业达2.38万户,中小微企业数量已超过5200万户,在如今大模型热潮下,不少中小企业都在关注行业大模型将会如何为自身企业真正做到降本增效。
虽然数字化转型理念愈来愈普及,不少中小企业都想搭上“高效”这趟车,但“数据怎么用?”“花费多少成本?”这两大疑虑把大部分中小企业拦在了车门外。
除此之外,虽说行业都在认可“ALL in AI”这一现状,但不少中小型企业对于AI的理解可能仍局限性停留在人脸识别。
宇视云智能产品部部长汤利波告诉CPS中安网,作为直接接触到市场动向脉搏的中小型企业,其完全可以利用数据针对性训练一些细分业务场景的算法。“通过场景化算法指标能力的提升,有机会去提升解决方案的增值性,包括服务收益的增值性。”
举个简单的例子,在游乐园娱乐等场所,大部分人可能认为摄像头只是起到安全防控的作用,但假设负责这个场景业务的企业,愿意让摄像头搭载上提前训练好的大模型,训练好的大模型经过推理后,将其视频数据进行自动分割、自动识别、剪辑美化,游乐园就能从原有的出售游客图片的业务升级到游客专属vlog,这便让原本只是躺在存储里的数据得到了进一步调动应用。
可以明显看到,在大模型趋势下,对于中小型企业而言,其如何通过大模型利用数据达到降本增效的作用,结果还是开源或者节流,省下人力、时间、精力成本的同时对现有业务进行升级赋能,将服务收益最大化或许才是正解。
基于此,对于判断市场上任意一项新技术或者新产品是否值得应用,中小型企业往往更加在意实际投入成本几何。关于成本问题,会上,宇视的大模型也给出了阶段性答案。
2、几乎0成本训练
梧桐CV行业大模型将上线
“我们需要更多的渠道能够有这种能力,更好的和宇视合作,而不是只有几家垄断的市场。”宇视CPO朱兵说。
具体来说,宇视的赋能之道是,在训练侧上,用户企业可以远程通过互联网访问之后来训练算法,宇视会承担云的租用费用,为用户企业省去前期训练需要的成本,企业可以几乎0成本获得宇视开通的大模型训练账号,在训练过程中,会有宇视专门的技术团队进行支持。
在推理侧上,宇视通过将场景化的算法进行剥离,也就是将相对小模型的算法部署到宇视边缘端的设备上,一定程度上避免合作伙伴为此额外部署一个几千万起步的超算机房。
此外,算法拓展在目前阶段仍属于烟囱式,即使用户需求很相近,但由于对象的不同还是需要重新生成算法,容易导致投入产出比和客户需求之间的矛盾,而预计7月底正式上线的“梧桐CV行业大模型”可以较好解决这个问题。
举个例子,假设现在有60多万个体育馆,300多万套器材,这60多万个体育馆的器材放置地点都不同,此时项目方需要知道所有馆的器材的使用频率和大众愿意使用哪类健身器材,这时候如果用小模型就需要采集各个体育馆的数据进行对比再针对性地多次训练,而“梧桐CV行业大模型”却能在比较小的数据量情况下,做到泛化识别和推理,即使器材对象千差万别,但省去了二次训练、学习的环节。
场景多N倍,算法获得率提升80%,算法精准度从85%提升至95%,让IT工程训练师训练算法,更容易解决行业Know-How问题,入门门槛更低,大模型梧桐的优势也由此凸显,
目前“梧桐CV行业大模型”已经和第一批合作伙伴完成落地计划的签约,率先在体育、教育、交通、零售等领域进行首发落地。
相信在未来,大模型的“训练”“推理”两个关键词优势将会日益凸显,据了解,为保障大模型的顺利运行,宇视目前部署在云边端芯片款型超过50款,支持的算法种类超过1000个,模型数过万,产品款型过千。
前期成本宇视承担,合作伙伴几乎0成本接入,这么大的支持力度,相信业内人士都会十分好奇,宇视到底靠梧桐大模型怎么实现盈利?
3、瞄准生态价值
力争高效落地
传统意义上,做了一个软件,投入100万,就要力争卖到200万,最后赚100万,光明正大的追求利润是企业绕不开的话题。
但这次,宇视并没有打算使用传统的卖软件直接获利策略,而是通过让利给合作伙伴,让合作伙伴通过使用“梧桐”得到多个专属的“行业软件工程师”。“让宇视的渠道盈利,让他们有进入一些新的业务模式的可能。”朱兵说道。
在这个平权时代,支撑宇视此次这么大胆的行径的信心和念想究竟来自哪里?
“平权时代,最大的竞争力在于你的效率,在于公司看清楚自己的定位之后能够第一时间全力扑上去做。”
2012年,宇视捕捉到人工智能的发展趋势,同年便开始在深度学习领域进行投入,2016年,宇视推出初代基于DL的AIoT产品,如今来到大模型爆炸阶段,宇视又成为第一个推出“AIoT行业大模型”的第一人。
2023年,宇视这次对于“梧桐”大模型的定位到底是什么?
没错,就是落地化,工程化。正如微软将GPT-4对接Office、金山将其大模型产品“WPS AI”接入WPS,大模型最终的落地还得是在硬件上。
那宇视怎么快速落地实现工程化?总结为以下几点:
1、原有的深度学习积累和产品工程化落地可继承
2、站在通用大模型的肩膀上开发自己的行业大模型
3、通过“剪枝”和“蒸馏”等技术,实现行业大模型的边缘侧部署
4、开放能力给合作伙伴,同时有专门的培训和技术服务体系保障
也许正如此次宇视签约种子伙伴之一的万店掌所言,众多行业大模型中为什么选择宇视,其实占比很大一部分原因是其本身已经和宇视有过合作,对宇视这个品牌已经存在一定的认知力和认可度,刚好宇视在这个阶段推出了大模型就相当于为合作伙伴提供了一条龙服务,省去了对其他新品牌的学习、切换成本,选择宇视会适配度更高。
当然,在这个数据量爆炸的时代下,不少企业还是会十分在意保密性,而目前由于大部分中小企业不具备私有云的部署能力,因此愿意上云的企业的数据会相对集中在公有云上,一旦拿出来训练是否会产生泄漏的风险?
“我们前期在接触合作伙伴过程中,也有客户有安全性的疑虑,主要疑虑在原有数据是否外泄和训练成果收否会被无偿占用两方面”汤利波说道。而宇视“梧桐”也将通过相关技术进行分权、分域,建立完善的权限管理和安全管控制度,融合等方式保证训练成果的安全性和独享性。
4、大模型战场已开局
是开始还是结束?
风起于青萍之末,浪成于微澜之间。
相对之前企业拼数据样本,拼私有的训练平台,拼技术架构的小模型AI时代,如今随着大模型相继开源后,有基础的企业大都可以基于开源组件进行自身大模型的自研,先用通用大模型把原始的大量行业场景的知识数据清洗一遍,再把显著目标值给提取出来,去重后形成行业数据库,最终投喂给通用大模型训练出一个行业大模型。
Open AI用了上万块英伟达GPU喂出了一个ChatGPT,浪潮掀到中国,国内千模大战已拉开,行业大模型或将是未来各个领域都会去追寻的模式。
纵观安防行业几十年的发展,从模拟阶段的争夺摄像头代理权,到网络数字阶段的系统业务成焦点,再到智能化阶段的ALL in AI,如今已到大模型卷入阶段,或许正如宇视CEO张鹏国曾在深圳安博会举办期间抒发的经典语录所言:“意识到这是场战争的时候,战争已经结束了,机会不会等待后知后觉的傲慢。”
[出处] 思文, 算法训练几乎0成本!梧桐大模型让首批用户吃上“螃蟹”.CPS中安网, 2023-06-14