来源:bob的网页地址 发布时间:2024-04-29 16:12:00
在大模型的浪潮席卷而来的前几年,其实也掀起过一阵 AI 创业热潮。其中商汤科技、旷视科技、云从科技、依图科技是这一段时期的代表,这四家公司也被称为「中国 AI 四小龙」。
到了 OpenAI 掀起的这股新浪潮中,四小龙中的商汤科技还留在舞台中央。去年 4 月商汤发布「日日新大模型」系列,是国内最早推出基于千亿参数大语言模型的公司之一。
商朝的开国君主汤在澡盆上刻了上述自我告诫的格言,恰似今天 AIGC 领域的变化深度,商汤大模型的更新节奏也可谓「日日新」。
两个月前,商汤推出「日日新 SenseNova 4.0」大模型体系,甚至先 OpenAI 一步首发了全球首个支持不同模态工具调用的 Assistants API。
而今天下午,「又日新」的商汤继续推出了一系列基于「日日新」的生成式 AI 模型及应用,先给大家划重点:
AI 2.0 时代,生成式 AI 被视为推动生产力进步的重要技术,如果能在知识、推理、执行三层能力上实现突破,将真正带来整个社会生产力的跨越式发展。
上个月,商汤 CEO 徐立在出席 2024 GDC 提出了如上观点,而在今天的发布会上,他再次强调,商汤在尺度定律的指导下,会持续探索大模型能力的 KRE 三层架构(知识-推理-执行),不断突破大模型能力边界。
那么全新升级的日日新 SenseNova 5.0(以下简称:日日新 5.0)又有哪些更新亮点呢?
日日新 5.0 本次更新主要聚集增强了知识、数学、推理及代码能力,全面对标 GPT-4 Turbo。
在主流客观评测上,日日新 5.0 达到或超越了去年 OpenAI 在开发者大会上发布的 GPT-4 Turbo 版本,同时也几乎全方位碾压了近期发布的 Llama 3-70B。
光说不练假把式,在发布会现场,商汤也全方位展示了日日新 5.0 在语言、数学推理等方面的实际能力。
同样输入一道 2022 年的高考作文题,对比 GPT-4 Turbo(仅为去年 11 月份的版本,下同) 能够正常的看到,日日新 5.0 生成的结果脱离了模版套路化的束缚,多了点人味,一看就是能走进高考阅卷老师心坎的文章。
面对数学问题的拷问,GPT-4 Turbo 开始有些招架不住,不仅计算过程复杂,最终得出的结果也是错误的,而日日新 5.0 这边得出的答案则充满条理性,也完全正确。
瞄准本土化应用场景的日日新 5.0,在理解中文特有的文化和语境上是要优于 GPT-4 Turbo 的。GPT-4 Turbo 既然不熟悉中文语境,自然也就无法精准把握「老鹰捉小鸡」这样的本土游戏规则。
从基准测试结果上看,日日新 5.0 也能与 GPT-4V 打得火热,并且互有胜负。在实际的案例演示中,日日新 5.0 支持的秒画生成老象的效果更自然一些,而同样的问题给到友商,甚至还会出现三条腿的谬误。
基于同一 Prompt 生成的人像图,商汤旗下秒画生成的皮肤纹理自然,既没有过度磨皮加滤镜,也顺利完成了「美丽」的指标 。考虑到国际上用于训练 AI 模型的亚洲人像数据库相对有限,这样的对比结果也相对正常。
日日新 5.0 上能「攻破」长图的总结描述,中能识别滴滴打车的具体信息,下还能计算中国特有早餐的热量,同样的问题给到 GPT-4 Turbo,也许就是两眼一抹黑。
总说 AI 会重塑工作流,这一次,商汤也特别演示办公小浣熊在这方面的能力。
将 F1 赛车手周冠宇三年的参赛记录输入到系统中,并让它虎指出出参与比赛数量的柱状图,这个任务看似简单,但实际上也牵涉到复杂的识别难题。
在国际比赛中,周冠宇使用其英文名字参赛。传统的大模型在处理这类涉及非英文常规拼写或者特定人物的识别任务时,往往表现不佳。日日新 5.0 升级的办公小浣熊虽然经历了一些波折,但终究是顺利绘制出来。
在武侠世界中,「天下武功,唯快不破」强调了速度在实战中的重要性,而在大模型的战役中,这一原则同样适用。
随着大模型技术的加快速度进行发展,不同应用场景的需求日益显现,智能手机、电脑、VR 眼镜等终端设备对大模型的使用频率,性能速度,安全稳定等提出了更高要求。
变得更务实的商汤在本次发布会也正式推出了 1.8B 规模的 SenseChat-Lite 版本端侧⼤模型。
在基准测试中,该端侧模型全面超越了 MiniCPM-2B、Phi-2 等同量级的大模型,并且还越级比肩一些 7B、13B 大模型,用徐立的话来说,那就是同等尺度性能最优,跨级尺度全面领先。
研究表明,人眼最快的阅读速度大概就是 20 字/秒,而搭载 1.8B 商汤端侧模型在中端手机上可以在一定程度上完成 18.3 字/秒的速度,而在旗舰手机则最高支持 78.3 字/秒,成为业内最快推理速度。
商汤还推出端云协同解决方案,能够最终靠智能化判断协同发挥端云各自优势,需要联网搜索或处理复杂场景时分流至云端处理,部分场景端侧处理占比超过 80%,从而明显降低推理成本。
在与「商量」的寥寥几秒对谈中,无论是几秒生成请假报告,还是总结几千字的文档都能快速响应。
端侧扩散模型还能实现业内最快推理速度,端侧 LDM-AI 扩图技术在某主流平台上,推理速度小于 1.5 秒,比友商云端 app 快 10 倍,支持输出 1200 万像素及以上的高清图片,支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。
现场的演示中,工作人员更是能做到随拍随扩,将端侧大模型「唯快不破」的能力展现得淋漓尽致。
并且,据徐立介绍,该端侧大模型一般适用于日常对话、常识问答、文案生成、相册管理、图片生成、图片扩展等六大领域,还支持多设备适配,使其能够灵活地应用于各种不同的场景和设备之中。
对于金融、代码、医疗、政务等重点行业边缘侧日渐增长的 AI 应用需求,商汤还正式推出了超高的性价比、开箱即用、数据安全、全国产化的企业级的应用一体机,涉及金融、医疗、政务、代码等四大行业。
以政务智能咨询问答平台为例,它不仅仅可以理解用户提出的问题,还能提供答案的参考来源,极大地提升政务服务的智能化水平。
徐立指出,自然语言仍然不能替代编程语言,当前的「AI 程序员」无法独立完成复杂的工业级代码项目,而 Copilot 才是更适合的形态。
因此,今天商汤还发布了小浣熊代码大模型一体机轻量版,单台支持 100 人规模研发团队使用。支持数据不出域,安全有保障,免费部署即可开箱即用。每台售价 35 万元起,为中小企业用户更好的提供了超高的性价比的选择。
今年以来,Sora 的出现让人们见识到了 AI 视频生成的无限创造潜力,徐立在最后环节也带来了「One more thing」——三段完全由大模型生成的视频。即将上线的文生视频生成平台也在人物可控性、动作可控性以及场景可控性等方阿敏都有着出色的表现。
在 GPT-4 发布一年后,大模型们依然在不断卷参数刷榜。但今年行业里已经大家真正关心的,其实是怎么将大模型通过 Agent,并接入到无数企业和个人的工作流中。
OpenAI 的 GPT Store 没有如愿成为 AI 行业的 GPT Store,但大量的需求和问题依然摆在那。大模型的强大的能力和落地不一样的行业场景之间缺乏畅通的桥梁,同时也代表着一个巨大的机遇。
商汤的日日新开放平台,实际上就是一个大模型超市。通过多模态的模型能力提升 API 的调用效率,降低企业和开发者调用和定制每一种 AI 功能的门槛。
比起模型的规模参数,商汤更侧重于模型的能力应用。从商汤针对金融、医疗、政务、代码的行业大模型,到目前行业推理速度最快的端侧模型,以及商量、 如影、大医、小浣熊家族等 AI 原生应用,都可能看出商汤想要提供接口更丰富,能执行不一样的行业复杂任务的 AI 工具箱。
知名调查研究机构 Frost & Sullivan 发布的《2023 年中国 AI 开发平台市场报告》指出,SenseCore 商汤大装置已成为中国 AI 开发平台云计算基础设施供应商的领先者。在硬件基础设施兼容性、产业链合作情况、模型训练优化模块、智能标注技术能力、预训练模型技术水平 5 个评估项目中,商汤均获得最高分。
我们前段时间报道过金山办公的 WPS AI 企业版,其中合作的大模型就有商汤。金山表示商汤在数据分析上比较出色,因此 WPS AI 就调用它处需要理科思维的场景。
APPSO 把金山这种不生产大模型,而是坚定做大模型应用的公司,称为 AI 的应用主义者。而商汤在其中扮演的角色,与其说是大模型的提供商,不如说是帮助各行各业大规模应用落地 AI 应用的百货超市。
什么是百货超市?存在广泛的产品线,能满足多种消费者大大小小的个性化需求。最重要的是,百货超市的出现让种类非常之多的商品更容易被大众获取,让更多普通人便捷享受到全世界的高品质的产品和体验。
而这,正是方兴未艾的 AIGC 未来对我们最大的价值。而公司作为现代社会最伟大的发明之一,如果说大模型正在带来第四次工业革命,大概率是从对企业的影响开始。已故的商汤创始人汤晓鸥也曾表示:
并不存在 AI 这个行业,只有 AI+行业,强调 AI 需要与传统产业合作,这种关系是结合与赋能,而不是颠覆,其价值在于帮助传统产业提高生产效率,解放生产力。
汤晓鸥在一次演讲中提到,「企业融资不是用来烧的,而是做伟大的事。」而商汤科技未来十年要做的「伟大的事」,将是帮助千行百业将 AIGC 落地。