AI 一周见闻:马化腾表示 AI 是百年一遇的机会,OpenAI 用 iOS 锁定用户粘性,具身智能让 AI 感知真实世界 | 见智研究

Wallstreetcn
2023.05.21 03:20
portai
I'm PortAI, I can summarize articles.

AI 堪比电力工业革命;AI 绘图新里程碑,汽车也能一键 “敞篷”;在家体验迪士尼的 “飞跃地平线”;半机械 “蜘蛛人” 颠覆人机交互的认知。

从下周开始,AI 一周见闻将增加日更—每日 AI 见闻栏目,欢迎大家持续锁定华尔街见闻·见智研究。

本周 AI 见闻新增—见闻新视角

每周见闻

本周要点汇总:

1、马化腾表示 AI 堪比电力工业革命;美团扩张算法招聘,悄悄研发大模型。

2、 OpenAI 发布 iOS 版本 chatGPT,向 Plus 用户开放 70 款插件

3、 Meta 发布 AI 芯片-MTIA,25 年才能问世,目前还会采用英伟达 GPU。

4、 AI 绘图新里程碑-DragGAN 实现大象转身,汽车一键 “敞篷”。

5、具身智能开创 AI 主动感知,人工智能的下一个浪潮。

6、云从科技发布从容大模型,垂直领域的商业化路径才是国产大模型的机会。

7、 AI 黑科技 - 在家也能体验迪士尼的 “飞跃地平线”;半机械 “蜘蛛人” 颠覆人机交互的认知。

见闻新视角

在腾讯 2023 年股东大会上,马化腾表示:“最初大家都以为 AI 是互联网十年不遇的机会,但是现在对 AI 的认知已经上升到百年发展机遇,可类比电力工业革命。” 腾讯当下也在埋头研发 AI 技术,但是不急于短期求成,未来会在应用、内容生态创造更多的价值,不仅仅专注于 toC 端,同样重视 to B 端的机会。

此外,美团在秘密研发大模型,从 3 月初开始布局该领域,近日算法团队也在扩张中,并且还在筹划成立单独的 “平台部门”,帮助美团大模型通过具体的商业化形式落地。

见智研究认为:当下大模型的竞争非常卷,许多开源的大模型的出现更是加大了这个内卷速度。但是开源大模型的问题在于很难进行商业化,更多的是用于学术性研究;而海外封闭式的先进大模型如果应用在一些关键领域,又会有安全性的隐患问题。

所以发展国内大模型的趋势则在于中文预料库的丰富程度,并且本地化优势强的特征,具有较高的安全性和保密性,未来中文专用大模型的市场化需求会非常高。

特别值得关注的是:大模型和应用结合的商业化价值。无论是 openAI、微软还是谷歌都已经陆续开始生态版图扩张,这也是国内 AI 发展的必然路径,研发成果最终都要变现,产生更大的商业价值。

重磅发布

1、OpenAI 发布 iOS 版本 chatGPT,向 Plus 用户开放 70 款插件

本周,OpenA 宣布正式发布 iOS 版本 chatGPT,需要 iOS 16.1 或更高版本才能使用。并承诺安卓版也即将发布。

手机端的 ChatGPT 支持跨设备同步用户的历史记录,还集成了 OpenAI 的开源语音识别系统 Whisper,用户可以用语音输入内容;能够进行问答、语言翻译、教育辅导、以及自动生成文本等。

此外,ChatGPT 向有 PLUS 用户开放联网功能,允许 70 个第三方插件使用。

见智研究认为:无论是手机端应用的推广还是开放第三方插件的使用,都是 OpenAI 为提高用户粘性,进一步做到用户下沉所做出的努力。

移动端的开放会极大提高用户使用频率,在便捷程度方面远高于 PC 端。自 ChatGPT 发布以来,用户就一直反馈想在移动端使用 ChatGPT。而随着移动端的开放,ChatGPT 的日活数量将会再突破新高,商业价值也会达到新的高度。另外,访问量的激增,对算力的需求也会进一步扩大。

此外,第三方插件目前虽然说是仅向 PLUS 付费用户开放,但是以当前 AI 内卷的程度来看,全面免费也是指日可待的。

2、 Meta 发布 AI 专用芯片-MTIA

MTIA 是专门为训练和推理设计的可编程芯片,MTIA 的推出极大大提高了 Meta 在 AI 方面的硬件实力。科技巨头的竞争最后都无法逃离核心硬件,特别是在发展 AI 的时代,算力水平是发展的基石,无法掌握算力,发展进程势必会受制于 “他人”。

但是 MTIA 还有很大的优化空间,预计还要等到 25 年才能问世。在与 NNP 和 GPU 性能测试上来看,MTIA 在低、中等复杂度模型上有更好的表现,但是在高复杂度上和 GPU 还相差甚远。

见智研究认为:Meta 发展 AI 芯片是为长远计,毕竟芯片才是握在手中的核心硬实力,但高性能芯片研发之路非常漫长,该款芯片的设计也早在 2020 年就开始了。而在当前来看,Meta 仍旧会采用英伟达的 GPU,毕竟在 22 年的时候 Meta 刚刚为引入英伟达 GPU 而对自己的数据中心进行了颠覆性设计,之后还会主要依靠 RSC 超算中心发展 AI。

3、AI 绘图新里程碑-DragGAN 实现所有想象

AI 绘图被 Diffusion 模型独领风骚的日子,被 DragGAN 彻底打破了。名为《Drag Your GAN》的沦为引爆 AI 绘图圈,该论文由 MPII、MIT、宾大、谷歌等机构的学者联合发布,目前已被 SIGGRAPH2023 录用。

该模型几乎能够实现人们对修图的所有需求,从物体形态、细节、甚至是方向、布局都可以改变,堪称核弹级 Photoshop。


用户只需要对照片设置几个操作点(红点)、目标点(蓝点),然后进行拖拽,就可以生成新的图像。

见智研究认为:DragGAN 的出现表明机器在图像学习的训练又达到了一个新的高度。值得关注的是:DragGAN 具有更强大的泛化能力,可以创建出超出训练数据的图像,比如狮子的嘴型就被完全改变,这基本上就是全新生成内容,而不是原本人们认知中的修图功能。


DragGAN 与之前的方法相比,并不依赖于特定领域的建模或辅助网络,而是采用一个通用的框架,利用 GAN 来辨别图像质量,用点追踪的方式完成图像变形功能。有了这个强大的功能,摄像师、修图师都要偷着乐了。

4、 具身智能开创 AI 主动感知,人工智能的下一个浪潮。

在 ITF World 2023 半导体大会上,英伟达 CEO 黄仁勋又放出豪言,人工智能的下一个浪潮将是具身智能。

见智研究认为:具身智能带来的 AI 价值远比人形机器人更大。具身智能最大的特质就是能够以主人公的视角去自主感知物理世界,用拟人化的思维路径去学习,从而做出人类期待的行为反馈,而不是被动的等待数据投喂。在人类的五大感官中视觉获取的信息占比超过 80%,并且让机器理解人类语言也是非常重要的,所以机器视觉和多模态大模型正是开启机器自我感知学习的两把钥匙。详情内容参见英伟达带火的 “具身智能” 是什么?AI 价值远比机器人更大。

5、云从科技发布从容大模型

人工智能平台公司云从科技在广州发布从容大模型,并展示从容大模型的对话、编程、阅读、中考真题答题等基础能力。从容大模型目前处于内测阶段。该模型属于文生文大模型,还不能完成文生图等多模态大模型的功能。

在开放测试中表现情况:反应速度快,但内容准确性还有待提高。并且数据库的时效性比较低,还在 21 年。另外,该模型在数学、推理能力上表现还没有达到预期。

见智研究认为:国内大模型的优势在于中文语料库上的丰富程度远高于国外先进大模型。虽然在领先程度上很难追赶 ChatGPT,但是从容大模型未来会在垂直产业的应用发展上具有领先性,特别是在金融、政务和制造业领域进行专属行业模型的开发,致力于模型的商业化变现。

AI 黑科技

1、在家也能体验迪士尼的 “飞跃地平线”

国外 Nils Bakker 开发者用 ChatGPT 成功打造一个「虚拟空间传送」系统,采用虚幻引擎 5.1 + ChatGPT + Google Maps 3D Tiles API,用户只需要输入地点,系统将会将采用第一人的视角,带你俯瞰全世界的美景,在家体验飞越地平线的快乐这不就来了。


将 Google 3D Tiles 和 ChatGPT 的 API 结合起来,再利用虚幻引擎的能力,让用户能够身临其境般的感受空间穿梭。这下躺在家里也能感受飞跃地平线的魅力了。

见智研究认为:AI 尚且属于行业发展的早期,想象力和创造力都非常重要,行业赛道和商业机会将会如雨后春笋般出现。

2、半机械 “蜘蛛人” 来了

Jizai Arms 的日本机器人公司设计了一种蜘蛛状机器人肢体系统,让人类拥有了可自由操控的机械臂。该系统由六个手臂组成,可以由佩戴它们的用户控制。可最多安装四个机械臂,值得关注的是该系统改变了人机交互的方式。


该假肢非常灵活,可以执行各种任务,应用范围从仓库到医院手术室,未来能够帮助改善残疾人的生活质量。

见智研究认为:机械臂与真人 “合体” 打开了人机结合的想象空间,刷新了人们对机器人发展的认知上限,未来还会有更多的不可能被实现。

下周看点

期待 OpenAI 的第一个开源大模型,能否改写 Meta 的开源王者地位?