对话跃然创新:把大模型做到毛绒玩具上一个AI界的泡泡玛特就出来了?

来源:安博体育官网登录 时间:2024-11-02 21:08:53 点击:

  找不到商业化落地场景的Agent+一个简单的Wifi音箱+儿童喜爱的毛绒玩具,这三个看起来都平平无奇的元素,加在一起能产生什么化学反应?

  这个挂在小熊玩偶上的“彩色泡泡”名叫BubblePal,从硬件形态上看像一个可爱版的AI Friend,小朋友可以自由创建和选择泡泡背后的角色是爱因斯坦、艾莎公主还是孙悟空等等耳熟能详的角色,捏住泡泡就能与其对话;家长在后端通过手机APP可以获取对话的全部内容,以此来了解3-6岁小朋友的成长和心理健康动态。

  就是这样的一个简单的“泡泡”,几乎巧妙地避开了如今围绕着AI的所有难题。

  基座大模型能力还不够用?有可能会出现幻觉?Agent不够像,用户没有付费意愿?对于根本不知道ChatGPT、Claude还是Kimi的小朋友和家长而言,儿童提问的场景模型能力已经完全超出预期,甚至幻觉也被当成是一种加分项和娱乐。而在毛绒玩具市场里,IP联名本身就已经是成熟的商业模式,Agent有了天然的落地场景。

  “上线当周,我们后台收到了大量的订单咨询,家长反馈特别强烈,我们也没想过能卖得这么好。更没想过的是,我们的日tokens调用量正在成倍地往上涨,上线两周,单日tokens 消耗达到了2亿,现在每日 tokens消耗已超越了4亿。”跃然创新创始人李勇告诉我们。

  李勇透露,BubblePal的研发时间用了9个月,在开售不到1个月的时间里,设备已经激活了超过1万台,以399元一个的产品定价,GMV超过400万元。今年预计销量8万台,从目前的销售情况去看,应该比较乐观。

  “两个都要做,先做泡泡是因为,内置在毛绒玩具里,IP方审核周期比较长,产品要年底才能上线。泡泡相对来说研发周期更短一些,也能挖掘一部分存量市场。”李勇讲道。

  在接近3个小时的对话里,李勇多次提到“活着”,作为一名创业老兵,他曾经跟随罗永浩在锤子科技追求过理想,也被现实的商业世界逼到过墙角,2023年公司一度濒临破产,这让他的思考变得十分务实。

  从商业模式出发,BubblePal本质上是一款面向儿童的消费电子,唯一不同的是接入了大模型的能力。

  李勇毫不避讳表达“相比于大模型底层公司,我们没太高的技术壁垒”、“做毛绒玩具就为了和大厂错位竞争”、“硬件配置和智能音箱相似,并不复杂,所有计算都是在云端完成的,这样才可以控制成本”。

  他甚至坦然承认“颠覆式创新的硬件形态,我们也很期待,但天猫精灵的工作经历让我明白,产品做出来是一方面,更难的是教育市场,发明新品类不太适合一个资源有限的初创公司去做。所以最终选择了大模型 + 一个成熟品类,毛绒玩具。”

  在当下此阶段,颠覆式的创新硬件固然看起来更吸引人,但回归商业本质,赚钱才是硬道理。

  李勇:就是孩子按一下我们的BubblePal产品开启对话,然后我们把语音转成文字,通过我们的两层模型生成相应的结果,再输出语音给孩子。

  两层模型是通用大模型+垂直小模型的结构。通用大模型我们国内主流的几家都在合作,Minimax、豆包、智谱等。此外,因为我们在我们在海外也发售,国外我们也接了ChatGPT等 几家头部模型,然后垂直小模型是我们自己基于Llama 2的开源模型 fine-tune的。

  在实际交互过程中,我们会用自己的小模型来识别用户意图,会把这些具体的问题,分发给不同的通用大模型。

  比如我们最近即将上线的AI儿歌功能,测下来,感觉Minimax的效果不错,就接的Minimax。大致功能是,孩子对话的时候说,给我唱首歌吧,然后我们的AI就会创作一首歌曲。这个音乐或者儿歌,是孩子的 AI Friend基于他们共同的记忆、喜好,给孩子生成的。就和真实的生活中,孩子的朋友陪伴一起唱歌、一起玩音乐游戏的体验一样。

  硅星人:国内大模型大多数都接了,为什么现阶段主要用Minimax?你们用下来,不同的大模型之间有啥不一样的区别吗?

  李勇:其实,各家效果都挺好的,儿童对话的场景里肯定都是够用了,因为我们最早选择做AI儿童产品,就是基于大模型的幻觉是可以在儿童天马行空的对话场景下被接受的,毕竟儿童对话中信息密度和准确度的要求没那么高。

  现阶段用Minimax 比较多是因为他们产品很棒,对我们的支持很好,给了我们早期用户很多免费 tokens 额度,我们也是Minimax官网上客户墙展示的唯一一家勇于探索商业模式的公司。我们产品上线一个月,单日 tokens 消耗就超过 4 亿了,也给了他们一个惊喜。

  硅星人:整个token调用量这么高,是因为小孩真的爱玩,还是刚上线他新鲜,玩了一段时间就不感兴趣了呢?

  投资人也经常问我这个,确实大部分玩具都是孩子玩着玩着就不爱玩了。我认为有两个核心原因,第一是孩子长大,兴趣点和喜欢的玩具会变化,第二是玩具的功能太简单,孩子很快掌握后,就失去了新鲜感。

  但 Bubble Pal上线一个月,用户活跃度非常好,用户平均每天使用时长超过了 30 分钟。一个原因是,孩子在成长过程中,每天就是会有无穷无尽的困惑,现在的大模型可以回应孩子的每一个奇思妙想;另一个是孩子们没有手机,他们最多只有手表、智能音箱这种冰冷的工具。今天我们把大模型功能放在他们最喜欢的一个卡通角色里,那孩子不就疯了吗?比如,我们最近刚上线的孙悟空角色,有同事的女儿中午午休玩了一中午不放手。

  分发只是一方面。简单的说,通用大模型主要是负责计算和推理的,而小模型是负责把通用模型的结果转换成适合给孩子的内容的,这里面涉及三个方面的处理。

  第一,我们在小模型里封装了一层跟孩子对话的Agent的一系列prompt,让AI的回答更贴IP角色的人设。

  举个例子,当我们问通用大模型什么是量子纠缠,它会一本正经地回答百科的内容,但我们的产品,假设家长设定的Agent是AI小猪佩奇,那么它就会以小猪佩奇的口吻来解释什么是量子纠缠,“就像我和我的弟弟乔治,虽然它躲在沙发背面,我也能感知到他。”

  第二,是把回答调整的更加情绪化。我们大家可以按照客观还是主观、理性还是情绪化,把大模型的表达分成四个象限,那我们肯定是第一象限,非常主观+情绪化,但通用大模型是第三象限,理性+客观,因为他要取供最大公约数。所以在实际交互过程中,就要求我们的小模型用口语化的高质量数据集,来训练情绪。

  第三,是长期记忆的部分,比如,当孩子问,我上一次跟妈妈吵架是何时?我上一次游出去游泳何时?我自己的小模型通过查询向量数据库就可以直接输出,不需要调用通用大模型。

  硅星人:国内很多AI对话app也在做IP角色,但好像都不像,你们的Agent和IP角色足够相似吗?这点难不难做到?

  李勇:不难,可能是这些 APP做的角色很多,每一个角色没有花很大精力去优化。Character.AI的佛祖、乔布斯、苏格拉底都非常像了,但可惜公司也卖了,光靠用户订阅充值的商业模式可能是撑不起来的,Tokens消耗这么大,还得做维护。

  除非像我们一样,做一个硬件,而且硬件产品有足够多的利润去支撑模型的优化,因为对消费的人来说,为硬件付费是一个很自然的事情,我们有动力去持续迭代。

  李勇:对,这份是基于开源做的,我们没找到现成的方案,如果有好用的现成的,我们也不介意直接用。

  硅星人:推理和计算是通用大模型,垂直小模型是开源模型封装了一套成熟的prompt,会不会有人质疑你们的技术壁垒?

  李勇:嗯,有人质疑,我都说我们没技术壁垒,用了很多开源的项目,我们是大模型应用公司,我们要做的是调用大模型的能力去实现用户价值,使用户得到满足需求。所以还是要感谢这些开源项目和大模型公司,我们是站在巨人的肩膀上,只不过我们的团队有产品和技术的整合能力,把它们放在一起。

  李勇:首先,我们开发了一个APP,它不仅仅是用来联网的,家长还可以通过它查看孩子的聊天记录。我们每周会为家长提供一份成长报告。举个例子,如果我为孩子报名了舞蹈班,但这周我发现孩子并没有谈论舞蹈,而是聊了十次足球,我就能发现孩子这周的兴趣所在。

  其次,家长还可以在APP里还切换角色,目前我们已经推出了几十个角色,当然家长也可以自己创建,比如小猪佩奇、艾莎公主、库洛米等等。现在大概每周都会不定时更新一些角色吧。

  然后,在家长选择角色时,我们还设置了角色标签,就是一个prompt,让家长根据孩子的特点,调整角色的对话主题和目标。比如说,我家孩子比较内向、胆小,我就设置让AI多鼓励孩子,多讲一些关于勇气和冒险的故事等等。

  因为每个孩子都是独一无二的,每位家长对孩子的期望也不尽相同,即使两个家长都在用孙悟空的角色,通过设置不同的prompt,几个月后,两个孩子的孙悟空角色输出内容也会变得不同。

  硅星人:实时聊天记录,那这个有点像一个给大人打小报告的角色,你们有考虑过隐私问题吗?

  李勇:会有些用户担心隐私问题,但我们的产品主要面向3到6岁的儿童,3~6岁的孩子本身就非常依赖父母引导,而大模型又是一个新事物,有些家长可能会担心大模型会对孩子产生不良影响,为了让父母放心,最好的办法就是公开透明给家长。

  硅星人:产品的设计里有很多你们的洞察,大家都很愁AI的能力用在哪,你们觉得这是个问题么?

  李勇:我们可能是第一个破圈的AI硬件产品。之前所有的AI硬件,比如 Meta 的眼镜、AI Pin、Rabbit R1,这些产品的早期用户都是科技圈的,但我们不是,我们产品的购买者大多是年轻的妈妈,很多家长根本不知道什么是 AIGC、大模型,甚至很多用户在买回去后不会联网,他们是真的有需求、感兴趣。

  比如根据大模型能力的变化,GPT-4o有了端到端语音能力,那我们可以减少延迟,让用户端的语音情绪也能完全保留下来;模型端一旦具备了连续对话能力,我们还可以做多智能体。 毛绒玩具的复购率很高,三岁的时候给孩子买了孙悟空毛绒玩具,五岁的时候又买了爱因斯坦毛绒玩具,因为绑定的是同一个账户,那么孩子跟孙悟空已经聊了两年了,这两年的记忆就可以自动同步给新的爱因斯坦毛绒玩具。

  而且玩偶打通了之后还可以干嘛呢?我们就可以开启“玩具总动员”的多智能体模式。孩子可以让孙悟空扮演船长,爱因斯坦扮演大副,三个人一起去冒险,我们在云端设置一个虚拟Agent去调配这两个角色,当孩子说了一句话之后,虚拟Agent就直接决定好接下来轮到谁说话、说什么内容,沉浸式过家家。

  如果你身边有小孩子,你就会发现,他们天然喜欢做这件事,平常一个人在家就喜欢拿着一堆娃娃、玩具摆来摆去地讲故事。

  硅星人:做玩具总动员,不停复购好有意思。我们和很多AI应用的创业者聊过,大家都说技术没有壁垒,应用的壁垒是用户网络效应,或者用户使用量的滚雪球效应,用户迁移成本是你们的壁垒吗?

  李勇:我觉得是的。壁垒是用户的记忆。孩子如果他们在三四岁时就接触我们的产品体系,把珍贵的童年记忆和情感寄托留在我们产品里,即使未来别人也做出 AI毛绒玩具,那么孩子们的童年不会重来一遍。

  我不知道你们发现没有,哪怕网络再发达,在人类历史上,有关儿童早期与朋友的交流数据都是缺失的。我们不知道孩子会抱着TA的毛绒玩具聊些什么,我们也不记得自己小时候那些天马行空的奇思妙想。但现在,通过我们的设备可以做到了。虽然我还不知道这些数据具体的商业化意义,但当你已经18岁了,甚至 80 岁了,还能回忆起三四岁时那些不靠谱的、奇思妙想的东西,这不是很美好么?

  硅星人:你们的硬件是怎么做的?有AI硬件创业者说过,最困难就是把硬件造出来,因为这是一个全新的东西,需要单独开模,但产品很难倒推供应链做改变,这个问题在跃然创新上有发生吗?

  李勇:没有。我在硬件行业 19 年了,硬件方面这次没有踩坑,相对于我之前做过的手机、XR 硬件,其实我们硬件参数很简单,就是一个Wi-Fi音箱,算力都在云端,硬件方案非常成熟、稳定。我们的供应链合作伙伴也是当年天猫精灵的合作伙伴,我对这个供应链的成本也非常熟悉了。

  硅星人:今年的AI硬件一直很火,有人做R1、AI Pin、AI friend,你为什么选择做AI毛绒玩具?

  李勇:2017 年,我在做天猫精灵的时候,就从后台看到了孩子对语音交互的兴趣,成年人觉得 AI太幼稚,但孩子能聊几个钟头。所以我就一直想做AI硬件+儿童的产品,大模型就出来以后,把很多我以前想做的角色扮演、连续对话的功能都实现了,我们就在想做一款大模型儿童硬件。

  第一个原因,我吃过一次亏了,我知道一定要跟巨头错位竞争。创业公司资源有限,就要看什么是巨头不做的AI硬件呢?在推演的时候发现,工具类的 AI硬件,大概率科技巨头们都会做,所以我们只能做他看不上的情绪价值赛道。比如你能想象做手机和车的小米自己做一个毛绒玩具品牌吗?

  李勇:对,因为大厂会思考做战略性、颠覆性的东西。类似AI pin这些穿戴设备,我觉得很酷,未来也可能有我想不到的AI硬件形态出现,但这都不是我现阶段考虑的事情,这也是我年做天猫精灵得出的经验,音箱原本是不能说话的,我们做智能音箱,让它能说话了,我就要教育市场,告诉用户,一个音箱如果可以语音交互了体验会怎么样,你知道花了多少精力和钱吗?我现在是创业公司,没那么多钱,钱只够让产品做出来,没有几千万、几个亿教育市场。

  但毛绒玩具不一样,在孩子们眼里,毛绒玩具本身应该会说话的,甚至是有生命的。

  还有,第二个原因就是大模型,大模型在什么时候表现最好?就是你给他一个明确的角色,而AI毛绒玩具恰好就有一个明确的角色。

  李勇:我觉得核心是跨界。一般做硬件的、AI 行业的,可能离情绪价值比较远,他们想的是机器人、故事机、学习机、音箱。我算是一个比较理性的人,但我们团队女性员工占百分之七十,产品负责人、设计负责人、营销负责人等核心岗位都是年轻的妈妈,如果我们是一个科技直男的团队,我们可能也做不了。

  硅星人:决定做AI玩具之后,你们设想的形态是哪个,就是这个泡泡,还是之后要做的一体化的AI玩偶?

  李勇:我告诉团队我们都要做,先做这个泡泡,再做内置AI硬件的毛绒玩偶,原因很简单,因为我得先活下来。

  这两款产品在技术研发上是差不多的,区别就是完整的毛绒玩具我们找了很多国际一线的IP联名,而IP方审核很慢,可能要几个月时间。我当时算了一下,那得到年底产品才能上市。

  李勇:如果我有足够多的钱,我确实直接做完整的AI 毛绒玩具就完了,因为它更有革命性。

  但如果资源有限,我就要先做泡泡。因为孩子们是有存量需求的,就是他们本身就有喜欢的玩偶了,甚至很多孩子还有一种阿贝贝旧物依恋症,那么泡泡就是一个很好的解决方案,买回去直接挂在喜欢的玩偶上,就可以和心爱的玩偶聊天了。

  硅星人:因为你们在做一个全新的产品,在泡泡的设计上,你们是怎么思考的,为什么要做成这样?

  花了很多小心思,比如形状,大小,我们经过好多的调研,我们最理想的状态是更小一点,甚至可以缝在孩子们的玩偶上,不用挂。但技术还做不到,电池续航和散热都是问题,我们现在期望家长一周充一次电,所以是现在这个大小。

  目前这个外观设计是一个泡泡,童话里,泡泡代表魔法和梦幻,掉落到床头的毛绒玩具身上,就可以让毛绒玩具开口说话;另外泡泡也代表了对话的含义,你看微信的图标就是两个气泡,代表这是一个语音交互的产品。

  硅星人:那为什么是捏一下,不是直接语音唤醒呢?毕竟你们之前做的天猫精灵也是语音唤醒的。

  李勇:天猫精灵这种远场交互的固定在一个地方的产品,用语音唤醒是最顺应用户习惯的,而随身携带的、单手可以握持的小产品,最好还是和微信一样,按住说话,这样效率更高。另外也是考虑电池续航的用户体验。

  李勇:我们下一个新品就是和小猪佩奇以及德国的一个老牌玩具品牌Steiff史戴芙合作的,我们把AI硬件内置在他们的毛绒玩具里,之后还会继续做联名。除此之外,我们也会自己做IP,现在已经有和一些独立设计师合作了。

  因为毛绒玩具品类,现在增速很快,背后是情绪价值崛起的大趋势。但全球排名前十位的毛绒玩具没有一个中国品牌,这也是我们的机会。

  硅星人:所以你们会和一些大IP一起做AI玩具,问题是作为一个创业公司,大IP为什么要跟你合作?

  李勇:这个还得叠一个buff,我之前做天猫精灵的时候,跟全球的20多个一线IP都合作过,所以有这些资源。这个也很重要,因为在玩具行业,这么多年来,用户购买的第一决策要素就是IP。

  除了和国际一线 IP 厂商的良好合作关系之外,很多 IP 方也希望与时俱进、拥抱最新科技,不断拓展 IP 受众,推出备受喜爱的创新玩具产品。

  李勇:主要是抖音直播间。整个8月,卖出并激活的产品已经超过1万台了,我们中间还停了一周,因为上线后,销量突破预期,我们客服咨询量实在太大了,主播和客服都没准备好,紧急招人、培训客服和主播花了一周。

  硅星人:你们接下来的商业化目标是怎样的?还要研发吗,还是说接下来就是重点在卖货上了?

  李勇:第一代产品研发基本完成了,还有就是根据客户的真实需求在功能上做一些更新,例如儿歌和一些 APP 的功能正在陆续上线中。算法方面也同步看大模型的发展吧,按照我们的架构,如果端到端语音模型可用了,我们大家可以随时上线。明年如果视觉多模态成熟了,我们会进一步投入研发,给玩偶安上眼睛,这个是重磅升级,会有很多互动的场景,我们正在规划。

  商业化上的目标就是在Q4能打平赚钱。我算了一下,大概几万台就够了,目前看这个应该问题不大,年底预计出货量能达到 8-10万台。现在我们的抖音渠道刚开始做,海外还没顾上来,接下来,包括达人带货、天猫、京东这些渠道建设都会陆续做。

  硅星人:你们虽然是勇于探索商业模式的公司,但很多商业化的考虑很成熟,这是80后创业者的优势吗?

  李勇:我是三年前开始创业的,团队从爱奇艺智能独立出来,我正好40岁,但刚好遇到了大环境的变化,眼高手低,犯了很多错,公司差点关门清算了,那之后,我们整个团队所有人的心态就都发生了变化,对创业、对创造价值这个事儿的理解更深了,对于这次大模型的机会,我们很乐观,也很谨慎。

  硅星人:投资人可能会觉得年轻人的想法,更具备颠覆性,更贴近愿意使用AI的人群。虽然你们的产品购买者是父母,但大概也是年轻父母为主,你会担心不理解他们的想法吗?

  李勇:确实有很多不理解,我孩子已经上初中了。我在企业主要管研发、供应链,这也是因我本身就是技术出身的,过去的从业经历也一直在做硬件。公司产品是我的联创高峰在管,他是一个年轻的爸爸,孩子 3 岁多。整个团队30 人左右,只有 4 个 80 后,95后居多,很多都有海外留学背景,他们确实在情绪价值方面更专业、更有想法,有一些产品定义和设计,基于成本考虑,我就觉得没必要,但他们从用户的角度如果很坚持,我往往会听他们的意见。我们是一个很综合、很有凝聚力的团队,这也是我们三年创业,一起奋斗建立起来的彼此信任。