

哈喽,大家好,我是小墨,12月的AI圈被一条融资消息炸翻:美国视频生成明星公司Luma AI完成9亿美元C轮融资,估值飙升至40亿美元。
领投方是沙特公共投资基金旗下的HUMAIN,老股东AMD Ventures、Andreessen Horowitz等纷纷跟投。
更炸的是首席科学家宋佳铭的专访表态:“2026年还卷画质和时长就输了,Ray 3会是我们最后一代传统视频生成模型。”
这话让不少从业者心头一紧,视频生成的游戏规则要变了?

押注多模态与超算算力
这笔9亿美金的融资,不是为了延续现有业务,而是给“下一代模型”铺路,宋佳铭在专访里明说,公司核心方向已转向“多模态大一统模型”,不再把图片、视频、文本当孤立个体处理。
这个方向最耗钱的就是算力,投资方HUMAIN正在沙特建的“Project Halo”超算集群,已经完成第一阶段1GW算力部署,这是全球目前已投产的最大AI超算之一。

Luma作为核心客户,已经用这批算力训练多模态模型,宋佳铭透露:“处理视频数据的效率比之前提升了3倍,之前要1个月的训练现在10天就能完成。”
团队也在为新方向扩容。Luma目前130人的团队里,30%是研发岗,但最近在组建“多模态融合组”,招人策略很特别,不抢成名的AI大佬,而是挖潜力新人。
比如从谷歌DeepMind挖来的张弛,之前没什么名气,但在跨模态数据对齐上有独到研究,入职3个月就主导了文本与视频节奏匹配的技术突破。
这种“不追明星追潜力”的思路,宋佳铭有自己的道理:“就像足球青训,成名选手转会费太高,创业公司扛不住。我们更愿意在有人发现他们之前,就看到他们的价值。”

推理能力让AI会“补拍”镜头
传统视频生成模型的短板,行业内早就有共识,今年11月Adobe MAX大会上,洛杉矶广告公司TBWA的演示很直观:用某知名模型补拍汽车广告的侧后方镜头,生成的车轮朝向和原镜头完全相反;换成Luma的Ray 3,自动匹配了车身光影和车轮角度,直接通过导演审核。
这就是宋佳铭强调的“推理能力”。咱举个具体场景,北京奥美广告今年接了个手机发布会广告,拍摄后发现少了个俯拍全景镜头。

用传统模型生成,背景里的观众位置和之前的近景镜头对不上;Ray 3却能先分析不同机位的素材,推理出每个观众、每个道具的3D位置,再生成衔接丝滑的俯拍镜头,整个过程只用了2小时。
Ray 3能做到这点,靠的是对物理世界的理解。宋佳铭团队在训练时,加入了大量电影拍摄的分镜脚本数据,让模型学会“镜头语言”。
比如知道特写之后接全景要保持构图连贯,运动镜头要符合物理惯性,这些都是传统模型不具备的能力。
而多模态大一统是更高阶的玩法。宋佳铭举了个正在研发的案例:输入“清晨阳光透过窗户照在咖啡杯上,伴随勺子碰撞杯壁的声音”,模型能同时生成视频和匹配的音频,还能根据文本里的“清晨”自动调整画面色温。这种跨模态协同,传统模型根本做不到。

从C端爆火到B端深耕
Luma不是没尝过C端的甜头,去年6月推出的Dream Machine,零推广4天吸粉百万,电影级运镜效果让网友直呼“能跟Sora叫板”。但宋佳铭很快发现问题:3个月后付费率不足2%,很多用户玩够了就走。
同期的一个竞品案例更有说服力。某公司推出的C端视频生成工具“快影生成”,上线时靠“10秒做MV”火了一把,半年后月活跌了80%。A16z合伙人Olivia Moore公布的数据更直接:Sora 2的60天留存低于1%,而TikTok能稳定在30%左右。
这让Luma果断转向B端。今年9月Ray 3上线后,首先对接的就是影视和广告公司。上海某影视制作公司负责人李敏算了笔账:以前补拍一个镜头要重新租场地、调设备,至少花5万元;用Ray 3生成,成本不到5000元,准确率还高。他们已经和Luma签了年付100万的合作协议。

B端的付费意愿确实更刚性。宋佳铭透露,目前Luma的付费客户里,影视公司占比60%,广告公司占30%,这些客户的续约率超过90%。相比之下,C端业务虽然还在运营,但已经不再是资源投入的重点。
不过B端也有门槛。美国某车企曾担心数据安全,要求Luma的模型部署在自己的服务器上。Luma的技术团队用2周时间完成了私有化部署,还通过了SOC 2安全认证,这才拿下这笔年付200万的订单。“B端客户要的不是炫技,是稳定、安全和能解决实际问题。”宋佳铭总结道。

结语
Luma AI的9亿融资和战略转向,本质是踩准了视频生成的进化节奏。从卷画质到拼推理,从追C端流量到守B端刚需,再加上超算算力加持,这条路走得很清醒。
视频生成的下半场,比的不再是谁生成得好看,而是谁更懂现实世界、更懂专业需求。
股票配资论坛官网提示:文章来自网络,不代表本站观点。