新浪科技10月23日下午消息,智源研究院近日宣布原生多模态世界模型Emu3发布。该模型实现了视频、图像、文本三种模态的统一理解与生成。据悉,Emu3只基于下一个token预测,无需扩散模型或组合式方法,便能把图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer,展现了其在大规模训练和推理上的潜力。
在图像生成、视觉语言理解、视频生成任务中,Emu3的表现超过了 SDXL 、LLaVA-1.6、OpenSora等知名开源模型。在图像生成任务中,人类评估得分Emu3高于SD-1.5与SDXL;在视觉语言理解任务中,12 项基准测试的平均得分,Emu3领先于LlaVA-1.6与LlaVA-1.5;在视频生成任务中,VBench基准测试得分,Emu3优于OpenSora 1.2。
下一token预测被认为是通往AGI的可能路径,但这种范式在语言以外的多模态任务中没有被证明。此前,多模态生成任务仍然由扩散模型(例如 Stable Diffusion)所主导,而多模态理解任务则由组合式的方法(例如 CLIP视觉编码器与LLM结合)所主导。智源研究院院长王仲远表示:“Emu3证明了下一个token预测能在多模态任务中有高性能的表现,这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上,为大规模的多模态训练和推理提供基础,这一简单的架构设计将利于产业化。未来,多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。”
目前,智源研究院已将Emu3的关键技术和模型开源至国际技术社区。相关技术从业者表示:“对于研究人员来说,Emu3意味着出现了一个新的机会,可以通过统一的架构探索多模态,无需将复杂的扩散模型与大语言模型相结合。这种方法类似于transformer在视觉相关任务中的变革性影响。”(文猛)
丰盛控股(00607)发布公告,于2024年10月15日,公司全资附属公司Five Seasons XIX与Sparrow Early Learning及 Sparrow Holdings订立协议,据此,Five Seasons XIX有条件同意向Sparrow Early Learning出...
格力地产:格力地产股份有限公司2024年第四次临时股东大会法律意见书 【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站...
盛龙锦秀国际(08481)发布公告,于2024年10月17日该公司斥资102.22万港元回购200万股,回购价格为每股0.51港元。...
花旗发布研报称,上调香港交易所(00388)2024至26财年的每股盈测在6%-11%区间,维持其“沽售”评级,目标价由215港元升至275港元。港交所下周即将公布第三季业绩,该行预计期内股东应占利润为33亿港元,同比上升11%,按季则增4%,主要是受强劲的投资收入带动。 花旗提到,股市气...
【环球网报道】以色列军方19日晚首次公布巴勒斯坦伊斯兰抵抗运动(哈马斯)领导人辛瓦尔死前在地下隧道行动的视频画面。美国有线电视新闻网(CNN)等外媒同日报道称,以色列国防军发言人丹尼尔·哈加里针对该视频画面,指责辛瓦尔将自己及其财产等都优先于加沙人民。对此,哈马斯予以驳斥。 据报道,根据以军...
快讯摘要 新三板创新层公司四联智能新增软件著作权信息:“地热能利用与分配管理系统” 每经讯,据启信宝,新三板创新层公司四联智能(430758)新增著作权信息,登记批准日期为2024年10月18日,该作品名......