开源成果初亮相
2月18日,上海一家AI公司发布了两个关键模型。其中一个是全球参数量最大的开源视频生成模型,名为Step-Video-T2V;另一个则是行业内首个达到产品级别的开源语音交互大模型,名为Step-Audio。这两个模型的消息一经发布,便迅速在技术社区中受到广泛关注,收藏量显著超过其他多元模型。同时,它们在国内外社交媒体上的曝光量也迅速突破千万。
2月22日上午,2025全球开发者先锋大会在上海西岸大剧院盛大开幕。在此开幕式上,阶跃星辰的创始人兼CEO姜大昕透露了一组令人震惊的市场反馈数据。这一信息迅速吸引了现场众多开发者的极大兴趣。
后续开源有计划
姜大昕在演讲中透露,公司计划于今年3月继续开放图生视频模型。这一举措无疑为开发者社区带来了新的活力。
开发者指出,持续的开放源代码项目体现了阶跃星辰在技术领域的信心以及对未来规划的深远视角,这激发了人们对未来模型多样化应用的广泛期待。
开源背景与缘由
姜大昕指出,在蛇年春节期间,《哪吒2》电影与DeepSeek开源项目备受关注。DeepSeek所拥有的强大语言模型,对全球开发者群体产生了深远影响。受此启发,阶跃星辰依托其在多模态技术领域的丰富经验与卓越的模型训练实力,宣布启动开源计划,主要致力于文生视频以及语音交互动态大模型的研究与开发。
该决策不仅符合行业开源趋势,而且旨在促进多模态技术在更广领域的交流与进步。
语音模型亮点多
该产品具备众多显著特点。其参数规模高达1300亿,能够适应不同场景,生成多种方言、语种、情绪和个性化风格的表达。此外,它还能实现高保真音色复制及角色扮演功能。
该模型在五个主要公开评测平台上的各项指标均超越了同类语音开源大型模型,尤其在汉语能力方面表现显著,从而为语音交互领域的应用提供了更为优越的工具。
技术方法有创新
该模型与DeepSeek的R1版本相同,均基于强化学习技术。企业已与清华大学展开合作,在强化学习领域进行创新研究。尽管当前机器的思考能力有限,仅能持续几十秒至数分钟,但伴随模型性能的提升,未来机器的思考时长和范围有望显著增加。
这项技术创新预计将为人工智能领域带来新的进展,同时有望增强模型的学习能力。
垂直领域有应用
阶跃星辰已涉足多个专业领域。在金融、内容制作、新型零售以及数字人领域,该公司与合作伙伴共同构建了针对性的领域模型。
姜大昕在演讲中生动地呈现了全球开发者基于阶跃星辰开源模型所创作的视频剪辑,这些作品充分展现了开源模型在现实应用领域的巨大潜力。
请问您认为在市场上,上海阶跃星辰开源的这些大型模型中,哪一款预计将拥有最大的应用前景?欢迎在评论区发表您的看法。同时,请不要忘记为本文点赞及转发!