HappyHorse 1.0 评论:提示、用例以及如何尝试
来自阿里巴巴的 HappyHorse 1.0:开源音视频 AI 生成器,具有 6 个经过测试的提示。将其与 PixVerse 上的 Seedance、Kling 和 Veo 进行比较。
HappyHorse 1.0 是阿里巴巴推出的开源 AI 视频生成模型,可在单次前向推理中生成最长 15 秒、1080p 的视频,并同步生成对白、音效与环境音。它基于约 150 亿参数的统一 Transformer,同时支持文生视频与图生视频,原生口型同步覆盖 6 种以上语言,并已在 Artificial Analysis Video Arena 排行榜中迅速跻身第一梯队。
HappyHorse 1.0 最初以匿名身份出现在竞技场——没有名称、没有团队署名,仅凭成片与字节跳动、Google、快手等闭源前沿模型正面对决。吸引社区的不仅是画面质量:模型在生成视频的同时输出同步音频——对白、环境声、拟音(Foley)——全部在一次推理中完成。独立观察者判断其来自亚洲,并指出这是竞技场首个具备原生音频输出的「神秘选手」。
HappyHorse 1.0 背后的团队——阿里巴巴淘天未来生活实验室——已宣布完整开源:基础模型、蒸馏模型、超分辨率模块与推理代码。 无需单独的配音或声音设计流程。
HappyHorse 1.0 已在 PixVerse 上线,与 Seedance 2.0、Kling、Veo、Sora 2 以及 PixVerse V6 同处一个平台。本文介绍该模型的能力、短板、如何撰写能发挥其音视频联合生成优势的提示词,以及六个可立即测试的应用场景与提示词。

要点速览:
- 150 亿参数统一自注意力 Transformer——文本、图像、视频与音频 token 在同一序列中处理。
- 经 DMD-2 蒸馏为 8 步采样、无分类器引导(CFG)——在 NVIDIA H100 上约 38 秒可生成 1080p。
- 原生联合音视频生成:6 种语言对白口型同步、拟音与环境声——单次前向完成。
- 支持文生视频与图生视频,成片时长 3–15 秒。
- 开源范围:基础模型、蒸馏模型、超分辨率模块与推理代码。
- 现已上线 PixVerse(Pro 及以上套餐)——在同一平台与其他模型一并测试。
HappyHorse 1.0 是什么?
HappyHorse 1.0 首次公开亮相是在 Artificial Analysis Video Arena 上的「神秘模型」,匿名与闭源前沿模型同台,因「原生音频输出」这一罕见特性迅速引发关注。社区独立观察者判断其源自亚洲,并指出其联合音视频生成在竞技场中独树一帜。后证实由阿里巴巴淘天未来生活实验室研发。
据社区整理的架构笔记,HappyHorse 1.0 围绕约 150 亿参数的统一自注意力 Transformer 构建:共 40 层,采用「三明治」布局——首尾各 4 层负责各模态的嵌入与解码,中间 32 层在所有模态间共享参数,将文本、图像、视频与音频 token 拼接为单一序列。据称没有专用交叉注意力分支,也没有独立音频模块。每头 sigmoid 门控用于稳定联合多模态训练;模型据称不显式使用 timestep 嵌入,而是从输入潜变量的噪声水平直接推断去噪状态。
蒸馏版采用 DMD-2(Distribution Matching Distillation v2)将推理压缩为 8 步去噪、无分类器引导,在 NVIDIA H100 上约 38 秒可产出 1080p 视频;5 秒 256p 预览约需 2 秒。
已宣布的开源内容包括基础模型、8 步蒸馏版、超分辨率模块与推理代码。许可条款尚未公布。截至本文撰写时,尚无模型权重或官方仓库发布。
HappyHorse 1.0 一览
| 规格 | 详情 |
|---|---|
| 参数量 | ~15B |
| 架构 | 统一自注意力 Transformer(40 层,三明治布局) |
| 模态 | 文本、图像、视频、音频——单一 token 序列 |
| 原生音频 | 联合音视频(对白、拟音、环境声) |
| 口型同步语言 | 6 种(英语、普通话、日语、韩语、德语、法语) |
| 蒸馏 | DMD-2——8 步,无 CFG |
| 1080p 生成耗时 | H100 上约 38s |
| 256p 预览 | 约 2s |
| 最长时长 | 3–15 秒(默认 5s) |
| 画幅比(T2V) | 16:9、9:16、1:1、4:3、3:4 |
| 文生视频 | 支持 |
| 图生视频 | 支持 |
| 开源 | 已宣布(权重尚未发布) |
HappyHorse 1.0 如何对比:基准与定价
HappyHorse 1.0 排名如何?
Artificial Analysis Video Arena 是被引用最多的公开 AI 视频模型基准,通过盲测两两投票计算 ELO。注意排行榜是动态的——随新票与模型更新而变化,请以实时榜单为准。
HappyHorse 1.0 在文生视频与图生视频榜单上均迅速接近榜首,与 Seedance 2.0、Veo 3.1、Kling 3.0 等闭源前沿模型直接竞争;其图生视频分数尤其受关注,在平台上创下历史高位之一。对开源模型而言,相较此前 LTX-2 Pro 与 Wan 2.2 所代表的水平,这是一次显著跃升。
HappyHorse 1.0 与其他人工智能视频生成器相比如何?
| 功能 | HappyHorse 1.0 | Seedance 2.0 | PixVerse V6 | Kling 3.0 | Veo 3 | Wan 2.2 |
|---|---|---|---|---|---|---|
| 原生音频 | 联合生成 | 联合扩散 | 支持 | 支持 | 空间音频 | 否 |
| 参数量 | ~15B | 未披露 | 未披露 | 未披露 | 未披露 | 14B |
| 开源 | 是(已宣布) | 否 | 否 | 否 | 否 | 是 |
| 采样步数 | 8(无 CFG) | ~25–50 | — | — | — | ~50 |
| 最高分辨率 | 1080p | 2K | 1080p | 4K | 4K | 1080p |
| 口型语言数 | 6 | 7+ | — | 多 | — | 0 |
| 图生视频 | 支持(首帧) | 支持 | 支持 | 支持 | 支持 | 支持 |
| 当前是否可获权重 | 否 | 否 | 否 | 否 | 否 | 是 |
纸面上的核心差异是「原生联合音视频生成」与「开源可得性」的结合:Wan 2.2 开源但只出无声视频;Seedance 2.0 与 Veo 3 有音频但闭源;HappyHorse 1.0 试图两者兼得——首个宣称具备原生联合音视频的开源路线。
HappyHorse 1.0 的价格是多少?
作为一个开源模型,一旦权重发布,HappyHorse 1.0 将可以免费自行托管——尽管您需要有能力的硬件(NVIDIA H100 或用于全速推理的同等产品)。阿里巴巴还通过其 Dashscope 平台向国内和国际端点提供 API 访问。
在 PixVerse 上,HappyHorse 1.0 向 Pro、Premium 和 Ultra 计划会员提供基于信用的定价。您不需要单独订阅 - 它从您用于 Seedance、Kling、Veo 和平台上所有其他模型的相同信用余额中提取。
| 访问方式 | 成本 | 要求 |
|---|---|---|
| 自托管(重量释放后) | Free (hardware only) | NVIDIA H100 或同等产品 |
| Alibaba Dashscope API | 每次调用定价(请参阅 Dashscope) | API key + integration |
| PixVerse | 基于信用(共享池) | 专业版、高级版或超级版计划 |
在发布促销期间(截至 2026 年 5 月 6 日),PixVerse 上的 HappyHorse 1.0 代可额外获得 50% 的积分折扣 — 在适用的情况下,可与 Ultra 计划现有的 40% 型号折扣叠加。
HappyHorse 1.0 擅长什么?
原生联合音视频生成
这是定义级能力。单一统一 Transformer 在同一序列中对视频 token 与音频 token 去噪。对白、拟音与环境声一次生成,并与画面天然对齐。对创作者而言,省去整条后期链路:无需单独录对白、无需口型工具、无需为生成片段手工做声音设计。
快速推理
得益于 DMD-2 蒸馏,8 步去噪、无分类器引导。据报道 H100 上 1080p 约 38 秒,256p 预览约 2 秒。多数竞品需 25–50 步采样,同分辨率往往要数分钟。
多语言口型同步
原生训练覆盖 6 种语言:英语、普通话、日语、韩语、德语、法语。一套权重覆盖全部——无需按语言换模型或后期配音。对跨市场投放的品牌尤为重要。
文生视频与图生视频
HappyHorse 1.0 同时支持文生视频与图生视频。图生视频可上传参考图(首帧),文生视频则输入文本。在 PixVerse 上通过同一界面中的 T2V / I2V 模式访问——无需在多个平台或工具间切换。
开源承诺
阿里巴巴已宣布发布范围包括基础模型、8 步蒸馏版、超分辨率模块与推理代码。若许可如所述允许商用,HappyHorse 1.0 将成为首个具备原生联合音视频的开源模型——对需要自托管方案的研究社区与独立创作者具有里程碑意义。
HappyHorse 1.0 有哪些局限?

权重尚未发布。 截至本文撰写,尚无模型权重、推理代码或官方仓库。本文内容基于公开报道规格与 Artificial Analysis 竞技场的社区观察。正式发版后请重新评估所有能力声明。
单条最长 15 秒。 输出时长 3–15 秒(默认 5 秒),适合社交短片、广告与简短产品演示,但限制长叙事。多镜头序列需在外部处理——与原生支持时间线式多镜头的 Seedance 2.0 不同。
无多模态参考体系。 Seedance 2.0 最多接受 12 个参考资产(9 图、3 视频、3 音频)并通过 @ 标签精细控制。HappyHorse 1.0 处理文本与图像输入,尚无视频或音频参考条件的公开报道,依赖视觉参考的工作流控制力受限。
音频质量尚未大规模验证。 联合音视频是主打宣传能力,但尚无法进行独立大规模测试。社区样片有潜力但样本有限。在复杂对白、精细拟音节奏与多源环境声上,在广泛可用前请预期波动。
未宣布微调或 LoRA 支持。 若需要基础模型未覆盖的特定品牌视觉或风格,只能依赖提示工程。社区微调工具链可能在权重发布后跟进,目前暂无。
许可条款未知。 虽描述为开源且允许商用,但具体许可证未公布。在官方许可确认前,请暂缓商用部署规划。
HappyHorse 1.0 优缺点一览
| 优点 | 缺点 |
|---|---|
| ✅ 原生联合音视频一次完成——无需后期配音 | ❌ 模型重量尚未公布 |
| ✅ 8 步推理(1080p 约为 38 秒)— 比大多数竞争对手快 3-6 倍 | ❌ 每个剪辑最长 15 秒 — 无原生多重镜头 |
| ✅ 一组权重的 6 种语言口型同步 | ❌没有多模态参考系统(仅限文本+图像) |
| ✅ 宣布开源版本(基础+蒸馏+超分辨率+代码) | ❌ 音频质量未经大规模验证 |
| ✅ 一种模型中的文本到视频和图像到视频 | ❌ 尚无微调或 LoRA 支持 |
| ✅ T2V 和 I2V 的顶级竞技场排名 | ❌ 许可条款尚未确认 |
如何为 HappyHorse 1.0 写提示词
多数 AI 视频提示词指南只讲画面——主体、动作、镜头、光线。HappyHorse 1.0 原生生成音频,提示策略也应随之调整。以下是如何在「能听」的模型上榨出上限。
音频优先
HappyHorse 1.0 最大的转变是:声音不是事后补丁,而是与视频在同一前向中生成。提示词里对音频的描述应像对画面一样明确。
仅视觉提示(可用,但音频靠运气):
一位厨师在餐厅后厨准备意面。暖光、中景、浅景深。
兼顾音频的提示(发挥 HappyHorse 联合生成):
厨师在滋滋作响的平底锅中翻炒意面,火焰短暂跃过锅沿。他以利落快速的动作装盘。先特写锅具,再切到中景,将盘子滑过台面。暖色餐厅光、浅景深。音频:油在滋滋作响、锅在炉架上刮擦、瓷盘落在大理石台面上的轻响、背景厨房交谈声。
第二版为模型提供了明确的音频目标,便于与画面对齐同步。
使用具体镜头语言
HappyHorse 对电影化指令有响应。具体术语结果更可预期;笼统说法会让模型「猜」。
| 镜头术语 | 典型效果 |
|---|---|
| Slow push-in | 缓慢推向主体,蓄积张力 |
| Tracking shot | 镜头横向或从后方跟随主体 |
| Low-angle | 低机位仰拍,强化体量或力量感 |
| Macro close-up | 极近细节、浅景深 |
| 360-degree orbit | 环绕主体完整旋转 |
| Aerial/drone shot | 鸟瞰视角带前移 |
| Whip pan | 快速横摇在两个主体间切换 |
「从中景缓慢推轨至特写」告诉模型确切动作;「电影感」几乎不提供信息。
分层描述音频
分三层描述音频以获得更强控制:
- 前景:主导声(对白、主要音效如刀剑碰撞或引擎轰鸣)
- 中景:次要声(脚步、布料摩擦、餐具碰撞)
- 背景:环境质感(人群低语、雨声、远处车流、风声)
示例:「音频:烤架上的滋滋油声(前景)、小贩用铲子在金属上刮擦(中景)、夜市人群低语与远处摩托引擎(背景)。」
模型在单一序列中同时处理音频与视频 token。音频描述越精确,输出对齐越好。
风格锚点锁定画面一致性
明确点名美学,并堆叠描述词以锁定一致画风:
- 写实:「变形宽银幕焦外、35mm 胶片颗粒、青橙调色、浅景深」
- 动漫/风格化:「赛璐璐阴影、粗线描、扁平高饱和色、新海诚式配色」
- 复古/怀旧:「1990 年代 VHS 颗粒、过饱和暖色、CRT 扫描线」
- 商业:「棚拍光、白色无影墙背景、产品摄影、微距镜头」
7 条提示词技巧速览
- 把主体与动作前置——前 15 个词对模型注意力影响最大。
- 明确写音频——对白用引号,点名具体声音,分前景/中景/背景。
- 用具体镜头指令——「从中景缓慢推轨至特写」永远胜过「电影感」。
- 点名视觉风格——引用具体美学、胶片型号、色盘或艺术传统。
- 加入物理细节——「雨打在玻璃上」「丝绸随风飘」「蒸汽穿过霓虹」给模型锚点。
- 控制在约 100 词以内——足够具体,又避免 token 互相抢注意力。
- 先低分辨率迭代——在 480p 或 256p 验证概念再上 1080p。
HappyHorse 1.0 用例:我们测试的 6 个提示
我们通过 PixVerse 上的 HappyHorse 1.0 运行以下每个提示来评估真实世界的输出质量。下面嵌入的视频结果是实际的模型输出 - 不是精心挑选或后处理的。每个提示都针对一个用例,其中本机音频视频生成具有最大的实际差异。
1. 短视频社交内容
适合谁:需要原生声音、不想单独走配音流水线的 TikTok、Reels、Shorts 创作者。
可期待什么:滋滋作响的街头美食片段,ASMR 级音频——能在任意社交平台截停划屏的内容。
提示词:
A Thai street food vendor cracks two eggs onto a sizzling flat-top griddle, tosses in chopped scallions and bean sprouts with a metal spatula. Oil pops and splatters. Steam rises through golden string lights above the cart. Close-up macro shots alternate with a medium shot showing the vendor’s confident hands. Night market crowd murmurs in the background. ASMR food photography style, shallow depth of field, warm tungsten lighting, handheld camera with subtle movement. Audio: sizzling oil and egg whites hitting the grill, sharp spatula scrape on metal, distant crowd chatter and a motorbike passing.
看什么:音频应在铲动节奏上呈现令人满足的滋滋与刮擦,人群环境声填补空隙。这类片段在美食内容社区极易传播——纯感官满足、无需画外音。
2. 营销与广告创意
适合谁:需要高转化产品预告片、电影化动效与精准音频的广告公司、品牌方与产品团队。
可期待什么:奢侈品级产品揭幕镜头,音频卡点与画面动作严丝合缝——在早期概念测试中可替代部分 3D 渲染或棚拍。
提示词:
A luxury chronograph watch sits on a slab of dark volcanic stone. Water droplets fall in slow motion onto the sapphire crystal, each impact sending tiny ripples across the glass. The camera orbits slowly as the chronograph crown is pressed — the second hand sweeps forward with a precise mechanical click. Macro detail reveals brushed titanium and polished bevels catching a single hard key light from above. Studio product photography, dark background, slow-motion water at a 240fps feel. Audio: individual water droplet impacts on glass, a crisp mechanical click as the crown is pressed, a subtle low-frequency hum that fades to silence.
看什么:计时秒针启动时那声同步的「咔嗒」是成败关键。若音频与画面动作精准对齐,则体现了多数无声视频模型根本无法企及的音视频同步水平——后期配音也很难一次就对。
3. 多语言营销战役
适合谁:在英语、中文、日语、韩语、德语、法语市场投放创意、又不想重拍的团队与代理商。
可期待什么:角色说出一句对白并自然口型同步——展示单次生成即可在 6 种支持语言中产出「可直接对白」的画面。
提示词:
A barista in a cozy specialty coffee shop slides a perfectly layered oat milk latte across a wooden counter. She looks up at the camera with a friendly half-smile and says: “Your usual. Extra foam, zero judgment.” Behind her, an espresso machine hisses softly. Morning light streams through a large window, casting warm stripes across the counter. Medium shot with a slow push-in to a close-up on her face as she speaks. Warm color grading, shallow depth of field, indie film aesthetic. Audio: espresso machine steam hiss, the soft slide of the ceramic cup on wood, her spoken line delivered casually and warmly, faint acoustic guitar from a speaker in the background.
看什么:对白口型是首要测试。HappyHorse 1.0 宣称 6 种语言原生口型同步——本提示以英语交付为基线。用其他语言对白重跑同一概念可测跨语言一致性。若唇形、表情与语气在多语言下都稳定,可省去整套重拍与配音流程。
4. B-Roll 与预演(Previz)
适合谁:需要建立镜头、概念素材与带匹配环境音分镜的电影、电视与 YouTube 制作人。
可期待什么:氛围感十足的建立镜头,分层环境音——适合纪录片、旅行片或叙事项目中的 B-roll。
提示词:
A lone figure in a red parka walks across a vast Antarctic ice field toward a small research station at twilight. The station’s windows glow warm orange against deep blue polar light. Snow blows horizontally across the frame. The figure pauses, pulls a radio from her belt — breath visible in the freezing air. Tracking shot follows her from behind, then cuts to a wide establishing shot showing the tiny station dwarfed by an enormous glacier wall. Documentary cinematography, cool blue-teal palette with warm interior contrast, steady handheld, National Geographic style. Audio: howling polar wind as a constant bed, rhythmic crunching of boots on packed snow, radio static crackle when she reaches for it, a brief muffled voice from the radio speaker.
看什么:此处考验分层环境音。风应持续且占主导,脚步碾压雪的节奏应与行走一致,无线电杂音应在伸手拿电台时成为独立质感。广角建立镜头考验大场景空间一致性。此类输出可直接用作前期概念素材或占位 B-roll。
5. 电商产品视频
适合谁:需通过图生视频把静态产品图变成动态演示的电商团队与产品营销。
可期待什么:产品主打镜头将静态角度变为动态、商业级运动——可替代首版产品内容的部分实拍。
提示词:
A pair of fresh-out-of-the-box white running shoes sits on a clean concrete surface. The camera starts static, then slowly orbits as one shoe lifts off the ground and rotates in mid-air, revealing the tread pattern, mesh ventilation holes, and a neon green accent stripe along the sole. Soft particles of dust drift through a shaft of sunlight hitting the shoe. The shoe sets back down gently. Minimal studio setup, single directional light source from the upper left, clean white-gray background, product catalog photography with motion. Audio: a soft whoosh as the shoe lifts, the faint creak of new rubber flexing, a satisfying muted thud as it lands back on concrete.
看什么:材质渲染是关键——网面是否像网面、橡胶底是否读出橡胶感、光线与荧光绿点缀是否一致?对电商而言,该工作流可将一张产品图变为动效资产而无需排期视频拍摄。细微音频(呼呼声、橡胶弯折、落地闷响)增添本需声音设计的质感。
6. AI 研究
适合谁:研究联合音视频扩散、多模态 Transformer 与统一生成架构对齐边界的研究者。
可期待什么:技术上高要求的场景,多路音频需与不同视觉表演在节奏与空间上保持对齐——用于暴露同步极限的压力测试。
提示词:
A three-piece jazz ensemble performs in a dimly lit basement club. A drummer brushes a snare with wire brushes in a steady swing rhythm. An upright bass player plucks a walking bass line, fingers clearly visible on the strings. A saxophone player steps forward into a spotlight and plays a slow, bluesy solo. A single audience member at the bar taps a glass in time with the beat. Smoke drifts through a cone of amber spotlight. Medium wide shot establishing all three musicians, then a slow tracking push-in toward the saxophone solo. Warm amber and deep shadow, 16mm film grain, vintage jazz club atmosphere. Audio: wire brush on snare, plucked upright bass, saxophone melody — all three instruments rhythmically aligned, with the faint clink of the glass tap and low crowd murmur underneath.
看什么:本提示刻意加大难度:要求生成三种需彼此节奏一致、并与各乐手表演视觉同步的乐器声。钢丝刷应与鼓手手部动作匹配;低音拨弦应与指法对齐;萨克斯音色应跟随演奏者口型与呼吸。若 HappyHorse 1.0 能较好完成,则表明在开源领域具备真正新颖的多模态对齐水平。
如何在 PixVerse 上使用 HappyHorse 1.0
在 PixVerse 上开始使用 HappyHorse 1.0 只需不到两分钟。无需本地 GPU,无需 API 密钥设置,无需单独的帐户 - 只需您可能已用于其他模型的 PixVerse 帐户。
- 转到 PixVerse — 打开 app.pixverse.ai 并登录(或创建免费帐户)。
- 选择您的模式 — 选择 文本到视频 以进行基于提示的生成,或者如果您有要制作动画的参考图像,则选择 图像到视频。
- 选择 HappyHorse 1.0 — 在模型选择器中,选择 HappyHorse 1.0。它与 Seedance 2.0、Kling、Veo、Sora 2 和 PixVerse V6 一起出现。
- 写下您的提示 — 描述您的场景,包括视觉和音频提示。使用上一节中的提示技巧可以获得最佳结果。
- 设置参数并生成 — 选择宽高比(16:9、9:16、1:1 等)和持续时间(最多 15 秒)。点击“生成”并等待大约 30-60 秒以获得结果。
HappyHorse 1.0 需要 PixVerse 上的 Pro 计划或更高版本。基本和标准计划不包括访问权限。每一代都会从您共享的 PixVerse 余额中获取积分 - 平台上的所有其他模型都使用相同的池。
HappyHorse 1.0 在 PixVerse:模型自由,告别订阅疲劳
订阅之痛
模型发布稿里很少提到的一个现实是:2026 年,评测 AI 视频模型的成本,几乎与使用一样令人头疼。
Sora 2 的完整访问需 ChatGPT Pro——每月 200 美元。Kling 自有套餐体系,起价约 10 美元/月。Seedance 2.0 在中国需穿越字节即梦付费墙,或通过托管平台访问。Luma、Runway、Hailuo——每个都是一笔月费。若创作者想在选定战役用模型前认真评测前五名,仅平台订阅每月就可能花掉 300–500 美元,还没算最终成片的生成费用。
还不只是钱:五个账号、五套 UI、五套积分、五套速率与分辨率上限。在平台间切换的认知成本是隐性支出,吃掉本可用于创作的时间。
一个平台、所有模型、一笔预算
这正是 PixVerse 模型聚合要解决的问题。Seedance 2.0、Kling、Veo 3.1、Sora 2,以及 HappyHorse 1.0——同一账户、同一积分池、同一界面。
实际上:你可以用 HappyHorse 1.0 跑联合音视频概念,用 PixVerse V6 控镜头,用 Seedance 2.0 做多参考精度,用 Kling 3.0 上 4K——然后并排对比,按镜头选最优。无需换平台、无需重复订阅。
这不只是便利:它改变实验的经济学。你不必为「试一次某模型」再承担一层订阅额外成本;按次在已有平台上付费,省下的预算可投入更多迭代而非更多登录。
PixVerse 上线积分优惠(限时)
**积分额外 5 折:**HappyHorse 1.0 已在 PixVerse 上线,在活动期内通过该模型产生的每次计费生成,可在常规计价基础上再享 额外 50% 积分减免——同样成片,消耗更少积分。
**与 Ultra 权益可叠加:**在适用规则下,Ultra 会员可将 HappyHorse 上线优惠与既有的 Ultra 模型 4 折权益叠加,符合条件的生成可享组合折扣。
活动截止:2026 年 5 月 6 日
| 时区 | 当地时间 |
|---|---|
| 太平洋夏令时(PDT) | 2026-05-06 00:00 |
| UTC | 2026-05-06 07:00 |
| 北京时间(CST) | 2026-05-06 15:00 |
「模型自由」长什么样
| 方式 | 每月评测 5+ 个模型的成本 | 所需账号数 | 界面切换 |
|---|---|---|---|
| 分散订阅 | Sora、Kling、Luma、Runway 及新平台合计 300–500 美元+ | 5+ | 5+ 套不同 UI |
| PixVerse | 单一会员(Pro+),积分在所有模型间共享 | 1 | 无——同一界面通吃 |
HappyHorse 1.0 已在 PixVerse 上线,意味着少订一个平台、少管一个账号,多一个可与全家桶对标的模型。访问 HappyHorse 1.0 需 Pro 及以上——Basic 与 Standard 不包含。
常见问题
HappyHorse 1.0 是什么?
HappyHorse 1.0 是阿里巴巴开源的 AI 视频生成模型,约 150 亿参数。它使用统一自注意力 Transformer,在单次前向中生成最长 15 秒 1080p 视频及同步音频——对白、音效与环境声。支持文生视频与图生视频。
HappyHorse 1.0 免费吗?
已宣布为开源,权重发布后自托管可免费(硬件成本另计)。在 PixVerse 上已作为模型选项按积分计费——具体费率请在应用内查看。访问需 Pro 及以上(Basic、Standard 不可用)。
与其他 AI 视频生成器有何不同?
核心差异是原生联合音视频生成。多数 AI 视频模型只出无声片,需另配工具做声音与口型。HappyHorse 在同一次前向中与视频一起生成对白、拟音与环境音,口型在 6 种语言上原生训练。
口型同步支持哪些语言?
六种:英语、普通话、日语、韩语、德语、法语。部分营销材料提到第七种(粤语),但技术说明确认的数量为六。口型在模型内原生训练——非后期叠加。
HappyHorse 1.0 有多快?
在 NVIDIA H100 上使用 DMD-2 蒸馏版:1080p 约 38 秒,256p 预览约 2 秒。模型仅 8 步去噪、无 CFG;多数竞品需 25–50 步且耗时数分钟。
能用于商业项目吗?
虽描述为开源且允许商用,但具体许可证尚未发布。在官方许可确认前,请勿纳入商用工作流。在 PixVerse 上的商用遵循平台标准服务条款。
HappyHorse 1.0 与 Seedance 2.0 该选谁?
各有所长。HappyHorse 1.0 联合生成音视频、8 步推理快,并承诺开源权重。Seedance 2.0 提供更丰富的多参考输入(最多 12 个资产与 @ 标签控制)、更高分辨率(2K)、片内编辑与成熟制作履历。二者均在 PixVerse 上可并排对比。
是否有 HappyHorse 1.0 API?
可通过阿里巴巴 Dashscope 平台调用 API,含国内与国际端点。在 PixVerse 上可通过标准生成界面使用,无需自行管理 API 密钥与基础设施。
哪里可以在线试用 HappyHorse 1.0?
已上线 PixVerse。现可与 Seedance 2.0、Kling、Veo、Sora 2、PixVerse V6 同用——一账户、一积分池。需 Pro 及以上。详情请见 PixVerse。
HappyHorse 1.0 值得吗?
对于需要在单个管道中同步音频的视频创作者来说,HappyHorse 1.0 提供了大多数竞争对手缺乏或单独收费的功能。在 PixVerse 上,您可以使用您在其他模型上花费的相同积分来测试它 - 无需额外的订阅费用来评估它。当前的发布促销活动(截至 2026 年 5 月 6 日,积分可享 50% 折扣)使其对于试运行来说特别具有成本效益。主要的警告是开源权重尚不可用,因此自托管目前不是一个选择。
HappyHorse 1.0 与 Veo 3 — 哪个更好?
HappyHorse 1.0 和 Veo 3 都生成音频和视频,但它们的优势不同。 HappyHorse 使用一个统一的 Transformer,通过 8 步推理一次生成音频和视频令牌,速度更快,架构更简单。 Veo 3 提供空间音频并支持高达 4K 分辨率,但只能通过 Google 的生态系统获得。截至 2026 年 4 月,HappyHorse 在 T2V 和 I2V 的人工分析竞技场上排名较高,而 Veo 3 受益于与 Google 工具的更紧密集成。在 PixVerse 上,两者都可用于并行测试。
HappyHorse 1.0适合初学者吗?
是的。在 PixVerse 上,使用 HappyHorse 1.0 不需要任何技术设置 - 您编写文本提示,选择设置并生成。没有本地 GPU、没有命令行工具、没有 API 配置。本文中的提示指南和六个可立即测试的提示被设计为您可以复制和修改的起点。拥有 PixVerse Pro 计划或更高版本的任何人都可以访问该模型。
结语
HappyHorse 1.0 为 AI 视频领域带来真正新颖的能力:开源路线下的原生联合音视频生成。公开规格——8 步推理、6 语口型、最长 15 秒 T2V/I2V、约 38 秒 1080p——纸面上极具吸引力。本文提示词旨在模型已在 PixVerse 可实测的前提下,帮助你判断成片是否配得上这些宣称。
HappyHorse 1.0 现已在 PixVerse,你可在我们的 AI 视频生成器 盘点中,与所有其他模型同账户、同积分、同界面对比——这才是模型自由:为每个镜头选对引擎,而无需在每个门口再付一笔订阅过路费。