所有文章第61页
Upscale-A-Video视频放大算法 Upscale-A-Video的文本引导潜在扩散框架,用于视频放大。该框架通过两个关键机制确保时间上的一致性:在局部上,它将时间层集成到U-Net和VAE-Decoder中,保持短序列的一致性; 在全局上,引入了一个基于流引导的经常性潜在传播模块,通过在整个序列中传播和融合潜在来增强整体视频的稳定性。 由于扩散范式...
W.A.L.T:谷歌视频生成模型 刚注意到李飞飞团队的这个视频生成模型W.A.L.T,这效果也太好了,感觉比 Pika 1.0 还要好的多。 清晰度和动作都非常好,特别是光剑打斗的那个视频。可惜不开源。 方法有两个关键的设计决策。首先,我们使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。其次,为了提高记忆和训练效率,我们使用专...
ConTorlNetXS:优化版Contorlnet 海德堡大学开源了一个优化版本的 ContorlNet 模型:ConTorlNetXS。这个架构的 ContorlNet 模型精简了原来的模型推理和训练的时间都提高了两倍,同时生成图片的质量更高,控制更加精准。 这个项目中,我们研究了用于控制基于稳定扩散模型的图像生成过程的ControlNet的大小和架构设...
a16z 2024年展望 《Big Ideas in Tech for 2024》一文来自a16z,讨论了预计将推动2024年技术发展的几个关键趋势和创新。其中包括: 公共安全系统升级:文章建议技术可以显著改善公共安全系统,例如通过FaceTime或WhatsApp与911操作员进行连接,利用无人机加快应急响应,并使用摄像头和传感器进行犯罪预防和解决。 智能...
FreeInit:大幅提高AI视频生成中内容一致性 南洋理工发布了一个可以大幅提高AI视频生成中内容一致性的方法FreeInit,演示看起来非常流畅。而且可以跟现有的SD生态结合。 他们还发了跟Animatediff结合的方法,等有大佬做插件就可以用了。视频是使用了FreeInit和未使用FreeInit的Animaetdiff的对比。
Notdiamond-0001:自动选择LLM模型 Notdiamond-0001这个项目可以自动帮你选择将用户的问题发送给GPT-4还是GPT-3.5,从而大幅降低调用模型的成本提高回答的准确性。 以后还会推出Gemini、Mistral、Claude 和 Llama这几个模型的自动选择。 下面是几个重点功能: ◇ 在用作路由器时,Notdiamond-0...
LLM Visualization 这个 LLM 算法的可视化演示太强了,之前我们看到的都是 2D 的,这个是 3D 的。而且他完整的展示了整个 LLM不同模块内部的运作机制和各模块之间的联系。你还可以看 GPT-3 和 GPT-2 这种不同规模的 LLM 在架构和模块上的区别。
VideoLCM: Video Latent Consistency Model 视频 LCM 项目,通过四个采样步骤即可实现高保真、流畅的视频合成。 其实这个我没看懂,现有的 LCM 在采样器前接入加上视频生成模型也可以实现类似的事情。他们在论文里没有说明他们的研究比现在利用 LCM 生成视频的优势在哪里。
Coffee:AI 生成前端组件 这个AI生成前端代码的项目“Coffee”有意思,可以生成干净可维护的前端组件代码。 交互也很有意思,你只需要在代码对应位置加一个标签在里面写上对组件的要求,他就可以生成对应的前端组件,你可以继续在标签里输入内容对生成的组件进行修改。 当你修改好之后加个属性,组件就会被创建。你也可以利用Coffee编辑现有的React组件。...
Osum:AI进行市场研究 Osum是一款旨在简化研究流程并为企业提供有价值见解的人工智能市场研究工具。该工具可以通过按下按钮即可立即获取产品或企业的详细研究、SWOT分析、买家人物画像、增长机会等信息。 Osum还提供销售前景分析器(Sales Prospect Profiler),它通过将人口统计数据与行为和心理特征洞察相结合来创建可操作档案用于销售前景...