谷歌推Scenic：可识别视频内容并生成详细描述

Scenic 是一个以注意力模型为重点的计算机视觉研究代码库。

⭐️ 提供 SOTA 模型和基线模型，以及共享库和项目。

⭐️ Scenic 采用 JAX 和 Flax 进行开发，为快速原型设计大规模视觉模型提供支持。

站长之家(ChinaZ.com) 4月7日消息:Scenic 是谷歌推出的模型，一个专注于计算机视觉领域的代码库，主要用于研究基于注意力的模型。

该库提供了一系列共享的轻量级库，解决训练大规模视觉模型时常见的任务，并包含了几个使用这些库的问题特定训练和评估循环的项目。Scenic 使用 JAX 和 Flax 进行开发，支持开发人员在图像、视频、音频和多模态组合方面开发分类、分割和检测模型。Scenic能识别任意长度的视频内容，并生成详细描述。针对长视频，可以在处理完整个视频前，流式预测视频内容。

Scenic 提供了一些功能，包括用于启动实验、摘要编写、日志记录、性能分析等的样板代码;优化的训练和评估循环、损失函数、度量、双部分匹配器等;以及用于流行视觉数据集的输入管道和强大的非注意力基线模型。

在 Scenic 中，有一些 SOTA 模型和基线模型，这些模型可能是使用 Scenic 开发的，也可能是在 Scenic 中重新实现的。一些项目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外，Scenic 还提供了一些重现的基线模型，如（ViT）An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。

Scenic 的目标是促进大规模视觉模型的快速原型设计。为了保持代码简单易懂且易于扩展，Scenic 更倾向于通过复制粘贴而非增加复杂性或增加抽象来解决问题。只有当功能被证明在许多模型和任务中广泛有用时，才可能将其上游到 Scenic 的共享库中。

谷歌推Scenic：可识别视频内容 并生成详细描述

免费教学更多>>

谷歌推Scenic：可识别视频内容并生成详细描述