首页 > 生活分享 > 免费教学 > 谷歌推Scenic:可识别视频内容 并生成详细描述

谷歌推Scenic:可识别视频内容 并生成详细描述

发布时间:2024-04-08 23:47:07来源: 15210273549

Scenic 是一个以注意力模型为重点的计算机视觉研究代码库。

⭐️ 提供 SOTA 模型和基线模型,以及共享库和项目。

⭐️ Scenic 采用 JAX 和 Flax 进行开发,为快速原型设计大规模视觉模型提供支持。

站长之家(ChinaZ.com) 4月7日 消息:Scenic 是谷歌推出的模型,一个专注于计算机视觉领域的代码库,主要用于研究基于注意力的模型。

该库提供了一系列共享的轻量级库,解决训练大规模视觉模型时常见的任务,并包含了几个使用这些库的问题特定训练和评估循环的项目。Scenic 使用 JAX 和 Flax 进行开发,支持开发人员在图像、视频、音频和多模态组合方面开发分类、分割和检测模型。Scenic能识别任意长度的视频内容,并生成详细描述。针对长视频,可以在处理完整个视频前,流式预测视频内容。

Scenic 提供了一些功能,包括用于启动实验、摘要编写、日志记录、性能分析等的样板代码;优化的训练和评估循环、损失函数、度量、双部分匹配器等;以及用于流行视觉数据集的输入管道和强大的非注意力基线模型。

在 Scenic 中,有一些 SOTA 模型和基线模型,这些模型可能是使用 Scenic 开发的,也可能是在 Scenic 中重新实现的。一些项目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外,Scenic 还提供了一些重现的基线模型,如(ViT)An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。

Scenic 的目标是促进大规模视觉模型的快速原型设计。为了保持代码简单易懂且易于扩展,Scenic 更倾向于通过复制粘贴而非增加复杂性或增加抽象来解决问题。只有当功能被证明在许多模型和任务中广泛有用时,才可能将其上游到 Scenic 的共享库中。

免费教学更多>>

10万预算选混动SUV,双动力长续航,五菱星光S值得入手吗? 不负当下、不惧未来,东风Honda 2024年稳中求进、“韧性”向前 领克900陷入车评人舆论旋涡,林杰该当如何收场? 引领全民智驾时代,问界凭“车位到车位”再度跑赢对手 吉利“掀桌子了”!第4代帝豪一口价4.89万起,买车者有福 小鹏G7要来了!外形比G6好看,顶配或卖到25万,小鹏新“爆款”? 博世以软件和人工智能使产品更智能、生活更安全 德赛西威联合高通打造搭载骁龙汽车平台至尊版的全新AI智能座舱平台 宝骏云海腾云美学斩获金乘奖,开启智能出行新体验 本田解释为何 0 系列电动车看起来与邻居的思域不一样 日本网民评论:索尼本田发售续航400km电动汽车,售价1400万日元 折扣近50%的奔驰豪车!全新设计,S级同款内饰,月销仅2台 华丽还是华而不实(上)——大众消费者真的需要百万级电车吗 中大型纯电轿车怎么选?银河E8 PK比亚迪汉EV,动力科技遥遥领先 比亚迪的新一代平价神车? 比亚迪e7申报图曝光 丰田着手改善其数字化员工体验 最高降价7万,5.7升油耗配92油,丰田“顶尖MPV”发起攻势,全系? 全新丰田普锐斯海外上市,配置新升级,搭载2.0L油混系统 吉利银河 L6 EM-i:新能源汽车新力作惊艳登场 是等奥迪A5l?还是加上几万块钱预算直接冲奥迪A6l?看看优缺点! iOS 17.0 Bootstrap 1.3.2 越狱更新,提升稳定性 微信纯血鸿蒙版APP震撼上线,鸿蒙生态迎来关键拼图 首家鸿蒙生态银行落户城市副中心 报告!2025原生鸿蒙的一天已发现,是否开始体验 2025电脑新品扎堆来袭!与其苦等不如入手?华硕天选Air依然能打 消息称三星Galaxy S25 Ultra手机S Pen触控笔不再支持蓝牙 惠普惊艳CES 2025,OMEN暗影精灵MAX成游戏本新标杆 华硕官宣AMD Radeon RX 9070 XT/9070显卡规格,配16GB显存 何必等RTX5070!联想两款RTX4060Ti电脑都可用补贴,最低6399元 多地取消公摊面积 让购房者明明白白消费