首页 > 生活分享 > 免费教学 > 谷歌推Scenic:可识别视频内容 并生成详细描述

谷歌推Scenic:可识别视频内容 并生成详细描述

发布时间:2024-04-08 23:47:07来源: 15210273549

Scenic 是一个以注意力模型为重点的计算机视觉研究代码库。

⭐️ 提供 SOTA 模型和基线模型,以及共享库和项目。

⭐️ Scenic 采用 JAX 和 Flax 进行开发,为快速原型设计大规模视觉模型提供支持。

站长之家(ChinaZ.com) 4月7日 消息:Scenic 是谷歌推出的模型,一个专注于计算机视觉领域的代码库,主要用于研究基于注意力的模型。

该库提供了一系列共享的轻量级库,解决训练大规模视觉模型时常见的任务,并包含了几个使用这些库的问题特定训练和评估循环的项目。Scenic 使用 JAX 和 Flax 进行开发,支持开发人员在图像、视频、音频和多模态组合方面开发分类、分割和检测模型。Scenic能识别任意长度的视频内容,并生成详细描述。针对长视频,可以在处理完整个视频前,流式预测视频内容。

Scenic 提供了一些功能,包括用于启动实验、摘要编写、日志记录、性能分析等的样板代码;优化的训练和评估循环、损失函数、度量、双部分匹配器等;以及用于流行视觉数据集的输入管道和强大的非注意力基线模型。

在 Scenic 中,有一些 SOTA 模型和基线模型,这些模型可能是使用 Scenic 开发的,也可能是在 Scenic 中重新实现的。一些项目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外,Scenic 还提供了一些重现的基线模型,如(ViT)An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。

Scenic 的目标是促进大规模视觉模型的快速原型设计。为了保持代码简单易懂且易于扩展,Scenic 更倾向于通过复制粘贴而非增加复杂性或增加抽象来解决问题。只有当功能被证明在许多模型和任务中广泛有用时,才可能将其上游到 Scenic 的共享库中。

免费教学更多>>

vivo X200s 综合评测与购买分析 荣耀300与荣耀400对比:科技迭代,体验升级 诺基亚 130 / 150 Music ,400元内的复古神器,国行有望近期登场 还有降价空间?红米REDMIBook 14 2025焕新版国补后2679元 国产最强!小米自研芯片“玄戒O1”跑分曝光,能PK苹果A18 雷军:小米芯片采用3纳米制程,首款SUV“YU7”即将发布 nova 14确定19号周一,镜头、麒麟9020、8010确认。补贴预计2550元 华为nova14系列来袭,这波操作太顶了! OPPO Pad4Pro开箱上手体验,3000多元的国产平板这么强? 公司用迷你主机作为办公电脑合适吗? 5.8mm对决5.65mm!三星苹果超薄手机大战引爆抄袭争议 广州楼市突发!房贷利率上调,你的钱包还好吗? 2025房价坐过山车:刚乐呵房价要涨,转眼就被市场“坑惨了” 荣耀400系列深度解析:骁龙7 Gen4首秀+AI影像 三大亮点与隐忧并存 618还没到呢,3000多元已经可以购买部分高端手机 5.8mm对决5.65mm!三星苹果超薄手机大战引爆抄袭争议 7小时续航测试!5款续航“最持久”的手机 青岛女子晒出自家新房,因太会布置而走红,邻居们都过来参观! 南京美女晒出100平米新房,一进去都不想出来,装修真的那么好看 请以:“新房一定比二房好” 5月郑州楼市实探:红盘热销 “小阳春”热度延续 成都最新各区房价详情 房贷利率史上最低!首套3.10%,购房补贴加码,刚需族冲不冲? 苹果支付及钱包的部分用户问题已解决 vivo手机深度优化指南:让你的使用体验大幅提升。 荣耀Magic7 Pro暴跌1430元!三芯旗舰+2亿长焦,闭眼入不后悔 荣耀400系列震撼发布:2亿超清写真人像,真实就是力量 荣耀高性能机型加速 年底硬刚友商? TCL 618开门红再夺第一,Mini LED大屏产品深受用户喜爱 魅族note 16发布会直接掀桌,价格配置简直不要太离谱!