首页 > 生活分享 > 免费教学 > 谷歌推Scenic:可识别视频内容 并生成详细描述

谷歌推Scenic:可识别视频内容 并生成详细描述

发布时间:2024-04-08 23:47:07

Scenic 是一个以注意力模型为重点的计算机视觉研究代码库。

⭐️ 提供 SOTA 模型和基线模型,以及共享库和项目。

⭐️ Scenic 采用 JAX 和 Flax 进行开发,为快速原型设计大规模视觉模型提供支持。

站长之家(ChinaZ.com) 4月7日 消息:Scenic 是谷歌推出的模型,一个专注于计算机视觉领域的代码库,主要用于研究基于注意力的模型。

该库提供了一系列共享的轻量级库,解决训练大规模视觉模型时常见的任务,并包含了几个使用这些库的问题特定训练和评估循环的项目。Scenic 使用 JAX 和 Flax 进行开发,支持开发人员在图像、视频、音频和多模态组合方面开发分类、分割和检测模型。Scenic能识别任意长度的视频内容,并生成详细描述。针对长视频,可以在处理完整个视频前,流式预测视频内容。

Scenic 提供了一些功能,包括用于启动实验、摘要编写、日志记录、性能分析等的样板代码;优化的训练和评估循环、损失函数、度量、双部分匹配器等;以及用于流行视觉数据集的输入管道和强大的非注意力基线模型。

在 Scenic 中,有一些 SOTA 模型和基线模型,这些模型可能是使用 Scenic 开发的,也可能是在 Scenic 中重新实现的。一些项目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外,Scenic 还提供了一些重现的基线模型,如(ViT)An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。

Scenic 的目标是促进大规模视觉模型的快速原型设计。为了保持代码简单易懂且易于扩展,Scenic 更倾向于通过复制粘贴而非增加复杂性或增加抽象来解决问题。只有当功能被证明在许多模型和任务中广泛有用时,才可能将其上游到 Scenic 的共享库中。

免费教学更多>>

特斯拉Robotaxi车队规模达200辆 全新奔驰S级即将发布,CEO称其为车型历史上最大更新之一 重庆国资出手,入股一家做“机器人大脑”的公司 美国多家汽车经销商完成所有权变更 涉及八州十余宗交易 不占领市场,却要占领“生态位”:雷诺的中国新活法 小米前高管创业,获高瓴、智元等数千万投融 马自达押油电混动:下一代纯电推迟至2029年 2025越南车市大反转,“丰田们”的时代变了 特斯拉凭借激进定价策略巩固韩国电动汽车市场领先地位 上市即爆款!全面升级的荣耀Power 2销量不俗,10080mAh+240万跑分 微信等APP狂吃手机存储:1TB份额占比翻倍 64GB要绝迹了 2026,不犯错,就是车企最大的赢面 iPhone阵容调整,库克卸任倒计时 一心当网红的魏建军,长城汽车面对仅132万辆的年销量,犯愁了没? “撞名”蔚来?星途全新系列亮相 加95号省油?实测打脸:油耗更高,钱包更瘪! 量产大灯上身,“新世代”X5呼之欲出 人形机器人概念刺激汽车行业 目标320万辆,奇 瑞今年开始“求稳” 零跑新车A10预告图公布 广汽与阿里云将在全栈AI领域展开合作 宇树科技公布机器人交互控制新专利 阿里独家掷投,原力灵机再获数亿元融资 曝安世半导体客户正商谈应对方案,以规避中欧芯片争端影响 亏损2.068亿美元,法拉第未来发布2025年Q3财报 特斯拉上海超级工厂第500万个电池包下线 2025年1-9月ADAS供应商装机量排行榜:多强竞争、自主供应商强势突围 比亚迪领跑东南亚、吉利奇 瑞深耕独联体市场丨2025年9月,中国车企出口新动态 北京人形机器人创新中心XR-1模型通过具身智能国标 北汽极狐全新MPV亮相,全新设计风格,外观很霸气,侧滑门