AI视频理解再上一层楼 MiniGPT4-Video面世

股市行情 2024-04-08 17:06www.xyhndec.cn今日股市行情

　人工智能领域又有新进展。

　　可理解视频内容的MiniGPT4-Video面世

　　人工智能领域又有新进展。随着MiniGPT4-Video的问世，视频理解这项难题有了显著的突破。

　　据报道，4月4日，KAUST和哈佛大学研究团队发表的论文中提出MiniGPT4-Video框架——专为视频理解而设计的多模态大模型。该模型能够处理时间视觉和文本数据，使其能够熟练地理解视频的复杂性。MiniGPT4-video不仅考虑视觉内容，还集成了文本对话，允许模型有效地回答涉及视觉和文本组件的查询。

　　例如，MiniGPT4-Video能够为宣传视频配出标题、宣传语；也可以对视频的处理过程进行理解。MiniGPT4-Video甚至可以根据视频内容进行诗歌创作、内容解说等。这意味着，MiniGPT4-Video在处理复杂视频内容时表现亮眼，提供高质量的输出。

　　据悉，该模型优于现有的最先进的方法，在MSVD、MSRVTT、TGIF和TVQA基准上分别提高了4.22%、1.13%、20.82%和13.1%，模型和代码已公开。但目前的缺陷在于上下文窗口限制。下一步，团队将研究模型能力扩展到处理更长视频的能力。

　　多模态概念股出炉

　　AI视频已然成为多模态LLM发展的大趋势。，MiniGPT4-Video的出现是AI在视频理解领域迈出的一大步。随着未来研究的不断深入，有研究人员认为，MiniGPT4-Video将在多模态人工智能领域发挥更加重要的作用。

　　据证券时报·数据宝不完全统计，A股市场的多模态大模型概念股共计13只。从净利润变动来看，大华股份和万兴科技2023年净利润同比翻倍，增幅依次为217.1%、112.1%。另有拓维信息、佳都科技、北信源等实现扭亏为盈。

　　近期，大华股份在互动平台表示，公司在通信能力方面，围绕网络连接技术、数据交换技术和前沿网络技术三个方面，打造融合连接能力体系，通信和连接技术的持续进步，有助于支撑物联网向视联网升级。公司发布了星汉大模型，融合图像、点云、文本、语音等多模态数据，实现了准确性和泛化性的跃升，大幅提升视觉解析能力。

　　万兴科技旗下“天幕”大模型以音视频生成式AI技术为基础，由视频、音频、图片和语言大模型组成，涵盖文生视频、文生3D视频、视频AI配乐、数字人播报等近百项音视频原子能力，支持全球不同语言，相关能力已在Wondershare Filmora、Wondershare Virbo等海外产品上规模化商用。

上一篇：燃油车末日来了固态电池轻松实现续航1000公里下一篇：受累险资股下跌理财巨亏超亿元方大特钢最新发声

AI视频理解再上一层楼 MiniGPT4-Video面世

炒股网搜索

炒股导航

股市行情

炒股开户

炒股技术

AI视频理解再上一层楼 MiniGPT4-Video面世

全球股市行情

炒股网搜索

炒股导航

股市行情

炒股开户

炒股技术