谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA


每个人想要的大模型,是真·智能的那种......

这不,谷歌团队就做出来了一个强大的「读屏」AI。

研究人员将其称为ScreenAI,是一种理解用户界面和信息图表的全新视觉语言模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址:https://arxiv.org/pdf/2402.04615.pdf

ScreenAI的核心是一种新的屏幕截图文本表示方法,可以识别UI元素的类型和位置。

研究人员使用谷歌语言模型PaLM 2-S生成了合成训练数据,这些数据被用来训练模型,以回答与屏幕信息、屏幕导航和屏幕内容摘要相关的问题。值得一提的是,这种方法为提高模型在处理屏幕相关任务时的表现提供了新的思路。

举个栗子,比如打开一音乐APP页面,可以询问「有几首歌时长少于30秒」?

ScreenAI便给出了简单的答案:1。

再比如命令ScreenAI打开菜单,就可以选中。

架构灵感来源——PaLI

图1中展示了ScreenAI模型架构。研究人员受到了PaLI系列模型架构(由一个多模态编码器块组成)的启发。

该编码器块包含一个类似ViT的视觉编码器和一个消费图像(consuming image)和文本输入的mT5语言编码器,后接一个自回归解码器。

输入图像通过视觉编码器转化为一系列嵌入,这些嵌入与输入文本嵌入结合,一起输入mT5语言编码器。

编码器的输出传递给解码器,生成文本输出。

这种泛化公式能够使用相同的模型架构,解决各种视觉和多模态任务。这些任务可以重新表述为文本+图像(输入)到文本(输出)的问题。

与文本输入相比,图像嵌入构成了多模态编码器输入长度的重要部分。

简而言之,该模型采用图像编码器和语言编码器提取图像与文本特征,将二者融合后输入解码器生成文本。

这种构建方式可以广泛适用于图像理解等多模态任务。

另外,研究人员还进一步扩展了PaLI的编码器-解码器架构,以接受各种图像分块模式。

原始的PaLI架构只接受固定网格模式的图像块来处理输入图像。然而,研究人员在屏幕相关领域遇到的数据,跨越了各种各样的分辨率和宽高比。

为了使单个模型能够适应所有屏幕形状,有必要使用一种适用于各种形状图像的分块策略。

为此,谷歌团队借鉴了Pix2Struct中引入的一种技术,允许根据输入图像形状和预定义的最大块数,生成任意网格形状的图像块,如图1所示。

这样能够适应各种格式和宽高比的输入图像,而无需对图像进行填充或拉伸以固定其形状,从而使模型更通用,能够同时处理移动设备(即纵向)和台式机(即横向)的图像格式。

模型配置

研究人员训练了3种不同大小的模型,包含670M、2B和5B参数。

对于670M和2B参数模型,研究人员从视觉编码器和编码器-解码器语言模型的预训练单峰检查点开始。

对于5B参数模型,从 PaLI-3的多模态预训练检查点开始,其中ViT与基于UL2的编码器-解码器语言模型一起训练。

表1中可以看到视觉和语言模型之间的参数分布情况。

自动数据生成

研究人员称,模型开发的预训练阶段很大程度上,取决于对庞大且多样化的数据集的访问。

然而手动标注广泛的数据集是不切实际的,因此谷歌团队的策略是——自动数据生成。

这种方法利用专门的小模型,每个模型都擅长高效且高精度地生成和标记数据。

与手动标注相比,这种自动化方法不仅高效且可扩展,而且还确保了一定程度的数据多样性和复杂性。

第一步是让模型全面了解文本元素、各种屏幕组件及其整体结构和层次结构。这种基础理解对于模型准确解释各种用户界面并与之交互的能力至关重要。

这里,研究人员通过爬虫应用程序和网页,从各种设备(包括台式机、移动设备和平板电脑)收集了大量屏幕截图。

然后,这些屏幕截图会使用详细的标签进行标注,这些标签描述了UI 元素、它们的空间关系以及其他描述性信息。

此外,为了给预训练数据注入更大的多样性,研究人员还利用语言模型的能力,特别是PaLM 2-S分两个阶段生成QA对。

首先生成之前描述的屏幕模式。随后,作者设计一个包含屏幕模式的提示,指导语言模型生成合成数据。

经过几次迭代后,可以确定一个有效生成所需任务的提示,如附录C所示。

为了评估这些生成响应的质量,研究人员对数据的一个子集进行了人工验证,以确保达到预定的质量要求。

该方法在图2中进行了描述,大大提升预训练数据集的深度与广度。

通过利用这些模型的自然语言处理能力,结合结构化的屏幕模式,便可以模拟各种用户交互和情景。

两组不同任务

接下来,研究人员为模型定义了两组不同的任务:一组初始的预训练任务和一组后续的微调任务。

这两组的区别主要在于两个方面:

- 真实数据的来源:对于微调任务,标记由人类评估者提供或验证。对于预训练任务,标记是使用自监督学习方法推断的或使用其他模型生成的。

- 数据集的大小:通常预训练任务包含大量的样本,因此,这些任务用于通过更扩展的一系列步骤来训练模型。

表2显示所有预训练任务的摘要。

在混合数据中,数据集按其大小按比例加权,每个任务允许的最大权重。

将多模态源纳入多任务训练中,从语言处理到视觉理解和网页内容分析,使模型能够有效处理不同的场景,并增强其整体多功能性和性能。

研究人员在微调期间使用各种任务和基准来估计模型的质量。表3总结了这些基准,包括现有的主要屏幕、信息图表和文档理解基准。

实验结果

图4显示了ScreenAI模型的性能,并将其与各种与屏幕和信息图形相关的任务上的最新SOT结果进行了比较。

可以看到,ScreenAI在不同任务上取得的领先性能。

在表4中,研究人员呈现了使用OCR数据的单任务微调结果。

对于QA任务,添加OCR可以提高性能(例如Complex ScreenQA、MPDocVQA和InfoVQA上高达4.5%)。

然而,使用OCR会稍微增加输入长度,从而导致整体训练速度更慢。它还需要在推理时获取OCR结果。

另外,研究人员使用以下模型规模进行了单任务实验:6.7亿参数、20亿参数和50亿参数。

在图4中可以观察到,对于所有任务,增加模型规模都可以改进性能,在最大规模下的改进还没有饱和。

对于需要更复杂的视觉文本和算术推理的任务(例如InfoVQA、ChartQA和Complex ScreenQA),20亿参数模型和50亿参数模型之间的改进明显大于6.7亿参数模型和20亿参数模型。

最后,图5显示了,对于长宽比>1.0的图像(横向模式图像),pix2struct分割策略明显优于固定网格分割。

对于纵向模式图像,趋势相反,但固定网格分割仅稍微好一些。

鉴于研究人员希望ScreenAI模型能够在不同长宽比的图像上使用,因此选择使用pix2struct分割策略。

谷歌研究人员表示,ScreenAI模型还需要在一些任务上进行更多研究,以缩小与GPT-4和Gemini等更大模型的差距。


# 多模  # 还需  # 所示  # 可以看到  # 要在  # 适用于  # 更大  # 两组  # 是一种  # 进行了  # 谷歌  # palm  # gpt  # 自动化  # ui  # https  # ocr  # 架构  # gemini  # ai 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Sora 2 API 全面解析:功能、应用与 Lovable 集成指南  利用AI自动化回复Google Voice短信:终极指南  eBookWriter AI:无需写作也能创作专业电子书  AMD Ryzen 2025 CPU深度解析:新品发布与选购指南  AI邮件营销风险解析:如何规避客户触达的潜在陷阱  如何通过 DeepSeek 优化 Kubernetes 配置文件  历史影像解密:唇语专家如何还原一战士兵对话?  AI赋能保险销售:提升邮件营销效果的终极指南  XRAI Glass:AI赋能的增强现实眼镜,对话新体验  百度浏览器ai对话怎么关 百度浏览器ai聊天窗口隐藏  AI驱动的合同审查:Adobe Acrobat AI助手提升效率与准确性  3步教你用AI创作漫画脚本,从故事到分镜全搞定  百度ai助手悬浮球怎么关 百度ai助手悬浮窗去除方法  如何用AI帮你快速理解API文档?开发者必备高效技巧  老电脑焕新:i5-2400搭配FirePro V5900 打造复古游戏利器  n8n教程:如何用AI自动生成个性化简历  百度输入法蓝色图标怎么关 百度输入法ai图标消除  百度APP的ai助手怎么关闭 百度APP ai功能取消方法  电脑百度ai助手怎么关闭 电脑版百度ai助手移除教程  AI Buildr: 构建 AI 应用的终极指南  ChatGPT怎么写工作汇报 职场办公效率提升与周报生成方法  JSON Prompting: 创造爆款AI广告的秘诀和方法  Voice AI:下一代AI语音助手,重塑人机交互  解读诗歌中的女性视角:Shelley Puhak 的作品解析  实测效率提升超35%!科大讯飞星火AIPC开启AI办公新纪元  ChatGPT怎么用一键生成读书笔记_ChatGPT笔记生成教程【攻略】  通义千问怎么设置常用功能快捷键_通义千问快捷键设置【步骤】  ChatGPT如何进行数据可视化构思 ChatGPT图表设计指南  豆包AI能否生成领导汇报版总结_豆包AI汇报版精简与结构调整【教程】  GitHub Copilot终极指南:提升代码效率与质量  3步教你用AI总结会议录音,再也不怕错过重点  生成式AI革新客户服务:提升效率与个性化体验  服务合同模板:起草、签署和管理指南,提升业务效率  深入解析音视频转录:全面指南与实践技巧  教你用AI帮你生成一份详细的搬家清单,告别手忙脚乱  DeepSeek 在量化交易策略回测中的实战教程  N8N工作流:自动化知识管理与智能问答解决方案  如何让ChatGPT模仿特定文风 创意写作与品牌话术生成教程  N8N 自动化教程:HR 简历智能分析系统搭建指南  快速生成PPT工具怎么用_快速生成PPT工具使用方法详细指南【教程】  ChatGPT一键生成PPT怎么加目录_ChatGPTPPT目录添加【步骤】  3步教你用AI帮你把菜谱转换成详细的烹饪步骤视频脚本  播客数据深度解析:揭秘全球听众分布和增长策略  AI图像生成偏见:克服与优化,打造更真实的数字形象  Google AI 在教育领域个性化学习路径的构建  百度ai助手任务栏怎么关 百度ai助手任务栏图标隐藏  批改网ai检测工具怎么导出检测结果_批改网ai检测工具报告导出与格式选择【指南】  2025年度AMD处理器终极评选:年度最佳CPU推荐  Wrike:AI赋能的项目管理平台,提升电商效率与团队协作  Excel AI:5大免费AI功能提升数据分析效率 

 2024-03-06

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.