做网站建设工资高吗关键词列表

张小明 2026/1/1 22:59:38
做网站建设工资高吗,关键词列表,凡科网制作网站教程,淘宝关键词搜索排行榜这项由香港大学的陆俊杰、徐艺恒、王俊力等研究者领导#xff0c;联合阿里巴巴Qwen团队的黄斌源、林俊洋等专家共同完成的研究发表于2025年10月#xff0c;论文编号为arXiv:2510.19488v1。这是一项关于如何让人工智能学会使用电脑的突破性研究#xff0c;有兴趣深入了解的读…这项由香港大学的陆俊杰、徐艺恒、王俊力等研究者领导联合阿里巴巴Qwen团队的黄斌源、林俊洋等专家共同完成的研究发表于2025年10月论文编号为arXiv:2510.19488v1。这是一项关于如何让人工智能学会使用电脑的突破性研究有兴趣深入了解的读者可以通过该编号查询完整论文。当我们看到一个孩子第一次学习使用电脑时通常是通过观察大人的操作然后模仿点击、打字、滚动等动作。现在研究人员想让人工智能也能通过这种方式学习但遇到了一个巨大的挑战虽然网上有数百万个电脑操作教程视频但这些视频就像是无声电影一样我们能看到鼠标在移动、按钮被点击却无法直接知道具体点击的坐标或者输入的文字内容。香港大学的研究团队提出了一个创新的解决方案他们称之为VideoAgentTrek。这个系统就像是一个非常聪明的视频翻译官能够自动观看YouTube上的电脑教程视频然后把这些隐含的操作信息翻译成AI能够理解和学习的具体指令。研究团队开发了一个叫做Video2Action的关键技术模块它的工作原理可以比作一个经验丰富的电脑老师在观看学生操作录像。这个老师有两项特殊技能首先它能精确识别视频中什么时候发生了操作比如在第3.5秒到5.5秒之间用户进行了打字操作其次它能准确推断出这些操作的具体内容比如鼠标点击的确切坐标是(350, 200)或者用户输入的文字是hello world。为了获得训练数据研究团队像是在进行一场大规模的视频考古工作。他们从YouTube收集了55000个教程视频总时长约10000小时涵盖从Excel表格操作到软件安装的各种电脑使用场景。为了确保视频质量他们还开发了一个叫做ScreenFilter的筛选工具这个工具就像是一个专门的质检员能够自动识别哪些视频片段包含真正的电脑界面操作过滤掉那些只是讲解PPT或者纯粹聊天的内容。经过ScreenFilter的筛选最终保留了约7377小时的高质量GUI交互视频。这些视频按照内容类型进行了分类操作系统相关的占35.7%专业软件使用占18.9%日常办公应用占17.6%工作流程演示占16.2%其余为7.1%。这种分布确保了训练数据的广泛覆盖性。Video2Action模块的工作过程可以分为三个步骤就像一个熟练的秘书在整理会议记录。第一步是动作事件检测系统会仔细观看视频标记出每个操作动作的精确时间段比如在1.5到2.0秒之间发生了点击动作。第二步是动作参数化系统会分析这些时间段内的具体操作内容推断出点击的坐标、输入的文字等详细参数。第三步是内心独白生成系统会为每个操作生成一段解释性的文字说明为什么要进行这个操作就像是操作者的内心想法。研究团队使用了Qwen2.5-VL-7B作为基础模型进行训练。对于动作事件检测他们使用了154小时的标注数据进行训练这些数据来自OpenCUA项目包含了77万多个精确标注的GUI事件。检测模型在测试中表现出色整体精确率达到88%召回率为70%。其中点击和滚动等基于鼠标指针的操作识别效果最好而按键操作由于视觉线索较少识别难度相对较大。对于动作参数化任务研究团队训练了512000个视频片段。他们采用了动态帧率策略来平衡效率和准确性对于短暂的操作如点击使用较高的帧率确保捕捉细节对于较长的操作如打字则使用较低的帧率节省计算资源。在实际测试中该模块在500个样本的人工评估中表现良好点击操作的准确率达到71.3%滚动操作达到73.5%。通过Video2Action处理39000个YouTube视频后研究团队最终获得了152万个交互步骤的训练数据相当于约260亿个训练词汇。这个数据规模远超之前的人工标注数据集而且覆盖了Windows、macOS、Web平台上数百种应用程序的操作模式。在模型训练方面研究团队采用了两阶段策略。第一阶段是继续预训练让模型在大规模的视频挖掘数据上学习基础的GUI交互模式就像让学生先大量阅读各种操作手册。第二阶段是监督微调使用高质量的人工标注数据进行精细调整就像让学生在老师指导下练习具体操作。实验结果令人印象深刻。在OSWorld-Verified基准测试中仅使用监督微调的基准模型任务成功率为9.3%而加入VideoAgentTrek预训练后成功率提升到15.8%相对提升幅度达到70%。在AgentNetBench测试中步骤准确率从64.1%提升到69.3%。特别值得注意的是经过视频预训练的模型在给定更多操作步骤时表现出更好的测试时扩展能力任务成功率从20步预算的14.13%提升到50步预算的15.78%而未经视频预训练的模型在增加步骤后性能没有提升。研究团队进一步分析了数据规模的影响。他们发现随着视频预训练数据量的增加模型性能呈现稳定的提升趋势。使用50%的数据时AgentNetBench步骤成功率为68.1%OSWorld-Verified任务成功率为13.3%使用100%数据时性能进一步提升至69.3%和15.7%。这表明更大规模的视频数据能够带来更好的性能。VideoAgentTrek的一个重要优势是能够提供更长的操作轨迹。传统的人工标注数据集平均轨迹长度通常在5-18步之间而VideoAgentTrek数据集的平均轨迹长度达到39.25步其中42.1%的轨迹超过20步14.5%包含50步或更多。这种长轨迹训练对于复杂任务的处理至关重要它让AI模型学会了如何将复杂任务分解为子目标在中间失败时持续尝试并有效利用额外的计算预算进行探索和错误修正。在技术细节方面ScreenFilter使用YOLOv8x模型进行光标检测在15000个合成图像上训练F1分数达到89.58%。该工具以1-2帧每秒的速度处理视频保留至少80%帧包含光标且持续6秒以上的片段能够以每GPU日约840小时的效率进行大规模过滤。Video2Action的动作事件检测模块支持多种操作类型包括点击、拖拽、按键、滚动、打字等。在训练数据中点击操作占主导地位67.1%其次是打字13.9%和按键9.4%。模型能够处理各种时长的操作从0.5秒的快速点击到5秒的长时间打字输入。内心独白生成使用GPT-5 Medium模型为每个操作步骤生成4-8句的第一人称解释。这些解释包含操作意图、本地计划、预期状态变化等信息帮助模型更好地理解操作的上下文和目的。生成过程会参考操作前后的关键帧、操作类型和参数以及操作前后各1分钟的语音转录内容。研究团队还对不同领域的性能进行了详细分析。在OSWorld-Verified的各个应用类别中Chrome浏览器相关任务的改善最为显著解决任务数从8个增加到15个工作流程类任务从5个增加到8个操作系统类任务也有稳定提升。这表明视频预训练在各种应用场景中都能带来实质性的性能提升。VideoAgentTrek方法的创新之处在于首次实现了从无标注视频到结构化训练数据的自动转换。传统方法要么依赖昂贵的人工标注要么局限于有限的模拟环境而VideoAgentTrek能够利用互联网上丰富的教程视频资源为计算机使用代理的训练提供了一种可扩展的替代方案。这项研究的意义不仅在于技术突破更在于为AI助手的实用化铺平了道路。未来我们可能会看到更智能的AI助手它们能够通过观看在线教程学习新的软件操作然后帮助用户完成复杂的计算机任务。这种能力将极大地降低普通用户使用复杂软件的门槛让更多人能够享受到数字化工具带来的便利。说到底VideoAgentTrek展示了一种全新的AI学习范式通过模仿人类的学习方式让AI从观察中学习而不是仅仅依赖预先标注的数据。这种方法不仅更接近人类的学习过程也为AI技术的发展开辟了更广阔的可能性。正如人类通过观察和模仿学会使用工具一样AI也可以通过这种方式不断扩展自己的能力边界。对于普通用户而言这意味着未来的AI助手将更加智能和实用能够真正成为我们数字生活中的得力伙伴。QAQ1VideoAgentTrek是什么AVideoAgentTrek是香港大学和阿里巴巴团队开发的AI训练系统它能自动从YouTube教程视频中提取电脑操作信息让AI学会使用电脑就像人类通过看视频学习一样。Q2这个系统相比传统方法有什么优势A传统方法需要大量人工标注数据成本高且规模有限。VideoAgentTrek能直接利用网上现成的教程视频成本低廉且数据规模庞大从39000个视频中自动提取了152万个操作步骤。Q3VideoAgentTrek训练的AI表现如何A在标准测试中使用VideoAgentTrek训练的AI任务成功率从9.3%提升到15.8%步骤准确率从64.1%提升到69.3%并且在复杂长任务上表现更加出色。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

仿京东电商的网站开发凡科网建站入门教程

树莓派替代项目:OpenVPN与Tor网络搭建指南 1. OpenVPN配置 在完成公钥基础设施(PKI)相关操作后,会生成一些关键的密钥和证书,这些可以帮助客户端和服务器建立加密通道。匹配客户端名称的文件(如 client1.* )和 ca.crt 文件需要安全地复制到客户端,因为这些密钥在…

张小明 2026/1/1 22:11:18 网站建设

制作一个门户网站需要多少钱wordpress广告图片代码

Mac基础入门指南 1. 引言 对于长期使用Windows系统的用户来说,切换到Mac系统可能会感到有些陌生。不过,Mac系统以其直观的操作方式,即使是技术不太熟练的用户也能快速上手。下面将详细介绍Mac系统的基础知识,包括鼠标和键盘的使用、桌面与访达的探索等。 2. 鼠标和键盘的…

张小明 2025/12/29 15:32:47 网站建设

怎么样评价网站做的好坏做网站用新域名还是老域名

下面直接给你最实用、最常见的合并单元格(merge cells)方法,jQuery EasyUI datagrid 官方没有内置合并,但通过 onLoadSuccess 事件超级容易实现,复制粘贴就能用,领导最爱的“同一客户订单合并显示 报表分组…

张小明 2025/12/25 13:27:09 网站建设

天津建设网站在线登录qq网页版

超值阳光等大牌厂的PCS资料,光伏逆变器资料,储能逆变器资料,三相三电平,三相二电平,单相,并网离网,组串式,集装箱式等等,MPPT,500K 70KW 50K 30K 20K 10K等资…

张小明 2025/12/26 13:39:15 网站建设

上海设计网站与深圳平台推广

还在为植物大战僵尸中的资源不足而烦恼吗?PvZ Toolkit这款专为PC版设计的综合修改器,将彻底改变你的游戏体验!这款C开发的轻量化工具支持全版本游戏,让每个玩家都能轻松享受游戏乐趣。 【免费下载链接】pvztoolkit 植物大战僵尸 P…

张小明 2025/12/28 3:52:36 网站建设

网站建设汇编材料源码论坛网搭建

如何快速实现专业级角色动画?Wan2.2-Animate-14B给你终极解决方案 【免费下载链接】Wan2.2-Animate-14B 项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.2-Animate-14B 还在为角色动画制作发愁吗?传统的动画制作需要耗费大量时间和精…

张小明 2025/12/28 0:23:27 网站建设