利用多模态 LLM 来理解和操作网页的项目SeeAct

另一个利用多模态 LLM 来理解和操作网页的项目SeeAct。
这个Agents项目利用GPT-4V 等 LMM 来直观地感知网站并生成文本形式的计划。然后,文本计划会被转换为基于 HTML 元素和操作在网站上执行。#AI##LLM#

这个项目可以成功完成不同网站上 50 % 的任务,而 GPT-4V 是 20%。

但是也有一些问题,目前最佳的方法与理论上完美结果之间还存在着20-25%左右的差距。在众多尝试过的方法中,一种综合运用HTML文本和视觉元素的策略表现最为出色,并且比图像注释策略提升了高达30%。

论文地址:https://browse.arxiv.org/html/2401.01614v1
GPT-4V(ision) is a Generalist Web Agent, if Grounded