Auto-GPT实测报告——虽不完美，但却是最有前景的AI路线-精彩看点

2023-04-18 12:42:43 来源: 阿尔法工场

（原标题：Auto-GPT实测报告——虽不完美，但却是最有前景的AI路线）

导语：在可预见的未来，自动生成子智能体的AI会进一步发展，为复杂问题解决给出一种新式答案。
Auto-GPT，一款基于GPT-4的人工智能内容生成机器人在近期迅速爆红。

截止至2023年4月16日，Auto-GPT项目在GitHub上共斩获了72.8k Star，吸引了全世界关注着AIGC的人的关注。

AutoGPT GitHub Star增长情况

此前让LLM（大语言模型）火出圈的产品ChatGPT，最大的局限性就在于需要人工提供大量的原始信息和引导词（Prompt），才能让ChatGPT生成理想的内容。

(资料图片)

而Auto-GPT就是为了解决这个痛点而诞生的。它可以通过LLM自主产生Prompt，并且通过Google搜索和Python脚本来实现自己的目的。

Auto-GPT在推特上有很多收获了极高关注量的例子，案例的内容包括有商业调查、无代码生成APP或网页、自动化办公和文本生成等等。在加入了Stable Diffusion后甚至可以拥有图片的生成能力。

这一切听起来非常美好对吧？但是别忘了Auto-GPT仍然只是一个实验性项目，仍然有较大的局限性。 Auto-GPT的工作流程

由人类给Auto-GPT分配一个角色（例如一名写手），接着给他分配最多五个任务让他执行。

Auto-GPT就会自己将任务列表拆解成某些具体的任务，并生成后续的任务执行列表。每一步可以是执行Google搜索、生成Python脚本、存储生成文本、执行脚本文件等等。

上述步骤主要依赖于以下几个部件： 1.基础框架：GPT-4和GPT-3.5，二者分别被成为聪明模型和快速响应模型。这两者共同充当整个Auto-GPT的大脑。不同的任务将会适时的分配给两种不同的模型以加快生成速度和降低成本开销。 2.自主迭代：从最原始的Task List中出发，将任务投入LLM中生成更进一步细化的Task List。再逐项完成任务并将结果保存。每次结果都会被选择性的放回LLM中再迭代生成回应。 3.内存管理：Auto-GPT默认使用一种向量数据库（保存在auto-on中）存储对话上下文，使得LLM可以获得长期记忆并且最大程度降低token（LLM中的数据量计数单位）的使用，防止超过输入限制和降低使用成本。除了本地向量数据库外，还可以使用Redis保存上下文进一步提升性能。 4.多功能部件：Auto-GPT被赋予了多种新型的工具，包括本地shell的执行权限、本地文件的读取和写入、Google搜索能力、Python脚本执行能力等等。以上能力不仅仅赋予了Auto-GPT的联网能力，还使其拥有了部分本地操作权限，极大拓宽了AI的能力以及使用范围。 Auto-GPT初始化所需信息 Auto-GPT实测表现
测试一：自动化检索。

在这里定义Auto-GPT为一个Research GPT，可以自动化检索互联网信息并作出市场分析。任务分配就是找到市面上的Top5电视盒子并列出他们的配置和价格。电视盒子信息 Auto-GPT找到了所需要的数据，但是也仅给出了分析出的Top5的盒子的参数和价格，并没有列出数据来源和评判标准。同时也没有做市场分析，只是单列出了数据和配置，没有针对所收集到的数据进行额外分析。

可以说虽然Auto-GPT降低了对Prompt的依赖性，但是对初始任务的描述详细性仍然要求较高。

2.测试二任务：自动写作。

这个测试中，Auto-GPT被定义为作家，要求写一个以赛博朋克为背景的科幻小说的大纲。

Auto-GPT完成的非常出色，其在文件夹中分别生成了几个文件：“赛博朋克大纲”、“对话”、“赛博朋克调查”、“世界背景”、“人物性格”、“人物目标及其背景”等等文件。每份文件中都详实地记下了其文件名的内容，而且每个内容都是基于同一个世界观下生成的。本次任务仅仅只为创作一个故事大纲，但是他最后交付给我们了一个近似完整的故事。主角的设定也符合赛博朋克的背景故事。 Auto-GPT的长期记忆功能帮助了Auto-GPT可以始终保持在相同的背景设定里而不偏离。虽然没有完成整篇文章，但是故事脉络已经非常清晰，甚至已经可以说是在“创作”一些新文字了。 Auto-GPT当前的问题
1.开销极高

Auto-GPT是基于GPT-3.5和GPT-4而建立起来的。而GPT-4的单个token价格为GPT-3.5的15倍。

假设每次任务需要50个step（较好状况下），每个step会花费6K tokens的GPT-4 使用量，Prompt（提示词）和Completion（回答）的平均每一千tokens花费是0.05美元（因为实际使用中回答使用的token远远多于提示词），汇率为1美元 : 6.8人民币，那么花费就是50*6*0.05*6.8=102人民币。 GPT-4 API访问价格 GPT-3.5 API访问价格注意，这仅仅只是理想状况下，而且假设了使用时Auto-GPT没有出现其他的问题（后续会提到），单次任务的成本就为100余元。这个成本显然是不可以被大规模应用的。

2.常见死循环现象在执行任务的时候，Auto-GPT会将任务细化并分解。但是一旦遇到了一些GPT-4都无法处理的问题时，就会陷入自我循环，每一个step执行完后的动作都为“do_nothing”，而且下一个动作仍为这个。

但是每次都会将相同的Prompt交给GPT-4处理从而造成了极其大量的资源浪费现象。而且从目前来看并没有什么很好的解决方案。 Auto-GPT陷入死循环中常见表现除了这种do_nothing类型的死循环外，还可以经常发现Auto-GPT的另一种死循环，即生成的python脚本执行的时候无法正确完成任务。

接着GPT-4就会尝试修复脚本，再重新执行。通常的修复可能分为很多步让人很难发现问题所在。但是通常来说这种修复都是不起作用的，就又会陷入另一种死循环。

3.执行速度过慢从实测的第一个问题来看，还有一个非常大的问题就是响应速度过慢。GPT-4的生成token的速度就比GPT-3.5慢许多，再加上脚本执行其它指令（比如Google）所消耗的时间就更长了。

本次统计出Top5的电视盒子，Auto-GPT共耗时8分钟，进行了20个steps完成了总结。但是联网的AI工具除了Auto-GPT还有其它的AI工具可以完成，例如New Bing。虽然Bing无法自我搜索网络评论并鉴别是否为虚假评论，而且数据来源比较狭窄，但是New Bing的响应只花了8秒，还提供了参考链接供读者自行参考，比起Auto-GPT更加直观。总结
AGI，即通用人工智能，最重要的一个特点就是脱离人工监督可自行完成任务，并且可以完成一些“创意任务”。而Auto-GPT正是在当前条件比较有限的前提下对AGI做出的一个有益尝试。

通过主任务生成子任务（也有人叫子智能体）的方法而让AI通过LLM脱离人类监督自行完成任务可能是未来的发展方向之一。

当前的问题是LLM的能力还是比较弱，对当前的状态把握的还不够好，从而经常让自己陷入死循环需要人类的介入。而且虽然向量数据库成功赋予了AI中长期记忆的可能性，但是对于后续的任务缺无法继续沿用此前的记忆了。

执行速率也可以通过调整架构提升，例如将逐项执行的子智能体转换为可以异步同时执行的模式，大幅提升效率，每一步不强依赖于上一步，就可以极大提升运行效率。又可以像Bing一样快速获取信息，还可以自行分析获取内容达到超过New Bing的效果。

在可预见的未来，这种自动生成子智能体的AI会进一步发展，为复杂问题的解决给出一种新式的答案。

Auto-GPT实测报告——虽不完美，但却是最有前景的AI路线-精彩看点

每日热点

Auto-GPT实测报告——虽不完美，但却是最有前景的AI路线-精彩看点

广哈通信：公司经营活动正常运行

腾讯专利可用区块链管理游戏资源

腾讯专利可利用区块链管理游戏资源-时快讯

《央视聚焦！新宝多品类智能家电亮相第133届广交会》-天天精选

不一般，农村这几种养殖，一年收入几十万！-环球观速讯

中航电子：本次合并后新增无限售流通股的上市流通日期为2023年4月19日-全球快资讯

博雅生物：结合公司十四五战略，公司在国际化布局方面有比较明确的策略和节奏，三步走的实施策略-全球观焦点

航天彩虹：公司将通过不懈奋斗，努力成为国内领先、国际一流的特种飞行器产业公司-全球要闻

国家统计局：3月份原煤、天然气生产有所放缓 原油、电力生产加快-每日讯息

国家统计局：一季度全国居民人均可支配收入10870元 同比名义增长5.1%-天天时快讯

国家统计局：3月份社会消费品零售总额37855亿元 同比增长10.6%-天天观热点

国家统计局：1-3月全国房地产开发投资25974亿元 同比下降5.8%-独家

国家统计局：1—3月份全国固定资产投资107282亿元 同比增长5.1%

东芝公司并购有望 退市不确定性仍存

国家统计局：2023年1—3月份全国房地产开发投资同比降5.8%

网络探店亟需规范

【界面】“金三银四”传统旺季，为何多家钢厂发布停产检修计划？-今日最新

许继电气：公司业务分六大板块，不同板块毛利率有差异-世界百事通

歌尔股份：公司目前没有与你提及产品相关的营业收入

新潮能源：目前，公司无实际控制人，具体情况请以公司在指定信息披露媒体披露的公告为准-速看

远兴能源：公司2022年纯碱毛利率58%、小苏打毛利率53%、尿素毛利率30%-焦点报道

英超：利物浦横扫利兹联-环球热闻

因租赁资金流向禁止性领域等 国银金融租赁被罚370万-天天新视野

祥生控股步入后陈国祥时代-世界独家

非居民企业跨境办税可网上完成-环球观热点

聚焦重点地区重点行业重点项目 云南推动经济稳进提质

广州黄埔环境监测站不断提高监测数据精准度-全球短讯

建造绿色建筑 嘉兴长三角氢能创新中心项目二期工程封顶

科技部：2025年底国家超算互联网将形成技术先进、模式创新、服务优质、生态完善的总体布局-天天速递

今年陕西将新建改造230万亩高标准农田-全球微速讯

中银绒业：公司磷酸铁锂生产经营情况请查阅公司披露的定期报告-世界热推荐

杭州解百：二级市场股价受宏观经济环境、市场行情等多重因素综合影响

瑞尔特：公司2022年度营业收入相关数据，请您关注公司披露的2022年度报告内容-焦点消息

钱江水利：公司是一家以制水、供水为主业，同时经营污水处理和市政管道安装业务的公用事业类上市公司-焦点讯息

我国辣椒生产与贸易知多少-天天快播

淄博烧烤背后是人与城的双向奔赴-全球热门

集成电路产业景气度提升 高质量发展可期-全球微头条

明年中旬上海蓝绿车牌要合并? 消息不实-天天头条

上海助企破局 食品包装企业寻“检”不再难-世界焦点

重庆银行营业收入减少7.23%近十年首降 贷款减值损失降11亿不良率1.38%上市后最高-天天新消息

知原药业两次股权激励实控人低价分走30% 三年豪掷5.13亿营销为研发费5.7倍

厦门海沧设立“进不了窗口”综合服务中心-天天热点

同程旅行净利腰斩涉消费投诉超3万条 80%月活用户长期靠腾讯喂流风险凸显

一个月内，市值蒸发250亿元？！“股市谣言第一案”开庭！-焦点

人类最强火箭发射推迟！SpaceX公布星舰首飞新日期：4月20日升空-新资讯

*ST新海：经公司与陕西通家和迪比科详细沟通得知：陕西通家目前还处于小批量生产阶段-全球时快讯

拓普集团：公司生产的是轻量化底盘系统总成，就您提到的“底盘控制管”不甚了解-环球关注

寿仙谷：杂交育种和太空育种都是灵芝育种的方法，但门槛和技术难点不同

罗牛山：截止2023年4月10日，股东总户数约为10.18万户-每日看点

一季度海南离岛免税购物金额达169亿元-环球观热点

自贸港利好政策拉动海南外贸快速发展-世界头条

调查：仅6.7%的外国公司因俄罗斯受制裁而撤资

恒尚节能：财务总监化身多项专利发明人 关联方“惊现”影子公司隐而未宣

100亿元！中央财政发放一次性补贴！给谁？怎么发？-天天微资讯

规避利率风险再添新工具 首批3个30年期国债期货合约将上市-当前简讯

一大波减持公告来袭：集中在半导体、医药板块 AI概念也有热门股在列

最新通知！交通运输部“点名”网约车平台！降低

云南省启动青年普法志愿者法治文化基层行活动-今日讯

深康佳Ａ：目前，本公司半导体业务在存储、光电等领域进行了布局-看热讯

癌症也有“流行区”？专家解读恶性肿瘤流行图谱-环球消息

癌症也有“流行区”？专家解读恶性肿瘤流行图谱-环球报道

科技成果转化日趋活跃 产学研融合还需发力-每日资讯

“五一”出游正升温 文旅复苏绽新颜

飞机高铁网遍布 长途客运大巴何去何从？-环球时快讯

我的工作百科_myjob我的工作网-全球聚看点

劲拓股份：公司专用设备产品均为自主研发、自有品牌产品，属于国家政策鼓励和支持的战略新兴产业-全球快播

八宝茶有哪八种配料_八宝茶喝了有什么功效-每日资讯

skyzen僵尸娘19番外篇_冰灵族番外篇7 10

横店东磁：1、林洋能源已于2022年9月将其持有的合资公司的股权转让给东磁，故不存在同业竞争情形

贵阳市邮编南明区邮编_贵阳市邮编-世界时讯

西域旅游：目前公司未申请免税店牌照，如有相关政策并符合条件，公司将积极争取并按规定履行披露义务-全球快消息

绿色工厂绿色园区数量居全国前列 江苏推进制造业低碳转型

张兴海朋友圈点赞AITO问界M5智驾版:先试驾先体验再买车！

葵花药业 科福制药等6批次药品抽检不合格-焦点讯息

华业香料：4月14日公司高管范一义减持公司股份合计2.74万股

苏丹医生工会：首都喀土穆市区内医院和卫生机构停止服务

年报因涉及诉讼事项被出具保留意见 聚力文化索赔案已采用示范判决机制-全球新动态

国家统计局：3月份原煤、天然气生产有所放缓原油、电力生产加快-每日讯息

国家统计局：一季度全国居民人均可支配收入10870元同比名义增长5.1%-天天时快讯

国家统计局：3月份社会消费品零售总额37855亿元同比增长10.6%-天天观热点

国家统计局：1-3月全国房地产开发投资25974亿元同比下降5.8%-独家

国家统计局：1—3月份全国固定资产投资107282亿元同比增长5.1%

东芝公司并购有望退市不确定性仍存

因租赁资金流向禁止性领域等国银金融租赁被罚370万-天天新视野

聚焦重点地区重点行业重点项目云南推动经济稳进提质

建造绿色建筑嘉兴长三角氢能创新中心项目二期工程封顶

集成电路产业景气度提升高质量发展可期-全球微头条

上海助企破局食品包装企业寻“检”不再难-世界焦点

重庆银行营业收入减少7.23%近十年首降贷款减值损失降11亿不良率1.38%上市后最高-天天新消息

恒尚节能：财务总监化身多项专利发明人关联方“惊现”影子公司隐而未宣

规避利率风险再添新工具首批3个30年期国债期货合约将上市-当前简讯

科技成果转化日趋活跃产学研融合还需发力-每日资讯

“五一”出游正升温文旅复苏绽新颜

飞机高铁网遍布长途客运大巴何去何从？-环球时快讯

绿色工厂绿色园区数量居全国前列江苏推进制造业低碳转型

葵花药业科福制药等6批次药品抽检不合格-焦点讯息

年报因涉及诉讼事项被出具保留意见聚力文化索赔案已采用示范判决机制-全球新动态

商汤、创新奇智、新纽科技等多股呈现回调机构认为港股结构性机会依然可期-世界时讯

油价创年内最大涨幅加一箱油多花约21.5元-全球实时

全国肿瘤防治宣传周| 百名专家义诊解决诊疗需求-每日短讯

加入全国两化融合管理标委会产融合作标准工作组京东科技成首批科技服务商-当前信息

“生命早期1000天关爱计划”启动专家：宫内营养环境会影响胎儿生理结构和功能

一季度净利超预期洲明科技涨超15%-要闻速递

彩虹六号围攻角色大全彩虹六号围攻角色攻略

罐藏食品首次亮相糖酒会将推动常温预制菜进入发展高地-世界播报

激发地方市场活力第二十三届中国美食节将在福州召开-世界即时看

万丰股份即将登陆沪主板中高端分散染料市场优质企业踏上新征程-天天播报

楼市企稳回升省会城市活力足-环球热讯

片仔癀2022年营收、净利增速创近8年最低正在准备分拆上市的化妆品业务出现大幅下滑-环球新资讯

上海半马回归开跑太平人寿连续三届提供赛事保障-全球快播