Aristo的AI系统可通过初二科学测试正确答案超90%

2019-10-09 15:29:53 来源: 网易科技

上周，美国艾伦人工智能研究所(Allen Institute For Artificial Intelligence)的研究人员在一篇新论文中证明，他们设计的AI系统可以在初二科学测试的多项选择题中给出90%以上的正确答案，在高三科学测试中也表现得相当好，正确率超过80%。

图：AI系统Aristo可在初二科学测试中给出90%以上的正确答案，在高三测试中的表现也相当棒

这个名为Aristo的AI系统参加了纽约摄政学院科学考试(New York Regents Science Exam，纽约州学生标准会考)，但它可以享受某些优待，比如不需要解答涉及查看图表的问题。尽管如此，研究人员在不同版本和不同年级的考试中测试了该程序，发现其表现相当稳定，绝对能与最好的学生一较高低。

Aristo展示了AI技术的高速发展历程。该论文的作者指出，就在2016年，AI领域还没有任何AI系统能够在类似的初二科学考试中获得及格成绩。但自2016年以来，在AI领域发生了很多事情，尤其是用于这项任务的自然语言处理方面。

研究人员已经开发出新的方法来构建AI，使其能够更好地完成自然语言处理任务，使AI系统能够产生听起来更自然的人类文本，并编写新闻故事或诗歌。随着AI在生成假面孔或视频、“增强”真实图像以及识别对象和面孔的能力方面变得更加复杂，计算机视觉已经得到了极大的改善。

AI系统已经征服了在线多人战略游戏。随着投资大量涌入该领域，今年抢眼的项目通常比几年前的项目成本高得多。现在，进步的浪潮把我们带到了能够在科学测试中击败初二学生的AI系统中。

AI技术的快速发展使许多专家难以预测该领域的未来前景，他们中有些人预测相当于人类水平的AI出现可能只需10年或20年。但随着AI系统变得越来越强大，它们将带来更多挑战。当它们达到人类水平的能力时，错误指定或设计不良的程序可能带来灾难性的风险。不过，这样的结果是令人兴奋的，它们也提醒我们，我们正在AI方面取得惊人的成就，这也许比我们制定AI政策、确保安全速度更快。

对这样的项目的常见的批评是，AI只是反刍信息，而不是真正的思考。几年前，这似乎是对AI系统所能做的事情的准确总结。当单词相互关联时，它们可以记住，但却不能回答任何涉及更深层次概念理解的问题。这种情况一直在改变。当今最先进的AI系统仍然会犯概念性错误，但已经少了很多。

看看纽约摄政学院科学考试的这些问题(来自艾伦研究所的论文)就可以清楚地看出，要想在这次考试中取得好成绩，你必须做许多类似概念推理的事情：

1)哪种设备能最好地分离铁屑和黑胡椒的混合物?(1)磁铁(2)滤纸(3)三臂天平(4)伏特计。

2)橡皮筋振动时会产生哪种形式的能量?(1)化学能量(2)光能(3)电能(4)声能。

3)因为铜属于金属，所以它(1)在室温下是液态的(2)不与其他物质发生反应(3)是不良导体(4)是良好的热导体。

4)苹果树的哪个过程主要是细胞分裂的结果?(1)生长(2)光合作用(3)气体交换(4)废物去除。

这些当然不仅仅是关联词汇意义的问题。持怀疑态度的人仍然可以采取这样的立场，即AI可能只是通过绘制词语之间的关联来解决这些问题：例如，“铁屑”和“磁铁”，“振动”和“声音”，或者“金属”和“良好的热导体”。

但专注于研究复杂系统的专家梅兰妮·米切尔(Melanie Mitchell)解释称：“语言模型将捕获单词之间的统计关联，使其能够在没有任何真正理解的情况下回答问题。”

另一方面，这和我们学习科学时所做的真的有那么大的不同吗?学习一个概念的大部分就是理解这个概念和你以前学过的其他概念之间存在的某种关系。目前还不清楚AI正在做的事情与人类正在做的事情有何根本不同。事实上，AI系统得到的能力越强，给出解释的可能性就越小。

虽然AI取得这样的成就很容易被低估，但也很容易被夸大。许多媒体用过分夸张的言辞报道了艾伦研究所的论文，这些报道对新的AI系统所具备的的能力做出了曲解。诸如“这个AI刚刚通过科学测试，可能比初中生更聪明”或“AI现在像初中生一样聪明”这样的标题，远远不够准确。世界上还没有任何AI系统具有2岁孩童那样的解决问题能力，更不用说媲美初中生了。

像Aristo这样的AI系统属于狭义AI。它们非常擅长自己的工作，所要做的就是解决一个定义明确、高度具体化的问题。除了完成多项选择题的科学考试外，Aristo不能解决其他问题。而正是在这方面，人类依然在计算机面前保持着绝对优势，我们可以将从一个领域获取知识去解决其他领域的全新问题。不过对于这种优势能够保持多久，我们仍无法确定。(作者：Kelsey Piper)

Aristo的AI系统可通过初二科学测试 正确答案超90%

每日热点

三亚对新能源换电汽车推广专门给予分梯度的补能差价补贴 最高补贴1万元

消费电子行业进入“寒冬”，看一绳CableCreation如何拿到未来市场入场券

三星Odyssey OLED G8带鱼屏显示器上市 内置集成5W立体声扬声器

德国计划将在未来三年内投入63亿欧元在全国范围内迅速扩大电动汽车充电站的数量

三星电子宣布2亿像素系列传感器再添新成员 占用更少相机模组面积

爆料称：iPhone SE 4将采用类似iPhone XR的外观设计

谷歌推出了专门针对入门手机的Android 13 Go精简版操作系统

EA888发动机出大事 大众汽车将在海外市场召回74067台车辆

一加11工程机参数出炉：支持LTPO自适应刷新率

Nothing Ear(1)无线耳机将涨价50% 全球已有近60万销售量

十铨推出业界首款CPU+SSD双冷头水冷散热器 将自 11 月起上架贩卖

ROG发布新款Swift PG27AQN显示器 超频刷新率可达360Hz

三星将与Maison Margiela马吉拉带来一款联名新品

消息称：台积电的3纳米芯片生产已被推迟到2022年第四季度

迎广新款A3/A5机箱上市：支持长度达340mm的高阶显卡

联想拯救者2023款旗舰游戏电脑将搭载最新的13代英特尔酷睿i9处理器

宏碁ConceptD 500上架京东：主打时尚设计和安静运行

苹果iPad全系去掉了3.5mm耳机孔 Lightning接口换成了USB-C接口

海信Vidda发布音乐电视MUS：采用Vidda夜莺独立修音声卡

索尼A7R5旗舰相机新爆料：支持运动矫正 有望让手持像素偏移拍摄成为可能

HKC公布新款MiniLED显示器：采用了27英寸Fast VA面板

KKR计划进军日本市场，主要原因系日元汇率达32年来最低点-世界热资讯

中化岩土：公司之前完成过沙特阿拉伯的工程项目。公司目前未参与沙特新城的建设-焦点观察

华控赛格：关于公司及子公司经营业绩情况，详见后续定期报告相关章节，敬请关注-焦点热闻

诺基亚C31将正式开售：搭配3D水波纹背壳设计与后置指纹识别

青海海西州茫崖市发生5.5级地震 震源深度11千米

夫妻用苹果给1岁半的女儿做薯条汉堡套餐：惟妙惟肖

《阿凡达2：水之道》片长为190分钟 北美上映定档12月16日

查尔斯三世和戴安娜王妃婚礼上的一块水果蛋糕将被拍卖 售价至少2500元

泉州发现明万历三十二年铸造文物大钟一座 至今钟声洪亮

劳斯莱斯首款纯电动车闪灵已正式发布 第四季度实现交付

索尼升级版PS5 Pro来了：机身2TB硬盘、进一步改良散热

爱玛科技前三季度归母净利润13.76亿元 同比增长138%

联想小新熊猫黑白激光智慧多功能一体机特价 打印、复印、扫描3合1

飞天云动“元宇宙”资本梦：股价破发前景堪忧，研发能力差距不小-速读

唐人神：谢谢您的提问。公司三季度经营情况届时请详见公司后续披露的三季报-世界新视野

咸亨国际：清洁低碳目前已成为我国能源结构调整和优化的战略方向，而电网是构建新型电力系统的关键环节-焦点消息

拯救者M7电竞鼠标公布：全新外观设计 支持三模

河南夏粮丰收产量762.6亿斤 全国一半火腿肠都产自河南

一种奥密克戎新型变异毒株BQ.1.1正在欧洲国家蔓延开来

中东地区第一家大熊猫馆建立：两只大熊猫将入驻

消息：第二代ThinkPad X1 Fold能够选择i5-1230U或i7-1260U处理器

龙泉山一号隧道顺利贯通 历经25个月的艰苦建设

中兴远航40 Pro+亮相 新机后摄采用竖向双圆环设计

我国首次在寒武系筇竹寺组地层取得页岩气勘探的重大突破

荷兰ASML发布了Q3季度财报 EUV光刻机狂卖268亿元

中国成功运行世界收割电磁撬设施 将1吨重及以上的物体加速到1000公里/小时的速度

iPhone SE 4渲染图曝光：将采用类似iPhone XR的外观设计

iPad 10正式开启预售：iPhone 12同款A14芯片加持

酷比魔方iPlay 50平板电脑正式发布 主打学生、老人等群体

马斯克：特斯拉的市值有可能超过苹果和沙特阿美的总和

佳沃食品：公司生产经营一切正常。核心资产Australis盈利大幅恢复性提升-今日关注

正邦科技：10月18日公司高管郭祥义减持公司股份合计2万股-当前独家

TCL中环三季报业绩增长逾八成-当前热闻

快递企业9月份营收再攀升 单票收入同比增长-聚看点

美亚柏科：与最高法搭建区块链有合作，是该链节点之一-世界热资讯

10月19日京北方涨停分析：跨境支付，国产软件，区块链概念热股-环球速看料

10月19日金财互联涨停分析：跨境支付，云计算数据中心，区块链概念热股-天天要闻

10月19日英飞拓涨停分析：智慧安防，区块链，智慧灯杆概念热股-每日速递

10月19日万方发展涨停分析：区块链，智能制造，军民融合概念热股-世界即时

金利华电董事黄梁因涉嫌危险驾驶：存在可能被进一步采取刑事强制措施-世界快资讯

厦门港务：公司目前未开展与天然气相关的销售业务，也未开展与天然气相关的散杂货码头装卸业务-当前视讯

东港股份：截至10月10日我公司股东总数为27,636户-天天快资讯

群兴玩具：感谢您对公司的关心与关注，公司尚未在数字经济领域开展业务，请您留意公司公告-热点评

同兴环保：公司暂无热泵节能产品-全球动态

嘉麟杰：公司面料业绩受各项宏观和微观因素影响，具体请您关注公司后续关于业绩的公告-焦点关注

奥拓电子：公司海外项目结算以美元为主-天天新资讯

长青集团：公司的生物质燃料来自农林业废弃物（如小麦秸秆，玉米芯，树皮等），与我国农业的发展息息相关-世界今日讯

OPPO面向印度市场推出了低端的A17智能手机 5000mAh电池

周星驰在ins开通首个社交账号 招聘Web3人才

双11结算购物车时可以直接给商品添加不同地址合并下单 凑单更方便了

海南有螃蟹被吹上码头 给永兴岛码头带来了大自然的馈赠

Canalys：全球智能手机市场遭遇连续三季度下跌 三星市场份额达到22%

致力于最大限度地降低对环境的影响 苹果iPad机型包装不再使用塑料外膜

全国首台光储充检智能超充站正式在福建宁德投用 7-8分钟可补充200公里续航

谷歌为安卓平板电脑上的Chrome浏览器推出一系列用户界面更新

中国贸促会副会长于健龙会见英国驻华使馆公使衔商务参赞路睿-当前动态

《模拟人生4》正式转为免费游戏 可在PC、PS4、PS5等平台免费下载

Aristo的AI系统可通过初二科学测试正确答案超90%

三亚对新能源换电汽车推广专门给予分梯度的补能差价补贴最高补贴1万元

三星Odyssey OLED G8带鱼屏显示器上市内置集成5W立体声扬声器

三星电子宣布2亿像素系列传感器再添新成员占用更少相机模组面积

EA888发动机出大事大众汽车将在海外市场召回74067台车辆

十铨推出业界首款CPU+SSD双冷头水冷散热器将自 11 月起上架贩卖

ROG发布新款Swift PG27AQN显示器超频刷新率可达360Hz

索尼A7R5旗舰相机新爆料：支持运动矫正有望让手持像素偏移拍摄成为可能

青海海西州茫崖市发生5.5级地震震源深度11千米

《阿凡达2：水之道》片长为190分钟北美上映定档12月16日

查尔斯三世和戴安娜王妃婚礼上的一块水果蛋糕将被拍卖售价至少2500元

泉州发现明万历三十二年铸造文物大钟一座至今钟声洪亮

劳斯莱斯首款纯电动车闪灵已正式发布第四季度实现交付

爱玛科技前三季度归母净利润13.76亿元同比增长138%

联想小新熊猫黑白激光智慧多功能一体机特价打印、复印、扫描3合1

拯救者M7电竞鼠标公布：全新外观设计支持三模

河南夏粮丰收产量762.6亿斤全国一半火腿肠都产自河南

龙泉山一号隧道顺利贯通历经25个月的艰苦建设

中兴远航40 Pro+亮相新机后摄采用竖向双圆环设计

中国成功运行世界收割电磁撬设施将1吨重及以上的物体加速到1000公里/小时的速度

酷比魔方iPlay 50平板电脑正式发布主打学生、老人等群体

快递企业9月份营收再攀升单票收入同比增长-聚看点

周星驰在ins开通首个社交账号招聘Web3人才

双11结算购物车时可以直接给商品添加不同地址合并下单凑单更方便了

海南有螃蟹被吹上码头给永兴岛码头带来了大自然的馈赠

Canalys：全球智能手机市场遭遇连续三季度下跌三星市场份额达到22%

致力于最大限度地降低对环境的影响苹果iPad机型包装不再使用塑料外膜

《模拟人生4》正式转为免费游戏可在PC、PS4、PS5等平台免费下载

上海莱士：感谢您对我公司的关心和支持！截止2022年10月10日，公司股东总户数为121,727户-世界今日讯

苹果发布了iOS 16.1 RC预览版删除实时活动体育比分

RCEP红利持续惠企前三季度太原海关签证金额约5亿元

债市堪忧英国央行拟再次推迟发债

国际航线复航进行时：日均143班次创新高哪些航线“上新”？

布加迪推全碳纤维智能手表：售价2500美元车标logo巨大

苹果正削减iPhone14Plus产量重新评估对该机型的需求

浪潮云海超融合一体机提升存储性能支撑关键业务高效运行-环球微速讯

欧盟需要为其汽车制造商提供更多激励措施否则可能会被中国竞争对手夺走市场份额

今年为支持汽车类展品参展进博会中国海关总署出台了专门的便利化支持措施促进“展品变商品”

港交所建议设立新渠道让特专科技公司可于香港交易所上市

《复仇者联盟6：秘密战争》推迟到了2026年5月1日上映钢铁侠或将出现

两家公司同日披露百亿级大单光伏上市公司业绩亮眼

消息：苹果更新的Apple TV4 K机型配备A15仿生芯片

财报显示：Netflix第三季度营收达79.26亿美元同比增长5.9%

光伏高端装备服务“双碳”战略融入“一带一路”打造“中国名片”

全球智能手机市场遭遇连续三季度下跌同比下降9%

淘宝上线物流异常订单托管服务将主动识别并干预消费者的问题物流订单

付费自习室下沉县城河北某县城开办超10家共享自习室

中国经济面临超预期因素冲击地方政府专项债券在带动扩大有效投资、稳定宏观经济方面发挥重要作用

魅族智能摄像头Pro发布：具有107°超大广角支持4K录制

化肥价格呈下跌趋势导致市场供过于求从而颠覆了农作物投入品市场的格局

微软收入预计将放缓因此公司进行了裁员

本次峰会以“数智创新引领未来银行可持续发展”为主题旨在搭建银行业互动分享的平台

随着多国央行加息之路板上钉钉黄金与白银19日亚市早盘仍承压金价报在1652美元

英伟达RTX 4090公版在内的多款型号开售二手平台已破发

智己L7 Snake Performance高性能版推出新车将于年内正式上市

飞利浦Hue Play渐变灯条上市提供氛围灯效

用户吐槽Model 3/Y的底盘太硬马斯克将提升悬架舒适性

《生化危机》发布会于10月21日开展将采用RE引擎进行重制

朗科发布适用于笔记本设备的PCIe4.0固态硬盘取速度达4800MB/s

Keychron V3机械键盘发布：支持热插拔和开源改键售价418元起

微软宣布推出Windows 10 22H2大版本更新可手动检查更新下载

对于美国电动汽车电池的需求研究机构：预计2025年需求将超过450GWh

资讯：苹果iPad 10采用直角边框设计搭载A14处理器配备USB-C接口