AI高分经过美国8年级科学考试：知识题推理题都能行，不服同台对战-人工智能-知优网

只要60分飘过八年级科学考试，就能收获8万美元奖金(折合人民币57万元)。只不过，参加考试的“学生”，必须是个AI。

只需60分飘过八年级科学考试，就能收成8万美元奖金(折合人民币57万元)。

只不过，参加考试的“学生”，有必要是个AI。

在长达四年的时间里，700多名计算机科学家参加到这项AI比赛傍边，但他们的AI纷繁折戟，没有一个能拿到及格分。

但现在，前史新纪录来了。艾伦研讨所的一个名叫Aristo的AI搞定了这件事，不仅在8年级科学考试中答对了90%以上的问题，连高三的考试，它都能答对80%!

AI高分经过美国8年级科学考试：知识题推理题都能行，不服同台对战 AI 考试高分第2张

这关于AI来说，有点鹅妹子嘤了。

鼓动了解+逻辑，难倒AI

尽管AI下围棋能赢国际冠军，打德扑还会诈唬，IBM的Watson也早在智力问答《风险边际(Jeopardy!)》中大杀四方，但想要经过美国八年级科学考试，对AI来说依然是一大应战。

即便排除了图片题和图表题，科学考试中的问答依然不是简略的自然鼓动了解问题，还涉及到逻辑推理乃至知识——答案并不是练习生存在于某处文本中的。

举个比方，在考试中，有的问题比较简略，只涉及到信息检索：

一组协同作业以履行特定功用的安排称为：

(1)器官

(2)有机体

(3)体系

(4)细胞

但有的问题它长这个姿态：

什么样的改动会导致区域内的松鼠数量仰慕?

(1)食肉动物数量仰慕

(2)松鼠之间的竞赛削弱

(3)食物间谍

(4)森林火灾产生次数增多

这可就不是AI光靠学习规矩就能答复的问题了，雁足传书牵扯到的逻辑推理，对人类而言或许是小菜一碟，但对AI来说，并没有那么简略。

乃至还有多选问题。

就在AlphaGo震动国际的2016年，最强的AI体系也只能在纽约州八年级科学考试中抵达59.3%的准确率，惋惜未能及格。

根据Bert的Aristo

Aristo是怎样完成打破的呢?

其实，它是站在了伟人的膀子之上。

Aristo根据艾伦研讨所的深度语境化词表征ELMo(NAACL 2018最佳论文)和大名鼎鼎的BERT开发(现已替换为RoBERTa)，集八种类型智能体于一身，有的智能体危殆在数据库中查找答案，有的危殆查看相关概念列表(元组)，还有的专门履行逻辑推理。

AI高分经过美国8年级科学考试：知识题推理题都能行，不服同台对战 AI 考试高分第3张

每个智能体都会为答案打分，而Aristo会对不同的分数进行加权，终究做出挑选决议计划。

AI高分经过美国8年级科学考试：知识题推理题都能行，不服同台对战 AI 考试高分第4张

在试验测验中，研讨人员让Aristo参加了2017年到2019年各个年级的纽约州会考，成果显现，Aristo在4年级和8年级的考试中正确率都抵达了90%左右，契合纽约州教育部确定的“优异规范”(85%)。而12年级考试的正确率则是83.54%，离优异只差了一点点。

AI高分经过美国8年级科学考试：知识题推理题都能行，不服同台对战 AI 考试高分第5张

在此之前，这些考试数据并不在Aristo的练习会集。

而且，现在Aristo的答题规模不仅仅限制在文字问题中了，涉及到计算机视觉的图表题，它也正在拿下。

AI高分经过美国8年级科学考试：知识题推理题都能行，不服同台对战 AI 考试高分第6张

AI高分经过美国8年级科学考试：知识题推理题都能行，不服同台对战 AI 考试高分第7张

在承受媒体采访时，Aristo项目的高档司理Peter Clark表明：

Aristo的方针不仅仅是经过科学考试，而是发明一个对科学有更深入了解的体系。

尽管如从事相似研讨的微软研讨员Jingjing Liu所说，实际上，Aristo依然不具备“真实”的智能，咱们无法将Aristo的才能与人类学生的推理才能相比较。但无疑，它发明了一个很好的使用方向。

比方更强壮的查找，比方个性化教育。

AI高分经过美国8年级科学考试：知识题推理题都能行，不服同台对战 AI 考试高分第8张

对了，Aristo现在有了在线Demo，能够在线调戏哟。

传送门

Demo：

http://aristo-demo.allenAI.org/

数据集：

http://data.allenai.org/ai2-science-questions/

相关论文：

https://allenai.org/papers/papers-aristo-2019.html

AI 考试高分

转载请说明出处
知优网 » AI高分经过美国8年级科学考试：知识题推理题都能行，不服同台对战

站长资讯网友投稿帖

分享到：

相关推荐

通用人工智能突破：一个模型、一套权重通吃600+视觉文本和决策任务

浅谈51talk受政策影响后杀入AI教育变局，会不会顺利（51talk受教育新规影响）

百度：截至4月全球人工智能专利申请超过2.2万件（百度人工智能专利数量）

有人翻小红书种草，有人却翻到了AI技术趋势（小红书人工智能）

“虚拟主播”杀入直播电商，这家上市公司已经抢跑（虚拟主播抢食直播市场）

百融云创：推动AI走进金融的先行者（百融云创创始人）

从AI到造车，百度困局之下寻找突破口（百度智能造车）

“蚂蚁呀嘿”AI换脸软件Avatarify爆火7天突遭下架

送餐机器人，已经攻占了土菜馆？（近期一些餐厅出现了用送餐机器人）

AI语音巨头鏖战语音芯片市场（语音AI芯片）

发表评论