免费同城空降app入口在哪

网站首页关于我们产品中心解决方案新闻资讯客户案例知识专区售后服务联系我们留言反馈

您当前位置：网站首页 >> 知识专区

谷歌大脑组合模型霸榜 SuperGLUE

文章来源：微信号CSDN 作者：八宝粥上传时间：2021-1-7 浏览量：1215

“哦我亲爱的老伙计，感谢 ZiruiWang 先生，他及时的提交让 Google Brain 在 2020 年还能在 SuperGLUE 榜首霸占大约 12 个小时.”

12 月 30 日，他向大家介绍了来自微软 DeBERTa 团队取得了明显进展，并在评论当中对 T5 模型进行简单的评价。

12 月 31 日，Zirui Wang 的 T5 和 Meena 结合的模型总得分 90.0 分，以 0.1 分的优势击败了 DeBERTa 团队的组合模型占据榜首。0.1 的差距看起来很小，但事实上，微软比 SuperGLUE 人类基线也之只多了 0.1 分。

SuperGLUE 是什么？

SuperGLUE 到底是什么呢？SuperGLUE 是 Facebook 人工智能研究中心、Google DeepMind、华盛顿大学以及纽约大学在 2019 年 8 月共同推出的，用于衡量现在高性能语义理解 AI 的基准测试。它的前身是纽约大学、华盛顿大学和 Google DeepMInd 在 2018 年 4 月共同组建的基准测试 GLUE (General Language Understanding Evaluation) benchmark。两个网站页面基本相似，他们的区别在于研究单位和评价指标不同。SuperGLUE 的参与研究单位多了 Facebook 人工智能研究中心和三星研究院。评价指标方面，GLUE 基准测试包含了 9 个语句理解任务。分别是

单句任务（CoLA 语言可接受语料库；SST-2 斯坦福情绪树库）
相似性和外派任务（MRPC 微软研究释义语料库；QQP Quora 问答；STS-B 语义文本相似性基准）
推理任务（MNLI 多体自然语言推理语料库；QNLI 斯坦福问答数据集；RTE 识别文字蕴含；WNLI 威诺格拉德自然语言推理）

在榜单当中, 由 GLUE 提供，目前排名 14 的人类性能基准 (GLUE Human baselines) 曾一度成为各大模型的头号目标。该榜单名气之大，吸引了很多高校和名企前来挑战，不断刷新纪录，包括阿里、平安、华为等。

后来，GLUE 难度不够了，SuperGLUE 也就应运而生。SuperGLUE 在 GLUE 的基础上增加了 Facebook 人工智能和三星研究院的支持，与此同时，它的基准测试的难度也大大提高。

两个基准测试在网页上并无太大差别，区别就是测试任务。通俗来说，如果 GLUE 的难度是语言理解的“十八铜人阵”，打败 GLUE baselines 就印上青龙白虎，那 SuperGLUE 就得是“八大派围攻光明顶”，没有三五年年内功别想活着下山，SuperGLUE human baseline 89.8 分在那边守着，Google 自己家 T5 都还有差距，这个英雄榜，真的不是谁都能上的。这些可能不太直观，举点更直接的例子，GPT-3 评分 71.8分，BERT 评分 69分。对比起来，90 分是不是就是独一档的存在？人们一度怀疑，SuperGLUE Human Baselines 还能被超越吗？

谁占了榜首？

此前一直是 SuperGLUE Human baselines 占据榜首。但 2020 年12 月 30 日，Google 团队的 T5+Meeena 模型和微软 DeBERTa 团队同时上榜，位列前二，得分分别是 90.0，89.9。这也意味着，SuperGLUE Human baselines 不再是不可逾越的高峰。仔细对比就会发现，不是挑战者太弱，是 SuperGLUE Human baselines 太强！COPA(选择合理的替代方案)满分，WSC(威诺格拉德模式挑战)满分，CB(一个短文本语料库，包含从句)98.9 分。真的很难超越。不过，一切都很难说。2019 年，埃鲁德·基普乔格不也是跑进 2 小时，突破了人类马拉松的极限了嘛～有兴趣的同学可以查看官方网站进行探索，也许下一个得此成就的就是你！参考资料：微软 DeBERTa 模型论文：https://arxiv.org/abs/2006.03654
supergluebenchmark 官网：https://super.gluebenchmark.com/
SuperGLUE 论文链接：https://arxiv.org/abs/1905.00537
gluebenchmark 官网：https://gluebenchmark.com/
GLUE 论文链接：https://arxiv.org/abs/1804.07461

【打印此页】【关闭网页】

上一个知识专区：放弃 PHP，选择 Node.JS 的 8 个理由！
下一个知识专区：PostgreSQL 摘得 DB-Engines 2020 年度数据库

21

2022-10

反思: Google 为何把 SurfaceView 设计的这么难用？

28

2021-07

使用 HTML、CSS、JS 和 API 制作一个很棒的天气 Web 应用程序

04

2022-03

如何写一个花里胡哨的点击按钮（HTML+CSS+JS）

11

2021-06

Linux知识点总结（思维导图）

21

2021-04

网络好不好，ping一下就知道

在测试和部署网络通信应用时，我们经常会遇到网络不通的问题，一般都会想到ping一下

15

2021-01

放弃 PHP，选择 Node.JS 的 8 个理由！

谈到 PHP 逐渐被看衰这个现象，我想起前两天看到一篇浏览器领域龙头老大的争夺战的有趣报道，报道里大致讲了几个浏览器奋发图强夺得宝座之后又不思进取，然后逐渐被超越的演化史。更往远看一些，中国历史上著名的卧薪尝胆的前后也大致相似。PHP 是否也会如此？后浪是不是能够取代他的地位？众口纷纭……

04

2022-03

干掉Session？这个跨域认证解决方案真的优雅

21

2021-04

Java程序员都要懂得知识点：原始数据类型

免费同城空降app入口在哪

友情链接： 云港互联

请各公司推销人员注意：我单位拒绝任何方式、任何形式的电话推销，请勿拔打我单位客服热线进行电话推销，谢谢合作！
公司名称：免费同城空降app入口在哪里_
免费同城空降app入口在哪里_全国同城约会服务平台_同城快餐wx交流群_同城约茶服务网站，接私活，人到付款，00元3小时上门服务电话，上门服务电话号码、叫小妹服务,100/200/300/400/500/6789、本地同城附近服务，品茶，喝茶，过夜，酒店宾馆，qq，微信，会所，同城包小妹

关键词：知识专区：谷歌大脑组合模型霸榜 SuperGLUE,免费同城空降app入口在哪里_全国同城约会服务平台_同城快餐wx交流群_同城约茶服务网站，接私活，人到付款，同城服务，品茶，喝茶，过夜，酒店宾馆，qq，做完付款，新茶，微信.查询网上新闻，不限次数，00元，小时，约小姐，上门服务，小妹，100/200/300/400/500/6789，服务，喝茶工作室，可约可空降，快餐，联系电话，空降服务附近约茶，品茶，24小时，约会交友，附近喝茶，免费上门，上门服务，接单，小妹电话，上门卖身，个人接单上门服务，二维码，人到付款，微信，qq
网站管理