100元上门4个小时服务电
网站首页
关于我们
产品中心
解决方案
新闻资讯
客户案例
知识专区
售后服务
联系我们
留言反馈
您当前位置:网站首页 >>
知识专区
谷歌大脑组合模型霸榜 SuperGLUE
文章来源:微信号CSDN 作者:八宝粥 上传时间:2021-1-7 浏览量:1125
“哦我亲爱的老伙计,感谢 ZiruiWang 先生,他及时的提交让 Google Brain 在 2020 年还能在 SuperGLUE 榜首霸占大约 12 个小时.”
12 月 30 日,他向大家介绍了来自微软 DeBERTa 团队取得了明显进展,并在评论当中对 T5 模型进行简单的评价。
12 月 31 日,Zirui Wang 的 T5 和 Meena 结合的模型总得分 90.0 分,以 0.1 分的优势击败了 DeBERTa 团队的组合模型占据榜首。0.1 的差距看起来很小,但事实上,微软比 SuperGLUE 人类基线也之只多了 0.1 分。
SuperGLUE 是什么?
SuperGLUE 到底是什么呢?
SuperGLUE 是 Facebook 人工智能研究中心、Google DeepMind、华盛顿大学以及纽约大学在 2019 年 8 月共同推出的,用于
衡量现在高性能语义理解 AI 的基准测试
。它的前身是纽约大学、华盛顿大学和 Google DeepMInd 在 2018 年 4 月共同组建的基准测试 GLUE (General Language Understanding Evaluation) benchmark。
两个网站页面基本相似,他们的区别在于研究单位和评价指标不同。
SuperGLUE 的参与研究单位多了 Facebook 人工智能研究中心和三星研究院。
评价指标方面,GLUE 基准测试包含了 9 个语句理解任务。分别是
单句任务(CoLA 语言可接受语料库;SST-2 斯坦福情绪树库)
相似性和外派任务(MRPC 微软研究释义语料库;QQP Quora 问答;STS-B 语义文本相似性基准)
推理任务(MNLI 多体自然语言推理语料库;QNLI 斯坦福问答数据集;RTE 识别文字蕴含;WNLI 威诺格拉德自然语言推理)
在榜单当中, 由 GLUE 提供,
目前排名 14
的人类性能基准 (GLUE Human baselines) 曾一度成为各大模型的头号目标。
该榜单名气之大,吸引了很多高校和名企前来挑战,不断刷新纪录,包括阿里、平安、华为等。
后来,GLUE 难度不够了,SuperGLUE 也就应运而生。
SuperGLUE 在 GLUE 的基础上增加了 Facebook 人工智能和三星研究院的支持,与此同时,它的基准测试的难度也大大提高。
两个基准测试在网页上并无太大差别,区别就是测试任务。
通俗来说,如果 GLUE 的难度是语言理解的“十八铜人阵”,打败 GLUE baselines 就印上青龙白虎,那 SuperGLUE 就得是“八大派围攻光明顶”,没有三五年年内功别想活着下山,SuperGLUE human baseline 89.8 分在那边守着,Google 自己家 T5 都还有差距,这个英雄榜,真的不是谁都能上的。
这些可能不太直观,举点更直接的例子,GPT-3 评分 71.8分,BERT 评分 69分。对比起来,90 分是不是就是独一档的存在?
人们一度怀疑,SuperGLUE Human Baselines 还能被超越吗?
谁占了榜首?
此前一直是 SuperGLUE Human baselines 占据榜首。
但 2020 年12 月 30 日,Google 团队的 T5+Meeena 模型和微软 DeBERTa 团队同时上榜,位列前二,得分分别是 90.0,89.9。
这也意味着,SuperGLUE Human baselines 不再是不可逾越的高峰。
仔细对比就会发现,不是挑战者太弱,是 SuperGLUE Human baselines 太强!COPA(选择合理的替代方案)满分,WSC(威诺格拉德模式挑战)满分,CB(一个短文本语料库,包含从句)98.9 分。真的很难超越。
不过,一切都很难说。2019 年,埃鲁德·基普乔格不也是跑进 2 小时,突破了人类马拉松的极限了嘛~
有兴趣的同学可以查看官方网站进行探索,也许下一个得此成就的就是你!
参考资料:
微软 DeBERTa 模型论文:https://arxiv.org/abs/2006.03654
supergluebenchmark 官网:https://super.gluebenchmark.com/
SuperGLUE 论文链接:https://arxiv.org/abs/1905.00537
gluebenchmark 官网:https://gluebenchmark.com/
GLUE 论文链接:https://arxiv.org/abs/1804.07461
【
打印此页
】【
关闭网页
】
上一个知识专区:
放弃 PHP,选择 Node.JS 的 8 个理由!
下一个知识专区:
PostgreSQL 摘得 DB-Engines 2020 年度数据库
27
2021-08
设计模式
设计模式
04
2022-03
计算机视觉系列教程2-5:图像金字塔送她一朵玫瑰(附代码)
计算机视觉系列教程2-5:图像金字塔送她一朵玫瑰(附代码)
07
2022-02
公网IP、私网IP、动态IP、静态IP
公网IP、私网IP、动态IP、静态IP
13
2021-08
七夕节快到了,教你用MATLAB绘制blingbling的大钻石
七夕节快到了,教你用MATLAB绘制blingbling的大钻石
30
2022-12
【腾讯云原生】Eunomia云原生资源编排优化
【腾讯云原生】Eunomia云原生资源编排优化
28
2021-07
使用 HTML、CSS、JS 和 API 制作一个很棒的天气 Web 应用程序
使用 HTML、CSS、JS 和 API 制作一个很棒的天气 Web 应用程序
28
2021-07
有了这7款浏览器插件,浏览器居然“活了”?!
有了这7款浏览器插件,浏览器居然“活了”?!
07
2021-01
PostgreSQL 摘得 DB-Engines 2020 年度数据库
据最新公布的 DB-Engines 排行榜,PostgreSQL 凭借+4.65 分的增长摘得 2020 年年度数据库桂冠!成为现在唯一三度获得此称号的数据库系统。
100元上门4个小时服务电
友情链接:
云港互联
请各公司推销人员注意:我单位拒绝任何方式、任何形式的电话推销,请勿拔打我单位客服热线进行电话推销,谢谢合作!
公司名称:
同城喝茶_同城快餐wx_
100元上门4个小时服务电话-初中生100元3小时二维码联系方式是同城约茶联系方式,人到付款,找服务,不限次数,附近约茶联系方式,怎么,如何,00元3小时上门服务电话,上门服务电话号码、叫小妹服务,100/200/300/400/500/6789、本地同城附近服务,品茶,喝茶,过夜,酒店宾馆,qq,微信,会所,同城包小妹
关键词:知识专区:谷歌大脑组合模型霸榜 SuperGLUE,100元不限次数上门电话,200元3小时上门不限次二维码,3小时一晚同城约茶,100元上门4个小时,200元3小时上门不限制服务,600快餐_600元3小时上门二维码_600元4个小时上门服务电话,200元3小时,3小时上门服务电话号码,100元3小时,100元上门服务电话,附近约100元3小时上门服务,附近约妹妹200元电话,附近初中生100,
网站管理
【版权声明】本站部分内容由互联网用户自行发布,著作权或版权归原作者所有。如果侵犯到您的权益请发邮件致info@ynjwz.com,我们会第一时间进行删除并表示歉意。