10分钟学会数据地图制作
|
T5是谷歌去年提出的“文本到文本迁移Transformer”,也就是用迁移学习让不同的NLP任务可以使用相同的模型、损失函数和超参数,一个框架在机器翻译、文档摘要、问答和情感分析上都能使用。
T5最大的模型具有110亿个参数,早在推出之时就取得了SuperGLUE上的最高水平,至今仍仅次于榜单前二模型和人类。 另一超越人类的AI是由CMU博士生王子瑞提交的T5+Meena。这两项技术均来自谷歌。 其中,Meena是一个26亿参数端到端训练的神经对话模型,它具有一个演进Transformer编码器块和13个演进Transformer解码器块。
编码器负责处理对话上下文,帮助Meena理解对话中已经说过的内容。然后,解码器使用该信息来制定实际响应。 最近,最近微软训练了更大规模的模型,该版本由15亿参数的48个Transformer层组成。增大规模带来的性能提升,使单个DeBERTa模型SuperGLUE上的得分(90.3)首次超过了人类(89.8),居于榜单首位。 DeBERTa(注意力分离的解码增强BERT)是一种基于Transformer的神经语言模型,使用自监督学习对大量原始文本语料库进行预训练。
和其他预训练语言模型(PLM)一样,DeBERTa旨在学习通用语言表示形式,适应各种下游NLU任务。DeBERTa使用三种新技术——分离的注意力机制、增强的掩码解码器和一种用于微调的虚拟对抗训练方法。改进了以前的最新PLM(如BERT、RoBERTa、UniLM)。 (编辑:阜阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


