微软提出新预训练语言模型 DeBERTa:仅需一半数据且效果优于 BERT、RoBERTa

  • 2020-06-21
  • 本文字数:6317 字

    阅读完需:约 21 分钟