t5-experiments 是一个基于🤗 Transfomers 实现的 T5 模型和 BERT 的仓库。该仓库使用了来自原始 T5 仓库的数据处理流程用于预训练(span corruption,prefix-lm)和微调,而 BERT 数据处理流程则来自 Megatron-LM。
该仓库支持使用 Horovod 进行多 GPU 和多节点训练,并使用 APEX 进行 FP16 和混合精度训练。此外,该仓库还使用了 DeepSpeed 的 Sparse Attention 实现。
BERT 模型还支持一些额外的特性,如 pre-attention layer norm、sparse attention、relative position 和 rotary embeddings。
t5-experiments 的性能表现出色,为自然语言处理领域的深度学习模型训练提供了有力的支持。如果您对此感兴趣,可以访问该仓库的 GitHub 页面(https://github.com/booydar/t5-experiments)了解更多详情。