t5-experiments：基于 T5 和 BERT 的多 GPU、多节点训练实验

t5-experiments 是一个基于🤗 Transfomers 实现的 T5 模型和 BERT 的仓库。该仓库使用了来自原始 T5 仓库的数据处理流程用于预训练（span corruption，prefix-lm）和微调，而 BERT 数据处理流程则来自 Megatron-LM。

该仓库支持使用 Horovod 进行多 GPU 和多节点训练，并使用 APEX 进行 FP16 和混合精度训练。此外，该仓库还使用了 DeepSpeed 的 Sparse Attention 实现。

BERT 模型还支持一些额外的特性，如 pre-attention layer norm、sparse attention、relative position 和 rotary embeddings。

t5-experiments 的性能表现出色，为自然语言处理领域的深度学习模型训练提供了有力的支持。如果您对此感兴趣，可以访问该仓库的 GitHub 页面（https://github.com/booydar/t5-experiments）了解更多详情。