WebGPT 是一个使用 WebGPU 在浏览器中运行 GPT 模型的实现,该实现只使用了不到 2000 行原生 JavaScript 代码。经过六年的开发,WebGPU 即将在大多数主流浏览器上推出。这是一个非常重要的进展:Web 应用程序现在可以几乎原生地访问 GPU,并且具备计算着色器的额外容量。
WebGPT 是一个变压器模型的原生 JS 和 HTML 实现,旨在作为概念验证和教育资源。WebGPT 已经通过了 500M 参数的模型测试,但是通过进一步的测试/优化,可能可以支持更多的参数。
目前,WebGPT 在使用 Chrome Canary 浏览器运行 GPT-2 124M 模型时,每个 token 平均需要约 300 毫秒。通过适当优化内核、缓冲区和 WebGPU 接口,这个速度可以提高 500% 或更多。随着 WebGPU 的发展,它也应该会获得显著的速度提升。
对于那些需要在浏览器中运行 GPT 模型的用户而言,WebGPT 是一个非常有用的工具。用户可以在 https://github.com/0hq/WebGPT 上获取 WebGPT 的源代码。