由ai创业公司hugging face主导并协调的bigscience项目于本周公布了成果,发布具备1,760亿个参数的大型语言模型bloom(bigscience large open-science open-access multilingual language model),其规模大过openai gpt-3的1,750亿个参数,而且开放各界下载与访问。
bigscience项目是在去年5月正式启动,凭借来自全球60个国家、超过250个机构,以及超过1,000名研究人员的贡献,最后由法国超级计算机jean zay执行117天的训练,才于今年7月完成了bloom模型。
bloom模型可理解46种语言及13种程序语言,包含法文、西班牙文、越南文、中文或多种印度及非洲语言,大约只有超过30%的训练资料为英文,因此,现在用户只要选择一种语言,就能要求bloom撰写食谱、翻译或摘要,也能要求bloom撰写程序代码。
这是目前全球所开源的最大语言模型,而且尽可能地透明化,公开了所用来训练的资料,开发时曾面临的困境,以及评估其性能的方式。
不过,bloom模型也具备其它大型语言模型的缺点,可能藏匿了不准确或是有偏见的语言,但一来该项目采用新的《负责任ai许可》(responsible ai license),避免被应用于诸如执法机构或医疗看护等高风险的领域,也禁止它被用来伤害、欺骗、剥削或冒充他人,二来hugging face认为开源将能让ai社群协助改善该模型。
当初openai曾说不发布模型或程序代码的原因是担心模型遭到滥用,虽然bigscience项目激活了《负责任ai许可》,然而它只是个类似服务条款的协议,也无法令上的保护,或许还是难逃被滥用的命运,但hugging face认为,有一个良好的开源语言模型,将会替相关研究带来深远的影响。