5月14日音讯,昔日,腾讯旗下混元文生图年夜模子(混元DiT,Diffusion Models with Transformers)颁布发表片面开源。今朝已经正在Hugging Face、Github上公布,包括模子权重、推理代码、模子算法等完好模子,供企业与团体开辟者收费商用。据媒体报导,腾讯混元文生图担任人卢清林透露表现,混元DiT开源的代价有两方面。一方面这是业内首其中文原生DiT架构,补偿了开源社区的空缺,另外一方面混元DiT为片面凋谢,与现网版本完整分歧。据引见,这次开源的混元DiT采纳了与Sora异样的面前关头技能——DiT架构,还撑持256字中文了解,不只撑持文生图,也可作为视频等多模态视觉天生的根底。腾讯方面透露表现,为了构建混元DiT计划了Transformer构造、文本编码器以及地位编码,构建了完好的数据管道,用于更新以及评价数据,为模子优化迭代供给协助。为了完成细粒度的文本了解,还锻炼了多模态年夜言语模子来优化图象的文本描绘。终极,混元DiT可以与用户停止多轮对于话,依据高低文天生并美满图象。