uc头条广告投放!AIGC生成广告图技术方案大揭秘

5
发表时间:2023-08-25 23:02

技术方案

目前在建的制图流程主要有三大类:人物类流程、广告底图流程和意向图文类流程。在各类图片的生成流程中,人物类图片的需求最多,挑战也最大,因此其制图流程也最复杂。

此后,重点以“人物生成”为例,说明uc头条信息流广告投放制图流程的操作过程,并介绍涉及的多种技术的运用方法。

1. 制图流程介绍

各类制图技术的流程示意图如下:

人物类流程:当前主要实现在人脸 ID、发式、服饰、表情、体态、背景等维度上的可控。


uc头条广告投放

广告底图类流程:根据具体的uc头条信息流广告投放营销业务点,应用大语言模型的创意提供能力、综合历史上的高价值物料,整理高质量 prompt,应用 stable diffusion 生成能力,生成多样化的广告底图。

uc头条广告投放

意向图文类流程:在广告营销领域,“意向”的借用,配以和业务点相关的“宣传语”,往往能起到直击人心的营销效果。在“意向”、“宣传语”的获取方面,AIGC依然以大语言模型、历史高价值物料为依据;在文字渲染方面,既可用传统的选取特定字体、字号、颜色的渲染方式,也可直接应用模型(deepfloyd IF)的添加文本方式,前者可控性更强,而后者和图像的整体融合度更自然,可据具体情况选用。



uc头条广告投放

2. 人物制图过程

获取人脸素材-GAN

GAN是一种生成对抗网络模型,基于GAN技术,可以生成丰富的包括不同性别、年龄段、特点的人脸。它的生成器是一个深度卷积神经网络,它由多个层组成,每个层都包含一组卷积和上采样操作,用于将中间向量转换为图像。

生成的步骤如下:

首先,GAN 利用了一组预训练的人脸图像数据集进行训练,学习人脸的特征和风格。

然后,在训练过程中,GAN 将潜在空间向量与可训练的转换器结合,以生成具有不同特征和风格的中间向量,形成(向量、风格)pair对。

最后,将这些中间向量输入到生成器中,就可以获得逼真的人脸图像。

此外,为了避免生成的人脸图像出现棕色或灰色调,GAN 还引入了一个归一化操作,用于平衡不同层之间的输出。GAN 还引入了一种新的技术,称为“progressive growing”,它可以在训练过程中逐渐增加图像的分辨率,从而产生更高质量的图像。最终,GAN 可以生成高度逼真、多样化和可塑性的人脸图像。


uc头条广告投放

GAN 结构及生成人脸的效果展示


控制人物发式、服饰

人物的发式、服饰控制基于StableDiffusion + lora实现的。LoRA,英文全称 Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,是微软的研究人员为了解决大语言模型微调而开发的一项技术,使其它用在cross-attention layers(交叉关注层)也能影响用文字生成图片的效果。它对人脸的学习效果介于 dreambooth、texual inversion 两者之间,参数文件大小可控:2-200 MB,对人物的发式、服饰泛化生成能力极佳。

交叉注意力层的权重以矩阵形式排列, LoRA模型通过将不同的权重添加到这些矩阵中来微调模型。LoRA 模型文件可以做到很小的的技巧是:将矩阵分解为两个较小的(低秩)矩阵,通过这样做,则可存储更少的参数。


uc头条广告投放

LoRA 矩阵分解示意图


各类文档中往往标示出需要至少3张相同的人脸图像来进行学习,经实验,如对面部无多角度生成需求(如广告图大多数人物形象为正面照),仅用一张人脸图像学习即可(需要为清晰正面照)。


uc头条广告投放

目标人物(第一张)& 生成人物示意图


编辑人物表情、体态

在表情方面,AIGC参考了高价值广告图中的人物表情,用于后期的表情迁移,目的在于明确传达广告图中人物遇到问题时的“苦闷”及解决问题后的“喜悦”情绪;表情迁移技术当前比较稳定的方案是 controlnet 的面部控制。

在体态方案,参考高价值广告图中的人物体态特征:分别用 blender、openpose 生成提取人物姿势;应用 depth 模型提取人物综合体态特征图(即深度图),相较于姿势图,深度图能同时刻画“姿势+身材”;然后用 sd + controlnet 实现,controlnet 作为 sd 的补充网络,生成过程分为两个阶段:

  • 首先,用预处理模型提取人物表情、姿势、深度图

  • 其次,应用 controlnet 大模型作用于 sd 网络,控制按指定表情、姿势进行人物生成。


uc头条广告投放

controlnet 作用于 stable diffusion 网络示意图


uc头条广告投放

controlNet 子网络结果图


调整人物背景

针对广告主营销业务特点,让人物出现在恰当的场景里,如小说类图像人物出现在:健身房、客厅、卧室、花店等室内场景,及公园、山谷、海边等户外场景。背景图的自动化生成工作主要有以下步骤:

首先,收集背景图库,图片可由 sd v2.1 直接生成高清图片,经人工筛选可用,只需找到合适的prompt 。

其次,对包含人物的原图进行抠图,用于后续的背景合成,现基于 PaddleMatting 做人物抠图,未来考虑应用 SAM(Segment Anything Model)实现。

最后,按最终输出图像比例,应用 pillow 库 alpha_composite 方法合成至背景图相应位置。

后置处理过程

上述过程完成后,为了在广告业务实现更好的营销效果,会在图像中添加广告语、品牌logo、水印等信息;除此之外,部分商品按规定需要在广告图上明确标识出营销产品基本信息。这里,AIGC应用准备好的广告语,及广告主提供的产品信息,结合人物识别模型,将广告语及产品信息添加至合适的位置上,保证人物不遮挡。至此,一张可以用于线上投放的人物广告图就完成了。



未来展望



短期规划

目前,AIGC已经可以按照既定的出图流程,持续、稳定地产出高质量的AI广告图像,但在流程自动化、图像丰富度方面,依然存在很大的优化空间。

在短期内,为持续产出更多业务价值,AIGC将在两个方向继续努力:

一方面,对标当前最好的付费产品出图效果,思考其核心技术能力及产品逻辑;

另一方面,跟进最新的开源技术,如 composer、visual 大语言模型、stable diffusion xl、deepfloyd IF等,实现更精确的图像生成和编辑,提高AI出图的可控性及稳定性。

最终,将综合两方面成果,进一步简化出图流程,提高自动化程度,同时大幅提升业务图像的丰富度,以广泛满足各行各业广告主对图像物料的需求。

长期展望

在长期上,AIGC将不再局限于标签化的图像生成,而是让用户自由地同大语言模型去交互,沟通广告创意,模型会给到用户相关性较大的十几、二十种图文示例,用户从中选择一种,选择"量产"。

联系方式

手机/微信:18971576794

ABUIABACGAAg1NT8ygUo9tjD1QIwrgM4rgM.jpg

官方服务号

外宣-15807157429_副本.jpg

代理合作

广告投放
 
 

服务热线:18971576794

公司官网渠道活码.png

免费开户中


更多需求提交