Cabernet 团队AI 抠图：海报艺术字体提取

编辑：009 时间：2020-03-02

海报，是电影的第二张脸。
在传媒影视行业，电影、电视剧的宣发涉及大量海报的使用。相比文字宣传，图片海报表意更直观，也更易于传播，其中的艺术字体更是点睛之处，在所有造势海报中都固定出现。
为了制作影视作品相关的广告物料，传媒公司通常需要让经验丰富的设计师手动抠取片方海报中的艺术字体元素，这种做法既浪费人力，效率也十分低下。同时，目前业内已有的商业抠图工具大多关注人物，还没有专门针对艺术字体的可落地解决方案。

抠图前（上）和抠图后（下）在与国内某文化类上市公司的合作过程中，才云科技针对传媒行业的这项痛点，基于 AI 中台 Caicloud Clever 训练了一个海报艺术字体提取工具。用户输入原始海报即可获得轮廓精准、细节清晰的艺术字体。

面向艺术字体提取的影像去背

为了高效提取艺术字体，才云 Cabernet 团队采取的方法是利用深度学习实现影像去背（Image Matting）。
影像去背即给定一幅图像，将需要的部分（前景）从背景中抠取出来。当前这种技术已经在多个领域有实际应用，比如手机的背景虚化功能就是利用算法抠除主体，对背景进行单独的虚化处理；特效电影采用绿幕拍摄，也是为了后期利用影像去背将人物放在新制作的背景上。
相比已经非常成熟的人物抠取，艺术字体影像去背的主要难点还是在于轮廓界定和数据量。
影像去背的第一步是分离艺术字体和海报背景。工程师需要计算艺术字体中每个像素的透明度，以此获得阿法遮罩，然后利用阿法遮罩实现前后景分离。但目前计算阿法遮罩还没有纯数学上的解决办法，仍依赖 Trimap 辅助。

来源：NVIDIA 大会Trimap 是一种静态图像抠图算法，即将图像粗略划分为前景、背景和待求未知区域。艺术字体轮廓复杂多变，目前依赖算法的自动化抠图方法还有很大局限，无法精准抠出字体。而为了让 AI 模型的性能真正达到落地应用的程度，模型训练必须具备大量海报原图及对应的高精度阿法遮罩。由于自动化的 Trimap 分割精度不够，分离海报前后景的工作势需要大量人工参与。这显然不适用于传媒行业的人力现状，也违背自动化工具的设计初衷。

基于 Caicloud Clever 定制解决方案

综合以上难点，整个艺术字体提取任务其实可以被简单拆分成两部分：自动化前后景分割和数据生成。
才云 Cabernet 团队参考了近两年学界、工业界在这些问题上的进展，最后选取了一种在某电商平台已实现广泛应用的新型成果。借助 Caicloud Clever 丰富的深度学习框架、强大的硬件资源管理能力以及高效的模型开发能力，团队最后成功复现了该方案，且完美适应传媒行业的需求。

自动化前后景分割

上图是实现高精度前后景分割的流程示意图。简而言之，它先通过原图生成 Trimap，再通过原图和 Trimap 捕捉细节信息并生成初步的阿法遮罩，最后通过加权融合进一步细化阿法遮罩，实现精准分割。
整个流程的第一部分是一个经典的语义分割问题。输入原图后，模型输出的是图中每个像素点所属的类别，通常是 N 色图，N 就是图中包含的物体类别的数量（在我们的例子中是 Trimap：前景、背景、不确定）。如下图所示：

来源：公开数据集对于第二部分，网络结构采用了较为经典的 encoder-decoder 结构。输入原图及 Trimap 后，它会细化不确定区域的分类，生成初步的阿法遮罩。encoder 采用的是预训练的 VGG16 的部分网络层。decoder 通过 upsampling 将图像还原到原始大小。流程中的 Fusion Module 负责将 Trimap 和初步的阿法遮罩进行结合，选取前者的前景部分和后者不确定区域部分，得到最终的阿法遮罩。

数据生成

如前文所述，因为真实数据有限，企业在训练模型时往往需要依赖人工抠取的图像集，杯水车薪，难以保障模型的最终性能。
在原有解决方案的基础上，Cabernet 团队针对艺术字体去背给出了一种数据增强方法，即爬取可使用的背景、纹理素材及多样的字体库，并通过给定流程生成尽可能逼真的图像样本。

通过这个数据合成流程，Cabernet 团队只用了 100 多张原始图片就完成了训练，且最终模型性能完全满足企业在生产环境中的应用需要。

未来：进一步优化

以下是模型输出的部分示例：

正如一开始所说的，才云 Cabernet 团队的目标是开发出一个具有落地应用意义的企业级深度学习解决方案。
事实证明，虽然企业对 AI 技术的应用态度近几年已发生转变，但从客户成功的角度看，他们想要的并不只是一种替换旧有工具的新型自动化工具，他们更希望借助第三方提供的成熟 AI 平台能力，让自己具备 AI 开发能力，去自主规划、实现商业模式的创新和业务转型。而这，正是他们选择 Caicloud Clever AI 中台的原因。
目前，上述解决方案已经可以满足传媒行业的基本需求，但受限于技术本身的成熟度，模型在处理复杂光泽纹理时，生成效果还有所欠缺。为了精益求精，未来，Cabernet 团队将进一步优化模型性能，并开发适用于更多场景的解决方案。

原文链接：https://www.infoq.cn/article/vXwD4AWk2p3mmaerUkNL

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

上一篇：SQL：索引失效原因记录

下一篇：讲一讲Springboot的启动流程

回复列表