CN116542859B

CN116542859B - 用于智能建造的建筑结构柱图像缩略图智能生成方法

Info

Publication number: CN116542859B
Application number: CN202310825541.7A
Authority: CN
Inventors: 陈世宁
Original assignee: Wuhan Institute of Shipbuilding Technology
Current assignee: Wuhan Institute of Shipbuilding Technology
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-09-01
Anticipated expiration: 2043-07-06
Also published as: CN116542859A

Abstract

本发明涉及图像处理技术领域，具体涉及用于智能建造的建筑结构柱图像缩略图智能生成方法。该方法将获取建筑结构柱的缩略图像、对应的深度图和法线图输入缩略图生成网络中输出对应的最佳缩略图像。其中，缩略图生成网络的训练过程为：结合在法线图、深度图和在各颜色通道下缩略图像确定视图描述子；根据缩略图像构建语义描述子；根据深度图构建纵深描述子，结合语义描述子、纵深描述子和视图描述子筛选出部分缩略图像生成训练集；根据视图描述子、纵深描述子、语义描述子和训练集对缩略图生成网络进行训练。本发明提高了建筑结构柱的缩略图像生成的准确性。

Description

用于智能建造的建筑结构柱图像缩略图智能生成方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种用于智能建造的建筑结构柱图像缩略图智能生成方法。

背景技术

在建筑设计和施工领域，Revit是一种专业的建筑信息模型（BuildingInformation Modeling, BIM）软件，用于创建和管理建筑信息模型。然而，在使用Revit进行建筑设计和施工时，想要查看结构柱的样子通常需要手动截图，这一过程费时费力且效果不好。原因是Revit的渲染效果统一，如果设计师或施工人员需要查看多个结构柱的外貌分清结构柱在哪，则需要根据图中的信息来确定是哪一个结构柱，这一过程就变得更加低效和繁琐，使得缩略图不能起到很好的效用。

目前常见的通常直接将截图作为结构柱的缩略图。传统截图的问题是准确性较低，因为视觉感知是有限的，且主动的截图的过程中会产生许多的干扰因素，难以保证每个结构柱的截图都是精准的，不精准的结构截图会可能会导致设计或施工过程中的错误或延迟，会给项目带来额外的成本和压力。

发明内容

为了解决直接将截图作为缩略图准确性较低的技术问题，本发明的目的在于提供一种用于智能建造的建筑结构柱图像缩略图智能生成方法，所采用的技术方案具体如下：

获取建筑结构柱的缩略图像、对应的深度图和法线图；将缩略图像、对应的深度图和法线图输入缩略图生成网络中输出对应的最佳缩略图像；

其中，缩略图生成网络的训练过程为：

按照相同的比例，分别将缩略图像、相对应的深度图和相对应的法线图划分为多个网格；结合在法线图中网格内各像素点对应的法线值的变化特征、在深度图中对应网格内各像素点对应的深度值、在各颜色通道下缩略图像中对应网格的对比度，确定视图描述子；分割缩略图像得到至少两个分割类别，由每种分割类别的面积占比构建语义描述子；根据深度图构建纵深描述子，结合语义描述子和纵深描述子构建区分度指标；根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异筛选出部分缩略图像生成训练集；根据视图描述子、纵深描述子、语义描述子和训练集对缩略图生成网络进行训练。

优选的，所述结合在法线图中网格内各像素点对应的法线值的变化特征、在深度图中对应网格内各像素点对应的深度值、在各颜色通道下缩略图像中对应网格的对比度，确定视图描述子，包括：

结合在法线图中每个网格内各像素点对应的法线值的变化特征和在深度图中对应网格内各像素点对应的深度值，得到每个网格的指标值；由法线图中所有网格的指标值构建指标值向量；

根据在各颜色通道下缩略图像中每个网格的对比度和在深度图中对应网格的对比度，得到各颜色通道下每个网格的联合值；由每个颜色通道下所有网格的联合值构建每个颜色通道对应的联合值向量；

由指标值向量和每个颜色通道下的联合值向量，构建视图描述子。

优选的，所述结合在法线图中每个网格内各像素点对应的法线值的变化特征和在深度图中对应网格内各像素点对应的深度值，得到每个网格的指标值，包括：

根据每个网格在法线图中各像素点对应的法线值的变化特征得到每个网格的峰度；将每个网格的峰度和对应网格在深度图中各像素点对应的深度值的均值的乘积作为每个网格的指标值。

优选的，所述根据在各颜色通道下缩略图像中每个网格的对比度和在深度图中对应网格的对比度，得到各颜色通道下每个网格的联合值，包括：

选取任意颜色通道作为目标颜色通道，选取缩略图像中的任意网格作为目标结构网格，将目标结构网格在深度图中对应位置处的网格作为目标深度网格；

利用Michelson Contrast算法，计算目标结构网格在目标颜色通道中各像素点对应的颜色通道值的对比度，作为颜色对比度；利用Michelson Contrast算法，计算在深度图中目标深度网格内各像素点对应的深度值的对比度，作为深度对比度；

将目标结构网格对应的颜色对比度和目标深度网格对应的深度对比度的乘积，作为在目标颜色通道下目标结构网格的联合值。

优选的，所述分割缩略图像得到至少两个分割类别，由每种分割类别的面积占比构建语义描述子，包括：

利用语义分割网络对缩略图像进行语义分割，得到至少两种分割类别；获取每种分割类别的面积占比，并对面积占比进行极差标准化，得到每种分割类别的占比特征值，由所有分割类别的占比特征值构建对应的语义描述子。

优选的，所述根据深度图构建纵深描述子，包括：

将面积最大的分割类别内的像素点作为主体像素点，将所述主体像素点映射至深度图中，得到深度图中的深度主体像素点；

由各深度主体像素点的深度值在深度图中的出现频率构建纵深描述子。

优选的，所述根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异筛选出部分缩略图像生成训练集，包括：

根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异确定各缩略图像的局部异常因子；根据局部异常因子筛选出部分缩略图像生成训练集。

优选的，所述根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异确定各缩略图像的局部异常因子，包括：

根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异确定各缩略图像之间的可达距离；根据缩略图像之间的可达距离确定各缩略图像对应的局部异常因子。

优选的，所述根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异确定各缩略图像之间的可达距离，包括：

对于任意两个缩略图像，计算两个缩略图像之间区分度指标的相似度，作为初始相似度，对所述初始相似度进行负相关映射，得到对应的区分度差异；计算两个缩略图像之间语义描述子的差异，作为语义距离；计算两个缩略图像之间视图描述子的差异，作为视图距离；将所述区分度差异、所述语义距离和所述视图距离的乘积作为两个缩略图像之间的可达距离。

优选的，所述根据局部异常因子筛选出部分缩略图像生成训练集，包括：

根据每张缩放图像的局部异常因子的大小，从大到小进行排序，构建局部异常因子序列，将局部异常因子序列的前二分之一的局部异常因子对应的缩放图像作为缩略图生成网络的训练集中的图像。

本发明实施例至少具有如下有益效果：

该方法将获取的建筑结构柱的缩略图像、对应的深度图和法线图输入缩略图生成网络中输出对应的最佳缩略图像，以利用深度学习网络实现对最佳缩略图像的获取，缩小了判断的时长，提高了建筑结构柱的缩略图像生成的准确性。其中，缩略图生成网络的训练过程为：结合在缩略图像、法线图和深度图中网格内各像素点的特征确定视图描述子，建筑结构柱的背景结构的复杂程度是决定背景信息量的重要指标，故结合深度图和法线图对建筑结构柱进行分析，为了提高对图像视图描述的准确性，还结合了缩略图像的各个颜色通道下像素点的特征进行进一步的分析；由于图像中除了建筑结构柱之外，可能还存在有别的元素物体，故进一步的对缩略图像分割得到至少两个分割类别，由每种分割类别的面积占比构建语义描述子，该语义描述子也反映了缩略图像中物体的面积占比大小；由于人眼观看承重柱时，具体会理解是三维的纵深关系，因此基于主体来描述深度图特征可以有效代表人观看缩略图像的最显著的纵深信息，故根据深度图构建纵深描述子。结合语义描述子和纵深描述子构建区分度指标，该区分度指标反映的是两个图像对应的差异越大，当图像的内容越与众不同，则与其他图像之间的差异会越大，两个图像越相似，则对应的区分度指标越小。根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异筛选出部分缩略图像生成训练集，训练集中图像越多样化则对应的缩略图生成网络输出的最佳缩略图像越能够反映其对应的建筑结构柱，故从缩略图像中筛选出部分缩略图像生成训练集，避免训练集中相似的图像较多而影响对缩略图生成网络的训练过程。根据视图描述子、纵深描述子、语义描述子和训练集对缩略图生成网络进行训练。本发明通过将获取到的多张缩略图像、对应的深度图和法线图输入训练好的缩略图生成网络中输出对应的最佳缩略图像，提高了建筑结构柱的缩略图像生成的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种用于智能建造的建筑结构柱图像缩略图智能生成方法的方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用于智能建造的建筑结构柱图像缩略图智能生成方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明实施例提供了一种用于智能建造的建筑结构柱图像缩略图智能生成方法的具体实施方法，该方法适用于建筑结构柱图像最佳缩略图生成场景。为了解决直接将截图作为缩略图准确性较低的技术问题。本发明通过将获取到的多张缩略图像、对应的深度图和法线图输入训练好的缩略图生成网络中输出对应的最佳缩略图像，提高了建筑结构柱的缩略图像生成的准确性。

下面结合附图具体的说明本发明所提供的一种用于智能建造的建筑结构柱图像缩略图智能生成方法的具体方案。该方法包括以下具体内容：

获取建筑结构柱的缩略图像、对应的深度图和对应的法线图；将缩略图像、深度图和对应的法线图输入训练好的缩略图生成网络中输出对应的最佳缩略图像。

首先对于建筑结构柱，在本发明实施例中以承重柱作为建筑结构柱进行后续步骤的分析操作。按照既定的缩略图的相机高度，环绕承重柱的中轴线进行旋转采样，得到承重柱的若干张深度图。其中，建筑结构柱对应的缩略图像、对应的深度图和对应的法线图的渲染分辨率均为768*512。

首先确定缩略图的相机高度。在本发明实施例中根据挑高3~5m的室内承重柱，在设计阶段将相机设置在2m的高度，在其他实施例中相机的高度可以根据实际的挑高来确定。

由于Revit软件在三维渲染的环境中可以通过多媒体编程接口DirectX以及其它框架，例如OpenGL，通过注入的方式获取深度图，具体的方法为：首先，实施者调整相机位置面向承重柱进行预览。然后，实施者通过注入的方式调用DirectX获取深度图，从而在不修改Revit源代码的情况下获取深度图。这对于Revit这种无法访问源码或无法重新编译应用程序的情况下进行深度图的获取。使用微软函数库(Microsoft Detours)，拦截IDirect3DDevice9::SetRenderTarget函数，该函数用于设置渲染目标和深度缓冲区。在SetRenderTarget函数中注入回调的代码，以便于在设置深度缓冲区时获取其引用。具体的：使用IDirect3DDevice9::GetDepthStencilSurface函数获取深度缓冲区表面；使用IDirect3DSurface9::LockRect函数锁定深度缓冲区表面，并将其内容复制到系统内存中；最后解锁表面并释放引用，然后返回深度图像数据。本发明通过拦截DirectX API函数并进行额外的处理直接获取承重柱的预览画面的深度图，从而得到承重柱在此视图下，相对于其它建筑元素和结构的总体画面的深度图D。

其中，深度图是一个灰度图像，每个像素点包含一个浮点数值对应于该像素点的深度或距离，这个浮点数值通常被存储在图像的单个通道中，其取值范围根据具体实现而定。例如，在OpenGL和DirectX中深度图能够直接归一化到[0,1]。需要说明的是，本发明不需要明确深度图中像素点代表的距离单位，像素点对应的数值越大，则对应的距离越远。

采用获取深度图同样的方法，基于Revit的一个视图，利用Detours库拦截IDirect3DDevice9::SetRenderTarget函数，获取建筑结构柱对应的法线图。注入回调代码，在设置法线缓冲区时获取其引用。具体内容为：使用IDirect3DDevice9::GetRenderTarget函数获取法线缓冲区表面；利用DirectX中提供的API函数，如D3DXComputeNormalMap函数等，对法线缓冲区表面进行处理，得到法线图像数据；最终将法线图像数据复制到系统内存中，解锁表面并释放引用。

由于承重柱是柱体，查看承重柱的视图角度是多种的，因此，需要在Revit中调整相机的视图，根据承重柱的中轴线进行旋转采样。具体的：实施者需要在插件代码中获取当前视图的相机对象。首先使用Autodesk.Revit.UI.View类的GetCamera方法来获取视图相机。获取承重柱的几何信息，以便于将相机移到承重柱附近并调整相机位置和方向。具体使用Autodesk.Revit.DB.FilteredElementCollector类和Autodesk.Revit.DB.GeometryInstance类来获取承重柱的几何信息。由于GeometryInstance是公开的用于描述集合体的对象特征的类，基于GeometryInstance获得中轴线，在本发明实施例中不再进行具体的赘述。

基于Autodesk.Revit.DB.Transform类，进行相机的旋转和平移，从而实现一次相机的位置移动，具体的：在固定角度上循环移动，使用Autodesk.Revit.UI.View类的SetCamera方法来移动相机。对于每次移动，都需要得到对应视图下的法线图N。其中，法线图也是一张灰度图像，每个像素包含一个浮点数值对应于法线向量的方向。这个浮点数值在显存中被存储在图像的alpha通道中，其取值范围一般是[0,1]。

对一个建筑结构柱，也即对于一个承重柱可以环绕获得若干张深度图，本实施例中将环绕角度分为12个，即环绕一圈能够得到12张法线图N和12张深度图D。

基于面向控制层的实时性现场总线网络(ControlNet)得到基于法线和深度图约束的Diffuser的图像。潜扩散模型是一种基于迭代扩散步骤的生成模型，可以将噪声信号转换为高质量的图像。它通过在噪声信号上执行多次扩散步骤来实现这一目标，并在每个步骤中将当前的输入信号与先前的输出进行平均化，以减少噪声和增强细节。低秩自适应（Low-Rank Adaptation, LoRA）则是用于微调潜扩散模型的训练技术。LoRA在修改StableDiffusion模型时主要针对交叉注意力层进行微小更改，从而控制生成的纹理风格。基于LoRA使用潜扩散模型能够得到风格统一的内容。因此，通过前期获得的法线图和深度图，可以使用ControlNet技术来控制生成的内容和空间关系，从而凸显承重柱在某个视角下观看的特征。ControlNet的基本思想是在图像生成过程中添加额外的输入条件，以便更好地控制图像属性。ControlNet通过在生成器网络的不同层中添加外部条件，将其与主要的图像生成网络结合起来。外部条件传递给ControlNet，并被自动编码成低维向量，然后进入生成器网络的相应层中，调整图像生成过程。具体的，根据前期获得的法线图和深度图，加载实施者指定的LoRA模型，可以在不确定提示词的基础上获得风格统一的承重柱的图像。

至此得到了12张建筑结构柱的缩略图像。

将缩略图像、深度图和对应的法线图输入训练好的缩略图生成网络中输出对应的最佳缩略图像。

请参阅图1，其示出了缩略图生成网络的训练步骤流程图。其中，缩略图生成网络的训练过程为：

步骤S100，按照相同的比例，分别将缩略图像、相对应的深度图和相对应的法线图划分为多个网格；结合在法线图中网格内各像素点对应的法线值的变化特征、在深度图中对应网格内各像素点对应的深度值、在各颜色通道下缩略图像中对应网格的对比度，确定视图描述子。

基于建筑结构柱的缩略图像、对应的深度图和对应的法线图构建建筑结构柱的视图描述子。

根据承重柱的拍摄范式，承重柱是距离相机很近的物体主体，为了区分承重柱，需要从承重柱的背景来分析，而背景结构的复杂程度是决定背景信息量的重要指标，结合深度图和法线图进行分析。

首先按照相同的比例，分别将缩略图像、相对应的深度图和相对应的法线图划分为多个网格。在本发明实施例中网格划分为24*16个，由于缩略图像、相对应的深度图和相对应的法线图的大小都是一致的，故当用相同大小的网格进行划分时，缩略图像、相对应的深度图和相对应的法线图中的网格的对应位置是相同的，也即例如对应缩略图像中的任意网格c时，在缩略图像相对应的深度图中有位置和大小相同的网格作为网格c在深度图中的对应网格，同样的在缩略图像相对应的法线图中也有位置和大小相同的网格作为网格c在法线图中的对应网格。

进一步的，结合在法线图中每个网格内各像素点对应的法线值的变化特征、在深度图中对应网格的各像素点对应的深度值、在各颜色通道下缩略图像中对应网格的对比度，确定视图描述子，具体的：

步骤一，结合在法线图中每个网格内各像素点对应的法线值的变化特征和在深度图中对应网格的各像素点对应的深度值，得到每个网格的指标值；由法线图中所有网格的指标值构建指标值向量。

其中，结合在法线图中每个网格的各像素点对应的法线值的变化特征和在深度图中对应网格的各像素点对应的深度值，得到每个网格的指标值，具体的：根据每个网格在法线图中各像素点对应的法线值的变化特征得到每个网格的峰度；将每个网格的峰度和对应网格在深度图中各像素点对应的深度值的均值的乘积作为每个网格的指标值。

峰度（kurtosis）是用来描述概率分布的峰值尖锐程度的指标，它衡量了特定分布相对于标准正态分布而言的尖锐程度，数值为0表示与标准正态分布具有相同的尖锐程度，正的峰度表示分布具有比标准正态分布更尖锐的峰，负的峰度表示分布具有比标准正态分布更平缓的峰。

其中，每个网格的峰度的计算公式为：

其中，为第a个网格的峰度；/>为网格中像素点的数量；/>为网格中第i个像素点的法线值；/>为网格中像素点的法线值的均值。

需要说明的在峰度的计算公式值减去2是因为峰度的定义中包含了一个常数偏差。该峰度反映了峰部的尖度，如果峰度大于三，峰的形状比较尖，比正态分布峰要陡峭。该峰度的获取方法为本领域技术人员的公知技术，在此不再进行赘述。

在得到每个网格的峰度之后，将每个网格的峰度和对应网格在深度图中各像素点对应的深度值的均值的乘积作为每个网格的指标值。

步骤二，根据在各颜色通道下缩略图像中每个网格的对比度和在深度图中对应网格的对比度，得到各颜色通道下每个网格的联合值；由每个颜色通道下所有网格的联合值构建每个颜色通道对应的联合值向量。

基于承重柱图像和深度图进行局部对比度的分析。由于生成的缩略图像为RGB图像，故在本发明实施例中根据红色通道、绿色通道和蓝色通道这三个通道在网格中的图像分别进行分析。使用Michelson contrast来描述局部对比度和深度图的联合值。

选取任意颜色通道作为目标颜色通道，选取缩略图像中的任意网格作为目标结构网格，将目标结构网格在深度图中对应位置处的网格作为目标深度网格。利用MichelsonContrast算法，计算目标结构网格在目标颜色通道中各像素点对应的颜色通道值的对比度，作为颜色对比度。

以红色通道作为目标颜色通道，以缩放图像中第i个网格为目标结构网格为例，该目标结构网格在目标颜色通道中对应的颜色通道值的颜色对比度为：

其中，为目标结构网格在目标颜色通道中对应的颜色通道值的颜色对比度；/>为目标结构网格在目标颜色通道中对应的最大颜色通道值；/>目标结构网格在目标颜色通道中对应的最小颜色通道值。需要说明的是，利用Michelson contrast来获取对比度的方法为本领域技术人员的公知技术，在此不再进行赘述。

利用Michelson Contrast算法，计算在深度图中目标深度网格内各像素点对应的深度值的对比度，作为深度对比度。

将目标结构网格在目标颜色通道中对应的颜色通道值的颜色对比度和目标深度网格对应的深度对比度的乘积，作为在目标颜色通道下目标结构网格的联合值。由每个颜色通道下所有网格的联合值构建每个颜色通道对应的联合值向量。

在本发明实施例中颜色通道共有三个，故对应的共有三个对应的联合值向量。

步骤三，由指标值向量和每个颜色通道下的联合值向量，构建视图描述子。也可以说合并指标值向量和每个颜色通道下的联合值向量，得到对应的视图描述子。例如，指标值向量记为Q1，三个颜色通道下对应的三个联合指标向量分别即为Q2、Q3和Q4，则对应的视图描述子为（Q1，Q2，Q3，Q4）。

步骤S200，分割缩略图像得到至少两个分割类别，由每种分割类别的面积占比构建语义描述子；根据深度图构建纵深描述子，结合语义描述子和纵深描述子构建区分度指标。

对建筑结构柱的缩略图像进行分析处理，利用语义分割网络对缩略图像进行语义分割，得到至少两种分割类别。

由于大部分潜扩散模型的训练内容是以常见事物为主，因此本发明使用经过ADE20K的语义分割网络，对承重柱每个视图的缩略图像进行语义分割，得到至少两种分割类别。

其中，由于ADE20K数据集中，通常训练的语义分割网络的标注都按其总像素比排名的前50个类别进行训练。语义分割网络为Swin Transformer V2。本发明实施例为了得到稳定的语义描述子，避免过多分割的歧义，故选用前50个分割类别进行分析，实施者可以根据LoRA模型的生成内容进一步限定或扩展分割类别。也可以说对承重柱所对应的每张缩略图像都能得到50个分割类别的分割结果。

获取每种分割类别的面积占比，并对面积占比进行极差标准化，得到每种分割类别的占比特征值，由所有分割类别的占比特征值构建对应的语义描述子。也即将每个分割类别中对应的区域的面积占缩略图像总面积的占比的极差标准化后的结果值作为语义描述子的各个数值。其中，每种分割类别对应一个面积占比，该面积占比即为分割类别的面积和缩略图像的面积的比值。

由于最大部分语义的内容呈现在缩略图像的画面中就是画面的主体，且生成的内容是基于LoRA的模型来确定的。本发明实施例使用StableDiffusion1.5模型，套用XSarchitectural系列的LoRA模型，具体为7Modern interior，实施者可以替换为任何室内场景的LoRA模型，实施者可以使用任意Diffuser和任意LoRA模型，生成有关室内设计的缩略图像G。

通过语义分割后，室内的元素存在例如沙发、橱柜、墙体、以及窗户等内容。因此选取图片中最大的类别的内容，从而确定主体，也即将利用语义分割网络对缩略图像进行语义分割，得到的分割类别中面积占比最大的分割类别作为主体，将主体映射至缩略图像对应的深度图中。

对主体所在遮罩的深度图进行分析。由于主体大概率为窗户或者墙体、橱柜等大面积的元素，因此主体所在画面中的深度图信息可以代表缩略图像中主体的构造和纵深关系。

由于人眼观看承重柱时，具体会理解是三维的纵深关系，因此基于主体来描述深度图特征可以有效代表人观看缩略图像的最显著的纵深信息。

故根据缩略图像对应的深度图构建纵深描述子的方法，具体的：将面积最大的分割类别内的像素点作为主体像素点，将所述主体像素点映射至深度图中，得到深度图中的深度主体像素点；由各深度主体像素点的深度值在深度图中的出现频率构建纵深描述子。也可以说获取主体像素点在深度图中对应像素点的深度值，作为主体像素点对应的深度值，由主体像素点对应的深度值在深度图中的出现频率构建纵深描述子。其中出现频率的取值范围为[0,1]。该深度值在深度图中的出现频率也反映了相对纵深关系中各距离的占比，也即纵深关系中各深度值的占比。

在得到缩略图像的语义描述子和深度图的纵深描述子之后，结合语义描述子和纵深描述子构建区分度指标。具体的：将缩略图像和对应的深度图所对应的语义描述子和纵深描述子合并成一个区分度指标，也可以说拼接成一个区分度指标。每个缩略图像和对应的深度图均有对应的区分度指标。例如缩略图像对应的语义描述子为z1，缩略图像对应的深度图的纵深描述子为z2，则缩略图像和对应的深度图的区分度指标为（z1，z2）。

步骤S300，根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异筛选出部分缩略图像生成训练集；根据视图描述子、纵深描述子、语义描述子和训练集对缩略图生成网络进行训练。

根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异筛选出部分缩略图像生成训练集，具体的：根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异确定各缩略图像的局部异常因子；根据局部异常因子筛选出部分缩略图像生成训练集。

根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异确定各缩略图像的局部异常因子，具体的：根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异确定各缩略图像之间的可达距离。

其中，区分度指标是根据语义描述子和纵深描述子构建，对于任意缩略图像而言，缩略图像对应的区分度指标与其他缩略图像对应的区分度指标的差异越大，则该缩略图像对应的局部异常因子(Local Outlier Factor ,LOF)越大，则反映该缩略图像的内容越与众不同，在大量的承重柱的缩略图像中更具备特殊性。在大量的承重柱的缩略图像中，如果所有的缩略图像都非常相似，没有明显的差异，那么在使用LOF指标进行分析时，它们的分值将会很接近，难以区分。因此，对于具有特殊性的缩略图像，它们的LOF指标将会更高，因为它们与其他缩略图像的区别更加显著，因此更容易被区分出来。换句话说，当缩略图像之间存在较大的差异时，缩略图像所对应的局部异常因子更高，可以更好地代表它们的特殊性。

根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异确定各缩略图像之间的可达距离，具体的：对于任意两个缩略图像，计算两个缩略图像之间区分度指标的相似度，作为初始相似度，对所述初始相似度进行负相关映射，得到对应的区分度差异；计算两个缩略图像之间语义描述子的差异，作为语义距离；计算两个缩略图像之间视图描述子的差异，作为视图距离；将所述区分度差异、所述语义距离和所述视图距离的乘积作为两个缩略图像之间的可达距离。

该可达距离的计算公式为：

其中，为任意缩略图像a和除缩略图像a之外的其他缩略图像b的可达距离；为缩略图像a的区分度指标；/>为缩略图像b的区分度指标；/>为缩略图像a和缩略图像b对应的初始相似度；/>为缩略图像a和缩略图像b对应的区分度差异；L2为L2范数；/>为缩略图像a和缩略图像b对应的语义距离；/>为缩略图像a和缩略图像b对应的视图距离；/>为缩略图像a的语义描述子；/>为缩略图像b的语义描述子；Similarity为余弦相似度函数；/>为缩略图像a的视图描述子；/>为缩略图像b的视图描述子。

其中，区分度差异反映了语义描述子H和纵深描述子F这两个描述子的差异程度。如果计算语义描述子和计算纵深描述子的缩略图像和深度图来自不同承重柱，但语义描述子H和纵深描述子F相似，则将该缩略图像不适合作为最佳缩略图像，因为容易造成歧义。当两个缩略图像的区分度指标越相似，则对应的区分度差异越小，对应可达距离越小；当两个缩略图像的语义描述子差异越大，则对应的语义距离越大，对应可达距离越大；当两个缩略图像的视图描述子差异越大，则对应的视图距离越大，对应可达距离越大。

余弦相似度越大，则对应的两张缩略图像的几何特征越相似。在大量的承重柱的缩略图像，如果所有的缩略图像都非常相似，那么使用LOF指标进行分析时，它们的分值将会很接近，难以区分。因此，在使用LOF算法分析承重柱的缩略图像G的特征是，需要先对承重柱所有缩略图像对应的视图描述子、纵深描述子、语义描述子进行分析得到缩略图像的特征。

在得到缩略图像之间的可达距离之后，根据缩略图像之间的可达距离确定各缩略图像对应的局部异常因子。以每张缩略图像作为样本，先根据可达距离计算每个样本的k-邻域。对于每个样本，计算其局部可达密度（Local Reachability Density, LRD）。

该局部可达密度的计算公式为：

其中，LRD(p)为缩略图像p对应的局部可达密度，也可以说是样本点p对应的局部可达密度；q是样本点p对应的k-邻域内的其他样本，也即为缩略图像p对应的k-邻域内的其他缩略图像；是样本点p和样本点q之间的距离；k为预设邻域值；Q为样本p对应的k-邻域内的样本点集合。在本发明实施例中预设邻域值k的取值为环绕承重柱的缩略图像的数量的一半，由于本发明实施例中一个承重柱有对应的12张缩略图像，故对应的k的取值为6，在其他实施例中可由实施者根据实际情况对该取值进行调整。

需要说明的是，根据可达距离计算各样本点对应的局部可达密度的计算公式为本领域技术人员的公知技术，在此不再进行赘述。

在得到每个样本点对应的局部可达密度之后，也即在得到每个缩略图像对应的局部可达密度之后，计算每个缩放图像对应的局部离散因子，也即局部异常因子（LocalOutlier Factor, LOF）。

该局部异常因子的计算公式为：

其中，LOF(p)为缩略图像p对应的局部异常因子，也可以说是样本点p对应的局部异常因子；LRD(p)为缩略图像p对应的局部可达密度，也可以说是样本点p对应的局部可达密度；q是样本点p对应的k-邻域内的其他样本，也即为缩略图像p对应的k-邻域内的其他缩略图像；k为预设邻域值；Q为样本p对应的k-邻域内的样本点集合；n是样本p对应的k-邻域内的样本点的总数量。计算得到的局部异常因子LOF值可以用于区分比较特殊的缩略图像。需要说明的是，根据局部可达密度计算各样本点对应的局部异常因子的计算公式为本领域技术人员的公知技术，在此不再进行赘述。局部异常因子指标的计算需要事先指定k值，并且该值的选取对结果有一定影响，在本发明实施例中k的取值为6，在其他实施例中可由实施者根据实际情况对该取值进行调整。同时，局部异常因子对于样本分布的密度变化比较敏感，因此在使用时需要结合具体场景进行调整k的取值。需要说明的是，根据局部可达密度计算各样本点对应的局部异常因子的计算公式为本领域技术人员的公知技术，在此不再进行赘述。

在得到每张缩放图像的局部异常因子之后，根据局部异常因子筛选出部分缩略图像生成缩略图生成网络的训练集，具体的：根据每张缩放图像的局部异常因子的大小，从大到小进行排序，构建局部异常因子序列，将局部异常因子序列的前二分之一的局部异常因子对应的缩放图像作为缩略图生成网络的训练集中的图像。也即根据局部异常因子的大小对所有生成的缩略图进行排名，实施者确定一定比例，用于将较为特别的缩略图挑选出来，在本发明实施例选择Top-50%，即前50%的缩略图，作为容易区分承重柱的缩略图，由上述挑选的缩略图像用于后续缩略图生成网络的训练集，训练集的格式为：样本为缩略图像G对应的语义描述子和纵深描述子，标签为缩略图像G。

根据视图描述子作为新的词标签，训练新的LoRA模型，直接生成最佳缩略图像。其中，Lora是一种被广泛应用于Transformer架构中的技术，可以用于self-attention模块和MLP模块。在Stable Diffusion模型中，Lora被用于condition和图像表示建立关联的Cross-Attention层中。使用Lora能够使得Stable Diffusion模型在更小的存储空间和更少的计算开销下，达到与全面模型微调相当的性能。当使用一种图像和触发关键词作为Diffuser的CLIP的输入时，如果监督的prompt存在关键词，则可以生成风格、纹理、信息与训练集的缩略图内容相似的图像。

为了让潜扩散模型能够生成与承重柱相符且容易区分的缩略图，需要训练Diffusion模型的LoRA权重，使得图像生成模型能够在CLIP中根据视图描述子的内容得到更容易区分的承重柱缩略图。具体的：

首先对视图描述子的数值进行词的嵌入，具体的方法为：

由于CLIP已经训练，且词嵌入关系已经确定，那么，根据词表的索引可以得到视图描述子的词、语义描述子的词和纵深描述子的词。因为语义描述子和纵深描述子的值域不确定，因此实施者需要对语义描述子和纵深描述子进行如下处理，从而得到映射的词，具体的：首先对语义描述子和纵深描述子进行归一化缩放，本发明将语义描述子和纵深描述子分别缩放到[0,1000]，从而提高语义描述子和纵深描述子映射的词的多样性，然后进行维度拼接，得到更高维度的向量X。

基于向量X确定更高维度的向量X中每个维度对应的词，例如“a”、“of”、“model”、“1girl”、“extra”等，这些词是无意义的，但能够作为驱动LoRA模型约束生成内容的特征。对于LoRA训练标注的关键词是有X的各个数值对应得到的，从而让语言图像预训练(Constastive Language-Image Pretraining, CLIP)模型处理相关文本token后，使得潜扩散模型生成的内容极度贴近于缩略图所包含的内容。将处理后的缩放图像和对应的标注放入同一个文件夹中，并在训练代码中指定数据集的路径。

需要说明的是，针对Stable Diffusion1.5的LoRA微调的训练方法是公知的，本发明实施例中仅对关键步骤进行阐述，具体的：在训练代码中设置LoRA模型的参数，例如learning rate、batch size、epoch数、保存模型的路径等。本方法名实施例采用0.0011的学习率，批大小为12，epoch数为30000，实施者若有更高性能的GPU，例如V100等，则可以使用更大的批大小以及更大的epoch数。其中，批大小就是每次调整参数前所选取的样本数量。进而，实施者只需要向CLIP模型提供X映射的词，即可在文本到图像的生成任务中，得到符合承重柱特征的最佳缩略图，即实现了实施者在后续的承重柱的缩略图生成过程中，只需要获得缩略图像、对应的法线图和对应的深度图，进而构建对应的纵深描述子和语义描述子，即可驱动缩略图生成网络生成最佳的缩略图。

综上所述，本发明涉及图像处理技术领域。该方法将获取建筑结构柱的缩略图像、对应的深度图和法线图输入缩略图生成网络中输出对应的最佳缩略图像。其中，缩略图生成网络的训练过程为：结合在法线图、深度图和在各颜色通道下缩略图像确定视图描述子；根据缩略图像构建语义描述子；根据深度图构建纵深描述子，结合语义描述子、纵深描述子和视图描述子筛选出部分缩略图像生成训练集；根据视图描述子、纵深描述子、语义描述子和训练集对缩略图生成网络进行训练。本发明通过将获取到的多张缩略图像、对应的深度图和法线图输入训练好的缩略图生成网络中输出对应的最佳缩略图像，提高了建筑结构柱的缩略图像生成的准确性。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种用于智能建造的建筑结构柱图像缩略图智能生成方法，其特征在于，该方法包括以下步骤：

其中，缩略图生成网络的训练过程为：

2.根据权利要求1所述的用于智能建造的建筑结构柱图像缩略图智能生成方法，其特征在于，所述结合在法线图中网格内各像素点对应的法线值的变化特征、在深度图中对应网格内各像素点对应的深度值、在各颜色通道下缩略图像中对应网格的对比度，确定视图描述子，包括：

3.根据权利要求2所述的用于智能建造的建筑结构柱图像缩略图智能生成方法，其特征在于，所述结合在法线图中每个网格内各像素点对应的法线值的变化特征和在深度图中对应网格内各像素点对应的深度值，得到每个网格的指标值，包括：

4.根据权利要求2所述的用于智能建造的建筑结构柱图像缩略图智能生成方法，其特征在于，所述根据在各颜色通道下缩略图像中每个网格的对比度和在深度图中对应网格的对比度，得到各颜色通道下每个网格的联合值，包括：

5.根据权利要求1所述的用于智能建造的建筑结构柱图像缩略图智能生成方法，其特征在于，所述分割缩略图像得到至少两个分割类别，由每种分割类别的面积占比构建语义描述子，包括：

6.根据权利要求5所述的用于智能建造的建筑结构柱图像缩略图智能生成方法，其特征在于，所述根据深度图构建纵深描述子，包括：

7.根据权利要求1所述的用于智能建造的建筑结构柱图像缩略图智能生成方法，其特征在于，所述根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异筛选出部分缩略图像生成训练集，包括：

8.根据权利要求7所述的用于智能建造的建筑结构柱图像缩略图智能生成方法，其特征在于，所述根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异确定各缩略图像的局部异常因子，包括：

9.根据权利要求8所述的用于智能建造的建筑结构柱图像缩略图智能生成方法，其特征在于，所述根据缩略图像之间的区分度指标的差异、语义描述子的差异和视图描述子的差异确定各缩略图像之间的可达距离，包括：

10.根据权利要求7所述的用于智能建造的建筑结构柱图像缩略图智能生成方法，其特征在于，所述根据局部异常因子筛选出部分缩略图像生成训练集，包括：