[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN117561537A - 显示设备及其操作方法 - Google Patents

显示设备及其操作方法 Download PDF

Info

Publication number
CN117561537A
CN117561537A CN202280044885.8A CN202280044885A CN117561537A CN 117561537 A CN117561537 A CN 117561537A CN 202280044885 A CN202280044885 A CN 202280044885A CN 117561537 A CN117561537 A CN 117561537A
Authority
CN
China
Prior art keywords
image
model information
layer
pixels
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280044885.8A
Other languages
English (en)
Inventor
李炫承
金东炫
郑暎勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210133450A external-priority patent/KR20230050127A/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN117561537A publication Critical patent/CN117561537A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20012Locally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种用于通过使用包括多个层的神经网络来执行图像处理的显示设备可以:基于与第一图像中包括的每个像素相对应的对象特征,获得与相应像素相对应的多条模型信息;基于与输入到神经网络的像素相对应的多条模型信息以及关于像素在神经网络中被处理的时间点的信息,识别与多个层相对应的多条模型信息;基于多条模型信息,更新多个层的参数;通过在多个层处经由应用了更新后的参数的多个层处理第一图像来获得第二图像;以及显示第二图像。

Description

显示设备及其操作方法
技术领域
各种实施例涉及一种显示设备及其操作方法。更具体地,各种实施例涉及一种用于通过使用神经网络执行图像处理的显示设备及其操作方法。
背景技术
近来,随着深度学习技术的进步,大力发展了各种类型的基于学习的图像处理方法(例如,放大)。例如,基于学习的放大方法是指通过使用具有通过学习而确定的参数值的大容量、高复杂度网络,将低质量、低分辨率的图像转换和扩展为高质量、高分辨率的图像。所使用的网络可以设计成各种结构,并且可以通过调整网络的深度(层数)和网络的计算参数的数量(滤波器核的大小)根据系统进行选择。与现有的基于信号处理或基于内插的放大方法(例如,双三次内插、双线性内插和兰佐斯(lanczos)内插)相比,基于学习的放大方法展现出优异的图像恢复性能。然而,单个输入和单个输出的结构对于图像中具有各种特征的各个对象的专门恢复显现出局限性。例如,图像中包括的对象类别可以包括人、字符、图形、人工制品(建筑物、雕塑、汽车等)、自然对象(动物、植物等),并且不同类别的对象在结构上彼此区分。难以通过单个网络区分对象的特征来执行学习,并且即使当使用复杂的训练数据时,每个对象的特征也不会反映在网络的学习过程中,而是训练网络以最小化整体误差。因此,存在经训练的网络输出平均图像质量的目标图像的问题。
发明内容
技术问题
根据公开的实施例,可以提供一种用于基于图像中包括的对象的特征来修改神经网络的各个层的参数并且通过使用修改后的参数来执行图像处理的显示设备、以及该显示设备的操作方法。
问题的技术解决方案
根据本公开的一方面,一种用于通过使用包括多个层的神经网络执行图像处理的显示设备可以包括显示器;存储器,存储一个或多个指令;以及处理器,被配置为执行存储器中存储的一个或多个指令以:基于分别与第一图像中包括的像素相对应的对象特征,获得分别与所述像素相对应的多条模型信息;基于输入到神经网络的与每个像素相对应的多条模型信息以及关于每个像素在神经网络中被处理的时间点的信息,识别分别与多个层相对应的多条模型信息;基于多条模型信息来更新多个层的参数;通过经由应用了更新后的参数的多个层处理第一图像来获得第二图像;以及控制显示器显示第二图像。
关于时间点的信息可以包括关于将每个像素输入到多个层中的每个层的数据输入时间的信息或者关于每个像素在多个层中的每个层中被处理的数据处理时间的信息中的至少一种。
数据输入时间或数据处理时间中的至少一个可以具有预定周期。
可以基于每个像素在第一图像中的位置来确定关于时间点的信息。
多个层可以串联连接,并且处理器还可以被配置为将第一图像中包括的像素的每个像素值顺序地输入到多个层。
多个层可以包括第一层和第一层之后的第二层,并且第一图像的像素可以包括第一像素和第二像素。处理器还可以被配置为执行一个或多个指令以:基于输入到第一层的第一像素的第一像素值,将第一层的参数更新为与第一像素相对应的第一模型信息中包括的参数;以及基于输入到第二层的第一像素的第一像素值以及输入到第一层的第二像素的第二像素值,将第一层的参数更新为与第二像素相对应的第二模型信息中包括的参数,并且将第二层的参数更新为第一模型信息中包括的参数。
第一图像的像素还可以包括第二层之后的第三像素,
并且处理器还可以被配置为执行一个或多个指令以:基于输入到第三层的第一像素的第一像素值、输入到第二层的第二像素的第二像素值、以及输入到第一层的第三像素的第三像素值,将第一层的参数更新为与第三像素相对应的第三模型信息中包括的参数,将第二层的参数更新为第二模型信息中包括的参数,并且将第三层的参数更新为第一模型信息中包括的参数。
处理器还可以被配置为执行一个或多个指令以:检测第一图像中包括的对象区域;以及基于分别与第一图像中包括的像素相对应的对象区域,获得分别与第一图像中包括的像素相对应的多条模型信息。
处理器还可以被配置为执行一个或多个指令以:基于与对象区域相对应的多条模型信息的加权和,获得分别与像素相对应的调整后的多条模型信息。
处理器还可以被配置为执行一个或多个指令以:基于第一图像中包括的第一像素与每个对象区域的中心之间的距离,确定分别与对象区域相对应的多条模型信息的权重;以及基于分别与对象区域相对应的多条模型信息以及所确定的权重,获得调整后的多条模型信息之中的与第一像素相对应的调整后的模型信息。
根据本公开的一方面,提供了一种用于通过使用包括多个层的神经网络来执行图像处理的显示设备的操作方法。该操作方法可以包括:接收第一图像;基于分别与第一图像中包括的像素相对应的对象特征,获得分别与像素相对应的多条模型信息;基于输入到神经网络的与每个像素相对应的多条模型信息以及关于每个像素在神经网络中被处理的时间点的信息,识别分别与多个层相对应的多条模型信息;基于多条模型信息来更新多个层的参数;通过经由应用了更新后的参数的多个层处理第一图像来生成第二图像;以及显示第二图像。
关于时间点的信息可以包括关于将每个像素输入到多个层中的每个层的数据输入时间的信息或者关于每个像素在多个层中的每个层中被处理的数据处理时间的信息中的至少一种。
数据输入时间或数据处理时间中的至少一个具有均匀的周期。
可以基于每个像素在第一图像中的位置来确定关于时间点的信息。
多个层可以串联连接,并且第一图像中包括的多个像素的像素值可以被顺序地输入到多个层并且被顺序地输出。
多个层可以包括第一层和第一层之后的第二层,并且第一图像的像素可以包括第一像素和第二像素。更新多个层的相应参数可以包括:基于输入到第一层的第一像素的第一像素值,将第一层的参数更新为与第一像素相对应的第一模型信息中包括的参数;以及基于输入到第二层的第一像素的第一像素值以及输入到第一层的第二像素的第二像素值,将第一层的参数更新为与第二像素相对应的第二模型信息中包括的参数,并且将第二层的参数更新为第一模型信息中包括的参数。
第一图像的像素还可以包括第二层之后的第三像素。更新多个层的相应参数可以包括:基于输入到第三层的第一像素的第一像素值、输入到第二层的第二像素的第二像素值、以及输入到第一层的第三像素的第三像素值,将第一层的参数更新为与第三像素相对应的第三模型信息中包括的参数,将第二层的参数更新为第二模型信息中包括的参数,并且将第三层的参数更新为第一模型信息中包括的参数。
该操作方法还可以包括检测第一图像中包括的对象区域。获得分别与像素相对应的多条模型信息可以包括:基于分别与第一图像中包括的像素相对应的对象区域,获得分别与第一图像中包括的像素相对应的多条模型信息。
获得分别与像素相对应的多条模型信息可以包括:基于与对象区域相对应的多条模型信息的加权和,获得分别与像素相对应的调整后的多条模型信息。
获得分别与像素相对应的多条模型信息可以包括:基于第一图像中包括的第一像素与每个对象区域的中心之间的距离,确定分别与对象区域相对应的多条模型信息的权重;以及基于分别与对象区域相对应的多条模型信息以及所确定的权重,获得调整后的多条模型信息之中的与第一像素相对应的调整后的模型信息。
根据本公开的一方面,提供了一种在其中存储有程序的非暂时性计算机可读记录介质,该程序包括指令,该指令使得执行方法,该方法经由包括多个层的神经网络来执行图像处理。该方法可以包括:获得第一图像;基于分别与第一图像中包括的像素相对应的对象特征,获得分别与像素相对应的多条模型信息;基于输入到神经网络的与每个像素相对应的多条模型信息以及关于每个像素在神经网络中被处理的时间点的信息,识别分别与多个层相对应的多条模型信息;基于多条模型信息来更新多个层的参数;以及通过经由应用了更新后的参数的多个层处理第一图像来生成第二图像。
本公开的有益效果
根据本公开的实施例的显示设备可以基于图像中包括的对象来获得根据区域和像素的对象特征,并且通过使用根据每个区域和每个像素的对象特征而变化的模型信息来执行图像处理。因此,可以提高图像处理的准确性或性能。
根据本公开的实施例的显示设备,可以不基于相同的模型信息来更新图像处理网络中包括的所有参数,而是可以针对每个层更新参数,因此可以防止图像处理的延迟。
附图说明
图1是示出了根据本公开的实施例的显示设备的图。
图2是示出了根据本公开的实施例的图像处理网络的结构的图。
图3是根据本公开的实施例的显示设备的操作方法的流程图。
图4是用于描述由根据本公开的实施例的显示设备执行的获得与第一图像相对应的模型信息的方法的图。
图5示出了根据本公开的实施例的每个像素的模型信息以及关于像素在图像处理网络中被处理的时间点的信息。
图6和图7是用于描述由根据本公开的实施例的显示设备执行的基于参数更新信息来更新图像处理网络的参数的方法的图。
图8是用于描述根据本公开的实施例的获得多条模型信息的方法的图。
图9是用于描述根据本公开的实施例的获得与第一图像相对应的模型信息的方法的图。
图10是用于描述根据本公开的实施例的获得与第一图像相对应的模型信息的方法的图。
图11是根据本公开的实施例的显示设备的配置的框图。
图12是根据本公开的另一实施例的显示设备的配置的框图。
具体实施方式
在整个公开中,表述“a、b或c中的至少一个”表示仅a,仅b,仅c,a和b两者,a和c两者,b和c两者,a、b和c的全部或其变体。
在下文中,将简要描述本说明书中所使用的术语,并且然后将具体描述本公开。
本说明书中所使用的术语是考虑到关于本公开的功能当前在本领域中广泛使用的那些通用术语,但术语可以根据本领域普通技术人员的意图、先例或本领域的新技术而变化。此外,申请人可以选择专用术语,并且在这种情况下,将在本公开的详细说明中描述其具体含义。因此,说明书中所使用的术语不应当理解为简单的名称,而应基于术语的含义以及本公开的整体描述来理解。
贯穿整个说明书,除非另有指定,否则当一个部件可以“包括”某个组成元素时,不应被解释为排除另一组成元素,而是可以被解释为还包括其他组成元素。本说明书中描述的诸如“……单元”、“……模块”等术语是指用于执行至少一个功能或操作的单元,并且这些单元可以实现为硬件或软件或者硬件和软件的组合。
在下文中,将参考附图更全面地描述本公开的实施例,附图中示出了本公开的实施例,使得本领域的普通技术人员可以容易地实施本公开。然而,本公开可以以许多不同形式体现,并且不应被解释为受限于本文中所阐述的本公开的实施例。此外,为了清楚地描述本公开,在附图中省略了与描述无关的元件,并且贯穿说明书,附图中的相似附图标记表示相似的元件。
在本说明书的实施例中,术语“用户”可以指控制系统、功能或操作的人,并且可以包括开发人员、管理员或安装工程师。
在本说明书的实施例中,术语“图像”或“图片”可以指静止图像、由多个连续静止图像(或帧)组成的运动图像、或视频。
术语“模型信息”可以指模型的神经网络的参数,例如应用于神经网络的神经元以与神经元的输入相乘的权重、应用于每个神经元的偏置等。
图1是示出了根据本公开的实施例的显示设备的图。
参考图1,根据本公开的实施例的显示设备100可以是接收图像并对所接收的图像执行图像处理的电子设备。图像处理可以包括放大、图像质量处理等,但不限于此。
例如,显示设备100可以实现成各种形式,例如TV、移动电话、平板PC、数码相机、摄像机、膝上型计算机、台式计算机、电子书终端、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航设备、MP3播放器、可穿戴设备等。
此外,显示设备100可以包括显示器,并且在显示器上显示对其执行了图像处理的图像。此外,显示设备100可以是布置在固定位置的固定电子设备、或便携式形式的移动电子设备、或能够接收广播的数字广播接收器。具体地,实施例可以容易地在具有大显示器的图像处理设备(例如,TV)中实现,但不限于此。
根据本公开的实施例的显示设备100可以执行诸如从外部设备或外部服务器接收或输入的图像10的放大或者提高图像10的图像质量之类的处理。显示设备100可以显示放大后的图像或具有提高的图像质量的图像。显示设备100可以将输入图像10输入到图像处理网络30,并且在图像处理网络30中包括的多个层中的每个层中执行计算以获得被放大或具有提高的图像质量的输出图像20。
根据本公开的实施例的图像处理网络30可以包括其中第一层至第n层31、32、33...39串联连接的结构。因此,通过使用第一层31的参数进行计算来处理输入到第一层31的数据,并且将其处理结果输入到第二层32。此外,通过使用第二层32的参数进行计算来处理输入到第二层32的数据,并且将其处理结果输入到第三层33。如上所述,当可以在第一层至第n层31、32、33...和39中的每一个中顺序地处理输入到第一层31的数据时,可以从第n层39输出最终数据。
根据本公开的实施例的输入图像10可以以区域为单位输入到图像处理网络30。例如,输入图像10可以以特定区域为单位输入到图像处理网络30,每个特定区域包括输入图像10中所包括的作为中心像素的每个像素。根据本公开的实施例,将输入图像10输入到图像处理网络30的操作可以指将输入图像10输入到图像处理网络30的第一层31的操作。
可以基于第一层31的参数(滤波器核)的大小来确定输入图像10中的要输入的区域的大小。例如,当第一层31的参数的大小为3×3时,为了在要输入到第一层31的区域与参数之间执行计算,输入到第一层31的区域的大小可以为3×3。然而,本公开不限于此。
输入图像10可以包括一个或多个对象。输入图像10可以具有根据输入图像10中包括的对象的类别根据对象区域而彼此区分的特征,并且针对图像处理而优化的模型根据输入图像10中包括的对象区域而变化。因此,根据本公开的实施例的显示设备100可以根据基于输入图像10中包括的对象的区域和像素来获得对象特征,并且可以通过使用模型信息来执行图像处理,该模型信息根据针对每个区域和像素的对象特征而不同。
显示设备100可以通过使用根据输入图像10中的区域和像素而不同的模型信息来执行图像处理,并且将参考图2更详细地描述该图像处理。
图2是示出了根据本公开的实施例的图像处理网络的结构的图。
参考图2,图像处理网络30可以包括其中多个层串联连接的结构。例如,多个层可以包括第一层至第n层31、32、33...39。
第一图像210可以以区域为单位输入到图像处理网络30。例如,第一图像210的第一区域211、第二区域212和第三区域213可以顺序地输入到图像处理网络30。第一区域211或第一区域211的中心像素可以具有第一对象特征(例如,“面部”特征),并且第二区域212或第二区域212的中心像素可以具有第二对象特征(例如,“文本”特征)。此外,第三区域213或第三区域213的中心像素可以具有第三对象特征(例如,“背景”特征)。
在这种情况下,显示设备100可以通过使用根据对象特征的不同模型信息而不是相同模型信息来对第一区域至第三区域211、212和213执行图像处理,从而提高图像处理的准确性或性能。
为了使用根据每个区域的对象特征的不同模型信息来执行图像处理,显示设备100可以获得与输入区域的对象特征相对应的模型信息,并且根据该模型信息来更新图像处理网络30中包括的多个层的参数。
这里,当显示设备100同时更新图像处理网络30中包括的所有多个层的参数时,发生相对于下一个区域的延迟,直到在第一层至第n层31、32、33...39中顺序地处理输入区域。例如,当图像处理网络30处理第一区域211时,基于与第一区域211的第一对象特征相对应的第一模型信息来同时更新图像处理网络30的第一层至第n层31、32、33...39的所有参数。当图像处理网络30处理第一区域211时,图像处理网络30可能无法处理第二区域212,直到在第一层至第n层31、32、33…39中完成对第一区域211的图像处理。
因此,在当前输入区域的图像处理时存在延迟,直到完成先前输入区域的图像处理。此外,图像处理网络30中包括的层数越多(随着网络的深度增加),延迟时间增加。
因此,根据本公开的实施例的显示设备100可以基于与输入到图像处理网络30的区域相对应的模型信息来更新每个层的参数,而不是基于相同模型信息来更新图像处理网络30中包括的所有参数。显示设备100可以在每个层中获得输入到对应层的区域的模型信息,并且基于所获得的模型信息来更新每个层的参数。
根据本公开的实施例的显示设备100可以基于输入图像的每个区域(每个像素)的模型信息以及由图像处理网络30针对每个区域(每个像素)处理的时间点信息来更新图像处理网络30中包括的多个层的参数。
输入到图像处理网络30的图像的区域按照它们输入到图像处理网络30的顺序被处理并输出。例如,第一图像210的区域输入到第一层31,并且以流水线方式在第一层至第n层31、32、33…39中被顺序地处理,并且从第n层39输出。
因此,在时间T处在第K层中处理的区域在时间T+1处在第K+1层中进行处理,并且因此,在时间T+1处的第K+1层的参数可以基于在时间T(先前时间点)处的第K层的模型信息进行更新。
例如,如图2所示,当第一图像的第一区域211、第二区域212和第三区域213被顺序地输入到图像处理网络30时,在时间T处在第一层31中处理第一区域211,然后,在时间T+1处,在作为第一层31的下一层的第二层32中处理第一区域211,并且在第一层31中处理第二区域212。此外,在时间T+2处,在作为第二层32的下一层的第三层33中处理第一区域211,并且在第二层32处理第二区域212,并且在第一层31中处理第三区域213。
因此,可以在时间T处基于与第一区域211相对应的第一模型信息更新第一层31的参数。此外,在时间T+1处,可以基于与第二区域212相对应的第二模型信息来更新第一层211的参数,并且可以基于第一模型信息来更新第二层212的参数。此外,在时间T+2处,可以基于与第三区域213相对应的第三模型信息来更新第一层31的参数,并且可以基于第二模型信息来更新第二层212的参数,并且可以基于第一模型信息来更新第三层213的参数。
此外,根据本公开的实施例的显示设备100可以基于在每个层中更新的参数来执行计算,并且可以将通过每个层中的计算而获得的结果值输入到下一层。显示设备100可以通过在每个预设周期在每个层中重复参数更新操作和计算操作而处理第一图像210来获得第二图像220。
在下文中,将参考附图详细描述由根据本公开的实施例的显示设备更新多个层的参数的方法。
图3是根据本公开的实施例的显示设备的操作方法的流程图。
参考图3,根据本公开的实施例的显示设备100可以接收第一图像(操作S310)。例如,显示设备100可以从外部设备或外部服务器接收第一图像。
根据本公开的实施例的显示设备100可以获得与所接收的第一图像相对应的模型信息(操作S320)。
显示设备100可以提取分别与第一图像中包括的像素相对应的对象特征,并且可以基于该对象特征来获得分别与像素相对应的模型信息。例如,显示设备100可以检测第一图像中包括的一个或多个对象,并且基于所检测的对象来确定一个或多个对象区域。这里,显示设备100可以使用通过使用边界框(正方形)表示第一图像中包括的所检测的对象区域的方法以及以像素为单位表示所检测的对象区域的分割方法。然而,本公开不限于此。
当确定一个或多个对象区域时,显示设备100可以确定与对象区域的对象特征相对应的模型信息作为与对象区域中包括的像素相对应的模型信息。例如,显示设备100可以将与面部特征相对应的模型信息分配给从第一图像检测的“面部”区域中包括的像素。此外,显示设备100可以将与文本特征相对应的模型信息分配给“文本”区域中包括的像素。
显示设备100可以以上述方式获得分别与第一图像中包括的像素相对应的模型信息。
虽然上面已经描述了针对每个像素获得模型信息,但本公开不限于此,并且可以针对第一图像的包括多于一个像素的每个区域获得模型信息。
此外,显示设备100可以基于分别与从第一图像检测的对象区域相对应的多条模型信息的加权和来获得第一图像中包括的每个像素的模型信息。例如,显示设备100可以基于第一图像中包括的第一像素与从第一图像检测的对象区域的中心之间的距离来确定与从第一图像检测的对象区域相对应的模型信息的权重。显示设备100可以基于所确定的权重来获得第一像素的模型信息。稍后将参考图9和图10对此进行详细描述。
根据本公开的实施例的显示设备100可以基于分别与像素相对应的模型信息以及关于每个像素被图像处理网络处理的时间点的信息来针对每个层获得分别与层相对应的模型信息(操作S330)。
显示设备100可以基于参数更新信息针对每个层获得分别与层相对应的模型信息,在该参数更新信息中,第一图像中包括的像素信息、与像素相对应的模型信息和与像素相对应的时间点信息彼此映射。与像素相对应的时间点信息可以指示具有作为中心像素的像素的区域被输入到图像处理网络的第一层的时间点或者输入到第一层的区域在第一层中被处理的时间点。
显示设备100可以基于具有作为中心像素的每个像素的区域被输入到图像处理网络的第一层的时间点以及每个像素的模型信息来获得与第一层相对应的模型信息。
此外,对于图像处理网络中的除了第一层之外的其余层,显示设备100可以基于用于在先前时间点处对先前层进行参数设置的模型信息来获得与其余层相对应的模型信息。
根据本公开的实施例的显示设备100可以基于针对每个层获得的模型信息来更新各个层的参数(操作S340)。
显示设备100可以基于输入到第一层的第一图像的第一区域,将第一层的参数更新为与第一区域相对应的第一模型信息中包括的参数,并且基于输入到第二层(第二层是第一层的下一层)的第一区域和输入到第一层的第二区域,将第一层的参数更新为与第二区域相对应的第二模型信息中包括的参数并将第二层的参数更新为第一模型信息中包括的参数。
此外,基于输入到第三层(第三层是第二层的下一层)的第一区域、输入到第二层的第二区域以及输入到第一层的第三区域,可以将第一层的参数更新为与第三区域相对应的第三模型信息中包括的参数,可以将第二层的参数更新为第二模型信息中包括的参数,并且可以将第三层的参数更新为第一模型信息中包括的参数。
根据本公开的实施例的显示设备100可以通过基于更新后的参数对多个层中的每个层执行计算来获得第二图像(操作S350)。
例如,显示设备100可以基于更新后的参数在多个层中的每个层中执行计算,并且可以将计算的结果输入到下一层。显示设备100可以通过在每个预设周期在多个层中的每个层中重复参数更新操作和计算操作来获得第二图像。
根据本公开的实施例的显示设备100可以显示所获得的第二图像(操作S360)。
图4是用于描述由根据本公开的实施例的显示设备执行的获得与第一图像相对应的模型信息的方法的图。
参考图4,根据本公开的实施例,显示设备100可以包括对象检测模块。根据本公开的实施例的对象检测模块可以包括被操作以从第一图像410中检测对象的适当逻辑、电路、接口和/或代码。
如图4所示,根据本公开的实施例的对象检测模块可以通过使用对象检测网络420来识别图像中包括的对象并获得所识别的对象的类别、尺寸、位置信息等。
根据本公开的实施例的对象检测网络420可以是接收图像并检测输入图像中包括的至少一个对象的神经网络。对象检测网络420可以通过使用一个或多个神经网络从第一图像410检测一个或多个对象,并且可以输出包括与所检测的一个或多个对象相对应的对象类别和对象位置在内的对象信息。
这里,对象检测包括确定对象在给定图像中所在的位置(对象定位)以及确定每个对象属于哪个类别(对象分类)。因此,对象检测网络420通常可以包括三个操作,即,选择对象候选区域、从每个候选区域提取特征、以及将分类器应用于所提取的特征以对对象候选区域的类别进行分类。根据检测方法,可以通过诸如边界框回归之类的后处理来提高定位性能。
根据本公开的实施例的对象检测网络420可以是具有执行计算的多个内部层的深度神经网络(DNN)、或包括执行卷积运算的卷积层作为内部层的卷积神经网络(CNN),但不限于此。
参考图4,根据本公开的实施例的对象检测网络420可以包括区域建议模块421、CNN 422和分类器模块423。
区域建议模块421可以从第一图像410中提取候选区域。候选区域可以限于预设数量,但不限于此。
CNN 422可以从由区域建议模块421生成的区域提取特征信息。
分类器模块423可以接收从CNN 422提取的特征信息作为输入,并且执行分类。
为了使神经网络准确地输出与输入数据相对应的结果数据,需要根据目的来训练神经网络。这里,“训练”可以指训练神经网络,使得神经网络可以自己发现或学习将各种类型的数据输入到神经网络并分析输入数据的方法、对输入数据进行分类的方法、和/或从输入数据中提取用于生成结果数据所需的特征的方法等。详细地,通过训练过程,神经网络可以通过训练学习数据(例如,多个不同的图像)来优化并设置神经网络中的权重值。然后,通过具有优化的权重值的神经网络自学习输入数据来输出期望的结果。
例如,通过训练,对象检测网络420中包括的权重值可以被优化,使得对象检测网络420检测输入到对象检测网络420的图像中包括的至少一个对象。在这种情况下,可以训练对象检测网络420以从图像中检测各种类型的对象信息,例如面部(人)、文本、人工制品和自然对象(背景)。
因此,已经完成训练的对象检测网络420可以接收图像,检测图像中包括的至少一个对象,并且输出所检测到的结果。例如,对象检测网络420可以检测第一图像410中包括的各种类型的对象区域,例如面部(人)、文本、人工制品和自然对象(背景)。
如图4所示,从对象检测网络420输出的图像430可以包括关于从输入的第一图像410检测到的对象的信息。关于对象的信息可以包括关于所检测的对象的类别的信息和指示所检测的对象的位置的边界框435。然而,关于对象的信息不限于此,并且可以在输出图像430上输出从以各种方式输入的第一图像410中检测到的对象。
虽然在图4中,所检测的对象区域被示出为正方形边界框,但本公开不限于此。
根据本公开的实施例的对象检测模块可以以像素为单位分割第一图像,并且基于分割的区域来检测对象区域。在这种情况下,可以检测各种形式的对象区域。
根据本公开的实施例的显示设备100可以基于所检测的对象区域的对象特征来获得与第一图像410相对应的模型信息。例如,可以将与面部特征相对应的模型A分配给第一对象区域441和第二对象区域442中包括的像素。此外,可以将与文本特征相对应的模型B分配给第三对象区域443中包括的像素,并且可以将与背景特征相对应的模型C分配给第四对象区域444中包括的像素。
图5示出了根据本公开的实施例的每个像素的模型信息以及关于像素在图像处理网络中被处理的时间点的信息。
参考图5,根据本公开的实施例的显示设备100可以获得分别与第一图像510中包括的像素相对应的模型信息520。参考图4详细描述了获得模型信息520的方法,因此,将省略其详细描述。
此外,根据本公开的实施例的显示设备100可以获得关于第一图像中包括的每个像素被根据本公开的实施例的图像处理网络30处理的时间点的信息(时间点信息)。时间点信息可以包括关于包括第一图像中所包括的像素(作为中心像素)的区域被输入到图像处理网络30的时间点的信息。例如,如图5所示,具有作为中心像素的第一像素P1的第一区域被输入到图像处理网络30的时间点可以是T1,并且包括作为中心像素的第二像素P2的第二区域被输入到图像处理网络30的时间点可以是T2。
备选地,根据本公开的实施例的时间点信息可以包括关于具有第一图像中包括的作为中心像素的每个像素的区域被输入到第一层的时间点的信息、或关于在包括第一图像中所包括的作为中心像素的每个像素的区域与第一层中的参数之间进行计算的时间点的信息等。然而,本公开不限于此。
此外,可以基于第一图像510中包括的每个区域被输入到图像处理网络30的顺序、每个区域被输入的周期、每个区域在每个层中被处理的周期等来确定时间点信息。
例如,当时间点信息是关于区域被输入到图像处理网络30的时间点的信息,并且第一区域和第二区域按顺序被输入到图像处理网络30,并且第一区域和第二区域以周期P0被输入到图像处理网络30时,第二区域的时间点信息T2可以被确定为T1(第一区域的时间点信息)+P0。
此外,当时间点信息是关于区域在第一层31中被处理的时间点的信息,并且第一区域和第二区域按顺序被输入到图像处理网络,并且输入区域与参数之间的计算在第一层中以周期P1被执行时,第二区域的时间点信息T2可以被确定为T1(第一区域的时间点信息)+P1。
根据本公开的实施例的显示设备100可以获得参数更新信息530,在参数更新信息530中,每个像素被映射到对应的模型信息520和对应的时间点信息。根据本公开的实施例的参数更新信息530可以以各种形式出现。
图6和图7是用于描述由根据本公开的实施例的显示设备执行的基于参数更新信息来更新图像处理网络的参数的方法的图。
参考图6,根据本公开的实施例的显示设备100可以包括参数更新器610和模型信息存储器(例如,存储器)620。
根据本公开的实施例的参数更新器610可以包括适当的逻辑、电路、接口和/或代码,其被操作以基于参数更新信息来更新图像处理网络30中包括的多个相应层的参数。
根据本公开的实施例的参数更新器610可以基于参数更新信息中包括的针对每个像素的模型信息来针对每个层确定分别与层相对应的模型信息。参数更新器610可以从模型信息存储器620获得所确定的模型信息,并且更新层的参数。
模型信息存储器620可以存储从外部设备或外部服务器接收的多条模型信息。多条模型信息可以是已经被训练的图像处理网络的参数信息,其中,通过使用具有不同对象特性的训练图像集训练图像处理网络来获得参数信息。稍后将参考图8详细描述获得多条模型信息的方法。
用于将区域或像素的像素值输入到根据本公开的实施例的图像处理网络30的时钟信号、施加到图像处理网络30的时钟信号、以及施加到参数更新器610的时钟信号可以彼此同步。
参数更新器610可以接收参数更新信息,并且基于参数更新信息来更新多个层的参数。将参考图7对此进行详细描述。
如参考图5所述,根据本公开的实施例的参数更新信息可以是其中像素信息、与像素相对应的模型信息、以及与像素相对应的时间点信息被映射的信息。与像素相对应的时间点信息可以是具有作为中心像素的像素的区域被输入到第一层31的时间点或者输入到第一层31的区域在第一层31中被处理的时间点。时间点信息可以指示每个层的数据输入时间或数据处理时间。然而,本公开不限于此。
根据本公开的实施例的参数更新器610可以基于参数更新信息中包括的每个像素的模型信息以及具有作为中心像素的每个像素的区域被输入到第一层31的时间点来更新第一层31的参数。
例如,当根据本公开的实施例的参数更新信息包括指示与第一像素P1相对应的模型信息是模型A并且具有作为中心的第一像素P1的区域在时间T1处被输入到第一层31的信息时,如图7所示,参数更新器610可以基于时间T1将第一层31的参数设置为模型A中包括的第一参数。
此外,当参数更新信息包括指示与第二像素P2相对应的模型信息是模型A并且具有作为中心的第二像素P2的区域在时间T2处被输入到第一层31的信息时,参数更新器610可以不更新第一层31的参数,而是保持与第一参数相同。
此外,当参数更新信息包括指示与第三像素P3相对应的模型信息是模型B并且具有作为中心的第三像素P3的区域在时间T3处被输入到第一层31的信息时,参数更新器610可以将第一层31的参数更新为模型B中包括的第二参数。
此外,参数更新器610可以基于用于在先前时间点处设置先前层的参数的模型信息来更新除了第一层31之外的其余层的参数。
例如,参数更新器610可以在时间T2处将第二层32的参数设置为模型A中包括的第三参数,该第三参数用于在先前时间点(即,T1)处设置作为先前层的第一层31的参数。
此外,可以将时间T4处的第二层32的参数更新为模型B中包括的第四参数,该第四参数用于在先前时间点(即,T3)处设置第一层31的参数。
此外,参数更新器610可以以与第二层32相同的方式来更新第三层31至第n层39的参数。
此外,在每个层中,可以执行更新后的参数与输入区域之间的计算。
在实施例中,在先前时间点(例如,T2)处应用于先前层(例如,第二层32)的模型信息(例如,模型信息A)可以在后续时间点(例如,T3)处应用于后续层(例如,第三层33)。例如,一系列模型信息(例如,模型信息CBBBAA)可以沿时间域从该一系列模型信息(例如,模型信息CBBBAA)的最右侧模型(例如,模型信息A)开始被顺序地分配给这些层(例如,第一层31、第二层32和第三层33)。该一系列模型信息可以沿时间域向前移动,使得在时间T1处仅最右侧模型(例如,模型信息A)被分配给第一层31,从该一系列模型信息的右端开始的前两个模型(模型信息AA)在时间T2处被分别分配给第一层31和第二层32,并且从该一系列模型信息的右端开始的前三个模型(模型信息AAB)在时间T3处被分别分配给第一层31、第二层32和第三层33。在层31至33将被更新之前,确定时间点、层31至33以及该一系列模型信息之间的映射信息并且将其存储在存储器中,从而根据数据输入时间或数据处理时间将对应的模型信息应用于层31至33,而没有延迟。
根据本公开的实施例的时间点可以具有预设周期,在这种情况下,该周期可以基于区域(像素)被输入到图像处理网络30的周期、区域分别被输入到层和从层输出区域的周期、以及在每个层中进行计算所需的周期来确定,但不限于此。
虽然参考图7参数更新信息中包括的时间点信息被描述为每个区域被输入到第一层31的时间点,但当时间点信息是每个区域在第一层31中被处理的时间点时,可以以相同的方式更新多个层的参数。
如上所述,对于图像处理网络30中包括的多个层,当针对每个层根据对应层中所处理的区域的对象特征来更新参数时,可以提高图像处理的性能,并且也可以防止图像处理的延迟。
图8是用于描述根据本公开的实施例的获得多条模型信息的方法的图。
参考图8,根据本公开的实施例的多条模型信息可以由外部设备来确定,并且外部设备可以是与根据本公开的实施例的显示设备100不同的单独设备。例如,外部设备可以通过基于训练数据集训练图像处理网络810来确定图像处理网络810中包括的参数。图8的图像处理网络810可以是包括与参考图1至图7描述的图像处理网络30相同的结构的网络。
图像处理网络810可以是包括多个层的深度神经网络(DNN),并且为了使神经网络准确地输出与输入数据相对应的结果数据,需要根据目的来训练神经网络。这里,“训练”可以指训练神经网络,使得神经网络可以自己发现或学习将各种类型的数据输入到神经网络并分析输入数据的方法、对输入数据进行分类的方法、和/或从输入数据中提取用于生成结果数据所需的特征的方法等。具体地,通过训练过程,神经网络可以学习训练数据以优化并设置神经网络中的参数(权重、系数)。设置有优化参数的神经网络可以自学习输入数据以输出期望的结果。
根据本公开的实施例的图像处理网络810可以是接收图像、执行诸如放大或图像质量处理之类的图像处理、以及输出图像处理后的图像的神经网络。
外部设备可以通过基于多个训练数据集训练图像处理网络810来获得多条模型信息。可以基于具有不同对象特征的多个训练图像来生成多个训练数据集。
例如,当根据本公开的实施例的图像处理是用于提高分辨率的放大时,第一训练数据集可以包括低分辨率面部图像和高分辨率面部图像。此外,第二训练数据集可以包括低分辨率文本图像和高分辨率文本图像。此外,第三训练数据集可以包括低分辨率动物图像和高分辨率动物图像,并且第四训练数据集可以包括低分辨率背景图像和高分辨率背景图像。
外部设备可以通过基于第一训练数据集训练图像处理网络810来确定第一模型信息(模型A的参数信息)。
例如,外部设备可以将第一训练数据集中包括的低分辨率面部图像输入到图像处理网络810,以更新图像处理网络810中包括的参数使得输出图像(输出数据)与高分辨率面部图像之间的差异被最小化,从而确定第一模型信息(模型A的参数信息)。因此,基于第一训练数据集训练的图像处理网络810可以是针对面部图像优化的放大模型(模型A)。
以相同的方式,外部设备可以通过基于第二训练数据集训练图像处理网络810来确定第二模型信息(模型B的参数信息)。因此,基于第二训练数据集训练的图像处理网络810可以是针对文本图像优化的放大模型(模型B)。
此外,外部设备可以通过基于第三训练数据集训练图像处理网络810来确定第三模型信息(模型C的参数信息)。因此,基于第三训练数据集训练的图像处理网络810可以是针对动物图像优化的放大模型(模型C)。
此外,外部设备可以通过基于第四训练数据集训练图像处理网络810来确定第四模型信息(模型D的参数信息)。因此,基于第四训练数据集训练的图像处理网络810可以是针对背景图像优化的放大模型(模型D)。
图9是用于描述根据本公开的实施例的获得与第一图像相对应的模型信息的方法的图。
根据本公开的实施例的显示设备100可以检测第一图像910中包括的一个或多个对象以确定对象区域。例如,显示设备100可以将第一图像910划分为其中检测到人的面部的第一对象区域921和其中未检测到人的面部的第二对象区域922。根据本公开的实施例的显示设备100可以将与面部特征相对应的第一模型(模型A)分配给第一对象区域921中包括的像素,并且将与背景特征相对应的第二模型(模型B)分配给第二对象区域922中包括的像素。
如参考图1至图7所述,显示设备100可以基于分别与第一图像910中包括的像素相对应的模型信息来更新图像处理网络中包括的参数,并且基于更新后的参数对包括作为中心的每个像素的区域执行图像处理。
当显示设备100处理第一图像910时,在第一对象区域921和第二对象区域922之间的边界处,模型信息从第一模型信息改变为第二模型信息或者从第二模型信息改变为第一模型信息。当第一模型信息和第二模型信息之间的差异相对较大时,由于参数的突然变化,从图像处理网络输出的第二图像的第一对象区域和第二对象区域之间的边界处可能出现不连续性。
因此,根据本公开的实施例的显示设备100可以基于与第一对象区域921相对应的第一模型信息和与第二对象区域922相对应的第二模型信息的加权和来获得分别与第一图像910中包括的像素相对应的模型信息,使得逐渐改变第一对象区域921和第二对象区域922之间的模型信息。
例如,当第一图像中包括的对象区域为两个(即,第一对象区域和第二对象区域)时,分别与第一图像中包括的像素相对应的模型信息可以由下面的等式1来表示。
[等式1]
模型信息=第一权重×第一模型信息+(1-第一权重)×第二模型信息
此外,等式1可以由等式2表示如下。
[等式2]
模型信息=第二模型信息+第一权重×(第一模型信息-第二模型信息)
在等式2中,当第一模型信息和第二模型信息之间的差异被定义为增量(delta)模型时,等式2可以简单地由下面的等式3表示。
[等式3]
模型信息=第二模型信息+第一权重×增量模型
等式3的增量模型可以用于通过预先计算第一模型信息和第二模型信息之间的差异来获得模型信息,而无需附加计算。
不使用增量模型来获得模型信息的方法(例如,等式1)需要与该模型中包括的参数的数量的两倍一样多的乘法运算;当参数的数量为100万时,需要200万次乘法运算。
然而,在使用如等式3所示的增量模型来获得模型信息的方法中,与使用等式1的方法相比,乘法运算的次数减少了一半。因此,当实现网络时,可以最小化附加功耗。此外,增量模型指示模型之间的差异,并且增量模型中包括的参数的统计分布主要集中在相对较小的范围内。因此,增量模型有利于量化或压缩。
根据本公开的实施例,通过使用增量模型获得模型信息,可以降低量化精度并且可以最小化功耗。
此外,即使在图像包括三个或更多个对象时,由于图像的部分区域可以被表示为具有背景区域的单个对象区域,因此根据本公开的实施例的使用增量模型获得模型信息的方法也可以应用于三个或更多个对象区域。
参考图9,显示设备100可以基于第一图像910中包括的第一像素930与第一对象区域921的中心940之间的距离来确定第一权重。当第一对象区域921是边界框的形式时,第一对象区域921的中心940可以通过下面的等式4来计算。
[等式4]
对象区域的中心坐标=(对象区域的左上坐标+对象区域的右下坐标)/2
根据本公开的实施例的第一权重具有大于或等于0且小于或等于1的值,并且与第一对象区域921的中心940和第一像素930之间的距离成反比。例如,第一权重的值随着到第一对象区域921的中心940的距离增加而减小,并且随着距离减小而增加。
当分别与第一图像910中包括的像素相对应的模型信息表现为第一模型信息(模型信息A)和第二模型信息(模型信息B)的加权和时,根据本公开的实施例的参数更新器610可以基于第一权重来计算第一模型信息和第二模型信息的加权和,并且基于第一模型信息和第二模型信息的加权和来更新层的参数。
图10是用于描述根据本公开的实施例的获得与第一图像相对应的模型信息的方法的图。
参考图10,根据本公开的实施例的第一图像1010可以被划分为三个或更多个对象区域。例如,第一图像1010可以被划分为第一对象区域至第四对象区域1021、1022、1023和1024。第一对象区域1021是从其检测到面部的区域,并且可以包括面部特征。第二对象区域1022是其中检测到文本的区域并且可以包括文本特征,第三对象区域1023是其中检测到动物的区域并且可以包括动物特征,并且第四对象区域1024是除了第一对象区域至第三对象区域1021、1022和1023之外的区域并且可以包括背景特征。然而,本公开不限于此。
根据本公开的实施例的显示设备100可以基于与面部特征相对应的第一模型信息A、与文本特征相对应的第二模型信息B、与动物特征相对应的第三模型信息C、以及与背景特征相对应的第四模型信息D的加权和来获得分别与第一图像1010中包括的像素相对应的模型信息。
例如,可以通过对以下值进行求和来获得关于第一图像1010中包括的第一像素1030的模型信息:通过将第一权重应用于第一模型信息A而获得的值、通过将第二权重应用于第二模型信息B而获得的值、通过将第三权重应用于第三模型信息C而获得的值、以及通过将第四权重应用于第四模型信息D而获得的值。
第一权重是与第一像素1030和第一对象区域1021的中心1040之间的距离成反比的值,第二权重是与第一像素1030和第二对象区域1022的中心1050之间的距离成反比的值,并且第三权重是与第一像素1030和第三对象区域1023的中心1060之间的距离成反比的值。第一权重至第三权重可以是归一化值,并且第四权重可以被确定为通过从1减去第一权重至第三权重而获得的值。
虽然图9和图10示出和描述了对象区域被表示为边界框的情况,但当对象区域被表示为以像素为单位的分割区域时,可以通过计算对象区域中包括的所有像素坐标的平均值来获得对象区域的中心。
此外,在参考图9和图10的描述中,显示设备100仅使用根据像素与对象区域的中心之间的距离而确定的权重来计算与像素相对应的模型信息。然而,本公开不限于此,并且不仅可以通过考虑到对象区域的距离,还可以通过考虑对象区域的面积、对象区域在第一图像中的比率、对象区域的亮度等来确定权重。
图11是根据本公开的实施例的显示设备的配置的框图。
参考图11,根据本公开的实施例的显示设备100可以包括图像接收器110、处理器120、存储器130和显示器140。
根据本公开的实施例的图像接收器110可以包括通信接口、输入/输出接口等。例如,通信接口可以向外部设备或服务器发送数据或信号,或者从外部设备或服务器接收数据或信号。例如,通信接口可以包括收发器、Wi-Fi模块、蓝牙模块、红外通信模块和无线通信模块、局域网(LAN)模块、以太网模块、有线通信模块等。每个通信模块可以以至少一个硬件芯片的形式实现。
Wi-Fi模块和蓝牙模块分别使用Wi-Fi方法和蓝牙方法来执行通信。在使用Wi-Fi模块或蓝牙模块的情况下,首先发送和接收诸如服务集标识符(SSID)和会话密钥之类的各种类型的连接信息,并且可以在通过使用连接信息建立通信连接之后发送/接收各种类型的信息。无线通信模块可以包括根据各种无线通信标准(例如,Zigbee、第三代(3G)、第三代合作伙伴计划(3GPP)、长期演进(LTE)、高级LTE(LTE-A)、第四代(4G)、第五代(5G)等)来执行通信的至少一个通信芯片。
备选地,输入/输出接口可以从显示设备100的外部接收视频(例如,运动图像等)、音频(例如,语音、音乐等)和附加信息(例如,电子节目指南(EPG)等)。输入/输出接口可以包括高清多媒体接口(HDSI)、移动高清链路(MHL)、通用串行总线(USB)、显示端口(DP)、雷雳(Thunderbolt)、视频图形阵列(VGA)端口、RGB端口、D超微型(D-SUB)、数字视频接口(DVI)、组件插孔(component jack)和PC端口之一。
根据本公开的实施例的图像接收器110可以接收一个或多个图像。
根据本公开的实施例的处理器120可以控制显示设备100的整体操作以及显示设备100的内部组件之间的信号流,并且处理数据。
处理器120可以包括单核或诸如双核、三核、四核等的多核。此外,处理器120可以包括多个处理器。例如,处理器120可以实现为主处理器和在睡眠模式下操作的子处理器。
此外,根据本公开的实施例的处理器120可以包括中央处理单元(CPU)、图形处理单元(GPU)或视频处理单元(VPU)中的至少一个。备选地,根据本公开的实施例,处理器120可以实现为其中集成有CPU、GPU或VPU中的至少一个的片上系统(SoC)的形式。
根据本公开的实施例的存储器130可以存储用于驱动并控制显示设备100的各种数据、程序或应用。
存储在存储器130中的程序可以包括一个或多个指令。存储器130中存储的程序(一个或多个指令)或应用可以由处理器120执行。
根据本公开的实施例的处理器120可以包括参考图4描述的对象检测模块或参考图6描述的参数更新器中的至少一个。
根据本公开的实施例的处理器120可以提取分别与所接收的第一图像中包括的像素相对应的对象特征,并且可以基于对象特征来获得分别与像素相对应的模型信息。例如,处理器120可以检测第一图像中包括的一个或多个对象,并且基于所检测的对象来确定一个或多个对象区域。这里,显示设备100可以使用将第一图像中包括的所检测的对象区域表示为边界框(方形)的方法和以像素为单位表示所检测的对象区域的分割方法。然而,本公开不限于此。
当确定一个或多个对象区域时,处理器120可以确定与对象区域的对象特征相对应的模型信息作为与对象区域中包括的像素相对应的模型信息。例如,处理器120可以将与面部特征相对应的模型信息分配给在第一图像中检测的“面部”区域中包括的像素。此外,可以将与文本特征相对应的模型信息分配给“文本”区域中包括的像素。处理器120可以以上述方式获得分别与第一图像中包括的像素相对应的模型信息。此外,处理器120可以获得第一图像中包括的每个区域的模型信息。
此外,处理器120可以基于与从第一图像检测的对象区域相对应的多条模型信息的加权和来获得第一图像中包括的每个像素的模型信息。例如,处理器120可以基于第一图像中包括的第一像素与从第一图像检测的对象区域的中心之间的距离来确定与对象区域相对应的模型信息的权重,并且基于所确定的权重来获得第一像素的模型信息。
处理器120可以接收参数更新信息,在该参数更新信息中,第一图像中包括的像素的像素信息、与像素相对应的模型信息、以及与像素相对应的时间点信息彼此映射。与像素相对应的时间点信息可以是具有作为中心像素的像素的区域被输入到图像处理网络的第一层的时间点或者输入到第一层的区域在第一层中被处理的时间点。处理器120可以基于具有作为中心像素的每个像素的区域被输入到图像处理网络的第一层31的时间点以及每个像素的模型信息来获得与第一层相对应的模型信息。
此外,对于图像处理网络中的除了第一层之外的其余层,处理器120可以基于用于在先前时间点处对先前层进行参数设置的模型信息来获得与其余层相对应的模型信息。
处理器120可以基于针对每个层获得的模型信息来更新各个层的参数。例如,处理器120可以基于输入到第一层的第一图像的第一区域,将第一层的参数更新为与第一区域相对应的第一模型信息中包括的参数,并且基于输入到第二层(第二层是第一层的下一层)的第一区域和输入到第一层的第二区域,将第一层的参数更新为与第二区域相对应的第二模型信息中包括的参数并将第二层的参数更新为第一模型信息中包括的参数。此外,基于输入到第三层(第三层是第二层的下一层)的第一区域、输入到第二层的第二区域以及输入到第一层的第三区域,可以将第一层的参数更新为与第三区域相对应的第三模型信息中包括的参数,可以将第二层的参数更新为第二模型信息中包括的参数,并且可以将第三层的参数更新为第一模型信息中包括的参数。
例如,处理器120可以基于更新后的参数执行多个层中的每个层中的计算,并且可以将计算的结果输入到下一层。处理器120可以通过在每个预设周期在多个层中的每个层中重复参数更新操作和计算操作来获得第二图像。
处理器120可以控制在显示器140上显示第二图像。
根据本公开的实施例的显示器140通过转换由处理器120处理的图像信号、数据信号、屏上显示(OSD)信号、控制信号等来生成驱动信号。显示器140可以用等离子体显示面板(PDP)、液晶显示器(LCD)、有机发光二极管(OLED)、柔性显示器等来实现,并且还可以实现为三维(3D)显示器。此外,显示器140可以配置有触摸屏,并且用作输入设备以及输出设备。
根据本公开的实施例的显示器140可以显示执行了放大或图像质量处理的第二图像。
图12是根据本公开的另一实施例的显示设备的配置的框图。
参考图12,图12的显示设备1200可以是参考图1至图11描述的显示设备100的实施例。
参考图12,根据本公开的实施例的显示设备1200可以包括调谐器单元1240、处理器1210、显示单元1220、通信单元1250、传感器1230和输入/输出单元1270、视频处理单元1280、音频处理单元1285、音频输出单元1260、存储器1290和电源单元1295。
图12的通信单元1250是与图11的图像接收器110中包括的通信接口相对应的配置,图12的输入/输出单元1270是与图11的图像接收器110中包括的输入/输出接口相对应的配置,图12的处理器1210对应于图11的处理器120,存储器1290对应于图11的存储器130,并且图12的显示单元1220对应于图11的显示器140。因此,这里将省略上面提供的对细节的描述。
根据本公开的实施例的调谐器单元1240可以通过对以有线或无线方式接收的广播信号执行放大、混合、谐振等从大量无线电波分量之中调谐并选择显示设备1200要接收的频道的频率。广播信号包括音频、视频和附加信息(例如,电子节目指南(EPG))。
调谐器单元1240可以从各种源(例如,地面广播、有线广播、卫星广播、互联网广播等)接收广播信号。调谐器单元1240可以从诸如模拟广播或数字广播之类的源接收广播信号。
传感器1230可以检测用户的语音、用户的图像或用户的交互,并且可以包括麦克风1231、相机单元1232和光接收器1233。
麦克风1231可以接收用户发出的语音。麦克风1231可以将所接收的语音转换为电信号,并且将其输出到处理器1210。用户的语音可以包括例如与显示设备1200的菜单或功能相对应的语音。
相机单元1232可以在相机识别范围内接收与包括手势在内的用户运动相对应的图像(例如,连续帧)。处理器1210可以通过使用所接收的运动的识别结果来选择在显示设备1200上显示的菜单,或者执行与运动识别结果相对应的控制。
光接收器1233可以经由显示单元1220的边框的光窗接收从外部控制设备接收的光信号(包括控制信号)。光接收器263可以从遥控设备接收与用户输入(例如,触摸、按压、触摸手势、语音或运动)相对应的光信号。可以在处理器1210的控制下从所接收的光信号中提取控制信号。
处理器1210可以控制显示设备1200的整体操作以及显示设备1200的内部组件之间的信号流,并且处理数据。当存在用户输入或者满足预设和存储的条件时,处理器1210可以执行存储器1290中存储的操作系统(OS)和各种应用。
处理器1210可以包括用于存储从显示设备1200的外部输入的信号或数据或者用作与在显示设备1200中执行的各种作业相对应的存储区域的RAM、以及存储用于控制显示设备1200和处理器的控制程序的ROM。
视频处理单元1280对由显示设备1200接收的视频数据执行处理。视频处理单元1280可以对视频数据执行各种图像处理,例如解码、缩放、噪声去除、帧速率转换、分辨率转换等。
音频处理单元1285可以对音频数据执行处理。在音频处理单元1285中,可以对音频数据执行诸如解码或放大或噪声去除之类的各种处理。音频处理单元1285可以包括多个音频处理模块,用于处理与多条内容相对应的音频。
音频输出单元1260在处理器1210的控制下输出通过调谐器单元1240接收的广播信号中包括的音频。音频输出单元1260可以输出通过通信单元1250或输入/输出单元1270输入的音频(例如,语音、声音)。此外,音频输出单元1260可以在处理器1210的控制下输出存储器1290中存储的音频。音频输出单元1260可以包括扬声器、耳机输出端子或索尼/飞利浦数字接口(S/PDIF)输出端子中的至少一个。
电源单元1295在处理器1210的控制下将从外部电源输入的电力供应给显示设备1200内部的组件。此外,电源单元1295可以在处理器1210的控制下,将从位于显示设备1200内部的一个或多个电池输出的电力供应给其中的内部组件。
存储器1290可以存储各种数据、程序或应用,用于在处理器1210的控制下驱动和控制显示设备1200。存储器1290可以包括广播接收模块、频道控制模块、音量控制模块、通信控制模块、语音识别模块、运动识别模块、光接收模块、显示控制模块、音频控制模块、外部输入控制模块、电力控制模块、无线(例如,蓝牙)连接的外部设备的电力控制模块、语音数据库(DB)或运动数据库(DB)。存储器1290的模块和数据库可以以软件的形式实现,以在显示设备1200中执行广播接收控制功能、频道控制功能、音量控制功能、通信控制功能、语音识别功能、运动识别功能、光接收控制功能、显示控制功能、音频控制功能、外部输入控制功能、电力控制功能或无线(例如,蓝牙)连接的外部设备的电力控制功能。处理器1210可以通过使用存储器1290中存储的这些软件来执行各个功能。
图11和图12所示的显示设备100和1200的框图是针对本公开的实施例的框图。可以根据实际实现的显示设备100和1200的规范来集成、添加或省略框图的每个组件。即,当需要时,两个或更多个组件可以被组合为单个组件,或者单个组件可以被划分为两个或更多个组件。此外,由每个块执行的功能用于说明本公开的实施例,并且其具体操作或设备不限制本公开的范围。
根据本公开的实施例的显示设备的操作方法可以被体现为可由各种计算机装置执行的程序命令,并且可以被记录在计算机可读记录介质上。计算机可读记录介质可以包括单独或组合的程序命令、数据文件、数据结构等。写入到计算机可读记录介质的程序命令可以被专门设计和配置用于本公开,或者可以是本领域普通技术人员公知和可用的。计算机可读记录介质的示例包括磁介质(例如,硬盘、软盘、磁带等)、光学介质(例如,CD-ROM或DVD)、磁光介质(例如,软盘)、以及专门被配置为存储并执行程序命令的硬件设备(例如,ROM、RAM、闪存等)。程序命令的示例不仅包括由编译器形成的机器语言代码,而且还包括能够由计算机通过使用解释器执行的高级语言代码等。
此外,根据所公开的实施例的显示设备的操作方法可以包括在计算机程序产品中并且以该形式提供。计算机程序产品可以作为商品在卖方和买方之间进行交易。
计算机程序产品可以包括S/W程序、存储S/W程序的计算机可读存储介质。例如,计算机程序产品可以包括通过设备制造商或电子市场(例如,Google Play Store、App Store等)电子分发的S/W程序形式的产品(例如,可下载的应用)。对于电子分发,S/W程序的至少一部分可以存储在存储介质中或者可以被临时生成。在这种情况下,存储介质可以是制造商的服务器的存储介质、电子市场的服务器或暂时存储SW程序的中继服务器。
在由服务器和客户端设备组成的系统中,计算机程序产品可以包括服务器的存储介质或客户端设备的存储介质。备选地,当存在通过通信连接到服务器或客户端设备的第三设备(例如,智能电话)时,计算机程序产品可以包括第三设备的存储介质。备选地,计算机程序产品可以包括从服务器发送给客户端设备或第三设备或者从第三设备发送给客户端设备的S/W程序本身。
在这种情况下,服务器、客户端设备和第三设备中的一个可以执行计算机程序产品以执行根据所公开的实施例的方法。备选地,服务器、客户端设备和第三设备中的两个或更多个可以执行计算机程序产品,以按分布式方式实现根据所公开的实施例的方法。
例如,服务器(例如,云服务器或人工智能服务器)可以执行存储在服务器中的计算机程序产品,以控制与服务器通信连接的客户端设备执行根据所公开的实施例的方法。
上述示例性实施例仅仅作为示例而不应被解释为限制。本教导能够被容易地应用于其他类型的装置。此外,对示例性实施例的描述意在是说明性的,而不是为了限制权利要求的范围,并且本领域技术人员将清楚多种替代、修改和变化。

Claims (15)

1.一种用于通过使用包括多个层的神经网络来执行图像处理的显示设备,所述显示设备包括:
显示器;
存储器,存储一个或多个指令;以及
处理器,被配置为执行所述存储器中存储的所述一个或多个指令以:
基于分别与第一图像中包括的像素相对应的对象特征,获得分别与所述像素相对应的多条模型信息;
基于输入到所述神经网络的分别与所述像素相对应的所述多条模型信息以及关于每个所述像素在所述神经网络中被处理的时间点的信息,识别分别与所述多个层相对应的所述多条模型信息;
基于所述多条模型信息来更新所述多个层的参数;
通过经由应用了更新后的参数的所述多个层处理所述第一图像来获得第二图像;以及
控制所述显示器显示所述第二图像。
2.根据权利要求1所述的显示设备,其中,所述关于时间点的信息包括关于将每个所述像素输入到所述多个层中的每个层的数据输入时间的信息或者关于每个所述像素在所述多个层中的每个层中被处理的数据处理时间的信息中的至少一种。
3.根据权利要求2所述的显示设备,其中,所述数据输入时间或所述数据处理时间中的至少一个具有预定周期。
4.根据权利要求1所述的显示设备,其中,基于每个所述像素在所述第一图像中的位置来确定所述关于时间点的信息。
5.根据权利要求1所述的显示设备,其中,所述多个层串联连接,并且
所述处理器还被配置为将所述第一图像中包括的所述像素的每个像素值顺序地输入到所述多个层。
6.根据权利要求1所述的显示设备,其中,所述多个层包括第一层和所述第一层之后的第二层,并且所述第一图像的所述像素包括第一像素和第二像素,并且
其中,所述处理器还被配置为执行所述一个或多个指令以:
基于输入到所述第一层的所述第一像素的第一像素值,将所述第一层的参数更新为与所述第一像素相对应的第一模型信息中包括的参数;以及
基于输入到所述第二层的所述第一像素的所述第一像素值以及输入到所述第一层的所述第二像素的第二像素值,将所述第一层的参数更新为与所述第二像素相对应的第二模型信息中包括的参数,并且将所述第二层的参数更新为所述第一模型信息中包括的参数。
7.根据权利要求6所述的显示设备,其中,所述多个层包括所述第二层之后的第三层,并且所述第一图像的所述像素还包括第三像素,并且
其中,所述处理器还被配置为执行所述一个或多个指令以:基于输入到所述第三层的所述第一像素的所述第一像素值、输入到所述第二层的所述第二像素的所述第二像素值、以及输入到所述第一层的所述第三像素的第三像素值,将所述第一层的参数更新为与所述第三像素相对应的第三模型信息中包括的参数,将所述第二层的参数更新为所述第二模型信息中包括的参数,并且将所述第三层的参数更新为所述第一模型信息中包括的参数。
8.根据权利要求1所述的显示设备,其中,所述处理器还被配置为执行所述一个或多个指令以:
检测所述第一图像中包括的对象区域;以及
基于与所述对象区域相对应的多条模型信息,获得分别与所述第一图像中包括的所述像素相对应的所述多条模型信息。
9.根据权利要求8所述的显示设备,其中,所述处理器还被配置为执行所述一个或多个指令以:基于与所述对象区域相对应的所述多条模型信息的加权和,获得分别与所述像素相对应的所述多条模型信息。
10.根据权利要求9所述的显示设备,其中,所述处理器还被配置为执行所述一个或多个指令以:
基于所述第一图像中包括的第一像素与每个所述对象区域的中心之间的距离,确定分别与所述对象区域相对应的所述多条模型信息的权重;以及
基于分别与所述对象区域相对应的所述多条模型信息以及所确定的权重,获得与所述第一像素相对应的模型信息。
11.一种用于通过使用包括多个层的神经网络来执行图像处理的显示设备的操作方法,所述操作方法包括:
接收第一图像;
基于分别与所述第一图像中包括的像素相对应的对象特征,获得分别与所述像素相对应的多条模型信息;
基于输入到所述神经网络的分别与所述像素相对应的所述多条模型信息以及关于每个所述像素在所述神经网络中被处理的时间点的信息,识别分别与所述多个层相对应的所述多条模型信息;
基于所述多条模型信息来更新所述多个层的参数;
通过经由应用了更新后的参数的所述多个层处理所述第一图像来生成第二图像;以及
显示所述第二图像。
12.根据权利要求11所述的操作方法,其中,所述关于时间点的信息包括关于将每个所述像素输入到所述多个层中的每个层的数据输入时间的信息或者关于每个所述像素在所述多个层中的每个层中被处理的数据处理时间的信息中的至少一种。
13.根据权利要求12所述的操作方法,其中,所述数据输入时间或所述数据处理时间中的至少一个具有均匀的周期。
14.根据权利要求11所述的操作方法,其中,基于每个所述像素在所述第一图像中的位置来确定所述关于时间点的信息。
15.一种在其中存储有程序的非暂时性计算机可读记录介质,所述程序包括指令,所述指令使得执行方法,所述方法经由包括多个层的神经网络来执行图像处理,所述方法包括:
获得第一图像;
基于分别与所述第一图像中包括的像素相对应的对象特征,获得分别与所述像素相对应的多条模型信息;
基于输入到所述神经网络的分别与所述像素相对应的所述多条模型信息以及关于每个所述像素在所述神经网络中被处理的时间点的信息,识别分别与所述多个层相对应的所述多条模型信息;
基于所述多条模型信息来更新所述多个层的参数;以及
通过经由应用了更新后的参数的所述多个层处理所述第一图像来生成第二图像。
CN202280044885.8A 2021-10-07 2022-07-22 显示设备及其操作方法 Pending CN117561537A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020210133450A KR20230050127A (ko) 2021-10-07 2021-10-07 디스플레이 장치 및 그 동작방법
KR10-2021-0133450 2021-10-07
PCT/KR2022/010800 WO2023058859A1 (ko) 2021-10-07 2022-07-22 디스플레이 장치 및 그 동작방법

Publications (1)

Publication Number Publication Date
CN117561537A true CN117561537A (zh) 2024-02-13

Family

ID=85796980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280044885.8A Pending CN117561537A (zh) 2021-10-07 2022-07-22 显示设备及其操作方法

Country Status (3)

Country Link
US (1) US20230114954A1 (zh)
EP (1) EP4318378A4 (zh)
CN (1) CN117561537A (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2880316T3 (es) * 2014-08-29 2021-11-24 Google Llc Procesamiento de imágenes mediante redes neuronales profundas
KR102400017B1 (ko) * 2017-05-17 2022-05-19 삼성전자주식회사 객체를 식별하는 방법 및 디바이스
CN109886891B (zh) * 2019-02-15 2022-01-11 北京市商汤科技开发有限公司 一种图像复原方法及装置、电子设备、存储介质
KR20210020387A (ko) * 2019-08-14 2021-02-24 삼성전자주식회사 전자 장치 및 그 제어 방법

Also Published As

Publication number Publication date
EP4318378A1 (en) 2024-02-07
US20230114954A1 (en) 2023-04-13
EP4318378A4 (en) 2024-10-09

Similar Documents

Publication Publication Date Title
US11132775B2 (en) Image processing apparatus and method of operating the same
KR20200079697A (ko) 영상 처리 장치 및 그 영상 처리 방법
CN110222649B (zh) 视频分类方法、装置、电子设备及存储介质
CN110069191B (zh) 基于终端的图像拖拽变形实现方法和装置
US11514107B2 (en) Image display apparatus and operation method of the same
US10997947B2 (en) Electronic device and control method thereof
CN112785493A (zh) 模型的训练方法、风格迁移方法、装置、设备及存储介质
KR102547321B1 (ko) 영상 표시 장치 및 그 동작방법
US11184670B2 (en) Display apparatus and control method thereof
US11699289B2 (en) Display device for generating multimedia content, and operation method of the display device
US20240274053A1 (en) Display device and operating method thereof
US11443537B2 (en) Electronic apparatus and controlling method thereof
US11373280B2 (en) Electronic device and method of training a learning model for contrast ratio of an image
CN110197459B (zh) 图像风格化生成方法、装置及电子设备
CN117561537A (zh) 显示设备及其操作方法
CN117809668A (zh) 电子设备及电子设备的语音信号处理方法
KR20230050127A (ko) 디스플레이 장치 및 그 동작방법
CN114723855A (zh) 图像生成方法及装置、设备和介质
KR20230032704A (ko) 디스플레이 장치 및 그 동작방법
KR20210062485A (ko) 전자 장치 및 그 제어 방법
KR102494591B1 (ko) 전자 장치, 그 제어 방법 및 전자 시스템
KR20220108610A (ko) 영상 처리 장치 및 그 동작방법
KR20230059029A (ko) 전자 장치 및 그 동작 방법
CN116783614A (zh) 图像处理装置及其操作方法
CN115640622A (zh) 布局生成方法、装置、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination