[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

RU2742346C1 - Устранение размытия изображения - Google Patents

Устранение размытия изображения Download PDF

Info

Publication number
RU2742346C1
RU2742346C1 RU2020121995A RU2020121995A RU2742346C1 RU 2742346 C1 RU2742346 C1 RU 2742346C1 RU 2020121995 A RU2020121995 A RU 2020121995A RU 2020121995 A RU2020121995 A RU 2020121995A RU 2742346 C1 RU2742346 C1 RU 2742346C1
Authority
RU
Russia
Prior art keywords
image
recurrent
blur
tensor
image processing
Prior art date
Application number
RU2020121995A
Other languages
English (en)
Inventor
Валерий Валерьевич Анисимовский
Максим Александрович ПЕНКИН
Сергей Станиславович Завалишин
Алексей Михайлович ГРУЗДЕВ
Евгений Андреевич Дорохов
Original Assignee
Самсунг Электроникс Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Самсунг Электроникс Ко., Лтд. filed Critical Самсунг Электроникс Ко., Лтд.
Priority to RU2020121995A priority Critical patent/RU2742346C1/ru
Priority to KR1020200138644A priority patent/KR20220003946A/ko
Application granted granted Critical
Publication of RU2742346C1 publication Critical patent/RU2742346C1/ru
Priority to EP21832503.3A priority patent/EP4150562A4/en
Priority to PCT/KR2021/008159 priority patent/WO2022005157A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20182Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

Изобретение относится к области обработки изображений. Блок обработки изображений включает в себя кодировщик, выполненный с возможностью приема данных размытого изображения и формирования глобального признакового представления изображения, блок объединения, выполненный с возможностью объединения глобального признакового представления и информации размытия, декодировщик, выполненный с возможностью формирования тензора признаков, а также тензоров весов, рекуррентный улучшающий модуль, выполненный с возможностью осуществления рекуррентной фильтрации признаков, и модуль реконструкции изображений, выполненный с возможностью реконструкции изображения с устраненным размытием. Блок обработки изображения выполнен с возможностью оценки глобального сдвига изображения и активации или деактивации рекуррентного улучшающего модуля на основании упомянутой оценки. Технический результат состоит в снижении сложности обработки изображений, увеличении ее скорости и повышении качества результирующего изображения. 4 н. и 12 з.п. ф-лы, 3 ил., 1 табл.

Description

Область техники
Настоящее изобретение относится к обработке изображений, в частности, к устранению размытия изображения.
Уровень техники
В настоящее время при захвате изображения устройствами захвата изображения (например, фото- или видеокамерами) во время движения/поворота полученные изображения зачастую получаются размытыми. Данная проблема присуща, например, для устройств захвата изображения, установленных на роботах, транспортных средствах, включая автономные транспортные средства, и т.д. Так как в таких применениях очень важной является возможность распознавания объектов на захваченных изображениях, то проблема размытия полученных изображений серьезно ограничивает работоспособность таких решений. Кроме того, такая проблема также может проявляться и вследствие дрожания рук оператора, осуществляющего съемку какой-то сцены с помощью фото- или видеокамеры. В таком случае качество полученного изображения может не соответствовать ожиданиям оператора.
В существующем уровне техники известно множество способов устранения размытия изображения. Многие из них основаны либо на традиционных методах деконволюции или фильтрации изображения, либо на нейронных сетях. Так как задача устранения размытия достаточно сложная, все эти способы обладают рядом известных недостатков.
Во-первых, они являются вычислительно сложными медленными алгоритмами, применение которых на портативных маломощных устройствах затруднительно. Задача устранения размытия в таких алгоритмах решается посредством множества итераций сложной с вычислительной точки зрения обработки изображения. Таким образом, упомянутые способы не могут применяться в маломощных устройствах для обработки изображений или видео в реальном времени.
Во-вторых, многие известные способы устранения размытия приводят к появлению артефактов вследствие эффекта Гиббса вблизи контуров объектов на изображении.
В-третьих, существующие способы устранения размытия изображения зачастую не справляются с обработкой изображений, захваченных при съемке сцен с динамическим размытием, в которых движущийся объект снимается движущейся камерой, особенно, если движения происходят в разные стороны. В таких случаях сложно одновременно оценивать направление движения объекта в плоскости кадра и фона.
В-четвертых, существующие нейронные сети для решения задачи устранения размытия изображения также являются сложными, используют большое количество весов, требуют серьезные вычислительные мощности и чаще всего не могут быть реализованы в мобильных портативных устройствах.
Например, из уровня техники известно решение, раскрытое в документе US 20190236452 A1, в котором применяется сверточная нейронная сеть (CNN, convolutional neural network), решающая задачу за счет подачи на вход трех последовательных изображений. Таким образом оценивается движение камеры. Основным недостатком этого способа является существенное увеличение размера нейронной сети, вследствие необходимости обработки трех изображений вместо одного. Кроме того, этот способ недостаточно хорошо справляется с обработкой сцен с динамическим размытием.
Также из уровня техники известно решение, раскрытое в документе US 20190244331 A, в котором оценивают оптический поток между последовательностью изображений и используют данные оптического потока для того, чтобы компенсировать размытие. Однако, данный подход зависит от точности оценки оптического потока. Недостаточная точность оценки приводит к плохому качеству результирующего изображения. А высококачественные алгоритмы оценки являются достаточно сложными и медлительными.
Решение, раскрытое в документе US 9,767,538 B2, основано на том, что входное изображение предварительно сегментируется, чтобы обнаружить объекты, которые присутствуют на изображении. Движение каждого объекта оценивается по отдельности. Устранение размытия осуществляется отдельно для каждого сегмента на основании движения этого сегмента. Однако, качество устранения размытия строго зависит от точности сегментации. При этом сегментацию сложно реализовать, если изображение размыто сильно, потому что невозможно оценить с необходимой точностью, где заканчиваются границы одного объекта и начинаются границы другого.
В решении, раскрытом в документе US 10,007,972 B2, устранение размытия выполняется посредством моделирования простого ядра размытия с использованием Гауссового размытия. Устранение размытия осуществляется отдельно для каждой области изображения. Однако, этот способ не позволяет справиться с размытием в движении, т.к. размытие в движении не всегда описывается простым Гауссовым ядром, особенно, если движение сложное. Кроме того, на границах различных областей при использовании данного способа появляются артефакты.
J. Zhang и другие авторы в статье «Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks» (SenseTime Research, 2018) раскрывают способ, в котором используются три CNN для извлечения признаков из изображения, формирования весов RNN (Recurrent neural network) и восстановления изображения. RNN используется для деконволюции. Данный способ обладает высокой вычислительной сложностью, вследствие того, что подразумевает снижение размытия при полном незнании о том, как работает система.
Таким образом, в уровне техники существует потребность в разработке методики, решающей вышеперечисленные проблемы, т.е. методики устранения размытия изображения, позволяющей упростить вычислительную сложность обработки, увеличить ее скорость, обеспечить высокое качество результирующего изображения. При этом предпочтительно, чтобы такая методика была подходящей для реализации, в том числе, в маломощных мобильных устройствах формирования изображений.
Сущность изобретения
Настоящее изобретение направлено на решение по меньшей мере некоторых из приведенных выше проблем.
В соответствии с первым аспектом изобретения предложен блок обработки изображений, включающий в себя:
- кодировщик, выполненный с возможностью приема данных размытого изображения и формирования глобального признакового представления изображения,
- блок объединения, выполненный с возможностью объединения глобального признакового представления и информации размытия, характеризующей движение блока захвата изображения в момент захвата изображения,
- декодировщик, выполненный с возможностью приема результата объединения из блока объединения и формирования тензора признаков, а также тензоров весов,
- рекуррентный улучшающий модуль, выполненный с возможностью осуществления рекуррентной фильтрации признаков на основании тензора признаков и тензоров весов, полученных из декодировщика, и
- модуль реконструкции изображений, выполненный с возможностью реконструкции изображения с устраненным размытием на основании тензора признаков, полученного из декодировщика или рекуррентного улучшающего модуля,
причем блок обработки изображения выполнен с возможностью оценки глобального сдвига изображения и активации или деактивации рекуррентного улучшающего модуля на основании упомянутой оценки.
В соответствии с одним вариантом осуществления блок обработки изображений реализован в виде искусственной нейронной сети.
Согласно второму аспекту изобретения предложен способ обработки изображения, выполняемый упомянутым выше блоком обработки изображений, включающий в себя следующие этапы, на которых:
- принимают размытое изображение и осуществляют оценку глобального сдвига для определения, является ли размытие равномерным или динамическим;
- на основании данных входного размытого изображения формируют посредством кодировщика глобальное признаковое представление входного изображения;
- осуществляют объединение глобального признакового представления входного изображения и информации размытия, характеризующей движение блока захвата изображения в момент захвата изображения;
- формируют посредством декодировщика тензор признаков и тензоры весов на основании результатов упомянутого выше объединения;
- если размытие изображения является равномерным, то осуществляют реконструкцию изображения с устраненным размытием посредством модуля реконструкции изображения на основании упомянутого тензора признаков; и
- если размытие изображения является динамическим, то осуществляют рекуррентную фильтрацию признаков посредством рекуррентного улучшающего модуля на основании сформированного тензора признаков и тензоров весов, и осуществляют реконструкцию изображения с устраненным размытием посредством модуля реконструкции изображения на основании полученного фильтрованного тензора признаков.
В соответствии с одним вариантом осуществления способа обработки изображения рекуррентная фильтрация включает в себя четыре RNN-операции, каждая из которых состоит из четырех рекуррентных проходов изображения. В этом случае декодировщик формирует шестнадцать тензоров весов.
В соответствии с другим вариантом осуществления способа обработки изображения рекуррентная фильтрация включает в себя одну RNN-операцию, каждая из которых состоит из четырех рекуррентных проходов изображения. В этом случае декодировщик формирует четыре тензора весов.
В соответствии с другим вариантом осуществления способа обработки изображения рекуррентная фильтрация включает в себя RNN-операции, состоящие из двух рекуррентных проходов изображения. В этом случае декодировщик формирует два тензора весов на каждую RNN-операцию и обходы осуществляются по кривой Гильберта, позволяющей сократить количество рекуррентных проходов по изображению с четырех до двух.
В соответствии с другим вариантом осуществления способа обработки изображения на входном размытом изображении отфильтровывают пиксели, относящиеся к областям изображения с равномерным размытием, и обрабатывают посредством рекуррентного улучшающего модуля пиксели, относящиеся к областям изображения с динамическим размытием, после чего обработанные области изображения с динамическим размытием связывают с областями изображения с равномерным размытием в модуле реконструкции изображений для формирования выходного изображения с устраненным размытием.
В соответствии с другим вариантом осуществления способа обработки изображения данные размытого изображения принимают из блока захвата изображения.
В соответствии с другим вариантом осуществления способа обработки изображения информацию размытия получают из датчика движения блока захвата изображения.
В соответствии с другим вариантом осуществления способа обработки изображения дополнительно получают последовательность изображений, захватываемых дополнительной камерой, имеющей более высокую скорость захвата кадров и более низкое разрешение по сравнению с упомянутым блоком захвата изображений, оценивают движение блока захвата изображения на основании полученной последовательности изображений и используют упомянутую информацию о движении в качестве информации размытия.
В соответствии с другим вариантом осуществления способа обработки изображения информацию размытия получают в отношении движения блока захвата изображения только в одной плоскости.
Согласно третьему аспекту изобретения предложено устройство формирования изображений, включающее в себя описанный выше блок обработки изображений и блок захвата изображений.
Согласно четвертому аспекту изобретения предложен компьютерно-читаемый носитель, хранящий компьютерную программу, которая при ее исполнении посредством процессора предписывает упомянутому процессору выполнять описанный выше способ обработки изображения.
Настоящее изобретение позволяет снизить сложность обработки изображений, увеличить ее скорость и повысить качество результирующего изображения.
Краткое описание чертежей
В дальнейшем изобретение поясняется описанием предпочтительных вариантов осуществления изобретения со ссылками на сопроводительные чертежи, на которых:
Фиг. 1 изображает блок-схему блока обработки изображений в случае обработки захватываемого изображения сцены с равномерным размытием.
Фиг. 2 изображает блок-схему блока обработки изображений в случае обработки захватываемого изображения сцены с динамическим размытием.
Фиг. 3 изображает блок-схему формирования тензора признаков и тензоров весов.
Подробное описание
Варианты осуществления не ограничиваются описанными здесь вариантами осуществления, специалисту в области техники на основе информации изложенной в описании и знаний уровня техники станут очевидны и другие варианты осуществления изобретения, не выходящие за пределы сущности и объема данного изобретения.
В соответствии с настоящим изобретением в качестве входных данных используется не только исходное размытое изображение, но и информация о движении сцены. Если на вход подается только изображение, этих данных может быть недостаточно, потому что нейронная сеть, которая применяется на следующих этапах, не знает, как именно испорчены изображения и поэтому она должна включать в себя дополнительный модуль для оценки искажения. Поэтому на вход в соответствии с настоящим изобретением подается также информация размытия, которая может быть получена на основании информации о движении камеры в момент съемки. На практике можно подавать любую информацию, которая подскажет нейронной сети, как осуществлялось движение камеры. В частности, это может быть информация от датчика движения, либо информация с некоторой дополнительной скоростной камеры низкого разрешения, которая захватывает последовательность кадров, с помощью которых можно оценить, каким образом осуществлялось движение, и т.д.
Соответственно схема работы алгоритма достаточно проста. Входная информация о размытии конвертируется в набор некоторых признаков и затем эти признаки подаются на вход искусственной нейронной сети. Нейронная сеть получает на вход исходное размытое изображение, переводит его в обучаемое признаковое пространство, в котором осуществляется фильтрация набором сверток. К признаковому описанию добавляется информация размытия и после набора сверточных слоев данные подаются в рекуррентный улучшающий модуль (улучшающий модуль RNN, Recurrent neural network), фильтрующий признаки в четырех направлениях: по горизонтали два раза и по вертикали два раза. Рекуррентный улучшающий модуль увеличивает поле восприятия (receptive field) модели, агрегируя глобальную информацию в пределах тензора, что положительно сказывается на результате обработки. Т.е. внутри нейронной сети по сути работает рекуррентный фильтр в четырех направлениях. Соответственно на выходе можно получить изображение без ярко выраженного размытия.
В общем виде, способ устранения размытия в соответствии с примерным вариантом осуществления изобретения включает в себя несколько этапов.
Сначала блок обработки изображений принимает данные изображения с размытием (размытое изображение). Упомянутые данные могут приниматься в реальном времени от блока захвата изображений, интегрированного в одном устройстве с блоком обработки изображений, либо от отдельного блока захвата изображений. В альтернативном варианте осуществления упомянутые данные изображений могут представлять собой предварительно сохраненные данные захваченного изображения.
Блок обработки изображений, таким образом, может быть реализован как в интегрированном с блоком захвата изображений устройстве, так и в виде удаленного сервера, либо посредством облачных технологий.
В примерном варианте осуществления изобретения захватываемое изображение с размытием включает в себя изображение человека. Однако, вследствие размытия не представляется возможным распознать лицо или позу человека на изображении.
Далее блок обработки изображений определяет, является ли сцена динамической, т.е. осуществляется ли движение объекта (объектов) в захватываемой сцене. Для этого входные данные размытого изображения обрабатываются в блоке обработки изображений посредством способа оценки глобального сдвига. Результатом такой оценки является определение, является ли сдвиг изображения глобальным по всей сцене или он имеет локальный характер в отдельных областях изображения. Если оцененный глобальный сдвиг имеет высокую достоверность, т.е. движение сцены описывается глобальным сдвигом, то можно сделать вывод, что сцена является по существу статической, а, следовательно, размытие изображения вызвано движением камеры (равномерное или однородное размытие). В противном случае определяется, что сцена является динамической, а размытие вызвано и движением камеры, и движением объекта в сцене (динамическое или неоднородное размытие).
Для оценки глобального сдвига может применяться любая известная в уровне техники подходящая методика, например, оценка фазовой корреляции между последовательными размытыми кадрами. В альтернативном варианте осуществления для оценки глобального сдвига может применяться информация о движении самой камеры, получаемая, например, от датчика движения в камере. Таким датчиком движения может быть акселерометр, гироскоп и т.д.
Далее блок обработки изображений осуществляет обработку изображений для устранения размытия. Упомянутая обработка для устранения размытия изображения зависит от результатов оценки глобального сдвига.
Далее со ссылкой на фиг. 1 раскрывается обработка изображения для устранения размытия изображения в случае захвата сцены с равномерным размытием.
Размытое изображение, захваченное блоком захвата изображения, подается в кодировщик блока обработки изображений. Результатом работы кодировщика является глобальное признаковое представление входного изображения размера
Figure 00000001
, где
Figure 00000002
,
Figure 00000003
и
Figure 00000004
- ширина, высота и глубина глобального признакового представления изображения, соответственно.
Тензор информации размытия формируется посредством дублирования каждого из двух компонентов (x и y) вектора глобального сдвига на две плоскости размером
Figure 00000005
. Если нам известен вектор (x, y) глобального размытия сцены, то в таком случае в качестве информации размытия подается тензор формы (W/8, H/8, 2), где W и H - исходные размеры входного размытого изображения. Последняя размерность 2 означает, что тензор представляет собой две двумерные карты размера (W/8, H/8), заполненные постоянными x и y соответственно.
Далее глобальное признаковое представление и тензор информации размытия конкатенируются в блоке объединения (не изображен), причем глобальное признаковое представление и тензор информации размытия имеют один и тот же уровень абстракции. В случае наличия двух тензоров с размерами (W, H, D 1 ) и (W, H, D 2 ), конкатенация выдает результат формы: (W, H, D 1 +D 2 ). То есть осуществляется простое склеивание двух тензоров по третьей размерности (иными словами по глубине).
Результирующий конкатенированный тензор подается в декодировщик, где обрабатывается сверточными слоями, повышающими пространственное разрешение, с учетом пространственной связи с соответствующими слоями кодировщика, для получения тензора признаков
Figure 00000006
, где i, j, k - индексы, указывающие позицию элемента в тензоре, а
Figure 00000007
,
Figure 00000008
,
Figure 00000009
представляют собой ширину, высоту и глубину тензора признаков, соответственно.
Таким образом, кодировщик в процессе своей работы постепенно уменьшает пространственные размеры обрабатываемого тензора, захватывая все более глобальную информацию сцены, и увеличивает глубину обрабатываемого тензора, увеличивая размерность кодирующего признакового пространства.
Декодировщик действует противоположно. В процессе своей работы он постепенно увеличивает пространственные размеры обрабатываемого тензора и уменьшает глубину обрабатываемого тензора.
Полученный тензор признаков подается в модуль реконструкции изображения, который формирует изображение с устраненным размытием.
Стоит отметить, что в представленном примерном варианте осуществления блок обработки изображений с входящими в его состав отдельными функциональными модулями реализован посредством искусственной нейронной сети, в частности, сверточной нейронной сети (CNN). Вся сеть в данном примере является нейронной сетью, обученной посредством сквозного обучения с использованием функции потерь SSIM+L1 между изображением
Figure 00000010
с устраненным размытием и эталонным резким (четким) изображением
Figure 00000011
:
Figure 00000012
.
Благодаря использованию информации размытия такой способ устранения равномерного размытия позволяет увеличить скорость обработки в десятки раз по сравнению с известными решениями, при этом обеспечивая высокое качество выходного изображения.
Таким образом, в соответствии с одним вариантом осуществления настоящего изобретения блок обработки изображений, выполняющий описанный выше способ, включает в себя кодировщик, блок объединения (не изображен), декодировщик и модуль реконструкции изображений. При этом кодировщик выполнен с возможностью приема данных размытого изображения и формирования глобального признакового представления изображения. Блок объединения выполнен с возможностью объединения глобального признакового представления и информации размытия, характеризующей движение блока захвата изображения в момент захвата изображения. Декодировщик выполнен с возможностью приема результата объединения из блока объединения и формирования тензора признаков. Модуль реконструкции изображения выполнен с возможностью приема тензора признаков из декодировщика и реконструкции изображения с устраненным размытием.
Далее со ссылкой на фиг. 2 раскрывается обработка изображения для устранения размытия изображения в случае захвата сцены с динамическим размытием.
В случае, если на этапе оценки глобального сдвига определено, что сцена имеет динамический характер, то блок обработки изображений выполняет обработку для устранения размытия в соответствии со схемой, изображенной на фиг. 2. Блок обработки изображений, показанный на фиг. 2, дополнительно включает в себя рекуррентный улучшающий модуль, встроенный между декодировщиком и модулем реконструкции изображений.
Описание этапов обработки устранения размытия изображения сцены с динамическим размытием, совпадающих с этапами обработки устранения размытия изображения сцены с равномерным размытием, будет опущено.
В отличие от обработки по фиг.1, помимо тензора признаков
Figure 00000013
декодер формирует также и тензоры весов. В примерном варианте осуществления в соответствии с настоящим изобретением декодер формирует 16 тензоров весов
Figure 00000014
, каждый из которых имеет такую же высоту, ширину и глубину, что и тензор признаков, причем i, j, k - индексы, определяющие позицию конкретного значения веса в тензоре весов, r - индекс каждого (всего 16) тензора весов (четыре тензора весов на каждую из четырех RNN-операций, так как осуществляется взвешенный проход справа-налево и обратно, сверху-вниз и обратно). Таким образом, в соответствии с настоящим изобретением и тензоры весов, и тензор признаков формируются одной и той же сетью.
Далее последовательно выполняют четыре RNN-операции, причем m-ая RNN-операция использует четыре тензора весов
Figure 00000015
, принимая в качестве входных данных тензор признаков
Figure 00000016
и выводя тензор признаков
Figure 00000017
.
Каждая RNN-операция включает в себя четыре рекуррентных прохода изображения (слева-направо, справа-налево, сверху-вниз и снизу вверх), результирующую конкатенацию тензоров и свертку до 32 каналов.
Каждый n-ый рекуррентный проход изображения m-ой RNN-операции использует тензор весов
Figure 00000018
, принимает в качестве ввода тензор признаков
Figure 00000016
и выводит тензор
Figure 00000019
, используя рекуррентный фильтр, например, для прохода слева-направо:
Figure 00000020
.
Приведенная формула представляет собой формулу для обновления столбцов при проходе слева-направо. Аналогично происходит рекуррентная обработка столбцов при проходе справа-налево и обработка строк при проходе сверху-вниз и снизу-вверх.
Вывод
Figure 00000021
последней RNN-операции обрабатывается модулем реконструкции изображений для получения выходного изображения с устраненным размытием.
Вся сеть в данном примере является нейронной сетью, обученной посредством сквозного обучения с использованием функции потерь L2 между изображением с устраненным размытием и эталонным резким изображением.
Таким образом, в соответствии с дополнительным вариантом осуществления настоящего изобретения блок обработки изображений, выполняющий описанный выше способ, включает в себя кодировщик, блок объединения (не изображен), декодировщик, рекуррентный улучшающий модуль и модуль реконструкции изображений. При этом кодировщик выполнен с возможностью приема данных размытого изображения и формирования глобального признакового представления изображения. Блок объединения выполнен с возможностью объединения глобального признакового представления и информации размытия. Декодировщик выполнен с возможностью приема результата объединения из блока объединения и формирования тензора признаков, а также тензоров весов. Рекуррентный улучшающий модуль выполнен с возможностью осуществления рекуррентной фильтрации признаков на основании тензора признаков и тензоров весов, полученных из декодировщика. Модуль реконструкции изображения выполнен с возможностью приема фильтрованного тензора признаков из рекуррентного улучшающего модуля и реконструкции изображения с устраненным размытием.
В соответствии с предпочтительным вариантом осуществления настоящего изобретения блок обработки изображений комбинирует признаки описанных выше вариантов осуществления. Данный блок обработки изображений включает в себя кодировщик, блок объединения, декодировщик, рекуррентный улучшающий модуль и модуль реконструкции изображений. При этом блок обработки изображений в зависимости от результатов оценки глобального сдвига активирует или деактивирует рекуррентный улучшающий модуль.
Далее со ссылкой на фиг. 3 подробнее раскрывается формирование тензора признаков и тензоров весов.
Декодировщик извлекает промежуточное признаковое представление формы
Figure 00000022
, где W и H представляют собой пространственные размеры входного размытого изображения.
Для формирования тензора признаков, подаваемого в рекуррентный улучшающий модуль, производится выделение главных признаковых компонент формы
Figure 00000023
(аналогия с PCA в классическом машинном обучении), с помощью проецирования на некоторое многообразие меньшей размерности. Проецирование осуществляется с помощью свертки с ядром 1х1.
Для формирования тензоров весов промежуточное признаковое представление отображается в пространство большей размерности: четыре связанных тензора весов формы
Figure 00000023
.
Далее подают входные признаки и соответствующие тензоры весов в рекуррентный улучшающий модуль для каждой RNN-операции (четыре рекуррентных прохода изображения: слева-направо, справа-налево, сверху-вниз и снизу вверх).
Веса и признаки в данном варианте осуществления обучены с помощью сквозного обучения с использованием алгоритма оптимизации Адам. Алгоритм оптимизации Адам - это часто используемая модификация стандартного градиентного спуска.
Таким образом, в случае захвата сцены с динамическим размытием блоком захвата изображения настоящее изобретение обеспечивает высокое отношение качества результирующего изображения к скорости обработки.
Исходя из представленной выше информации, видно, что рекуррентный улучшающий модуль является опциональным и активируется только в случае обработки захватываемого изображения сцены с динамическим размытием. В то же время в случае обработки захватываемого изображения сцены с равномерным размытием, упомянутый рекуррентный улучшающий модуль не задействуется.
Далее приведена таблица, иллюстрирующая последовательность слоев нейронной сети, реализующей функции блока обработки изображений в соответствии с примерным вариантом осуществления настоящего изобретения.
Таблица. Слои нейронной сети.
Слой Входные данные Выходные данные
Кодировщик conv1
Figure 00000024
Figure 00000025
conv2 conv1
Figure 00000025
conv3 conv2
Figure 00000026
Figure 00000027
conv4 conv3
Figure 00000027
conv5 conv4
Figure 00000026
Figure 00000028
conv6 conv5
Figure 00000028
conv7 conv6
Figure 00000028
conv8 conv7
Figure 00000026
Figure 00000029
conv9 conv8
Figure 00000029
conv10 conv9
Figure 00000030
Декодировщик conv11 conv10
Figure 00000031
conv6
Figure 00000032
conv12 conv11
Figure 00000032
conv13 conv12
Figure 00000031
conv4
Figure 00000033
conv14 conv13
Figure 00000034
conv15 conv13
Figure 00000035
RNN1 conv15, conv14[1:128]
Figure 00000027
conv16 RNN1
Figure 00000035
RNN2 conv16, conv14[129:256]
Figure 00000027
conv17 RNN2
Figure 00000035
RNN3 conv17, conv14[257:384]
Figure 00000027
conv18 RNN3
Figure 00000035
RNN4 conv18, conv14[385:512]
Figure 00000027
conv19 RNN4
Figure 00000035
conv20 conv19
Figure 00000036
conv15
Figure 00000037
conv21 conv20
Figure 00000031
conv1
Figure 00000024
Все свертки используют ядро 3х3 и функцию активации leaky ReLU за исключением свертки генерации RNN весов conv14, в которой используется гиперболический тангенc в качестве функции активации, а также свертки генерации RNN признаков conv15 и результирующей свертки модели conv21, в которых отсутствует функция активации.
В приведенной таблице использованы следующие обозначения:
Figure 00000038
- означает применение слоя максимальной подвыборки (англ. max pooling) с ядром 2×2;
Figure 00000039
- означает применение билинейной интерполяции;
Figure 00000040
означает выборку признаковых описаний, находящихся в диапазоне от
Figure 00000041
до
Figure 00000042
;
Figure 00000043
- операция конкатенации вдоль размерности глубины.
В соответствии с альтернативным вариантом осуществления настоящего изобретения рекуррентный улучшающий модуль выполняет только одну RNN-операцию. При этом формируются только два тензора весов вместо шестнадцати за счет совместного использования весов во время RNN-операции: проходы справа-налево и слева-направо совместно используют один тензор весов, проходы сверху-вниз и снизу-вверх также используют совместно один тензор весов. Данный вариант осуществления может быть предпочтительным для реализации на мобильных устройствах, т.к. обладает высокой скоростью и сниженной вычислительной сложностью.
В еще одном альтернативном варианте осуществления каждая RNN-операция включает в себя не четыре рекуррентных прохода, а только два. При этом рекуррентные проходы осуществляются не справа-налево или сверху-вниз, а по некоторой кривой, например, кривой Гильберта, а затем в обратном направлении. Это и позволяет снизить количество проходов на каждую RNN-операцию. Данный вариант осуществления также позволяет снизить вычислительную сложность и повысить скорость обработки.
Согласно дополнительному альтернативному варианту осуществления настоящего изобретения в качестве информации размытия можно получать информацию размытия только в отношении одной плоскости вместо двух. В частности, такая упрощенная архитектура может использоваться при возникновении только горизонтального размытия, возникающего, например, при повороте робота.
В еще одном альтернативном варианте осуществления в информацию размытия добавляется набор кадров, заснятых дополнительной высокоскоростной камерой низкого разрешения. Эти кадры используются совместно с информацией размытия, помогая декодировщику обнаружить основное направление размытия во входном изображении. Упомянутый набор кадров может использоваться не только в дополнение к информации размытия, но и в качестве альтернативы ей.
В соответствии с еще одним вариантом осуществления блок обработки изображений дополнительно включает в себя модуль пространственного внимания (spatial attention), устанавливаемый между декодировщиком и рекуррентным улучшающим модулем. Модуль пространственного внимания может отфильтровывать на входном размытом изображении пиксели, относящиеся к глобальному размытию. При этом модуль пространственного внимания позволяет выделять пиксели, относящиеся к локальному размытию, вызванному движущимися объектами, и обрабатывать их посредством рекуррентного улучшающего модуля. Это позволяет сочетать преимущества описанных выше вариантов осуществления настоящего изобретения. Данный вариант осуществления функционирует следующим образом:
- подают на модуль пространственного внимания размытое изображение и отображают входное размытое изображение в многомерное признаковое описание (признаковое пространство):
Figure 00000044
, где W и H представляют собой пространственные размеры входного размытого изображения;
- подают на модуль пространственного внимания информацию размытия и отображают информацию размытия в многомерное признаковое описание:
Figure 00000045
;
- подают из декодировщика промежуточное признаковое представление формы
Figure 00000022
;
- преобразуют представление признаков размытого изображения:
Figure 00000046
. Эта операция изменяет пространственное расположение значений тензора таким образом, чтобы он стал двумерным и принял форму
Figure 00000047
;
- преобразуют представление признаков информации размытия:
Figure 00000048
. Эта операция изменяет пространственное расположение значений тензора таким образом, чтобы он стал двумерным и принял форму
Figure 00000049
;
- вычисляют обратную косинусную меру: (-1∙косинусное сходство), при этом CNN изучает меру различия между реальным размытием изображения и полученной информацией размытия от датчиков. Иными словами, вычисляется карта обратной корреляции между признаковым описанием информации размытия и признаковым описанием размытого изображения. Области (пиксели), в которых обратная корреляция признаковых описаний ниже порогового значения, обладают схожими характерами размытия и не нуждаются в дальнейшей обработке рекуррентным улучшающим модулем. Области (пиксели) изображения, в которых обратная косинусная мера превышает пороговое значение, относятся к областям локального размытия, т.е. к объектам, осуществляющим движение в сцене. В таких областях реальное размытие противоречит информации размытия от датчиков. Такие области изображения в дальнейшем подвергаются обработке посредством рекуррентного улучшающего модуля. После этого обработанные области изображения с динамическим размытием связываются с областями изображения с равномерным размытием для формирования выходного изображения с устраненным размытием в модуле реконструкции изображений.
Такой вариант осуществления настоящего изобретения позволяет обрабатывать области размытого изображения, на которых изображены движущиеся объекты, посредством способа обработки, предназначенного для сцен с динамическим размытием, в то время как остальные области изображения обрабатываются посредством способа обработки, предназначенного для сцен с равномерным размытием. Это обеспечивает высокую скорость обработки изображений и высокое качество полученных изображений с устраненным размытием.
В соответствии с еще одним аспектом настоящего изобретения представлено устройство формирования изображений, включающее в себя описанный выше блок обработки изображений, а также блок захвата изображений.
Согласно дополнительному аспекту настоящего изобретения предложен компьютерно-читаемый носитель, хранящий компьютерную программу, которая при ее исполнении посредством процессора предписывает упомянутому процессору выполнять описанный выше способ обработки изображения.
Очевидно, что, когда речь идет о хранении данных, программ и т.п., подразумевается наличие компьютерно-читаемого носителя данных, примеры компьютерно-читаемых носителей данных включают в себя постоянное запоминающее устройство, оперативное запоминающее устройство, регистр, кэш-память, полупроводниковые запоминающие устройства, магнитные носители, такие как внутренние жесткие диски и съемные диски, магнитооптические носители и оптические носители, такие как диски CD-ROM и цифровые универсальные диски (DVD), а также любые другие известные в уровне техники носители данных.
Настоящее изобретение может найти применение в устройствах захвата и обработки изображения, таких как фото- и видеокамеры, в том числе встроенные в оборудование на основе SoC (смартфоны, планшеты, видеорегистраторы и т.д.). Возможность получения изображений хорошего качества обеспечивает преимущества при использовании настоящего изобретения в системах видеонаблюдения, устройствах захвата изображения в автономных транспортных средствах, роботах и т.д. При этом настоящее изобретение обеспечивает возможность обработки захватываемого изображения в реальном времени даже на маломощном оборудовании с ограниченной вычислительной мощностью.
Дополнительно стоит отметить, что описанный выше способ, выполняемый электронным устройством, может быть выполнен с использованием модели искусственного интеллекта. Модель искусственного интеллекта может быть получена посредством обучения. Здесь «полученный посредством обучения» означает, что предварительно определенное правило операции или модель искусственного интеллекта, сконфигурированная для выполнения желаемой функции (или цели), получается путем обучения базовой модели искусственного интеллекта с использованием множества фрагментов обучающих данных с помощью алгоритма обучения. Модель искусственного интеллекта может включать в себя множество слоев нейронной сети.
Способы, раскрытые здесь, содержат один или несколько этапов или действий для достижения описанного способа. Этапы и/или действия способа могут заменять друг друга, не выходя за пределы объема формулы изобретения. Другими словами, если не определен конкретный порядок этапов или действий, порядок и/или использование конкретных этапов и/или действий может изменяться, не выходя за пределы объема формулы изобретения.
В заявке не указано конкретное программное и аппаратное обеспечение для реализации блоков на чертежах, но специалисту в области техники должно быть понятно, что сущность изобретения не ограничена конкретной программной или аппаратной реализацией, и поэтому для осуществления изобретения могут быть использованы любые программные и аппаратные средства известные в уровне техники. Так аппаратные средства могут быть реализованы в одной или нескольких специализированных интегральных схемах, цифровых сигнальных процессорах, устройствах цифровой обработки сигналов, программируемых логических устройствах, программируемых пользователем вентильных матрицах, процессорах, контроллерах, микроконтроллерах, микропроцессорах, электронных устройствах, других электронных модулях, выполненных с возможностью осуществлять описанные в данном документе функции, компьютере либо комбинации вышеозначенного.
Несмотря на то, что примерные варианты осуществления были подробно описаны и показаны на сопроводительных чертежах, следует понимать, что такие варианты осуществления являются лишь иллюстративными и не предназначены ограничивать более широкое изобретение, и что данное изобретение не должно ограничиваться конкретными показанными и описанными компоновками и конструкциями, поскольку различные другие модификации могут быть очевидны специалистам в соответствующей области.
Элементы, упомянутые в единственном числе, не исключают множественности элементов, если отдельно не указано иное.
Признаки, упомянутые в различных зависимых пунктах формулы, а также реализации раскрытые в различных частях описания могут быть скомбинированы с достижением полезных эффектов, даже если возможность такого комбинирования не раскрыта явно.

Claims (28)

1. Блок обработки изображений, включающий в себя:
- кодировщик, выполненный с возможностью приема данных размытого изображения и формирования глобального признакового представления изображения,
- блок объединения, выполненный с возможностью объединения глобального признакового представления и информации размытия, характеризующей движение блока захвата изображения в момент захвата изображения,
- декодировщик, выполненный с возможностью приема результата объединения из блока объединения и формирования тензора признаков, а также тензоров весов,
- рекуррентный улучшающий модуль, выполненный с возможностью осуществления рекуррентной фильтрации признаков на основании тензора признаков и тензоров весов, полученных из декодировщика, и
- модуль реконструкции изображений, выполненный с возможностью реконструкции изображения с устраненным размытием на основании тензора признаков, полученного из декодировщика или рекуррентного улучшающего модуля,
причем блок обработки изображения выполнен с возможностью оценки глобального сдвига изображения и активации или деактивации рекуррентного улучшающего модуля на основании упомянутой оценки.
2. Блок обработки изображений по п. 1, причем блок обработки изображений реализован в виде искусственной нейронной сети.
3. Способ обработки изображения, выполняемый блоком обработки изображений по п. 1 или 2, включающий в себя следующие этапы, на которых:
- принимают размытое изображение и осуществляют оценку глобального сдвига для определения, является ли размытие равномерным или динамическим;
- на основании данных входного размытого изображения формируют посредством кодировщика глобальное признаковое представление входного изображения;
- осуществляют объединение глобального признакового представления входного изображения и информации размытия, характеризующей движение блока захвата изображения в момент захвата изображения;
- формируют посредством декодировщика тензор признаков и тензоры весов на основании результатов упомянутого выше объединения;
- если размытие изображения является равномерным, то осуществляют реконструкцию изображения с устраненным размытием посредством модуля реконструкции изображения на основании упомянутого тензора признаков; и
- если размытие изображения является динамическим, то осуществляют рекуррентную фильтрацию признаков посредством рекуррентного улучшающего модуля на основании сформированного тензора признаков и тензоров весов, и осуществляют реконструкцию изображения с устраненным размытием посредством модуля реконструкции изображения на основании полученного фильтрованного тензора признаков.
4. Способ по п. 3, в котором рекуррентная фильтрация включает в себя четыре RNN-операции.
5. Способ по п. 4, в котором декодировщик формирует шестнадцать тензоров весов, а каждая RNN-операция включает в себя четыре рекуррентных прохода изображения.
6. Способ по п. 4, в котором декодировщик формирует восемь тензоров весов, а каждая RNN-операция включает в себя два рекуррентных прохода изображения, осуществляемых по кривой, представляющей собой кривую Гильберта.
7. Способ по п. 3, в котором рекуррентная фильтрация включает в себя одну RNN-операцию.
8. Способ по п. 7, в котором декодировщик формирует четыре тензора весов, а RNN-операция включает в себя четыре рекуррентных прохода изображения.
9. Способ по п. 7, в котором декодировщик формирует два тензора весов, а RNN-операция включает в себя два рекуррентных прохода изображения, осуществляемых по кривой, представляющей собой кривую Гильберта.
10. Способ по п. 3, в котором на входном размытом изображении отфильтровывают пиксели, относящиеся к областям изображения с равномерным размытием, и обрабатывают посредством рекуррентного улучшающего модуля пиксели, относящиеся к областям изображения с динамическим размытием, после чего обработанные области изображения с динамическим размытием связывают с областями изображения с равномерным размытием в модуле реконструкции изображений для формирования выходного изображения с устраненным размытием.
11. Способ по п. 3, в котором данные размытого изображения принимают из блока захвата изображения.
12. Способ по п. 11, в котором информацию размытия получают из датчика движения блока захвата изображения.
13. Способ по п. 11, в котором дополнительно получают последовательность изображений, захватываемых дополнительной камерой, имеющей более высокую скорость захвата кадров и более низкое разрешение по сравнению с упомянутым блоком захвата изображений, оценивают движение блока захвата изображения на основании полученной последовательности изображений и используют упомянутую информацию о движении в качестве информации размытия.
14. Способ по п. 12 или 13, в котором информацию размытия получают в отношении движения блока захвата изображения только в одной плоскости.
15. Устройство формирования изображений, включающее в себя блок обработки изображений по п. 1 или 2 и блок захвата изображений.
16. Компьютерно-читаемый носитель, хранящий компьютерную программу, которая при ее исполнении посредством процессора предписывает упомянутому процессору выполнять способ обработки изображения по любому из пп. 3-14.
RU2020121995A 2020-07-02 2020-07-02 Устранение размытия изображения RU2742346C1 (ru)

Priority Applications (4)

Application Number Priority Date Filing Date Title
RU2020121995A RU2742346C1 (ru) 2020-07-02 2020-07-02 Устранение размытия изображения
KR1020200138644A KR20220003946A (ko) 2020-07-02 2020-10-23 전자 장치 및 전자 장치의 제어 방법
EP21832503.3A EP4150562A4 (en) 2020-07-02 2021-06-29 ELECTRONIC DEVICE AND CONTROL METHOD FOR ELECTRONIC DEVICE
PCT/KR2021/008159 WO2022005157A1 (en) 2020-07-02 2021-06-29 Electronic device and controlling method of electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020121995A RU2742346C1 (ru) 2020-07-02 2020-07-02 Устранение размытия изображения

Publications (1)

Publication Number Publication Date
RU2742346C1 true RU2742346C1 (ru) 2021-02-04

Family

ID=74554746

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020121995A RU2742346C1 (ru) 2020-07-02 2020-07-02 Устранение размытия изображения

Country Status (2)

Country Link
KR (1) KR20220003946A (ru)
RU (1) RU2742346C1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114066771A (zh) * 2021-11-25 2022-02-18 Oppo广东移动通信有限公司 图像去噪处理方法、装置、存储介质与电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11741579B2 (en) * 2020-11-16 2023-08-29 Huawei Technologies Co., Ltd. Methods and systems for deblurring blurry images

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133948A (zh) * 2017-05-09 2017-09-05 电子科技大学 基于多任务卷积神经网络的图像模糊与噪声评测方法
CN108230264A (zh) * 2017-12-11 2018-06-29 华南农业大学 一种基于ResNet神经网络的单幅图像去雾方法
US20180197278A1 (en) * 2017-01-12 2018-07-12 Postech Academy-Industry Foundation Image processing apparatus and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180197278A1 (en) * 2017-01-12 2018-07-12 Postech Academy-Industry Foundation Image processing apparatus and method
CN107133948A (zh) * 2017-05-09 2017-09-05 电子科技大学 基于多任务卷积神经网络的图像模糊与噪声评测方法
CN108230264A (zh) * 2017-12-11 2018-06-29 华南农业大学 一种基于ResNet神经网络的单幅图像去雾方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114066771A (zh) * 2021-11-25 2022-02-18 Oppo广东移动通信有限公司 图像去噪处理方法、装置、存储介质与电子设备

Also Published As

Publication number Publication date
KR20220003946A (ko) 2022-01-11

Similar Documents

Publication Publication Date Title
Bhat et al. Deep burst super-resolution
US12008797B2 (en) Image segmentation method and image processing apparatus
Su et al. Deep video deblurring for hand-held cameras
Xu et al. Learning to restore low-light images via decomposition-and-enhancement
Wang et al. Joint filtering of intensity images and neuromorphic events for high-resolution noise-robust imaging
Zhou et al. Spatio-temporal filter adaptive network for video deblurring
WO2021208122A1 (zh) 基于深度学习的视频盲去噪方法及装置
TWI709107B (zh) 影像特徵提取方法及包含其顯著物體預測方法
Huang et al. Range scaling global u-net for perceptual image enhancement on mobile devices
Liu et al. A motion deblur method based on multi-scale high frequency residual image learning
US20200068151A1 (en) Systems and methods for processing low light images
US9589328B2 (en) Globally dominant point spread function estimation
Haoyu et al. Learning to deblur and generate high frame rate video with an event camera
Duan et al. Guided event filtering: Synergy between intensity images and neuromorphic events for high performance imaging
RU2742346C1 (ru) Устранение размытия изображения
CN113902647B (zh) 一种基于双闭环网络的图像去模糊方法
Vitoria et al. Event-based image deblurring with dynamic motion awareness
CN113362338B (zh) 铁轨分割方法、装置、计算机设备和铁轨分割处理系统
US20220005160A1 (en) Electronic device and controlling method of electronic device
CN104202603B (zh) 一种应用于视频帧速率上转换的运动向量场生成方法
CN116385283A (zh) 一种基于事件相机的图像去模糊方法及系统
Park et al. Down-scaling with learned kernels in multi-scale deep neural networks for non-uniform single image deblurring
CN114511487A (zh) 图像融合方法及装置、计算机可读存储介质、终端
Komatsu et al. Effectiveness of u-net in denoising rgb images
Alshammri et al. Three-dimensional video super-resolution reconstruction scheme based on histogram matching and recursive Bayesian algorithms