[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20210058619A - 하이퍼네트워크 훈련 방법 및 장치, 전자 기기, 저장 매체 - Google Patents

하이퍼네트워크 훈련 방법 및 장치, 전자 기기, 저장 매체 Download PDF

Info

Publication number
KR20210058619A
KR20210058619A KR1020200036528A KR20200036528A KR20210058619A KR 20210058619 A KR20210058619 A KR 20210058619A KR 1020200036528 A KR1020200036528 A KR 1020200036528A KR 20200036528 A KR20200036528 A KR 20200036528A KR 20210058619 A KR20210058619 A KR 20210058619A
Authority
KR
South Korea
Prior art keywords
sub
network
hypernetwork
training
path neural
Prior art date
Application number
KR1020200036528A
Other languages
English (en)
Other versions
KR102387020B1 (ko
Inventor
시앙시앙 추
보 장
루이쥔 쉬
빈 왕
Original Assignee
베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20210058619A publication Critical patent/KR20210058619A/ko
Application granted granted Critical
Publication of KR102387020B1 publication Critical patent/KR102387020B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은 하이퍼네트워크 훈련 방법 및 장치, 전자 기기, 저장 매체에 관한 것이다. 하이퍼네트워크 훈련 방법으로서, 멀티 경로 뉴럴 서브 네트워크를 획득함으로써, 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시켜, 각 서브 구조의 가중 파라미터를 업데이트하는 단계; 상기 멀티 경로 뉴럴 서브 네트워크 중 각 서브 구조의 가중 파라미터를 상기 초기 하이퍼네트워크에 동기화시키는 단계; 및 하이퍼네트워크가 수렴되면 훈련을 종료하고 목표 하이퍼네트워크를 획득하는 단계를 포함한다. 이로써, 단일 경로 목표 표현 능력이 제한된 조건에서, 본 실시예에서 멀티 경로 뉴럴 서브 네트워크를 이용하여 하이퍼네트워크를 훈련시킴으로써, 하이퍼네트워크의 표현 능력의 향상에 도움이 된다.

Description

하이퍼네트워크 훈련 방법 및 장치, 전자 기기, 저장 매체{HYPERNETWORK TRAINING METHOD AND DEVICE, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 출원은 2019년 11월 12일에 중국 특허청에 제출한 출원 번호가 CN2019111022613이고, 발명의 명칭이 "하이퍼네트워크 훈련 방법 및 장치, 전자 기기, 저장 매체"인 중국 특허 출원의 우선권을 주장하며, 그 전부 내용은 인용을 통해 본 출원에 결합된다.
본 발명은 딥 러닝 기술 분야에 관한 것으로, 특히, 하이퍼네트워크 훈련 방법 및 장치, 전자 기기, 저장 매체에 관한 것이다.
현재 뉴럴 네트워크에서 아키텍처 검색(Neural architecture search, NAS)에서, 일반적으로 단일 경로 뉴럴 서브 네트워크로 구현된다. 즉, 하이퍼네트워크 중 각 계층에서 하나의 서브 모듈만을 샘플링하고, 샘플링된 서브 모듈을 순차적으로 직렬연결하여, 단일 경로 뉴럴 서브 네트워크를 형성할 수 있고, 다음, 하이퍼네트워크로부터 각 계층의 서브 모듈의 파라미터를 공유한 후, 상기 단일 경로 뉴럴 서브 네트워크에 대해 단일 동작 훈련을 수행한다. 상기 단일 경로 뉴럴 서브 네트워크 훈련이 종료된 후, 각 서브 모듈의 파라미터를 하이퍼네트워크에 다시 공유한다. 이러한 방식으로, 하이퍼네트워크의 훈련이 수렴될 때까지,“샘플링- 파라미터 공유-단일 동작 훈련-파라미터 업데이트”단계를 반복한다.
상기 뉴럴 네트워크의 아키텍처 검색 방안에서, 매번 샘플링 훈련된 단일 경로 뉴럴 서브 네트워크에서, 샘플링된 서브 모듈의 공정성을 보장하기 위해, 각 계층에서 하나의 서브 구조만을 샘플링할 수 있지만, 이는 뉴럴 네트워크의 표현 능력을 제한할 수 있다.
본 발명은 관련 기술의 결함을 해결하기 위해, 하이퍼네트워크 훈련 방법 및 장치, 전자 기기, 저장 매체를 제공한다.
본 발명의 실시예의 제1 측면에 따르면, 하이퍼네트워크 훈련 방법을 제공하며,상기 방법은,
미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계;
상기 멀티 경로 뉴럴 서브 네트워크를 훈련시켜, 각 서브 구조의 가중 파라미터를 업데이트하는 단계;
상기 멀티 경로 뉴럴 서브 네트워크에서 각 서브 구조의 가중 파라미터를 상기 초기 하이퍼네트워크에 동기화시키는 단계; 및
상기 초기 하이퍼네트워크가 수렴되는지 여부를 판단하고, 수렴되지 않으면, 미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계를 재실행하고, 수렴되면, 훈련을 종료하고 목표 하이퍼 네트위크를 획득하는 단계를 포함한다.
선택적으로, 상기 미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계는,
미리 구축된 하이퍼네트워크의 각 계층에 대해, 상기 각 계층으로부터 적어도 하나의 서브 구조를 샘플링하며, 상기 적어도 하나의 서브 구조의 출력 결과를 합치기 위한 출력단을 추가하여, 상기 적어도 하나의 서브 구조 및 상기 출력단을 포함하는 서브 구조 유닛을 획득하는 단계;
상기 각 계층의 순서에 따라 각 서브 구조 유닛을 직렬연결하여, 초기 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계; 및
상기 초기 하이퍼네트워크 및 초기의 멀티 경로 뉴럴 서브 네트워크에서 동일한 서브 구조에 대해 파라미터를 공유하여, 최종 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계를 포함한다.
선택적으로, 상기 각 계층으로부터 적어도 하나의 서브 구조를 샘플링하는 단계에서, 베르누이 샘플링 방법으로 서브 구조에 대해 순차적으로 샘플링하며, 상기 각 계층에서 각 서브 구조가 샘플링될 확률은 같다.
선택적으로, 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시키는 단계는,
훈련 세트에서 제1 개수 개의 훈련 샘플를 획득하는 단계; 및
상기 제1 개수의 훈련 샘플을 모두 사용할 때까지, 상기 훈련 샘플을 순차적으로 상기 멀티 경로 뉴럴 서브 네트워크에 입렵하여 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시키는 단계를 포함한다.
선택적으로, 상기 방법은, 상기 목표 하이퍼네트워크에 기반하여 새로 획득된 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 평가 결과를 획득하는 단계; 및
상기 평가 결과에 따라 설정 조건을 만족하는 멀티 경로 뉴럴 서브 네트워크를 결정하여, 상기 결정된 멀티 경로 뉴럴 서브 네트워크를 목표 시나리오에 적용하는 단계를 더 포함한다.
선택적으로, 상기 목표 하이퍼네트워크에 기반하여 새로 획득된 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 평가 결과를 획득하는 단계는,
상기 목표 하이퍼네트워크에 기반하여 복수 개의 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계;
상기 목표 하이퍼네트워크에서 각 서브 구조의 가중 파라미터를 상기 경로 뉴럴 서브 네트워크에서 대응되는 서브 구조에 공유하는 단계; 및
상기 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 각 멀티 경로 뉴럴 서브 네트워크의 평가 결과를 획득하는 단계를 포함한다.
선택적으로, 상기 목표 시나리오는 이미지 분류, 목표 검출, 시맨틱 세그머테이션, 텍스트 음성 변환, 자연어 변역, 음성 향상 중 적어도 하나를 포함한다.
본 발명의 실시예의 제2 측면에 따르면, 하이퍼네트워크를 훈련시키는 장치를 제공하며, 상기 장치는,
미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 서브 네트워크 획득 모듈;
상기 멀티 경로 뉴럴 서브 네트워크를 훈련시켜, 각 서브 구조의 가중 파라미터를 업데이트하기 위한 서브 네트워크 훈련 모듈;
상기 멀티 경로 뉴럴 서브 네트워크에서 각 서브 구조의 가중 파라미터를 상기 초기 하이퍼네트워크에 동기화시키기 위한 가중 파라미터 동기화 모듈; 및
상기 초기 하이퍼네트워크의 수렴되는지 여부를 판단하고, 상기 초기 하이퍼네트워크가 수렴되지 않으면 상기 서브 네트워크가 획득한 모듈을 트리거하며, 상기 초기 하이퍼네트워크가 수렴되면 훈련을 종료하고 목표 하이퍼네트워크를 획득하기 위한 하이퍼네트워크 획득 모듈을 포함한다.
선택적으로, 상기 서브 네트워크 획득 모듈은,
미리 구축된 하이퍼네트워크의 각 계층에 대해, 상기 각 계층으로부터 적어도 하나의 서브 구조를 샘플링하고, 상기 적어도 하나의 서브 구조의 출력 결과를 합치기 위한 출력단을 추가하여, 상기 적어도 하나의 서브 구조 및 상기 출력단을 포함하는 서브 구조 유닛을 획득하기 위한 서브 구조 획득 유닛;
상기 각 계층의 순서에 따라 각 서브 구조 유닛을 직렬연결하여, 초기 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 서브 구조 직렬연결 유닛; 및
상기 초기 하이퍼네트워크 및 초기의 멀티 경로 뉴럴 서브 네트워크에서 동일한 서브 구조에 대해 파라미터를 공유하여, 최종 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 파라미터 공유 유닛을 포함한다.
선택적으로, 상기 서브 구조 획득 유닛은 베르누이 샘플링 방법으로 서브 구조를 순차적으로 샘플링하기 위한 것이고, 상기 각 계층에서 각 서브 구조가 샘플링될 확률은 같다.
선택적으로, 상기 서브 네트워크 훈련 모듈은,
훈련 세트에서 제1 개수 개의 훈련 샘플를 획득하기 위한 훈련 샘플 획득 유닛; 및
상기 제1 개수의 훈련 샘플을 모두 사용할 때까지, 상기 훈련 샘플을 순차적으로 상기 멀티 경로 뉴럴 서브 네트워크에 입렵하여 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시키기 위한 서브 네트워크 훈련 유닛을 포함한다.
선택적으로, 상기 장치는,
상기 목표 하이퍼네트워크에 기반하여 새로 획득된 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 평가 결과를 획득하기 위한 평가 결과 획득 모듈;
상기 평가 결과에 따라 설정 조건을 만족하는 멀티 경로 뉴럴 서브 네트워크를 결정하여, 상기 결정된 멀티 경로 뉴럴 서브 네트워크를 목표 시나리오에 적용하기 위한 목표 시나리오 결정 모듈을 더 포함한다.
선택적으로, 상기 평가 결과 획득 모듈은,
상기 목표 하이퍼네트워크에 기반하여, 복수 개의 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 서브 네트워크 획득 유닛;
상기 목표 하이퍼네트워크에서 각 서브 구조의 가중 파라미터를 상기 멀티 경로 뉴럴 서브 네트워크에서 대응되는 서브 구조에 공유하기 위한 파라미터 공유 유닛; 및
상기 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 각 멀티 경로 뉴럴 서브 네트워크의 평가 결과를 획득하기 위한 서브 네트워크 평가 유닛을 포함한다.
본 출윈 실시예의 제3 측면에 따르면, 전자 기기를 제공하며,
프로세서; 및
상기 프로세서에서 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고;
상기 프로세서는 상기 메모리에서 실행 가능한 명령어를 실행하여 상기 방법의 단계를 구현하도록 구성된다.
본 발명의 실시예의 제4 측면에 따르면, 실행 가능한 명령어를 저장하는 판독 가능한 매체를 제공하며, 상기 실행 가능한 명령어가 프로세서에 의해 실행될 때 상기 방법의 단계를 구현한다.
본 발명의 실시예에서 제공한 기술방안은 다음의 유익한 효과를 포함할 수 있다.
상기 실시예로부터 알 수 있다시피, 본 발명의 실시예는 멀티 경로 뉴럴 서브 네트워크를 획득한 다음, 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시켜, 각 서브 구조의 가중 파라미터를 업데이트한 후, 상기 멀티 경로 뉴럴 서브 네트워크 중 각 서브 구조의 가중 파라미터를 상기 초기 하이퍼네트워크에 동기화시키며; 마지막으로 하이퍼네트워크가 수렴되면, 훈련을 종료하고 목표 하이퍼네트워크를 획득한다. 이로써, 하나의 경로 표현 능력이 제한된 경우, 본 실시예에서 멀티 경로 뉴럴 서브 네트워크를 이용하여 하이퍼네트워크를 훈련시킴으로써, 하이퍼네트워크의 표현 능력 향상에 도움이 된다.
이해할 수 있는 것은, 이상의 일반적인 서명 및 하기의 세부 설명은 단지 예시적이고 해석적인 것이며, 본 발명을 한정하지 않는다.
여기서, 도면은 본 명세서에 포함되어 본 명세서의 일부를 구성하는 도면은 본 발명과 일치하는 실시예를 도시하고, 명세서와 함께 본 발명의 원리를 해석하기 위한 것이다.
도 1은 일 예시 실시예에 따라 도시된 하이퍼네트워크 훈련 방법의 흐름도이다.
도 2는 일 예시적 실시예에 따라 도시된 하이퍼네트워크의 구조 예시도이다.
도 3은 일 예시적 실시예에 따라 도시된 멀티 경로 뉴럴 서브 네트워크의 흐름도이다.
도 4는 일 예시적 실시예에 따라 도시된 샘플링된 서브 구조의 예시도이다.
도 5는 일 예시적 실시예에 따라 도시된 파라미터 공유의 예시도이다.
도 6은 일 예시적 실시예에 따라 도시된 멀티 경로 뉴럴 서브 네트워크를 훈련하는 흐름도이다.
도 7은 일 예시적 실시예에 따라 도시된 하이퍼네트워크의 가중 파라미터를 동기화시키는 예시도이다.
도 8은 일 예시적 실시예에 따라 도시된 멀티 경로 뉴럴 서브 네트워크 평가의 흐름도이다.
도 9 내지 도 13은 일 예시적 실시예에 따라 도시된 하이퍼네트워크 훈련 장치의 블록도이다.
도 14는 일 예시적 실시예에 따라 도시된 전자 기기의 블록도이다.
아래에, 예시적 실시예에 대해 상세하게 설명하며, 그 예는 도면에 도시된다. 이하의 설명은 다른 표시가 없는 한, 상이한 도면에서 동일한 숫자는 동일하거나 유사한 요소를 나타낸다. 하기 예시적 실시예에서 설명된 실시형태는 본 발명과 일치하는 모든 실시형태를 나타내지는 않는다. 반면, 이들은 첨부된 청구범위에 설명된 바와 같은, 본 발명의 일부 측면과 일치하는 장치의 예일 뿐이다.
현재 뉴럴 네트워크 아키텍처 검색(NAS)에서, 일반적으로 단일 경로 뉴럴 서브 네트워크를 사용하여 구현하며, 즉, 하이퍼네트워크의 각 계층으로부터 하나의 서브 모듈을 샘플링하고, 샘플링된 서브 모듈을 순차적으로 직렬연결하여, 하나의 단일 경로 뉴럴 서브 네트워크를 구성할 수 있으며; 다음, 각 하이퍼네트워크로부터 각 계층 서브 모듈의 파라미터를 공유하며; 그리고, 상기 단일 경로 뉴럴 서브 네트워크에 대해 단일 동작 훈련을 수행한다. 상기 단일 경로 뉴럴 서브 네트워크를 훈련이 종료되면, 각 서브 모듈의 파라미터를 하이퍼네트워크에 다시 공유한다. 이러한 방식으로, 하이퍼네트워크의 훈련이 수렴될 때까지, “샘플링-파라미터 공유-단일 동작 훈련-파라미터 업데이트” 단계를 반복한다.
상기 뉴럴 네트워크의 아키텍처 검색 방안에서, 매회 샘플링 훈련된 단일 경로 뉴럴 서브 네트워크에서, 샘플링된 서브 모듈의 공정성을 보장하기 위해, 각 계층에서 하나의 서브 구조만을 샘플링할 수 있지만, 이는 뉴럴 네트워크의 특정 능력을 제한할 수 있다.
상기 기술적 문제를 해결하기 위해, 본 발명 실시예에서 하이퍼네트워크 훈련 방법을 제공하며, 도 1은 일 예시적 실시예에 따른 하이퍼네트워크 훈련 방법의 흐름도이다. 여기서 설명해야 할 것은, 기 하이퍼네트워크를 훈련시키는 방법으로부터 목표 시나리오는 이미지 분류, 목표 검출, 시맨틱 세그머테이션, 텍스트 음성 변환, 자연어 번역, 음성 향상 중 적어도 하나를 포함하며, 이에 한정되지 않는다. 도 1을 참조하면, 하이퍼네트워크 훈련 방법은, 단계 101 내지 단계 104를 포함한다;
단계 101에서, 미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득한다.
본 실시예에서 하나의 하이퍼네트워크를 미리 구축할 수 있으며, 하이퍼네트워크는 도 2에 도시된다. 여기서, 하이퍼네트워크는 모든 검색 네트워크 구조 공간을 포함하는 하나의 인터넷을 의미한다. 상기 하이퍼네트워크는 멀티 계층을 포함하고, 각 계층은 복수 개의 선택적인 서브 구조를 포함한다. 도 2를 참조하면, 도 2에서 하이퍼네트워크는 처음 4개의 계층만 도시하였고, 여기서 제2 계층에는 복수 개의 서브 구조가 포함되며, 서브 구조 A, 서브 구조 B와 서브 구조 C만 도시하였다.
각 서브 구조는 컨볼루션, 풀링 등과 같은 여러 유형의 선택적인 연산자를 포함하며, 각 연산자에는 일부 하이퍼 파라미터(예를 들어, 컨볼루션 사이즈, 컨볼루션 스텝 길이) 및 가중 파라미터를 포함한다. 상기 하이퍼네트워크는 관련 기술의 구축 방법에 따라 구축할 수 있으며, 여기서 더이상 설명하지 않는다.
하이퍼네트워크를 구축한 후, 제로 값 초기화, 랜덤 초기화 또는 He 초기화와 같은 관련 기술의 초기화 방법으로 이의 가중 파라미터의 값을 초기화하고, 이에 한정되지 않는다. 물론, 상기 하이퍼네트워크는 또한 전에 훈련한 가중 파라미터를 현재 훈련하려는 초기화된 가중 파라미터의 값으로 사용하며, 이런 방식으로 초기화된 하이퍼네트워크, 즉 초기 하이퍼네트워크를 얻을 수 있다.
본 실시예에서, 미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워를 획득하며, 도 3을 참조하면, 미리 구축된 뉴럴 네트워크 하이퍼네트워크의 각 계층에 대해, 각 계층으로부터 적어도 하나의 서브 구조를 샘플링하고, 적어도 하나의 서브 구조의 출력 결과를 합치기 위한 출력단을 추가하여, 적어도 하나의 서브 구조 및 상기 출력단의 서브 구조를 포함하는 서브 구조 유닛(도 3중의 단계301에 대응함)을 획득한다. 여기서, 설명의 편의를 위해, 본 실시예에서 적어도 하나의 서브 구조 및 출력단을 하나의 서브 구조 유닛으로 하여 설명하며, 실제 응용에서, 서브 구조 유닛을 분할하는 단계를 추가할 필요가 없다.
설명해야 할 것은, 하나의 훈련 과정에서, 각 계층에서 서브 구조를 샘플링하는 과정과 다른 계층에서 서브 구조를 샘플링 하는 과정은 서도 독립적이며, 동일한 계층에서 샘플링한 각 서브 구조도 서로 독립적이다. 본 발명의 예에서, 샘플링 방법은 베르누이 샘플링 방법을 사용하며, 각 서브 구조는 활성화될 확률과 비활성화될 확률은 동일하며, 즉, 하나의 샘플링 과정에서, 하나의 서브 구조는 샘플링되거나, 샘플링되지 않은 두 가지 상태만 있고, 이로써, 각 서브 구조의 샘플링 공정성을 보장할 수 있어, 훈련 효과의 안정성을 보장한다.
도 4를 참조하면, 예를 들어, 제2 계층에서 3 개의 서브 구조, 즉 서브 구조 A, 서브 구조 B와 서브 구조 C를 샘플링하고, 3 개의 서브 구조의 출력은 출력단(도 4에서 “+”는 출력단을 의미함)에 연결된다. 상기 출력단은 3 개의 서브 구조의 결과를 합칠 수 있고, 합쳐진 결과는 다음 계층에서 각 서브 구조의 입력 데이터로 사용함으로써, 각 출력 데이터의 차원을 낮추고, 계산량을 줄일수 있다.
설명해야 할 것은, 본 실시예에서 동일한 계층의 각 서브 구조에 의해 출력된 데이터의 차원은 원칙적으로 동일해야 하며, 차원이 상이할 때, 낮은 차원에서 설정값(예컨대 0)을 보충하는 방식으로, 동일한 계층의 모든 서브 구조가 동일한 차원을 갖도록 함으로써, 동일한 계층 데이터를 합치는 효과를 보장한다. 물론, 컨볼루션 커널이 차원을 증가하거나 감소시키는 기능을 고려하여, 각 서브 구조에서 1*1의 컨볼루션 커널을 설치할 수 있으므로, 모든 서브 구조의 출력 데이터의 차원을 동일하게 할수 있으며, 대응하는 방안은 본 발명의 보호범위에 속한다.
그리고, 상기 각 계층의 순서에 따라 각 서브 구조 유닛을 직렬연결하여 초기의 멀티 경로 뉴럴 서브 네트워크(도 3 중의 단계 302에 대응함)를 획득한다. 실제 응용에서, 각 계층에서의 서브 구조를 상부 계층의 서브 구조 유닛의 출력단에 각각 연결하며, 즉, 동일한 계층에서 각 서브 구조의 입력 데이터는 동일하다. 이해할 수 있는 것은, 각 계층에는 적어도 하나의 서브 구조가 포함되어 있으므로, 직렬연결된 서브 네트워크는 입력단으로부터 출력단까지 복수 개의 경로가 있어, 멀티 경로 뉴럴 서브 네트워크라고 부른다.
그 후, 초기 하이퍼네트워크 및 초기의 멀티 경로 뉴럴 서브 네트워크에서 동일한 서브 구조에 대해 파라미터를 공유하여, 최종 멀티 경로 뉴럴 서브 네트워크(도 3 중의 단계 303에 대응함)를 획득한다. 여기서, 파라미터 공유는 멀티 경로 뉴럴 서브 네트워크에서 각 서브 구조의 가중 파라미터와 하이퍼네트워크에서 서브 구조에 대응하는 가중 파라미터와 동일하다. 도 5를 참조하면, 파라미터 공유 과정에서, 하이퍼네트워크의 제2 계층에서의 서브 구조 A의 가중 파라미터를 멀티 경로 뉴럴의 제2 계층에서의 서브 구조 A에 공유하고, 하이퍼네트워크의 제2 계층에서 서브 구조 B의 가중 파라미터를 멀티 경로 뉴럴의 제2계층에서의 서브 구조 B에 공유하며, 하이퍼네트워크의 제2 계층에서의 서브 구조 C의 가중 파라미터를 멀티 경로 뉴럴의 제2 계층에서의 서브 구조 C에 공유한다. 상기 단계를 반복하여, 멀티 경로 뉴럴 서브 네트워크에서 모든 서브 구조 가중 파라미터에 대해 값을 할당할 수 있다.
단계 102에서, 상기 멀티 경로 뉴럴 서브 네트워크를 훈련하여, 각 서브 구조의 가중 파라미터를 업데이트한다.
본 실시예에서, 하나의 훈련 세트를 미리 설정하고, 상기 훈련 세트에는 소정 수량의 훈련 샘플이 포함되며, 구체적인 시나리오에 따라 일정한 수량을 설정할 수 있으며, 예를 들어, 수 만에서 수십 만으로 설정될 수 있으며, 이에 한정되지 않는다. 일 예에서, 훈련 세트 내의 훈련 샘플을 그룹화할 수 있고, 각 그룹 내에는 제1 개수 개의 훈련 샘플을 포함하며, 여기서, 제1 개수는 수천 개의 훈련 샘플일 수 있으며, 매회 훈련에 사용되는 샘플량을 줄이고, 훈련 효율을 향상시킴에 있어서 도움이 된다. 실제 응용에서, 훈련 세트에서 모든 샘플을 훈련하여 하나의 Epoch(1 라운드 훈련으로 이해할 수 있음)를 완성한다. 훈련 세트에 20,000 개의 훈련 샘플이 있고, batch size(그룹 크기로 이해할 수 있음) 값이 100이라고 가정하면, 훈련 세트에는 batch(그룹 개수로 이해할 수 있음) 개수는 20000/100=200개가 있으며, 따라서, 각 Epoch가 완성해야 할 batch 개수는 200개이다. 즉 각 멀티 경로 뉴럴 서브 네트워크는 훈련 샘플 100 개를 필요로 하고, 200 개의 멀티 경로 뉴럴 서브 네트워크를 훈련시켜, 하나의 Epoch가 완성된다.
본 실시예에서, 상기 훈련 샘플을 이용하여 멀티 경로 뉴럴 서브 네트워크를 훈련시키며, 예를 들어, 단일 동작 훈련이다. 도 6을 참조하면, 훈련 세트에서 제1 개수 개의 훈련 샘플(도 6의 단계 601에 대응함)을 획득할 수 있다. 그리고, 제1 개수의 훈련 샘플을 모두 사용할 때까지, 훈련 샘플을 순차적으로 멀티 경로 뉴럴 서브 네트워크에 입력하여, 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시킨다(도 6의 단계 602에 대응함). 설명해야 할 것은, 각 서브 구조에서의 가중 파라미터만 변화될 수 있는 한, 멀티 경로 뉴럴 서브 네트워크를 훈련시키는 과정에서, 훈련 샘플은 훈련 세트의 일부만 훈련시키며, 훈련 시간을 단축할 수 있으며; 또한, 멀티 경로 뉴럴 서브 네트워크를 훈련시킬 때, 멀티 경로 뉴럴 서브 네트워크의 수렴을 보장할 필요가 없으므로, 마찬가지로, 훈련 시간을 단축함에 있어서 유리하고, 훈련 효율을 향상시킨다.
설명해야 할 것은, 상이한 멀티 경로 뉴럴 서브 네트워크는 다른 훈련 샘플을 사용하여 훈련될수 있으며, 예를 들어, 훈련 세트는 10 개의 그룹으로 나눌수 있고, 하나의 멀티 경로 뉴럴 서브 네트워크는 한 그룹의 훈련 샘플을 사용하고, 훈련 횟수가 충분한 경우, 각 경로는 완전히 훈련을 받을 수 있어, 하이퍼네트워크의 표현 능력의 향상에 도움이 된다. 또한, 하이퍼네트워크가 수렴된 후, 샘플링된 단일 경로 뉴럴 서브 네트워크의 표현 능력도 관련 기술 중의 단일 경로 뉴럴 서브 네트워크의 표현 능력보다 우수하다.
단계 103에서, 상기 멀티 경로 뉴럴 서브 네트워크에서 각 서브 구조의 가중 파라미터를 상기 초기 하이퍼네트워크에 동기화시킨다.
본 실시예에서, 훈련된 멀티 경로 뉴럴 서브 네트워크 중 각 서브 구조의 가중 파라미터를 초기 하이퍼네트워크에 동기화시킬 수 있다. 이해할 수 있는 것은, 상기 가중 파라미터 동기화 과정은 단계 303의 파라미터 공유의 역과정으로 이해할 수 있으며, 효과는 도 7과 같다. 이와 같이, 실질적으로 하이퍼네트워크에 대해 1 회의 가중 파라미터의 업데이트를 완성하여, 하이퍼네트워크를 간접적으로 훈련시키는 효과에 도달한다.
단계 104에서, 상기 초기 하이퍼네트워크가 수렴되는지 여부를 판단하고, 수렴되지 않으면, 미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계를 재실행하고; 수렴되면, 훈련을 종료하고 목표 하이퍼 네트위크를 획득한다.
본 실시예에서, 가중 파라미터에서 얻은 값을 업데이트할 때마다, 초기 하이퍼네트워크가 수렴되는지 여부를 판단하고, 수렴되지 않으면, 단계 101을 재실행하며, 즉, 미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계를 다시 실행하며; 수렴되면, 훈련을 종료하고 목표 하이퍼 네트위크를 획득한다. 예를 들어, 손실 함수 값이 설정된 한계값보다 작거나 같은지를 판단하고, 크면, 초기 네트워크가 수렴되지 않은 것을 의미하고, 단계 101를 실행하며; 작거나 같으면, 초기 하이퍼네트워크가 수렴된 것을 의미하고, 현재 초기 하이퍼네트워크를 목표 하이퍼네트워크로 한다.
일 실시예에서, 목표 하이퍼네트워크를 획득한 후, 목표 시나리오에 결합 및 적용하며, 하이퍼네트워크 훈련 방법은 또한 멀티 경로 뉴럴 서브 네트워크를 평가하는 단계를 더 포함할 수 있다. 도 8을 참조하면, 도 3에서 도시된 실시예의 내용에 따라, 목표 하이퍼네트워크에 기반하여 복수 개의 멀티 경로 뉴럴 서브 네트워크를 획득할 수 있고, 상기 목표 하이퍼네트워크에서 각 서브 구조의 가중 파라미터를 상기 경로 뉴럴 서브 네트워크에서 대응되는 서브 구조에 공유할 수 있다. 다음, 새로 획득한 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 평가 결과를 획득한다(도 8의 단계 801에 대응함). 그리고, 평가 결과에 따라 설정 조건에 만족하는 멀티 경로 뉴럴 서브 네트워크를 결정하여, 상기 결정된 멀티 경로 뉴럴 서브 네트워크를 목표 시나리오에 적용한다(도 8의 단계 802에 대응함).
설명해야 할 것은, 상기 목표 시나리오는 이미지 분류, 목표 검출, 시맨틱 세그머테이션, 텍스트 음성 변환, 자연어 번역, 음성 향상 중 적어도 하나를 포함한다. 기술인원은 구체적인 시나리오에 따라 목표 시나리오를 설정한다.
설명해야 할 것은, 목표 하이퍼네트워크로부터 샘플링된 멀티 경로 뉴럴 서브 네트워크가 목표 시나리오에 적용된다는 점을 고려하며, 따라서, 평가 지수를 설계할 때, 일부 목표 시나리오에 대한 상대 지표일 수 있으며, 예를 들어, 소량의 데이터 세트에서, 저해상도에서 훈련된 모델 정확도 또는 소량의 epoch가 훈련된 모델 정확도는, 상대 지표에 대응하는 평가 결과를 통해, 임의의 복수 개의 멀티 경로 뉴럴 서브 네트워크의 최적의 멀티 경로 뉴럴 서브 네트워크를 결정한 후, 이를 목표 시나리오에 적용할 수 있다. 다시 말해서, 설정 조건은 복수 개의 멀티 경로 뉴럴 서브 네트워크에서 평술 결과의 최적 값을 의미할 수 있다.
지금까지, 본 발명의 실시예에서 멀티 경로 뉴럴 서브 네트워크를 획득하고, 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시켜, 각 서브 구조의 가중 파라미터를 업데이트 한 다음; 상기 멀티 경로 뉴럴 서브 네트워크에서 각 서브 구조의 가중 파라미터를 상기 초기 하이퍼네트워크에 동기화시키며; 마지막으로, 초기 하이퍼네트워크가 수렴되면, 훈련을 종료하고 목표 하이퍼네트워크를 획득한다. 이와 같이, 하나의 경로 표현 능력이 제한된 경우, 본 실시예에서 멀티 경로 뉴럴 서브 네트워크를 이용하여 하이퍼네트워크를 훈련시킴으로써, 하이퍼네트워크의 능력 향상에 도움이 된다.
본 발명 실시예에서 제공한 기술방안을 상세히 설명하기 위해, 다음 실시예를 제공한다.
이미지 분류를 예로 들면, 이미지 훈련 세트 D가, N 개의 batch로 분할될 수 있고, 각 batch에는 M 개의 이미지 데이터가 포함되며, 각 이미지 데이터는 하나의 분류 라벨에 대응하며, K 개의 유형이 있다고 가정한다. 그리고, 상기 이미지 훈련 세트 및 상기 하이퍼네트워크의 훈련 방법으로 하이퍼네트워크를 훈련시킨다. 훈련을 거쳐, 수렴된 하이퍼네트워크를 획득한다.
다음, 상기 하이퍼네트워크로부터 멀티 경로 뉴럴 서브 네트워크를 샘플링하고, 상기 하이퍼네트워크로부터 각 서브 구조의 파라미터를 공유함으로써, 각 멀티 경로 뉴럴 서브 네트워크를 이미지 훈련 세트 상의 성능 지표를 얻는다.
또한, 성능 지표에 따라 멀티 경로 뉴럴 서브 네트워크로부터 이미지 분류 작업 시나리오에 적합한 서브 네트워크를 선택하여, 최종 실제 시나리오에서 사용될 모델로 한다.
설명해야 할 것은, 다른 이미지, 음성, 자연어 처리 작업에서, 이미지 분류와의 차이점은, 음성 훈련 세트 및 성능 지표의 평가 방법을 변경하여, 나머지 과정은 상기 이미지 분류 모델을 획득하는 방식과 유사하며, 실제 시나리오에서 사용되는 이미지, 음성, 자연어 처리의 모델을 최종적으로 얻을 수 있으며, 여기서 더이상 설명하지 않는다.
도 9는 일 예시적 실시예에 따라 도시된 하이퍼네트워크 훈련 장치 블록도이다. 도 9를 참조하면, 하이퍼네트워크 훈련 장치는,
미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 서브 네트워크 획득 모듈(901);
상기 멀티 경로 뉴럴 서브 네트워크를 훈련시켜, 각 서브 구조의 가중 파라미터를 업데이트하기 위한 서브 네트워크 훈련 모듈(902);
상기 멀티 경로 뉴럴 서브 네트워크 중 각 서브 구조의 가중 파라미터를 상기 초기 하이퍼네트워크에 동기화시키기 위한 가중 파라미터 동기화 모듈(903); 및
상기 초기 하이퍼네트워크의 수렴되는지 여부를 판단하고, 상기 초기 하이퍼네트워크가 수렴되지 않으면 상기 서브 네트워크가 획득한 모듈을 트리거하며, 상기 초기 하이퍼네트워크가 수렴되면 훈련을 종료하고 목표 하이퍼네트워크를 획득하기 위한 하이퍼네트워크 획득 모듈(904)을 포함한다.
도 10은 일 예시적 실시예에 따라 도시된 하이퍼네트워크 훈련 장치 블록도 블록도이다, 도 9에 도시된 하이퍼네트워크 훈련 장치를 기반으로, 도 10을 참조하면, 상기 서브 네트워크 획득 모듈(901)은,
미리 구축된 하이퍼네트워크의 각 계층에 대해, 상기 각 계층으로부터 적어도 하나의 서브 구조를 샘플링하며, 상기 적어도 하나의 서브 구조의 출력 결과를 합치기 위한 출력단을 추가하여, 상기 적어도 하나의 서브 구조 및 상기 출력단을 포함하는 서브 구조 유닛을 획득하기 위한 서브 구조 획득 유닛(1001);
상기 각 계층의 순서에 따라 각 서브 구조 유닛을 직렬연결하여, 초기의 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 서브 구조 직렬 유닛(1002); 및
상기 초기 하이퍼네트워크 및 초기의 멀티 경로 뉴럴 서브 네트워크에서 동일한 서브 구조에 대해 파라미터를 공유하여, 최종 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 파라미터 공유 유닛(1003)을 포함한다.
일 실시예에서, 상기 서브 구조 획득 유닛(1001)은 베르누이 샘플링 방법으로 서브 구조를 순차적으로 샘플링하고, 상기 각 계층에서 각 서브 구조가 샘플링될 확률은 같다.
도 11은 일 예시적 실시예에 따라 도시된 하이퍼네트워크 훈련 장치의 블록도이며, 도 9에 도시된 하이퍼네트워크 훈련 장치에 기반하여, 도 11을 참조하면, 상기 서브 네트워크 훈련 모듈(902)은,
훈련 세트에서 제1 개수 개의 훈련 샘플을 획득하기 위한 훈련 샘플 획득 유닛(1101); 및
상기 제1 개수의 훈련 샘플을 모두 사용할 때까지, 상기 훈련 샘플을 순차적으로 상기 멀티 경로 뉴럴 서브 네트워크에 입렵하여 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시키기 위한 서브 네트워크 훈련 유닛(1102)을 포함한다.
도 12는 일 예시적 실시예에 따라 도시된 하이퍼네트워크 훈련 장치 블록도이며, 도 9에 도시된 하이퍼네트워크 훈련 장치에 기반하여, 도 12를 참조하면, 상기 장치는,
상기 목표 하이퍼네트워크에 기반하여 새로 획득된 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 평가 결과를 획득하기 위한 평가 결과 획득 모듈(1201); 및
상기 평가 결과에 따라 설정 조건을 만족하는 멀티 경로 뉴럴 서브 네트워크를 결정하여, 상기 결정된 멀티 경로 뉴럴 서브 네트워크를 목표 시나리오에 적용하기 위한 목표 시나리오 결정 모듈(1202)을 더 포함한다.
도 13은 일 예시적 실시예에 따라 도시된 하이퍼네트워크 훈련 장치 블록도이며, 도 12에 도시된 하이퍼네트워크 훈련 장치에 기반하여, 평가 결과 획득 모듈(1201)은,
상기 목표 하이퍼네트워크에 기반하여, 복수 개의 멀티 경로 뉴럴 서브 네트워를 획득하기 위한 서브 네트워크 획득 유닛(1301);
상기 목표 하이퍼네트워크에서 각 서브 구조의 가중 파라미터를 상기 경로 뉴럴 서브 네트워크에서 대응되는 서브 구조에 공유하기 위한 파라미터 공유 유닛(1302); 및
상기 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 각 멀티 경로 뉴럴 서브 네트워크의 평가 결과를 획득하기 위한 서브 네트워크 평가 유닛(1303)을 포함한다.
상기 실시예의 장치와 관련하여, 그 중의 각 모듈이 동작을 실행하는 구체적인 방식은 상기 방법의 실시예에서 상세히 설명되었고, 여기서 상세한 설명은 하지 않는다.
지금까지, 본 발명의 실시예에서 멀티 경로 뉴럴 서브 네트워크를 획득하고, 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시켜, 각 서브 구조의 가중 파라미터를 업데이트 한 다음; 상기 멀티 경로 뉴럴 서브 네트워크에서 각 서브 구조의 가중 파라미터를 상기 초기 하이퍼네트워크에 동기화시키며; 마지막으로, 초기 하이퍼네트워크가 수렴되면, 훈련을 종료하고 목표 하이퍼네트워크를 획득한다. 이와 같이, 하나의 경로 표현 능력이 제한된 경우, 본 발명의 실시예에서 멀티 경로 뉴럴 서브 네트워크를 이용하여 하이퍼네트워크를 훈련시킴으로써, 하이퍼네트워크의 능력 향상에 도움이 된다.
도 14는 일 예시적 실시예에 따라 도시된 전자 기기의 블록도이다. 예를 들어, 전가 기기(1400)는 스마트폰, 컴퓨터, 디지털 방송 단말, 태블릿 기기, 의로 기기, 운동 기기, 개인 휴대 정보 단말기 등일 수 있다.
도 14를 참조하면, 전자 기기(1400)는 처리 컴포넌트(1402), 메모리(1404), 전원 컴포넌트(1406), 멀티미디어 컴포넌트(1408), 오디오 컴포넌트(1410), 입력/출력(I/O) 인터페이스(1412), 센서 컴포넌트(1414), 및 통신 컴포넌트(1416), 및 이미지 수집 컴포넌트(1418) 중 하나 또는 복수 개를 포함할 수 있다.
처리 컴포넌트(1402)는 디스플레이, 전화통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 전자 기기(1400)의 전반적인 동작을 제어한다. 처리 컴포넌트(1402)는 명령어를 실행하기 위한 하나 또는 복수 개의 프로세서(1420)를 포함할 수 있다. 또한, 처리 컴포넌트(1402)는 처리 컴포넌트(1402) 및 다른 컴포넌트 사이의 인터랙션을 용이하게 하기 위한 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(1402)는 멀티미디어 컴포넌트(1408) 및 처리 컴포넌트(1402) 사이의 인터랙션을 용이하게 하기 위한 멀티미디어 모듈을 포함할 수 있다.
메모리(1404)는 전자 기기(1400)의 동작을 지원하기 위해 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 전자 기기(1400)에서 동작하는 임의의 애플리케이션 또는 방법에 사용되는 명령어, 연락처 데이터, 연락처 목록 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(1404)는 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적 소거 가능한 프로그래머블 읽기 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그래머블 읽기 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 프로그래머블 읽기 전용 메모리(Programmable Read Only Memory, PROM), 읽기 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.
전원 컴포넌트(1406)는 전자 기기(1400)의 다양한 컴포넌트에 전력을 제공한다. 전원 컴포넌트(1406)는 전력 관리 시스템, 하나 또는 복수 개의 전원, 및 전자 기기(1400)에 대한 전력 생성, 관리 및 분배와 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(1408)는 하나의 출력 인터페이스를 제공하는 상기 전자 기기(1400) 및 목표 대상 사이의 스크린을 포함할 수 있다. 일부 실시에에 있어서, 스크린은 액정 디스플레이(LCD) 및 터치 패널(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 스크린은 목표 대상으로부터의 입력 신호를 수신하기 위한 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 슬라이드 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 뿐만 아니라, 상기 터치나 슬라이드 동작과 관련된 지속 시간 및 압력을 검출할 수 있다.
오디오 컴포넌트(1410)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 컴포넌트(1410)는 하나의 마이크(MIC)를 포함하고, 전자 기기(1400)가 통화 모드, 녹음 모드 및 음성 인식과 같은 동작 모드에 있을 때 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(1404)에 추가로 저장되거나 통신 컴포넌트(1416)에 의해 전송될 수 있다. 일부 실시에에 있어서, 오디오 컴포넌트(1410)는 오디오 신호를 출력하기 위한 스피커를 더 포함 한다.
I/O 인터페이스(1412)는 처리 컴포넌트(1402)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등 일수 있다.
센서 컴포넌트(1414)는 전자 기기(1400)에 대해 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(1414)는 전자 기기(1400)의 온/오프 상태, 상기 컴포넌트가 전자 기기(1400)에 대한 디스플레이 및 키패드와 같은 컴포넌트의 상대적 위치를 검출할 수 있으며, 센서 컴포넌트(1414)는 또한, 전자 기기(1400) 또는 하나의 컴포넌트의 위치 변화, 목표 상대와 전자 기기(1400)와의 접촉의 존재 또는 부재, 전자 기기(1400) 방향 또는 가속/감속 및 전자 기기(1400)의 온도 변화를 검출할 수 있다.
통신 컴포넌트(1416)는 전자 기기(1400) 및 다른 기기 사이의 유선 또는 무선 방식의 통신을 용이하게 하도록 구성된다. 전자 기기(1400)는 WiFi, 2G 또는 3G, 또는 이들의 조합과 같은 통신 표준에 기반한 무선 네트워크에 액세스할 수 있다. 일 예시적 실시예에 있어서, 통신 컴포넌트(1416)는 방송 채널에 의해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 일 예시적 실시예에서, 상기 통신 컴포넌트(1416)는 근거리 통신을 촉진하는 근거리 통신(NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역 (Ultra Wideband, UWB) 기술, 블루투스(Bluetooth, BT) 기술 및 다른 기술을 기반으로 구현될 수 있다.
예시적 실시예에서, 전자 기기(1400)는 상기 방법을 실행하기 위해, 하나 또는 복수 개의 주문형 집적 회로(ApplicationSpecificIntegratedCircuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 장치(Digital Signal Processing Devices, DSPD), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 소자로 구현된다.
본 기술분야의 기술자는 명세서를 고려하고 본문에 공개된 발명을 실천한 후, 본 개시의 다른 실시방안을 용이하게 생각해낼 수 있을 것이다. 본문의 임의의 변형, 용도 또는 적응성 변화를 포함하도록 의도되며, 이러한 변형, 용도 또는 적응성 변화는 본 발명의 일반적인 원리에 따르며, 본 개시에서 개시되지 않은 본 기술분야의 공지된 상식이나 통상적인 기술수단을 포함한다. 명세서 및 실시예는 다만 예시적인 것으로 간주되며, 본 발명의 진정한 범위 및 사상은 아래의 청구범위에 의해 지시된다.
이해해야 할 것은, 본 개시는 위에서 설명되고 도면에 도시된 정확한 구조에 한정되지 않으며, 그 범위를 벗어나지 않고 다양한 수정 및 변경을 진행할 수 있다. 본 발명의 범위는 첨부된 청구범위에 의해서만 한정된다.

Claims (15)

  1. 하이퍼네트워크 훈련 방법으로서,
    상기 방법은,
    미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계;
    상기 멀티 경로 뉴럴 서브 네트워크를 훈련시켜, 각 서브 구조의 가중 파라미터를 업데이트하는 단계;
    상기 멀티 경로 뉴럴 서브 네트워크에서 각 서브 구조의 가중 파라미터를 상기 초기 하이퍼네트워크에 동기화시키는 단계; 및
    상기 초기 하이퍼네트워크가 수렴되는지 여부를 판단하고, 수렴되지 않으면, 미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계로 재실행하고, 수렴되면, 훈련을 종료하고 목표 하이퍼네트위크를 획득하는 단계를 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 방법.
  2. 제1항에 있어서,
    상기 미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계는,
    미리 구축된 하이퍼네트워크의 각 계층에 대해, 상기 각 계층으로부터 적어도 하나의 서브 구조를 샘플링하며, 상기 적어도 하나의 서브 구조의 출력 결과를 합치기 위한 출력단을 추가하여, 상기 적어도 하나의 서브 구조 및 상기 출력단을 포함하는 서브 구조 유닛을 획득하는 단계;
    상기 각 계층의 순서에 따라 각 서브 구조 유닛을 직렬연결하여, 초기 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계; 및
    상기 초기 하이퍼네트워크 및 초기의 멀티 경로 뉴럴 서브 네트워크에서 동일한 서브 구조에 대해 파라미터를 공유하여, 최종 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계를 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 방법.
  3. 제2항에 있어서,
    상기 각 계층으로부터 적어도 하나의 서브 구조를 샘플링하는 단계에서, 베르누이 샘플링 방법으로 서브 구조를 순차적으로 샘플링하며, 상기 각 계층에서 각 서브 구조가 샘플링될 확률은 같은 것을 특징으로 하는 하이퍼네트워크 훈련 방법.
  4. 제1항에 있어서,
    상기 멀티 경로 뉴럴 서브 네트워크를 훈련시키는 단계는,
    훈련 세트에서 제1 개수 개의 훈련 샘플를 획득하는 단계; 및
    상기 제1 개수의 훈련 샘플을 모두 사용할 때까지, 상기 훈련 샘플을 순차적으로 상기 멀티 경로 뉴럴 서브 네트워크에 입렵하여 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시키는 단계를 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 방법.
  5. 제1항에 있어서,
    상기 방법은,
    상기 목표 하이퍼네트워크에 기반하여 새로 획득된 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 평가 결과를 획득하는 단계; 및
    상기 평가 결과에 따라 설정 조건을 만족하는 멀티 경로 뉴럴 서브 네트워크를 결정하여, 상기 결정된 멀티 경로 뉴럴 서브 네트워크를 목표 시나리오에 적용하는 단계를 더 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 방법.
  6. 제5항에 있어서,
    상기 목표 하이퍼네트워크에 기반하여 새로 획득된 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 평가 결과를 획득하는 단계는,
    상기 목표 하이퍼네트워크에 기반하여 복수 개의 멀티 경로 뉴럴 서브 네트워크를 획득하는 단계;
    상기 목표 하이퍼네트워크에서 각 서브 구조의 가중 파라미터를 상기 경로 뉴럴 서브 네트워크에서 대응되는 서브 구조에 공유하는 단계; 및
    상기 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 각 멀티 경로 뉴럴 서브 네트워크의 평가 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 방법.
  7. 제5항에 있어서,
    상기 목표 시나리오는 이미지 분류, 목표 검출, 시맨틱 세그머테이션, 텍스트 음성 변환, 자연어 번역, 음성 향상 중 적어도 하나를 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 방법.
  8. 하이퍼네트워크 훈련 장치로서,
    상기 장치는,
    미리 구축된 초기 하이퍼네트워크에 기반하여 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 서브 네트워크 획득 모듈;
    상기 멀티 경로 뉴럴 서브 네트워크를 훈련시켜, 각 서브 구조의 가중 파라미터를 업데이트하기 위한 서브 네트워크 훈련 모듈;
    상기 멀티 경로 뉴럴 서브 네트워크에서 각 서브 구조의 가중 파라미터를 상기 초기 하이퍼네트워크에 동기화시키기 위한 가중 파라미터 동기화 모듈; 및
    상기 초기 하이퍼네트워크의 수렴되는지 여부를 판단하고, 상기 초기 하이퍼네트워크가 수렴되지 않으면 상기 서브 네트워크가 획득한 모듈을 트리거하며, 상기 초기 하이퍼네트워크가 수렴되면 훈련을 종료하고 목표 하이퍼네트워크를 획득하기 위한 하이퍼네트워크 획득 모듈을 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 장치.
  9. 제8항에 있어서,
    상기 서브 네트워크 획득 모듈은,
    미리 구축된 하이퍼네트워크의 각 계층에 대해, 상기 각 계층으로부터 적어도 하나의 서브 구조를 샘플링하고, 상기 적어도 하나의 서브 구조의 출력 결과를 합치기 위한 출력단을 추가하여, 상기 적어도 하나의 서브 구조 및 상기 출력단을 포함하는 서브 구조의 유닛을 획득하기 위한 서브 구조 획득 유닛;
    상기 각 계층의 순서에 따라 각 서브 구조 유닛을 직렬연결하여, 초기의 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 서브 구조 직렬연결 유닛; 및
    상기 초기 하이퍼네트워크 및 초기의 멀티 경로 뉴럴 서브 네트워크에서 동일한 서브 구조에 대해 파라미터를 공유하여, 최종 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 파라미터 공유 유닛을 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 장치.
  10. 제9항에 있어서,
    상기 서브 구조 획득 유닛은 베르누이 샘플링 방법으로 서브 구조를 순차적으로 샘플링하기 위한 것이고, 상기 각 계층에서 각 서브 구조가 샘플링될 확률은 같은 것을 특징으로 하는 하이퍼네트워크 훈련 장치.
  11. 제8항에 있어서,
    상기 서브 네트워크 훈련 모듈은,
    훈련 세트에서 제1 개수 개의 훈련 샘플을 획득하기 위한 훈련 샘플 획득 유닛; 및
    상기 제1 개수의 훈련 샘플을 모두 사용할 때까지, 상기 훈련 샘플을 순차적으로 상기 멀티 경로 뉴럴 서브 네트워크에 입력하여, 상기 멀티 경로 뉴럴 서브 네트워크를 훈련시키기 위한 서브 네트워크 훈련 유닛을 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 장치.
  12. 제 8 항에 있어서,
    상기 하이퍼네트워크 훈련 장치는,
    상기 목표 하이퍼네트워크에 기반하여 새로 획득된 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 평가 결과를 획득하기 위한 평가 결과 획득 모듈; 및
    상기 평가 결과에 따라 설정 조건을 만족하는 멀티 경로 뉴럴 서브 네트워크를 결정하여, 상기 결정된 멀티 경로 뉴럴 서브 네트워크를 목표 시나리오에 적용하기 위한 목표 시나리오 결정 모듈을 더 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 장치.
  13. 제 12 항에 있어서,
    상기 평가 결과 획득 모듈은,
    상기 목표 하이퍼네트워크에 기반하여 복수 개의 멀티 경로 뉴럴 서브 네트워크를 획득하기 위한 서브 네트워크 획득 유닛;
    상기 목표 하이퍼네트워크에서 각 서브 구조의 가중 파라미터를 상기 멀티 경로 뉴럴 서브 네트워크에서 대응되는 서브 구조에 공유하기 위한 파라미터 공유 유닛; 및
    상기 복수 개의 멀티 경로 뉴럴 서브 네트워크를 평가하여, 각 멀티 경로 뉴럴 서브 네트워크의 평가 결과를 획득하기 위한 서브 네트워크 평가 유닛을 포함하는 것을 특징으로 하는 하이퍼네트워크 훈련 장치.
  14. 전자 기기로서,
    프로세서; 및
    상기 프로세서에서 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고;
    상기 프로세서는 상기 메모리에서 실행 가능한 명령어를 실행하여, 제 1항 내지 제7항 중 어느 한 항에 따른 방법의 단계를 구현하도록 구성되는 것을 특징으로 하는 전자 기기.
  15. 실행 가능한 명령어를 저장하는 판독 가능한 저장 매체로서,
    상기 실행 가능한 명령어가 프로세서에서 실행될 때, 제 1항 내지 제7항에 따른 방법의 단계를 구현하는 것을 특징으로 하는 판독 가능한 저장 매체.
KR1020200036528A 2019-11-12 2020-03-26 하이퍼네트워크 훈련 방법 및 장치, 전자 기기, 저장 매체 KR102387020B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911102261.3 2019-11-12
CN201911102261.3A CN110956262A (zh) 2019-11-12 2019-11-12 超网络训练方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
KR20210058619A true KR20210058619A (ko) 2021-05-24
KR102387020B1 KR102387020B1 (ko) 2022-04-15

Family

ID=69977411

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200036528A KR102387020B1 (ko) 2019-11-12 2020-03-26 하이퍼네트워크 훈련 방법 및 장치, 전자 기기, 저장 매체

Country Status (5)

Country Link
US (1) US11443189B2 (ko)
EP (1) EP3825923A1 (ko)
JP (1) JP7073437B2 (ko)
KR (1) KR102387020B1 (ko)
CN (1) CN110956262A (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523665B (zh) * 2020-04-23 2024-02-13 北京百度网讯科技有限公司 超网络参数更新方法、装置和电子设备
CN111553464B (zh) 2020-04-26 2023-09-29 北京小米松果电子有限公司 基于超网络的图像处理方法、装置及智能设备
CN111539439B (zh) * 2020-04-30 2021-01-05 宜宾电子科技大学研究院 一种图像语义分割方法
CN111563592B (zh) * 2020-05-08 2023-12-15 北京百度网讯科技有限公司 基于超网络的神经网络模型生成方法和装置
CN111563591B (zh) * 2020-05-08 2023-10-20 北京百度网讯科技有限公司 超网络的训练方法和装置
CN111582453B (zh) * 2020-05-09 2023-10-27 北京百度网讯科技有限公司 生成神经网络模型的方法和装置
CN113705276B (zh) * 2020-05-20 2024-08-27 武汉Tcl集团工业研究院有限公司 模型构建方法、模型构建装置、计算机设备及介质
CN111639753B (zh) * 2020-05-29 2023-12-05 北京百度网讯科技有限公司 用于训练图像处理超网络的方法、装置、设备以及存储介质
CN111652354B (zh) * 2020-05-29 2023-10-24 北京百度网讯科技有限公司 用于训练超网络的方法、装置、设备以及存储介质
CN111639752B (zh) * 2020-05-29 2023-09-26 北京百度网讯科技有限公司 用于训练超网络的方法、装置、设备以及存储介质
CN111783951B (zh) * 2020-06-29 2024-02-20 北京百度网讯科技有限公司 基于超网络的模型获取方法、装置、设备及存储介质
CN111968635B (zh) * 2020-08-07 2024-03-05 北京小米松果电子有限公司 语音识别的方法、装置及存储介质
CN112771545A (zh) * 2020-12-30 2021-05-07 南方科技大学 一种循环神经网络精度和分解秩的自动搜索方法和装置
CN114970654B (zh) * 2021-05-21 2023-04-18 华为技术有限公司 数据处理方法、装置和终端
CN113326922B (zh) * 2021-05-31 2023-06-13 北京市商汤科技开发有限公司 神经网络的生成方法、装置、电子设备及存储介质
US20240119077A1 (en) * 2022-09-28 2024-04-11 Samsung Electronics Co., Ltd. Apparatus and method for sharing and pruning weights for vision and language models

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018018451A (ja) 2016-07-29 2018-02-01 富士通株式会社 機械学習方法、機械学習プログラム及び情報処理装置
DE102017125256A1 (de) * 2016-10-28 2018-05-03 Google Llc Suche nach einer neuronalen Architektur
US11977974B2 (en) 2017-11-30 2024-05-07 International Business Machines Corporation Compression of fully connected / recurrent layers of deep network(s) through enforcing spatial locality to weight matrices and effecting frequency compression
US11069033B2 (en) * 2018-09-10 2021-07-20 University Of Florida Research Foundation, Inc. Neural network evolution using expedited genetic algorithm for medical image denoising
US11531861B2 (en) * 2018-11-06 2022-12-20 Google Llc Neural architecture search with factorized hierarchical search space
US20220092416A1 (en) * 2018-12-27 2022-03-24 Google Llc Neural architecture search through a graph search space
CN110288084A (zh) 2019-06-06 2019-09-27 北京小米智能科技有限公司 超网络训练方法和装置
KR102140996B1 (ko) * 2020-02-21 2020-08-04 광주과학기술원 바이너리 뉴럴 네트워크를 위한 뉴럴 아키텍처 서치 방법 및 장치
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Single Path One-Shot Neural Architecture Search with Uniform Sampling* *

Also Published As

Publication number Publication date
JP2021077322A (ja) 2021-05-20
KR102387020B1 (ko) 2022-04-15
EP3825923A1 (en) 2021-05-26
CN110956262A (zh) 2020-04-03
US20210142166A1 (en) 2021-05-13
JP7073437B2 (ja) 2022-05-23
US11443189B2 (en) 2022-09-13

Similar Documents

Publication Publication Date Title
KR102387020B1 (ko) 하이퍼네트워크 훈련 방법 및 장치, 전자 기기, 저장 매체
KR102365890B1 (ko) 신경망의 훈련 방법, 장치 및 저장 매체
KR102270394B1 (ko) 이미지를 인식하기 위한 방법, 단말, 및 저장 매체
CN111582453B (zh) 生成神经网络模型的方法和装置
CN110826344B (zh) 神经网络模型压缩方法、语料翻译方法及其装置
JP7208952B2 (ja) 対話モデルを生成するための方法及び装置
WO2019214365A1 (zh) 翻译模型训练的方法、语句翻译的方法、设备及存储介质
US10007660B2 (en) Contextual language understanding for multi-turn language tasks
Cui et al. Received signal strength based indoor positioning using a random vector functional link network
CN110162799A (zh) 模型训练方法、机器翻译方法以及相关装置和设备
CN109918684A (zh) 模型训练方法、翻译方法、相关装置、设备及存储介质
US11735168B2 (en) Method and apparatus for recognizing voice
CN108573306B (zh) 输出回复信息的方法、深度学习模型的训练方法及装置
CN115859220A (zh) 数据处理方法、相关装置及存储介质
US11874876B2 (en) Electronic device and method for predicting an intention of a user
CN112784985A (zh) 神经网络模型的训练方法及装置、图像识别方法及装置
US20200257954A1 (en) Techniques for generating digital personas
CN117992579A (zh) 人机对话方法、对话网络模型的训练方法及装置
CN114328908A (zh) 一种问答语句质检方法、装置及相关产品
US10909138B2 (en) Transforming data to share across applications
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
CN113822020B (zh) 文本处理方法、设备、存储介质
US11822446B2 (en) Automated testing methods for condition analysis and exploration
CN111562864B (zh) 显示图片方法、电子设备和计算机可读介质
Wang et al. Design of electronic reconnaissance simulation system based on hybrid modeling

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant