[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR102365890B1 - 신경망의 훈련 방법, 장치 및 저장 매체 - Google Patents

신경망의 훈련 방법, 장치 및 저장 매체 Download PDF

Info

Publication number
KR102365890B1
KR102365890B1 KR1020200004553A KR20200004553A KR102365890B1 KR 102365890 B1 KR102365890 B1 KR 102365890B1 KR 1020200004553 A KR1020200004553 A KR 1020200004553A KR 20200004553 A KR20200004553 A KR 20200004553A KR 102365890 B1 KR102365890 B1 KR 102365890B1
Authority
KR
South Korea
Prior art keywords
network
sub
candidate
super
training
Prior art date
Application number
KR1020200004553A
Other languages
English (en)
Other versions
KR20210053122A (ko
Inventor
시앙시앙 추
루이쥔 쉬
보 장
지시앙 리
칭위안 리
빈 왕
Original Assignee
베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20210053122A publication Critical patent/KR20210053122A/ko
Application granted granted Critical
Publication of KR102365890B1 publication Critical patent/KR102365890B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 신경망의 훈련 방법, 장치 및 저장 매체에 관한 것이고, 상기 방법은, 슈퍼 네트워크를 훈련시켜 슈퍼 네트워크의 네트워크 파라미터를 얻는 단계 - 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함함 - ; 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 하나의 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하는 단계; 각 계층에서 선택된 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성하는 단계; 및 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 서브 네트워크의 초기화 파라미터로 사용하고, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻는 단계를 포함할 수 있다. 본 발명에 있어서, 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 서브 네트워크의 초기화 파라미터로 사용하고, 서브 네트워크를 처음부터 훈련시킬 필요없이 훈련시킴으로써, 신경망을 훈련시키는 연산량을 감소시키고, 훈련 효율을 향상시킨다.

Description

신경망의 훈련 방법, 장치 및 저장 매체{METHOD, APPARATUS AND STORAGE MEDIUM FOR TRAINING OF NEURAL NETWORK}
관련 출원의 상호 참조
본 출원은 출원 번호가 2019110538988이고, 출원일이 2019년 10월 31일인 중국 특허 출원에 기반하여 제출된 것이며, 상기 중국 특허 출원의 우선권을 주장하고, 상기 중국 특허 출원의 전부 내용을 본 출원에 인용하여 참조로 한다.
본 발명은 신경망 기술분야에 관한 것으로서, 특히 신경망의 훈련 방법, 장치 및 저장 매체에 관한 것이다.
신경망은 동물 신경망의 행동 특징을 모방하여, 분산 병렬 정보 처리를 진행하는 알고리즘 수학적 모델로서, 주로 시스템의 복잡성에 의존하며, 내부 대량의 노드 사이의 상호 연결 관계를 조정하는 것을 통해, 정보 처리의 목적을 달성한다. 신경망은 데이터 처리, 예를 들어, 데이터 분류, 음성 분석 및 이미지 인식 등 분야에 광범위하게 적용된다. 신경망을 사용하기 전, 신경망을 훈련시킬 필요가 있지만, 기존 신경망의 훈련 형태는 연산량이 클 뿐만 아니라 효율도 엄청 낮다.
본 발명은 신경망의 훈련 방법, 장치 및 저장 매체를 제공한다.
본 발명 실시예에 따른 제1 측면에 있어서, 신경망의 훈련 방법을 제공하고, 상기 방법은,
슈퍼 네트워크를 훈련시켜, 상기 슈퍼 네트워크의 네트워크 파라미터를 얻는 단계 - 상기 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함함 - ;
상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하는 단계;
각 계층에서 선택된 상기 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성하는 단계;
상기 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 상기 서브 네트워크의 초기화 파라미터로 사용하고, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻는 단계를 포함한다.
선택적으로, 상기 슈퍼 네트워크는 N 개의 네트워크 계층을 포함하고, 각 상기 네트워크 계층은 M 개의 후보 네트워크 서브 구조를 포함하며, 여기서, N은 2보다 작지 않은 양의 정수이고, M은 2보다 작지 않은 양의 정수이다.
상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하는 단계는,
상기 서브 네트워크의 n 번째 네트워크 계층을 구성하는 상기 타겟 네트워크 서브 구조로서, 상기 슈퍼 네트워크의 n 번째 네트워크 계층의 m 번째 후보 네트워크 서브 구조를 선택하는 단계를 포함하고, n은 N보다 작거나 같은 양의 정수이며, m은 M보다 작거나 같은 양의 정수이다.
선택적으로, 상기 방법은,
상기 슈퍼 네트워크의 네트워크 파라미터를 얻은 후, 각 상기 후보 네트워크 서브 구조의 구조 식별자와 각 상기 후보 네트워크 서브 구조의 네트워크 파라미터 사이의 매핑 관계를 대응되게 저장하는 단계를 더 포함한다.
선택적으로, 상기 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 상기 서브 네트워크의 초기화 파라미터로 사용하고, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻는 단계는,
상기 서브 네트워크에 포함되는 후보 네트워크 서브 구조의 구조 식별자에 기반하여, 상기 매핑 관계를 검색하여 대응되는 후보 네트워크 서브 구조의 네트워크 파라미터를 얻는 단계; 및
얻은 상기 후보 네트워크 서브 구조의 네트워크 파라미터에 기반하여, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻는 단계를 포함한다.
선택적으로, 상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하는 단계는,
설정된 검색 알고리즘에 기반하여 상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하는 단계를 포함하고;
상기 설정된 검색 알고리즘은 무작위 검색 알고리즘, 베이즈 검색 알고리즘, 진화형 러닝 알고리즘, 강화형 러닝 알고리즘, 진화형 및 강화형 러닝 결합 알고리즘 및 구배 기반 알고리즘 중 적어도 하나를 포함한다.
선택적으로, 상기 방법은,
훈련된 서브 네트워크에 기반하여, 입력 데이터에 대해 데이터 처리를 진행하는 단계를 더 포함하고;
여기서, 상기 입력 데이터의 타입은 이미지 데이터 타입, 텍스트 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함한다.
선택적으로, 상기 방법은,
테스트 데이터 세트에 기반하여 훈련된 서브 네트워크에 대해 성능 평가를 진행하여, 평가 결과를 얻는 단계를 더 포함하고;
여기서, 상기 테스트 데이터 세트에서의 테스트 데이터의 타입은 이미지 데이터 타입, 서비스 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함한다.
본 발명 실시예에 따른 제2 측면에 있어서, 신경망의 훈련 장치를 제공하고, 상기 장치는,
슈퍼 네트워크를 훈련시켜, 상기 슈퍼 네트워크의 네트워크 파라미터를 얻도록 구성된 제1 훈련 모듈 - 상기 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함함 - ;
상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하도록 구성된 선택 모듈;
각 계층에서 선택된 상기 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성하도록 구성된 네트워크 형성 모듈; 및
상기 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 상기 서브 네트워크의 초기화 파라미터로 사용하고, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻도록 구성된 제2 훈련 모듈을 포함한다.
선택적으로, 상기 슈퍼 네트워크는 N 개의 네트워크 계층을 포함하고, 각 상기 네트워크 계층은 M 개의 후보 네트워크 서브 구조를 포함하며, 여기서, N은 2보다 작지 않은 양의 정수이고, M은 2보다 작지 않은 양의 정수이다.
상기 선택 모듈은 구체적으로, 상기 서브 네트워크의 n 번째 네트워크 계층을 구성하는 상기 타겟 네트워크 서브 구조로서, 상기 슈퍼 네트워크의 n 번째 네트워크 계층의 m 번째 후보 네트워크 서브 구조를 선택하도록 구성되고, 여기서, n은 N보다 작거나 같은 양의 정수이며, m은 M보다 작거나 같은 양의 정수이다.
선택적으로, 상기 장치는 또한,
상기 슈퍼 네트워크의 네트워크 파라미터를 얻은 후, 각 상기 후보 네트워크 서브 구조의 구조 식별자와 각 상기 후보 네트워크 서브 구조의 네트워크 파라미터 사이의 매핑 관계를 대응되게 저장하도록 구성된 저장 모듈을 포함한다.
선택적으로, 상기 제2 훈련 모듈은 구체적으로,
상기 서브 네트워크에 포함되는 후보 네트워크 서브 구조의 구조 식별자에 기반하여, 상기 매핑 관계를 검색하여 대응되는 후보 네트워크 서브 구조의 네트워크 파라미터를 얻고;
얻은 상기 후보 네트워크 서브 구조의 네트워크 파라미터에 기반하여, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻도록 구성된다.
선택적으로, 상기 선택 모듈은 구체적으로,
설정된 검색 알고리즘에 기반하여 상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하도록 구성되고;
상기 설정된 검색 알고리즘은 무작위 검색 알고리즘, 베이즈 검색 알고리즘, 진화형 러닝 알고리즘, 강화형 러닝 알고리즘, 진화형 및 강화형 러닝 결합 알고리즘 및 구배 기반 알고리즘 중 적어도 하나를 포함한다.
선택적으로, 상기 장치는 또한,
훈련된 서브 네트워크에 기반하여, 입력 데이터에 대해 데이터 처리를 진행하도록 구성된 데이터 처리 모듈을 포함하고;
여기서, 상기 입력 데이터의 타입은 이미지 데이터 타입, 텍스트 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함한다.
선택적으로, 상기 장치는 또한,
테스트 데이터 세트에 기반하여 훈련된 서브 네트워크에 대해 성능 평가를 진행하여, 평가 결과를 얻도록 구성된 성능 평가 모듈을 포함하고;
여기서, 상기 테스트 데이터 세트에서의 테스트 데이터의 타입은 이미지 데이터 타입, 서비스 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함한다.
본 발명 실시예에 따른 제3 측면에 있어서, 신경망의 훈련 장치를 제공하고, 상기 장치는,
프로세서; 및
프로세서가 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하며;
여기서, 상기 프로세서는 실행 시, 상기 임의의 신경망의 훈련 방법을 구현하도록 구성된다.
본 발명 실시예에 따른 제4 측면에 있어서, 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 저장 매체에서의 명령어가 신경망의 훈련 장치의 프로세서에 의해 실행될 경우, 상기 장치로 하여금 상기 임의의 신경망의 훈련 방법을 실행할 수 있도록 한다.
본 발명 실시예에서 제공된 기술방안은 아래의 유리한 효과를 포함할 수 있다.
상기 실시예에서 보다시피, 본 발명에서의 서브 네트워크는 슈퍼 네트워크로부터 네트워크 파라미터를 상속할 수 있고, 상기 네트워크 파라미터를 서브 네트워크의 초기화 파라미터로 사용하며, 서브 네트워크를 처음부터 훈련시킬 필요없이, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻기 때문에, 신경망 훈련 과정에서의 연산량을 감소시킬 수 있음으로써, 신경망의 훈련 효율을 향상시킨다.
이해해야 할 것은, 상기한 일반적인 설명 및 하기의 상세한 설명은 다만 예시이고 설명일 뿐, 본 개시를 한정하지 않는다.
여기서의 도면은 본 명세서에 포함되어 본 명세서의 일부를 형성하며, 본 발명 실시예에 부합되어 도시하고, 명세서와 함께 본 발명의 원리 해석에 사용된다.
도 1은 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 1이다.
도 2는 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 2이다.
도 3은 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 3이다.
도 4는 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 4이다.
도 5는 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 5이다.
도 6은 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 6이다.
도 7은 일 예시적 실시예에 따라 도시된 슈퍼 네트워크의 구조 예시도이다.
도 8은 일 예시적 실시예에 따라 도시된 서브 네트워크를 형성하는 프로세스 예시도이다.
도 9는 일 예시적 실시예에 따라 도시된 가중 파라미터를 공유하는 프로세스 예시도이다.
도 10은 일 예시적 실시예에 따라 도시된 신경망 훈련 장치의 블록도 1이다.
도 11은 일 예시적 실시예에 따라 도시된 신경망 훈련 장치의 블록도 2이다.
도 12는 일 예시적 실시예에 따라 도시된 신경망의 훈련 장치의 블록도이다.
도 13는 일 예시적 실시예에 따라 도시된 다른 하나의 신경망의 훈련 장치의 블록도이다.
아래 예시적 실시예에 대해 상세히 설명하며, 그 예는 첨부 도면에 도시된다. 아래의 설명에서 도면을 참조할 때, 다른 표시가 없는 한, 상이한 첨부 도면에서의 동일한 숫자는 동일하거나 유사한 요소를 나타낸다. 아래의 예시적 실시예에서 설명된 실시형태는 본 발명과 일치하는 모든 실시형태를 나타내는 것은 아니다. 이와 반대로, 이들은 다만 청구범위에 상세히 서술된 바와 같이 본 발명의 일부 측면과 일치하는 장치 및 방법의 예일 뿐이다.
본 발명 실시예는 신경망의 훈련 방법을 제공하고, 도 1은 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 1이며, 도 1에 도시된 바와 같이, 상기 방법은 주로 아래와 같은 단계를 포함한다.
단계 101에 있어서, 슈퍼 네트워크를 훈련시켜, 슈퍼 네트워크의 네트워크 파라미터를 얻으며, 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함한다.
여기서, 슈퍼 네트워크의 네트워크 파라미터는 슈퍼 네트워크의 가중 파라미터를 포함하고; 일부 실시예에 있어서, 상기 네트워크 파라미터는 또한 상기 슈퍼 네트워크의 임계값 파라미터를 포함한다.
본 발명 실시예에 있어서, 슈퍼 네트워크의 가중 파라미터를 얻기 위해, 수집된 샘플 데이터에 기반하여 슈퍼 네트워크를 훈련시킬 수 있고, 여기서, 샘플 데이터의 데이터 타입은 이미지 데이터 타입, 텍스트 데이터 타입 또는 오디오 데이터 타입일 수 있다.
본 발명 실시예의 훈련으로부터 얻은 서브 네트워크는 예약 기능을 구현하는 신경망일 수 있고,
입력 이미지에서의 타겟 및 배경을 분할하는 타겟 분할;
입력 이미지에서의 타겟의 분류;
입력 이미지 기반의 타겟 추적;
의료 이미지 기반의 진단 보조;
음성 입력 기반의 음성 인식, 음성 교정 등 기능 중 적어도 하나를 포함하지만 이에 한정되지 않는다.
이상은 다만 상기 서브 네트워크에 의해 예약 기능이 구현되는 것에 대한 예시적 설명일 뿐, 구체적인 구현은 상기 예시에 한정되지 않는다.
본 발명 실시예에 있어서, 슈퍼 네트워크는 적어도 하나의 네트워크 계층을 포함하고, 각 네트워크 계층은 복수 개의 후보 네트워크 서브 구조를 포함하며, 여기서, 후보 네트워크 서브 구조는 슈퍼 네트워크를 형성하는 일부분이다. 여기서, 각 후보 네트워크 서브 구조의 구조 식별자에 따라 각 후보 네트워크 서브 구조를 구별할 수 있고, 여기서, 구조 식별자는 후보 네트워크 서브 구조의 번호 또는 후보 네트워크 서브 구조의 명칭일 수 있다. 상이한 후보 네트워크 서브 구조는 동일한 기능 또는 유사한 기능을 구현하는 상이한 네트워크 서브 모델로 형성된 것일 수 있고, 또는, 상이한 후보 구조는 상이한 기능을 구현하는 상이한 네트워크 서브 모델로 형성된 것일 수 있다.
단계 102에 있어서, 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 하나의 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택한다.
여기서, 각 네트워크 계층으로부터 각각 하나의 후보 네트워크 서브 구조를 선택할 수 있고, 상기 후보 네트워크 서브 구조를 서브 네트워크를 형성하는 타겟 네트워크 서브 구조로 사용한다.
단계 103에 있어서, 각 계층에서 선택된 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성한다.
단계 104에 있어서, 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 서브 네트워크의 초기화 파라미터로 사용하고, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻는다.
여기서, 서브 네트워크를 형성한 후, 서브 네트워크에서의 네트워크 파라미터는 서브 네트워크에 할당될 수 있음으로써, 서브 네트워크로 하여금 슈퍼 네트워크로부터 네트워크 파라미터를 상속하게 하고, 서브 네트워크가 네트워크 파라미터를 갖는 기초에서, 서브 네트워크를 처음부터 훈련시킬 필요없이 훈련시키며, 이러한 방식으로 얻은 서브 네트워크 파라미터는, 서브 네트워크를 훈련된 후 얻은 최종 가중 파라미터를 포함한다.
여기서, 서브 네트워크를 훈련시키기 전, 슈퍼 네트워크로부터 통합된 네트워크 파라미터는 개별적으로 서브 네트워크를 훈련시키는 초기화 파라미터와 동일하다.
본 발명 실시예에 있어서, 서브 네트워크는 슈퍼 네트워크로부터 네트워크 파라미터를 상속할 수 있고, 상기 네트워크 파라미터를 서브 네트워크의 초기화 파라미터로 사용하고, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻으며, 서브 네트워크를 처음부터 훈련시킬 필요없으므로, 신경망 훈련 과정에서의 연산량을 감소시킬 수 있음으로써, 신경망의 훈련 효율을 향상시킨다.
도 2는 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 2이고, 도 2에 도시된 바와 같이, 상기 방법은 주로 아래와 같은 단계를 포함한다.
단계 201에 있어서, 슈퍼 네트워크를 훈련시켜, 슈퍼 네트워크의 네트워크 파라미터를 얻으며, 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함한다.
단계 202에 있어서, 슈퍼 네트워크는 N 개의 네트워크 계층을 포함하고, 각 네트워크 계층은 M 개의 후보 네트워크 서브 구조를 포함하며, N은 2보다 작지 않은 양의 정수이고, M은 2보다 작지 않은 양의 정수이며, 서브 네트워크를 구성하는 n 번째 네트워크 계층의 타겟 네트워크 서브 구조로서, 슈퍼 네트워크의 n 번째 네트워크 계층의 m 번째 후보 네트워크 서브 구조를 선택하고, n은 N보다 작거나 같은 양의 정수이며, m은 M보다 작거나 같은 양의 정수이다.
여기서, 단일 경로 활성화 알고리즘에 기반하여, 각 네트워크 계층으로부터 하나의 후보 네트워크 서브 구조를 선택할 수 있고, 선택된 후보 네트워크 서브 구조를 서브 네트워크를 형성하는 타겟 네트워크 서브 구조로 사용한다.
단계 203에 있어서, 각 계층에서 선택된 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성한다.
단계 204에 있어서, 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 서브 네트워크의 초기화 파라미터로 사용하고, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻는다.
본 발명 실시예에 있어서, 단일 경로 활성화 알고리즘에 기반하여, 각 네트워크 계층으로부터 각각 하나의 후보 네트워크 서브 구조를 서브 네트워크를 형성하는 타겟 네트워크 서브 구조로서 선택함으로써, 신경망 훈련의 효율을 향상시키기 위해, 신경망의 훈련 복잡성를 단순화시킬 수 있다.
도 3은 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 3이고, 도 3에 도시된 바와 같이, 상기 방법은 주로 아래와 같은 단계를 포함한다.
단계 301에 있어서, 슈퍼 네트워크를 훈련시켜, 슈퍼 네트워크의 네트워크 파라미터를 얻으며, 여기서, 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함한다.
단계 302에 있어서, 슈퍼 네트워크의 네트워크 파라미터를 얻은 후, 각 후보 네트워크 서브 구조의 구조 식별자와 각 후보 네트워크 서브 구조의 네트워크 파라미터 사이의 매핑 관계를 대응되게 저장한다.
여기서, 구조 식별자는 후보 네트워크 서브 구조의 번호 또는 후보 네트워크 서브 구조의 명칭일 수 있다. 본 발명 실시예에 있어서, 네트워크 파라미터를 얻은 후, 각 후보 서브 구조의 구조 식별자와 각 후보 네트워크 서브 구조의 네트워크 파라미터 사이의 매핑 관계를 설정할 수 있고, 상기 매핑 관계는 설정된 매핑 리스트에 저장된다. 대응되는 후보 네트워크 서브 구조에 대응되는 네트워크 파라미터를 획득할 필요가 있을 경우, 직접 후보 네트워크 서브 구조의 구조 식별자를 통해, 상기 후보 네트워크 서브 구조의 구조 식별자와 네트워크 파라미터 사이의 매핑 관계를 검색할 수 있음으로써, 신경망의 훈련 효율을 향상시킬 수 있다.
단계 303에 있어서, 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터 하나의 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택한다.
단계 304에 있어서, 각 계층에서 선택된 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성한다.
단계 305에 있어서, 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 서브 네트워크의 초기화 파라미터로 사용하고, 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻는다.
도 4는 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 4이고, 도 4에 도시된 바와 같이, 상기 방법은 주로 아래와 같은 단계를 포함한다.
단계 401에 있어서, 슈퍼 네트워크를 훈련시켜, 슈퍼 네트워크의 네트워크 파라미터를 얻으며, 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함한다.
단계 402에 있어서, 슈퍼 네트워크의 네트워크 파라미터를 얻은 후, 각 후보 네트워크 서브 구조의 구조 식별자와 각 후보 네트워크 서브 구조의 네트워크 파라미터 사이의 매핑 관계를 대응되게 저장한다.
단계 403에 있어서, 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터 하나의 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택한다.
단계 404에 있어서, 각 계층에서 선택된 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성한다.
단계 405에 있어서, 서브 네트워크에 포함되는 후보 네트워크 서브 구조의 구조 식별자에 기반하여, 매핑 관계를 검색하여 대응되는 후보 네트워크 서브 구조의 네트워크 파라미터를 얻는다.
슈퍼 네트워크를 훈련시킨 후, 각 후보 네트워크 서브 구조에 대응되는 네트워크 파라미터를 얻을 수 있고, 각 후보 네트워크 서브 구조에 대응되는 구조 식별자와 네트워크 파라미터 사이의 매핑 관계를 설정하기 때문에, 여기서, 상기 매핑 관계는 리스트의 형태로 매핑 리스트에 저장될 수 있다. 본 발명의 실시예에 있어서, 서브 네트워크에 포함되는 후보 네트워크 서브 구조의 구조 식별자에 기반하여, 매핑 리스트로부터 대응되는 네트워크 파라미터를 획득할 수 있고, 상기 네트워크 파라미터는 서브 네트워크에서 대응되는 후보 네트워크 서브 구조에 공유될 수 있다.
단계 406에 있어서, 얻은 후보 네트워크 서브 구조의 네트워크 파라미터에 기반하여, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻는다.
본 발명 실시예에 있어서, 직접 후보 네트워크 서브 구조의 구조 식별자를 통해, 상기 후보 네트워크 서브 구조의 구조 식별자와 네트워크 파라미터 사이의 매핑 관계를 검색하고, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻음으로써, 신경망 훈련 과정에서의 연산량을 감소시킬 수 있고, 신경망의 훈련 효율을 향상시킨다.
도 5는 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 5이고, 도 5에 도시된 바와 같이, 상기 방법은 주로 아래와 같은 단계를 포함한다.
단계 501에 있어서, 슈퍼 네트워크를 훈련시켜, 슈퍼 네트워크의 네트워크 파라미터를 얻으며, 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함한다.
단계 502에 있어서, 설정된 검색 알고리즘에 기반하여 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터 하나의 후보 네트워크 서브 구조를 서브 네트워크를 형성하는 타겟 네트워크 서브 구조로서 선택하고; 설정된 검색 알고리즘은 무작위 검색 알고리즘, 베이즈 검색 알고리즘, 진화형 러닝 알고리즘, 강화형 러닝 알고리즘, 진화형 및 강화형 러닝 결합 알고리즘 및 구배 기반 알고리즘 중 적어도 하나를 포함한다.
단계 503에 있어서, 각 계층에서 선택된 상기 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성한다.
단계 504에 있어서, 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 서브 네트워크의 초기화 파라미터로 사용하고, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻는다.
선택적인 실시예에 있어서, 상기 방법은 훈련된 서브 네트워크에 기반하여, 입력 데이터에 대해 데이터 처리를 진행하는 단계를 더 포함하고; 여기서, 입력 데이터의 타입은 이미지 데이터 타입, 텍스트 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함한다.
선택적인 실시예에 있어서, 상기 방법은 테스트 데이터 세트에 기반하여 훈련된 서브 네트워크에 대해 성능 평가를 진행하여, 평가 결과를 얻는 단계를 더 포함하고; 여기서, 테스트 데이터 세트의 테스트 데이터의 타입은 이미지 데이터 타입, 서비스 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함한다.
여기서, 훈련된 서브 네트워크를 형성한 후, 테스트 데이터 세트에서 상기 서브 네트워크의 성능을 평가할 수 있고, 바람직한 서브 네트워크 예를 들어 검증 손실의 최소화 또는 보상을 최대화하는 서브 네트워크를 찾을 때까지, 네트워크 구조를 점차적으로 최적화시킨다. 여기서, 테스트 데이터 세트에서의 테스트 데이터는 훈련된 서브 네트워크에 입력될 수 있고, 평가 결과는 상기 서브 네트워크에 의해 출력되며, 출력된 평가 결과와 사전 설정된 기준과 비교하여 비교 결과를 얻고, 비교 결과에 따라 서브 네트워크의 성능을 평가하며, 여기서, 테스트 결과는 서브 네트워크에 의해 테스트 데이터가 처리되는 속도 또는 정밀도일 수 있다.
본 발명의 상기 임의의 실시예에서의 기술방안은 모두 네트워크 구조 검색(Neural Architecture Search, NAS)에 적용될 수 있고, 여기서, NAS는 신경망을 자동 설계하는 기술이며, NAS에 기반하여 샘플 세트에 따라 높은 성능을 갖는 신경망 구조를 자동 설계할 수 있음으로써, 신경망의 사용 및 구현 비용을 효과적으로 감소시킬 수 있다.
검색 공간 즉 후보 신경망 구조 집합이 주어진다면, 검색 전략으로 검색 공간에서 바람직한 신경망 구조를 검색할 수 있다. 다음 성능 평가 전략에 기반하여 신경망 구조의 우열, 즉 성능에 대해 평가를 진행하고, 예를 들어, 신경망의 데이터 처리 정밀도, 데이터 처리 속도 등 지표로 성능 평가를 진행한다. 여기서, 후보 신경망 구조 집합은 상기 후보 네트워크 서브 구조의 집합을 포함한다.
NAS는 차원에 따라, 검색 공간, 검색 전략 및 성능 평가 전략으로 나뉠수 있다. 여기서, 검색 공간에 있어서, 검색 가능한 신경망 아키텍처 그룹 즉 후보 신경망 구조를 나타낸다.
검색 전략에 있어서, 어떤 알고리즘을 사용하면 바람직한 네트워크 구조 파라미터 구성, 예를 들어 하이퍼파라미터의 최적화 문제를 빠르고, 정확하게 찾을수 있는지를 정의한다. 검색 알고리즘은 일반적으로 반복되는 과정으로서, 어떤 알고리즘을 사용하면 빠르고, 정확하게 바람직한 네트워크 구조 파라미터 구성을 찾을 수 있는지를 정의한다. 검색 알고리즘은 무작위 검색 알고리즘, 베이즈 검색 알고리즘, 진화형 러닝 알고리즘, 강화형 러닝 알고리즘, 진화형 및 강화형 러닝 결합 알고리즘 및 구배 기반의 알고리즘 등을 포함할 수 있다.
검색 과정에서의 각 단계 또는 반복에 있어서, 검색 공간으로부터 샘플을 형성하고, 샘플에 따라 하나의 신경망을 형성하며, 서브 네트워크로 지칭된다. 본 발명 실시예에 있어서, 샘플은 즉 상기 실시예에서 후보 네트워크 서브 구조로부터 결정된 타겟 네트워크 서브 구조이다.
도 6은 일 예시적 실시예에 따라 도시된 신경망 훈련 방법의 프로세스 예시도 6이고, 도 6에 도시된 바와 같이, 상기 방법은 주로 아래와 같은 단계를 포함한다.
단계 601에 있어서, 슈퍼 네트워크를 훈련시킨다.
본 발명 실시예에서, NAS에 기반하여 검색하는 과정에 있어서, 모든 서브 구조를 포함하는 검색 공간의 슈퍼 네트워크, 즉 후보 신경망 구조 집합을 생성하기 위해, 복수 개의 네트워크 구조(이하 서브 구조로 지칭됨)를 포함하는 슈퍼 네트워크를 훈련시킬 수 있고, 여기서, 서브 구조는 신경망의 일부분이다. 슈퍼 네트워크는 복수 개의 네트워크 계층을 포함하고, 각 네트워크 계층은 복수 개의 서브 구조를 포함할 수 있다. 여기서, 서브 구조는 후보 네트워크 서브 구조, 슈퍼 네트워크 즉 모든 후보 네트워크 서브 구조의 집합일 수 있다. 도 7은 일 예시적 실시예에 따라 도시된 슈퍼 네트워크의 구조 예시도이고, 도 7에 도시된 바와 같이, 슈퍼 네트워크(700)는 제1 네트워크 계층(701), 제2 네트워크 계층(702), 제3 네트워크 계층(703)을 포함하며, 여기서, 제1 네트워크 계층(701), 제2 네트워크 계층(702) 및 제3 네트워크 계층(703)은 각각 3 개의 병렬된 서브 구조를 포함하고, 각각 서브 구조 A, 서브 구조 B, 서브 구조 C이다.
슈퍼 네트워크를 훈련시킨 후, 각 네트워크 구조에 대응되는 가중 파라미터를 얻을 수 있고, 이때, 각 네트워크 구조에 대응되는 구조 식별자와 가중 파라미터 사이의 매핑 관계를 설정할 수 있으며, 상기 매핑 관계는 리스트의 형태로 매핑 리스트에 저장된다. 여기서, 구조 식별자는 네트워크 구조를 유일하게 식별하기 위한 것이고, 네트워크 구조의 번호, 네트워크 구조의 명칭을 포함한다.
단계 602에 있어서, 슈퍼 네트워크로부터 서브 구조를 샘플링하고, 샘플링된 서브 구조에 따라 서브 네트워크를 형성한다.
여기서, 슈퍼 네트워크로부터 서브 구조를 선택할 수 있고, 선택된 서브 구조에 기반하여 서브 네트워크를 형성한다. 도 8은 일 예시적 실시예에 따라 도시된 서브 네트워크를 형성하는 프로세스 예시도이고, 도 8에 도시된 바와 같이, 슈퍼 네트워크(800)는 제1 네트워크 계층(801), 제2 네트워크 계층(802), 제3 네트워크 계층(803)을 포함하고, 여기서, 제1 네트워크 계층(801), 제2 네트워크 계층(802) 및 제3 네트워크 계층(803)은 각각 3 개의 병렬된 서브 구조를 포함하고, 각각 서브 구조 A, 서브 구조 B, 서브 구조 C이다. 서브 네트워크를 형성하는 과정에 있어서, 각 네트워크 계층으로부터 각각 하나의 서브 구조를 선택하여 서브 네트워크를 형성한다. 예를 들어, 서브 네트워크(804)의 제1 네트워크 계층으로서 슈퍼 네트워크(800)에서의 제1 네트워크 계층(801)으로부터 서브 구조 A를 선택하고, 서브 네트워크(804)의 제2 네트워크 계층으로서 제2 네트워크 계층(802)으로부터 서브 구조 A를 선택하고, 서브 네트워크(804)의 제3 네트워크 계층으로서 제3 네트워크 계층(803)으로부터 서브 구조 B를 선택한다.
단계 603에 있어서, 슈퍼 네트워크에서의 서브 구조의 가중 파라미터는 서브 네트워크에서의 대응되는 서브 구조에 공유되고, 서브 구조는 충분히 훈련된다.
슈퍼 네트워크를 훈련시킨 후, 각 네트워크 구조에 대응되는 가중 파라미터를 얻을 수 있고, 각 네트워크 구조에 대응되는 구조 식별자와 가중 파라미터 사이의 매핑 관계를 설정할 수 있기 때문에, 상기 매핑 관계는 리스트의 형태로 매핑 리스트에 저장된다. 여기서, 서브 네트워크에서의 서브 구조의 구조 식별자에 기반하여, 매핑 리스트로부터 대응되는 가중 파라미터를 획득할 수 있고, 상기 가중 파라미터는 서브 네트워크에서의 대응되는 서브 구조에 공유된다. 슈퍼 네트워크에서의 서브 구조의 가중 파라미터가 서브 네트워크에서의 대응되는 서브 구조에 공유된 후, 서브 네트워크 구조를 충분히 훈련시킬 수 있다.
단계 604에 있어서, 테스트 데이터 세트에 기반하여 서브 네트워크에 대해 성능 평가를 진행하여, 평가 결과를 얻는다.
도 9는 일 예시적 실시예에 따라 도시된 가중 파라미터를 공유하는 프로세스 예시도이고, 도 9에 도시된 바와 같이, 슈퍼 네트워크(900)는 제1 네트워크 계층(901), 제2 네트워크 계층(902), 제3 네트워크 계층(903)을 포함하며, 여기서, 제1 네트워크 계층(901), 제2 네트워크 계층(902) 및 제3 네트워크 계층(903)은 각각 3 개의 병렬된 서브 구조를 포함하고, 각각 서브 구조 A, 서브 구조 B, 서브 구조 C이다. 서브 네트워크를 형성하는 과정에 있어서, 각 네트워크 계층으로부터 각각 하나의 서브 구조를 선택하여 서브 네트워크를 형성한다. 예를 들어, 서브 구조 A를 서브 네트워크(904)의 제1 네트워크 계층으로서 슈퍼 네트워크(900)에서의 제1 네트워크 계층(901)으로부터 선택하고, 서브 네트워크(904)의 제2 네트워크 계층으로서 제2 네트워크 계층(902)으로부터 서브 구조 A를 선택하고, 서브 네트워크(904)의 제3 네트워크 계층으로서 제3 네트워크 계층(903)으로부터 서브 구조 B를 선택한다.
상응하게, 가중 파라미터를 공유할 경우, 슈퍼 네트워크(900)에서의 제1 네트워크 계층(901)의 서브 구조 A의 가중 파라미터는 서브 네트워크(904)의 제1 네트워크 계층의 서브 구조 A에 공유되고, 슈퍼 네트워크(900)에서의 제2 네트워크 계층(902)의 서브 구조 A의 가중 파라미터는 서브 네트워크(904)의 제2 네트워크 계층의 서브 구조 A에 공유되며, 슈퍼 네트워크(900)에서의 제3 네트워크 계층(903)의 서브 구조 B의 가중 파라미터는 서브 네트워크(904)의 제3 네트워크 계층의 서브 구조 B에 공유된다.
본 발명에서 언급된 기술방안은 이미지 분류, 타겟 검출, 시맨틱 분할 등 딥 러닝 작업에 적용될 수 있지만 이에 제한되지는 않는다. 예를 들어, 가중 공유형 NAS에 기반하여 일련의 신경망 모델을 검색하고, 검색된 신경망 모델은 배치에 사용된다. 여기서, 검색된 각 신경망 모델은 처음부터 훈련될 필요없이, 초기화 파라미터로서 훈련된 슈퍼 네트워크로부터 신경망 파라미터를 상속한 후, 훈련을 시작함으로써, 최종적으로 훈련된 신경망 모델을 얻는다.
본 발명 실시예에 있어서, 슈퍼 네트워크에서의 제1 네트워크 계층으로부터 하나의 서브 구조를 샘플링할 수 있고, 각 서브 구조 사이의 연결 관계를 설정함으로써, 서브 네트워크를 형성하고, 서브 네트워크에서의 각 서브 구조의 구조 식별자에 기반하여, 매칭 리스트로부터 각 서브 구조에 대응되는 가중 파라미터를 획득하며, 서브 네트워크를 훈련시킨다. 이로써, 검색된 서브 네트워크는 다시 처음부터 훈련될 필요가 없음으로써, 신경망 연산량을 감소시킬 뿐만 아니라, 검색 알고리즘의 검색 효율도 향상시킨다.
도 10은 일 예시적 실시예에 따라 도시된 신경망 훈련 장치의 블록도 1이고, 도 10에 도시된 바와 같이, 상기 신경망의 훈련 장치(1000)는 주로 아래와 같은 모듈을 포함한다.
제1 훈련 모듈(1001)에 있어서, 슈퍼 네트워크를 훈련시켜, 슈퍼 네트워크의 네트워크 파라미터를 얻도록 구성되고, 여기서, 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함한다.
선택 모듈(1002)에 있어서, 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 하나의 후보 네트워크 서브 구조를 서브 네트워크를 형성하는 타겟 네트워크 서브 구조로서 선택하도록 구성된다.
네트워크 형성 모듈(1003)에 있어서, 각 계층에서 선택된 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성하도록 구성된다.
제2 훈련 모듈(1004)에 있어서, 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 서브 네트워크의 초기화 파라미터로 사용하고, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻도록 구성된다.
선택적인 실시예에 있어서, 슈퍼 네트워크는 N 개의 네트워크 계층을 포함하고, 각 상기 네트워크 계층은 M 개의 후보 네트워크 서브 구조를 포함하며, 여기서, N은 2보다 작지 않은 양의 정수이고, M은 2보다 작지 않은 양의 정수이다.
선택 모듈에 있어서, 구체적으로 서브 네트워크를 형성하는 n 번째 네트워크 계층의 타겟 네트워크 서브 구조로서, 슈퍼 네트워크의 n 번째 네트워크 계층의 m 번째 후보 네트워크 서브 구조를 선택하도록 구성되고, 여기서, n은 N보다 작거나 같은 양의 정수이며, m은 M보다 작거나 같은 양의 정수이다.
도 11은 일 예시적 실시예에 따라 도시된 신경망의 훈련 장치의 블록도 2이고, 도 11에 도시된 바와 같이, 상기 신경망의 훈련 장치(1100)는 주로 아래와 같은 모듈을 포함한다.
제1 훈련 모듈(1001)에 있어서, 슈퍼 네트워크를 훈련시켜, 슈퍼 네트워크의 네트워크 파라미터를 얻도록 구성되고, 여기서, 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함한다.
선택 모듈(1002)에 있어서, 상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 하나의 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하도록 구성된다.
네트워크 형성 모듈(1003)에 있어서, 각 계층에서 선택된 상기 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성하도록 구성된다.
제2 훈련 모듈(1004)에 있어서, 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 서브 네트워크의 초기화 파라미터로 사용하고, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻도록 구성된다.
저장 모듈(1101)에 있어서, 슈퍼 네트워크의 네트워크 파라미터를 얻은 후, 각 후보 네트워크 서브 구조의 구조 식별자와 각 후보 네트워크 서브 구조의 네트워크 파라미터 사이의 매핑 관계를 대응되게 저장하도록 구성된다.
선택적인 실시예에 있어서, 제2 훈련 모듈은 구체적으로,
서브 네트워크에 포함되는 후보 네트워크 서브 구조의 구조 식별자에 기반하여, 매핑 관계를 검색하여 대응되는 후보 네트워크 서브 구조의 네트워크 파라미터를 얻고;
얻은 후보 네트워크 서브 구조의 네트워크 파라미터에 기반하여, 서브 네트워크를 훈련시켜 서브 네트워크의 네트워크 파라미터를 얻도록 구성된다.
선택적인 실시예에 있어서, 선택 모듈은 구체적으로,
슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 설정된 검색 알고리즘에 기반하여, 타겟 네트워크 서브 구조로서 하나의 후보 네트워크 서브 구조를 선택하도록 구성된다.
상기 설정된 검색 알고리즘은 무작위 검색 알고리즘, 베이즈 검색 알고리즘, 진화형 러닝 알고리즘, 강화형 러닝 알고리즘, 진화형 및 강화형 러닝 결합 알고리즘 및 구배 기반 알고리즘 중 적어도 하나를 포함한다.
선택적인 실시예에 있어서, 상기 장치는 또한,
훈련된 서브 네트워크에 기반하여, 입력 데이터에 대해 데이터 처리를 진행하도록 구성된 데이터 처리 모듈을 포함하고;
여기서, 입력 데이터의 타입은 이미지 데이터 타입, 텍스트 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함한다.
선택적인 실시예에 있어서, 상기 장치는 또한,
테스트 데이터 세트에 기반하여 훈련된 서브 네트워크에 대해 성능 평가를 진행하여, 평가 결과를 얻도록 구성된 성능 평가 모듈을 포함하고;
여기서, 테스트 데이터 세트의 테스트 데이터의 타입은 이미지 데이터 타입, 서비스 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함한다.
상기 실시예에서의 장치에 관련하여, 여기서의 각 모듈에 의해 동작이 실행되는 구체적인 형태는 상기 방법과 관련된 실시예에서 상세히 설명되었으므로, 여기서 더이상 반복적으로 설명하지 않는다.
이에 따라, 본 발명 실시예는 신경망의 훈련 장치를 더 제공하고, 상기 훈련 장치는,
프로세서; 및
프로세서가 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하며;
여기서, 상기 프로세서는 실행 시, 상기 실시예에서의 임의의 신경망의 훈련 방법의 단계를 구현하도록 구성된다.
도 12는 일 예시적 실시예에 따라 도시된 신경망의 훈련 장치(1200)를 위한 블록도이다. 예를 들어, 장치(1200)는 휴대폰, 컴퓨터, 디지털 방송 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대용 단말 등일 수 있다.
도 12를 참조하면, 장치(1200)는 처리 컴포넌트(1202), 메모리(1204), 전원 컴포넌트(1206), 멀티미디어 컴포넌트(1208), 오디오 컴포넌트(1210), 입력/출력(Input/Output, I/O) 인터페이스(1212), 센서 컴포넌트(1214) 및 통신 컴포넌트(1216) 중 1 개 또는 복수 개의 컴포넌트를 포함할 수 있다.
처리 컴포넌트(1202)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 장치(1200)의 전체적인 동작을 제어한다. 처리 컴포넌트(1202)는 상기 방법의 전부 또는 일부 단계를 완성하기 위해, 1개 또는 복수 개의 프로세서(1220)를 포함하여 명령어를 실행할 수 있다. 또한, 처리 컴포넌트(1202)는, 처리 컴포넌트(1202) 및 다른 컴포넌트 사이의 상호 작용을 용이하게 하기 위해, 1 개 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(1202)는 멀티미디어 컴포넌트(1208) 및 처리 컴포넌트(1202) 사이의 상호 작용을 용이하게 하기 위해, 멀티미디어 모듈을 포함할 수 있다.
메모리(1204)는 장치(1200)의 동작을 지원하기 위해, 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예시는 장치(1200)에서 동작되는 임의의 애플리케이션 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(1204)는 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적 소거 가능한 프로그래머블 읽기 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그래머블 읽기 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 프로그래머블 읽기 전용 메모리(Programmable Read Only Memory, PROM), 읽기 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비 휘발성 저장 기기 또는 이들의 집합에 의해 구현될 수 있다.
전원 컴포넌트(1206)는 장치(1200)의 다양한 컴포넌트에 전력을 공급한다. 전원 컴포넌트(1206)는 전력 관리 시스템, 1 개 또는 복수 개의 전원 및 장치(1200)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(1208)는 상기 장치(1200) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(Liquid Crystal Display, LCD) 및 터치 패널(Touch Pannel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함할 경우, 사용자로부터 오는 입력 신호를 수신하기 위해, 스크린은 터치 스크린으로 구현될 수 있다. 터치 패널은 터치, 슬라이드 및 터치 패널 상의 제스처를 감지하기 위한 1 개 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 뿐만 아니라, 상기 터치나 슬라이드 동작과 관련된 지속 시간 및 압력을 검출할 수 있다. 일부 실시예에 있어서, 멀티미디어 컴포넌트(1208)는 전방 카메라 및 후방 카메라 중 적어도 하나를 포함한다. 장치(1200)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 하나의 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 컴포넌트(1210)는 오디오 신호를 출력 및 입력 중 적어도 하나를 하도록 구성된다. 예를 들어, 오디오 컴포넌트(1210)는 하나의 마이크로폰(MIC)을 포함하며, 장치(1200)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(1204)에 추가로 저장되거나 통신 컴포넌트(1216)에 의해 전송될 수 있다. 일부 실시예에 있어서, 오디오 컴포넌트(1210)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.
I/O 인터페이스(1212)는 처리 컴포넌트(1202)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼에는 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼이 포함되지만 이에 한정되지 않는다.
센서 컴포넌트(1214)는 장치(1200)를 위한 다양한 측면의 상태 평가를 제공하기 위한 1 개 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(1214)는 기기(1200)의 온/오프 상태, 컴포넌트의 상대 위치를 검출할 수 있으며, 예를 들어, 상기 컴포넌트는 장치(1200)의 모니터와 키패드이며, 센서 컴포넌트(1214)는 장치(1200) 또는 장치(1200)에서 하나의 컴포넌트의 위치 변화, 사용자와 장치(1200) 접촉의 존재 유무, 장치(1200) 방향 또는 가속/감속 및 장치(1200)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(1214)는 그 어떤 물리적 접촉이 없이 근처의 물체의 존재를 검출하도록 구성되는 근접 센서를 포함할 수 있다. 센서 컴포넌트(1214)는 이미징 애플리케이션에 사용하기 위한 상보성 금속 산화막 반도체(Complementary Metal Oxide Semiconductor, CMOS) 이미지 센서 또는 전하 결합 소자(Charged Coupled Device, CCD) 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시예에 있어서, 상기 센서 컴포넌트(1214)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 컴포넌트(1216)는 장치(1200)와 다른 기기 사이의 유선 또는 무선 방식으로 통신을 용이하게 하도록 구성된다. 장치(1200)는 WiFi, 2G 또는 3G 또는 이들의 집합과 같은 통신 기준에 기반한 무선 인터넷에 액세스할 수 있다. 하나의 예시적 실시예에 있어서, 통신 컴포넌트(1216)는 방송 채널에 의해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 하나의 예시적 실시예에 있어서, 상기 통신 컴포넌트(1216)는 근거리 통신을 추진하는 근거리 무선 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역 (Ultra Wideband, UWB) 기술, 블루투스 기술 및 다른 기술을 기반으로 구현될 수 있다.
예시적 실시예에 있어서, 장치(1200)는 1 개 또는 복수 개의 주문형 집적 회로(ApplicationSpecificIntegratedCircuit, ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리 장치(Digital Signal Processor, DSP), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 제어기, 마이크로 제어기, 마이크로 프로세서 또는 다른 전자 부품에 의해 구현되며, 장치(800)는 상기 방법을 수행하기 위한 것이다.
예시적 실시예에 있어서, 명령어를 포함하는 메모리(1204)와 같은 명령어를 포함하는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 명령어는 상기 방법을 완료하도록 장치(1200)의 프로세서(1220)에 의해 수행된다. 예를 들어, 상기 비 일시적 컴퓨터 판독 가능 저장 매체는 읽기 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(RAM), CD-ROM, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 기기 등일 수 있다.
비 일시적 컴퓨터 판독 가능 저장 매체로서, 상기 저장 매체에서의 명령어가 이동 단말의 프로세서에 의해 실행될 경우, 이동 단말로 하여금 신경망의 훈련 방법을 실행하게 하고, 상기 방법은,
슈퍼 네트워크를 훈련시켜, 상기 슈퍼 네트워크의 네트워크 파라미터를 얻는 단계 - 상기 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함함 - ;
상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하는 단계;
각 계층에서 선택된 상기 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성하는 단계; 및
상기 서브 네트워크의 초기화 파라미터로서 상기 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 훈련시키고, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻는 단계를 포함한다.
도 13은 일 예시적 실시예에 따라 도시된 다른 하나의 신경망의 훈련 장치(1300)를 위한 블록도이다. 예를 들어, 장치(1300)는 하나의 서버로 제공될 수 있다. 도 13을 참조하면, 장치(1300)는 처리 컴포넌트(1322)를 포함하고, 1 개 또는 복수 개의 프로세서 및 메모리(1332)로 대표되는 메모리 자원을 추가로 더 포함하고, 처리 컴포넌트(1322) 예를 들어 애플리케이션에 의해 실행될 수 있는 명령어를 저장하기 위한 것이다. 메모리(1332)에 저장된 애플리케이션은 1 개 또는 1 개 이상의 각각 명령어 세트에 대응되는 모듈을 포함할 수 있다. 또한, 상기 신경망의 훈련 방법을 실행하기 위해, 처리 컴포넌트(1322)는 명령어를 실행하도록 구성되고, 상기 방법은,
슈퍼 네트워크를 훈련시켜, 상기 슈퍼 네트워크의 네트워크 파라미터를 얻는 단계 - 상기 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함함 - ;
상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 서브 네트워크를 형성하는 타겟 네트워크 서브 구조로서 하나의 상기 후보 네트워크 서브 구조를 선택하는 단계; 및
상기 서브 네트워크의 초기화 파라미터로서 상기 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 훈련시키고, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻는 단계를 포함한다.
장치(1300)는 장치(1300)의 전원 관리를 실행하도록 구성된 하나의 전원 컴포넌트(1326), 장치(1300)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(1350) 및 하나의 입력 출력(I/O) 인터페이스(1358)를 더 포함할 수 있다. 장치(1300)는 메모리(1332)에 저장된 운영 시스템, 예를 들어 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것 등을 동작할 수 있다.
본 기술분야의 기술자는 명세서를 고려하고 본문에 개시된 발명을 실천한 후, 본 개시의 다른 실시 방안을 용이하게 생각해낼 수 있을 것이다. 본 발명은 본 발명의 임의의 변형, 용도 또는 적응성 변화를 포함하도록 의도되며, 이러한 변형, 용도 또는 적응성 변화는 본 개시의 일반적인 원리에 따르며, 본 개시에서 개시되지 않은 본 기술분야의 공지된 상식이나 통상적인 기술수단을 포함한다. 명세서 및 실시예는 다만 예시적인 것으로 간주되며, 본 개시의 진정한 범위 및 사상은 아래의 청구범위에 의해 지적된다.
이해해야 할 것은, 본 발명은 위에서 설명되고 도면에 도시된 정확한 구조에 한정되지 않으며, 이 범위를 벗어나지 않는 한 다양한 수정 및 변경을 진행할 수 있다. 본 발명의 범위는 첨부된 청구범위에 의해서만 한정된다.

Claims (16)

  1. 신경망의 훈련 방법으로서,
    슈퍼 네트워크를 훈련시켜, 상기 슈퍼 네트워크의 네트워크 파라미터를 얻는 단계 - 상기 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함함 - ;
    상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하는 단계;
    각 계층에서 선택된 상기 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성하는 단계; 및
    상기 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 상기 서브 네트워크의 초기화 파라미터로 사용하고, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻는 단계를 포함하며,
    상기 방법은,
    상기 슈퍼 네트워크의 네트워크 파라미터를 얻은 후, 각 상기 후보 네트워크 서브 구조의 구조 식별자와 각 상기 후보 네트워크 서브 구조의 네트워크 파라미터 사이의 매핑 관계를 대응되게 저장하는 단계를 더 포함하는 것을 특징으로 하는 신경망의 훈련 방법.
  2. 제1항에 있어서,
    상기 슈퍼 네트워크는 N 개의 네트워크 계층을 포함하고, 각 상기 네트워크 계층은 M 개의 후보 네트워크 서브 구조를 포함하며, N은 2보다 작지 않은 양의 정수이고, M은 2보다 작지 않은 양의 정수이며;
    상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하는 단계는,
    상기 서브 네트워크를 형성하는 n 번째 네트워크 계층의 상기 타겟 네트워크 서브 구조로서, 상기 슈퍼 네트워크의 n 번째 네트워크 계층의 m 번째 후보 네트워크 서브 구조를 선택하는 단계 - n은 N보다 작거나 같은 양의 정수이며, m은 M보다 작거나 같은 양의 정수임 - 를 포함하는 것을 특징으로 하는 신경망의 훈련 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 상기 서브 네트워크의 초기화 파라미터로 사용하고, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻는 단계는,
    상기 서브 네트워크에 포함되는 후보 네트워크 서브 구조의 구조 식별자에 기반하여, 상기 매핑 관계를 검색하여 대응되는 후보 네트워크 서브 구조의 네트워크 파라미터를 얻는 단계; 및
    얻은 상기 후보 네트워크 서브 구조의 네트워크 파라미터에 기반하여, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻는 단계를 포함하는 것을 특징으로 하는 신경망의 훈련 방법.
  5. 제1항에 있어서,
    상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터, 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하는 단계는,
    설정된 검색 알고리즘에 기반하여 상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하는 단계를 포함하고;
    상기 설정된 검색 알고리즘은 무작위 검색 알고리즘, 베이즈 검색 알고리즘, 진화형 러닝 알고리즘, 강화형 러닝 알고리즘, 진화형 및 강화형 러닝 결합 알고리즘 및 구배 기반 알고리즘 중 적어도 하나를 포함하는 것을 특징으로 하는 신경망의 훈련 방법.
  6. 제1항, 제2항, 제4항 및 제5항 중 어느 한 항에 있어서,
    상기 방법은,
    훈련된 서브 네트워크에 기반하여, 입력 데이터에 대해 데이터 처리를 진행하는 단계를 더 포함하고;
    상기 입력 데이터의 타입은 이미지 데이터 타입, 텍스트 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함하는 것을 특징으로 하는 신경망의 훈련 방법.
  7. 제1항, 제2항, 제4항 및 제5항 중 어느 한 항에 있어서,
    상기 방법은,
    테스트 데이터 세트에 기반하여 훈련된 서브 네트워크에 대해 성능 평가를 진행하여, 평가 결과를 얻는 단계를 더 포함하고;
    상기 테스트 데이터 세트의 테스트 데이터의 타입은 이미지 데이터 타입, 서비스 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함하는 것을 특징으로 하는 신경망의 훈련 방법.
  8. 신경망의 훈련 장치로서,
    슈퍼 네트워크를 훈련시켜, 상기 슈퍼 네트워크의 네트워크 파라미터를 얻도록 구성된 제1 훈련 모듈 - 상기 슈퍼 네트워크의 각 네트워크 계층은 병렬된 복수 개의 후보 네트워크 서브 구조를 포함함 - ;
    상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하도록 구성된 선택 모듈;
    각 계층에서 선택된 상기 타겟 네트워크 서브 구조에 기반하여, 서브 네트워크를 형성하도록 구성된 네트워크 형성 모듈; 및
    상기 슈퍼 네트워크로부터 상속된 네트워크 파라미터를 상기 서브 네트워크의 초기화 파라미터로 사용하고, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻도록 구성된 제2 훈련 모듈을 포함하며,
    상기 장치는 또한,
    상기 슈퍼 네트워크의 네트워크 파라미터를 얻은 후, 각 상기 후보 네트워크 서브 구조의 구조 식별자와 각 상기 후보 네트워크 서브 구조의 네트워크 파라미터 사이의 매핑 관계를 대응되게 저장하도록 구성된 저장 모듈을 포함하는 것을 특징으로 하는 신경망의 훈련 장치.
  9. 제8항에 있어서,
    상기 슈퍼 네트워크는 N 개의 네트워크 계층을 포함하고, 각 상기 네트워크 계층은 M 개의 후보 네트워크 서브 구조를 포함하며, N은 2보다 작지 않은 양의 정수이고, M은 2보다 작지 않은 양의 정수이며;
    상기 선택 모듈은 구체적으로, 상기 서브 네트워크를 형성하는 n 번째 네트워크 계층의 상기 타겟 네트워크 서브 구조로서, 상기 슈퍼 네트워크의 n 번째 네트워크 계층의 m 번째 후보 네트워크 서브 구조를 선택하도록 구성되고, n은 N보다 작거나 같은 양의 정수이며, m은 M보다 작거나 같은 양의 정수인 것을 특징으로 하는 신경망의 훈련 장치.
  10. 삭제
  11. 제8항에 있어서,
    상기 제2 훈련 모듈은 구체적으로,
    상기 서브 네트워크에 포함되는 후보 네트워크 서브 구조의 구조 식별자에 기반하여, 상기 매핑 관계를 검색하여 대응되는 후보 네트워크 서브 구조의 네트워크 파라미터를 얻고;
    얻은 상기 후보 네트워크 서브 구조의 네트워크 파라미터에 기반하여, 상기 서브 네트워크를 훈련시켜 상기 서브 네트워크의 네트워크 파라미터를 얻도록 구성된 것임을 특징으로 하는 신경망의 훈련 장치.
  12. 제8항에 있어서,
    상기 선택 모듈은 구체적으로,
    설정된 검색 알고리즘에 기반하여 상기 슈퍼 네트워크의 각 네트워크 계층의 복수 개의 후보 네트워크 서브 구조로부터 하나의 상기 후보 네트워크 서브 구조를 타겟 네트워크 서브 구조로서 선택하도록 구성되고;
    상기 설정된 검색 알고리즘은 무작위 검색 알고리즘, 베이즈 검색 알고리즘, 진화형 러닝 알고리즘, 강화형 러닝 알고리즘, 진화형 및 강화형 러닝 결합 알고리즘 및 구배 기반 알고리즘 중 적어도 하나를 포함하는 것을 특징으로 하는 신경망의 훈련 장치.
  13. 제8항, 제9항, 제11항 및 제12항 중 어느 한 항에 있어서,
    상기 장치는 또한,
    훈련된 서브 네트워크에 기반하여, 입력 데이터에 대해 데이터 처리를 진행하도록 구성된 데이터 처리 모듈을 포함하고;
    상기 입력 데이터의 타입은 이미지 데이터 타입, 텍스트 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함하는 것을 특징으로 하는 신경망의 훈련 장치.
  14. 제8항, 제9항, 제11항 및 제12항 중 어느 한 항에 있어서,
    상기 장치는 또한,
    테스트 데이터 세트에 기반하여 훈련된 서브 네트워크에 대해 성능 평가를 진행하여, 평가 결과를 얻도록 구성된 성능 평가 모듈을 포함하고;
    상기 테스트 데이터 세트의 테스트 데이터의 타입은 이미지 데이터 타입, 서비스 데이터 타입 및 오디오 데이터 타입 중 적어도 하나를 포함하는 것을 특징으로 하는 신경망의 훈련 장치.
  15. 신경망의 훈련 장치로서,
    프로세서; 및
    프로세서가 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하며;
    상기 프로세서는 실행 시, 상기 제1항, 제2항, 제4항 및 제5항 중 어느 한 항에 따른 신경망의 훈련 방법을 구현하도록 구성된 것을 특징으로 하는 신경망의 훈련 장치.
  16. 비 일시적 컴퓨터 판독 가능 저장 매체로서,
    상기 저장 매체에서의 명령어가 신경망의 훈련 장치의 프로세서에 의해 실행될 경우, 상기 장치로 하여금 상기 제1항, 제2항, 제4항 및 제5항 중 어느 한 항에 따른 신경망의 훈련 방법을 실행할 수 있도록 하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
KR1020200004553A 2019-10-31 2020-01-14 신경망의 훈련 방법, 장치 및 저장 매체 KR102365890B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911053898.8 2019-10-31
CN201911053898.8A CN110782034A (zh) 2019-10-31 2019-10-31 神经网络的训练方法、装置及存储介质

Publications (2)

Publication Number Publication Date
KR20210053122A KR20210053122A (ko) 2021-05-11
KR102365890B1 true KR102365890B1 (ko) 2022-02-22

Family

ID=69185389

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200004553A KR102365890B1 (ko) 2019-10-31 2020-01-14 신경망의 훈련 방법, 장치 및 저장 매체

Country Status (5)

Country Link
US (1) US11663468B2 (ko)
EP (1) EP3816868A1 (ko)
JP (1) JP6862586B1 (ko)
KR (1) KR102365890B1 (ko)
CN (1) CN110782034A (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111278085B (zh) * 2020-02-24 2023-08-29 北京百度网讯科技有限公司 用于获取目标网络的方法及装置
CN111340220B (zh) * 2020-02-25 2023-10-20 北京百度网讯科技有限公司 用于训练预测模型的方法和装置
CN111368973B (zh) * 2020-02-25 2023-09-08 北京百度网讯科技有限公司 用于训练超网络的方法和装置
CN111368998A (zh) * 2020-03-04 2020-07-03 深圳前海微众银行股份有限公司 基于Spark集群的模型训练方法、装置、设备及存储介质
CN111325328B (zh) * 2020-03-06 2023-10-24 上海商汤临港智能科技有限公司 神经网络的生成方法、数据处理方法及装置
CN113469891A (zh) * 2020-03-31 2021-10-01 武汉Tcl集团工业研究院有限公司 一种神经网络架构搜索方法、训练方法、图像补全方法
CN111523639B (zh) * 2020-04-09 2024-07-23 南京图叶信息科技有限公司 用于训练超网络的方法和装置
CN111523665B (zh) * 2020-04-23 2024-02-13 北京百度网讯科技有限公司 超网络参数更新方法、装置和电子设备
CN111553464B (zh) 2020-04-26 2023-09-29 北京小米松果电子有限公司 基于超网络的图像处理方法、装置及智能设备
CN111563592B (zh) * 2020-05-08 2023-12-15 北京百度网讯科技有限公司 基于超网络的神经网络模型生成方法和装置
CN111582452B (zh) * 2020-05-09 2023-10-27 北京百度网讯科技有限公司 生成神经网络模型的方法和装置
CN113705276B (zh) * 2020-05-20 2024-08-27 武汉Tcl集团工业研究院有限公司 模型构建方法、模型构建装置、计算机设备及介质
CN111652354B (zh) * 2020-05-29 2023-10-24 北京百度网讯科技有限公司 用于训练超网络的方法、装置、设备以及存储介质
CN111639753B (zh) * 2020-05-29 2023-12-05 北京百度网讯科技有限公司 用于训练图像处理超网络的方法、装置、设备以及存储介质
CN111639752B (zh) * 2020-05-29 2023-09-26 北京百度网讯科技有限公司 用于训练超网络的方法、装置、设备以及存储介质
CN111709890B (zh) 2020-06-12 2023-11-24 北京小米松果电子有限公司 一种图像增强模型的训练方法、装置及存储介质
CN111753917A (zh) * 2020-06-29 2020-10-09 北京小米松果电子有限公司 数据处理方法、装置及存储介质
CN111931901A (zh) * 2020-07-02 2020-11-13 华为技术有限公司 一种神经网络构建方法以及装置
CN111968635B (zh) * 2020-08-07 2024-03-05 北京小米松果电子有限公司 语音识别的方法、装置及存储介质
CN112116090B (zh) * 2020-09-28 2022-08-30 腾讯科技(深圳)有限公司 神经网络结构搜索方法、装置、计算机设备及存储介质
CN112259122B (zh) * 2020-10-20 2024-07-19 北京小米松果电子有限公司 音频类型识别方法、装置及存储介质
US20220121922A1 (en) * 2020-10-20 2022-04-21 Deci.Ai Ltd. System and method for automated optimazation of a neural network model
CN112598021A (zh) * 2020-11-27 2021-04-02 西北工业大学 一种基于自动机器学习的图结构搜索方法
CN116964594A (zh) * 2020-12-16 2023-10-27 华为技术有限公司 一种基于演化学习的神经网络结构搜索方法和系统
CN112633471B (zh) * 2020-12-17 2023-09-26 苏州浪潮智能科技有限公司 构建神经网络架构搜索框架的方法、系统、设备及介质
CN114925739B (zh) * 2021-02-10 2023-11-03 华为技术有限公司 目标检测方法、装置和系统
CN113657466B (zh) * 2021-07-29 2024-02-06 北京百度网讯科技有限公司 预训练模型的生成方法、装置、电子设备和存储介质
CN116542293B (zh) * 2022-01-24 2024-07-19 美的集团(上海)有限公司 一种神经网络结构搜索方法、装置、程序产品及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2810202B2 (ja) * 1990-04-25 1998-10-15 株式会社日立製作所 ニューラルネットワークによる情報処理装置
JP6042274B2 (ja) * 2013-06-28 2016-12-14 株式会社デンソーアイティーラボラトリ ニューラルネットワーク最適化方法、ニューラルネットワーク最適化装置及びプログラム
WO2018140969A1 (en) * 2017-01-30 2018-08-02 Google Llc Multi-task neural networks with task-specific paths
US11604985B2 (en) * 2017-11-22 2023-03-14 Deepmind Technologies Limited Population based training of neural networks
US12020160B2 (en) * 2018-01-19 2024-06-25 International Business Machines Corporation Generation of neural network containing middle layer background
WO2019152929A1 (en) 2018-02-02 2019-08-08 Google Llc Regularized neural network architecture search
CN110288084A (zh) * 2019-06-06 2019-09-27 北京小米智能科技有限公司 超网络训练方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Single Path One-Shot Neural Architecture Search with Uniform Sampling*

Also Published As

Publication number Publication date
US11663468B2 (en) 2023-05-30
KR20210053122A (ko) 2021-05-11
CN110782034A (zh) 2020-02-11
JP2021072079A (ja) 2021-05-06
JP6862586B1 (ja) 2021-04-21
EP3816868A1 (en) 2021-05-05
US20210133563A1 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
KR102365890B1 (ko) 신경망의 훈련 방법, 장치 및 저장 매체
US11120078B2 (en) Method and device for video processing, electronic device, and storage medium
US20210117726A1 (en) Method for training image classifying model, server and storage medium
TWI772668B (zh) 一種目標對象處理方法、裝置、電子設備及儲存介質
US20200387795A1 (en) Super network training method and device
EP3547714A1 (en) Voice processing method with distributed microphone array
TW202113680A (zh) 人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體
CN111581488B (zh) 一种数据处理方法及装置、电子设备和存储介质
CN111160448B (zh) 一种图像分类模型的训练方法及装置
EP2978265B1 (en) Method and apparatus for automatically connecting to a wireless network
CN111553464B (zh) 基于超网络的图像处理方法、装置及智能设备
US20210390449A1 (en) Method and device for data processing, and storage medium
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
TWI785638B (zh) 目標檢測方法、電子設備和電腦可讀儲存介質
US20160314164A1 (en) Methods and devices for sharing cloud-based business card
CN110659690A (zh) 神经网络的构建方法及装置、电子设备和存储介质
US20200135205A1 (en) Input method, device, apparatus, and storage medium
CN109901726B (zh) 一种候选词生成方法、装置及用于候选词生成的装置
CN112259122B (zh) 音频类型识别方法、装置及存储介质
US20210065004A1 (en) Method and device for subnetwork sampling, and method and device for building a hypernetwork topology
KR101668350B1 (ko) 프로그램 스트링 실행방법, 장치, 프로그램 및 기록매체
CN112214114A (zh) 一种输入方法、装置和电子设备
WO2022116519A1 (zh) 一种搜索方法、装置和电子设备
WO2020224448A1 (zh) 交互方法及装置、音箱、电子设备和存储介质
CN116028686A (zh) 资源推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant