[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2019530119A - エンドツーエンドモデリング方法及びシステム - Google Patents

エンドツーエンドモデリング方法及びシステム Download PDF

Info

Publication number
JP2019530119A
JP2019530119A JP2019535428A JP2019535428A JP2019530119A JP 2019530119 A JP2019530119 A JP 2019530119A JP 2019535428 A JP2019535428 A JP 2019535428A JP 2019535428 A JP2019535428 A JP 2019535428A JP 2019530119 A JP2019530119 A JP 2019530119A
Authority
JP
Japan
Prior art keywords
layer
enhancement
encoding
filtering
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019535428A
Other languages
English (en)
Other versions
JP6838161B2 (ja
Inventor
パン,ジャ
チャン,シーリャン
シォン,シーフー
ウェイ,スー
フー,グォピン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Publication of JP2019530119A publication Critical patent/JP2019530119A/ja
Application granted granted Critical
Publication of JP6838161B2 publication Critical patent/JP6838161B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

エンドツーエンドモデリング方法及びシステムであって、当該方法は、ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定し、複数のトレーニングデータを収集し、各々の前記トレーニングデータのラベル付けオブジェクトを確定し前記ラベル付けオブジェクトのターゲットユニットに対してラベル付けを行い、各々の前記トレーニングデータの特徴シーケンスを抽出し、複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得る、ことを含み、前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うためのものである。本発明により、モデリングの精度を向上させることができる。

Description

本発明は、機械学習分野に関し、具体的に、エンドツーエンドモデリング方法及びシステムに関する。
エンドツーエンドモデリングとは、入力端特徴シーケンスと出力端特徴シーケンスとの対応関係に応じてモデルを構築することであり、エンドツーエンドモデリングは、パターン認識や機械学習分野で広く適用され、例えば、音声認識、画像認識、機械翻訳などのアプリケーションシステムでよく使用され、入力端と出力端との対応関係を構築することにより、各アプリケーションシステムのニーズを実現する。音声認識を例に、エンドツーエンドモデリングは、音響モデルと言語モデルとに対して共同モデリングを行い、直接に認識テキストを出力できる。例えば、中国語では漢字又は単語をモデリングユニット、即ち、ターゲットラベル付けユニットとし、入力音声信号シーケンスと出力漢字や単語との対応関係を学習することでモデリングを行う。
従来のエンドツーエンドモデリング方法は、一般的に、エンコード・デコードモデルに基づいて実現され、以下のステップを含む。
(1)エンコード・デコードモデルのトポロジ構造を確定する。
(2)複数のトレーニングデータを収集し、各々のトレーニングデータの特徴シーケンスを抽出し、相応するターゲットラベル付け情報を確定する。
(3)複数のトレーニングデータの特徴シーケンス、及び相応するターゲットラベル付け情報を利用してモデルパラメーターをトレーニングする。
なお、エンコード・デコードモデルのトポロジ構造は、図1に示すように、主に、入力層、エンコード層、デコード層、及び相応する出力層からなり、エンコード層は、入力層から入力された特徴シーケンスをエンコードした後、相応するデコード層によりエンコードされた特徴シーケンスをデコードし、デコードされた特徴シーケンスを出力層の入力とし、出力層は各ターゲットラベル付けユニットの事後確率を出力する。
図1から分かるように、当該モデルは、入力特徴シーケンスのみに対してエンコードして、相応するエンコード情報を得た後に、直接に前記エンコード情報をデコード層の入力とし、デコード層により前記エンコード情報をデコードする。このような形態により、エンコードして得られた特徴シーケンスとターゲットラベル付けユニットとの差が大きくなり、入力端と出力端の特徴シーケンスの間の関係をよく構築することができず、モデリング精度が低下する。
本発明の実施例は、モデリングの精度を向上させるために、エンドツーエンドモデリング方法システムを提供する。
このために、本発明は、以下の技術案を提供する。
エンドツーエンドモデリング方法であって、
ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定し、
複数のトレーニングデータを収集し、
各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトのターゲットユニットに対してラベル付けを行い、
各々の前記トレーニングデータの特徴シーケンスを抽出し、
複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得る、ことを含み、
前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うためのものである。
好ましくは、前記エンコード層は一層又は複数層であり、各エンコード層のノード数は入力層と同じである。
好ましくは、各エンコード層は、一方向又は双方向長短期記憶ニューラルネットワークにおける長短期記憶層を採用するか、又は畳み込みニューラルネットワークにおける畳み込み層を採用する。
好ましくは、前記トポロジ構造は、隣接するエンコード層の間に位置するダウンサンプリング層をさらに含む。
好ましくは、前記ダウンサンプリング層は一層又は複数層である。
好ましくは、前記ダウンサンプリング層の各ノードの入力は、一つ前のエンコード層の隣接する複数のノード特徴情報である。
好ましくは、前記ターゲットユニット情報はエンハンスノードによりエンハンスエンコード層に付加され、各ターゲットユニットは一つのエンハンスノードに対応し、前記エンハンスノードの入力は対応するターゲットユニットの特徴ベクトルであり、エンハンスエンコード層の層数及びエンハンスノードの数はいずれもターゲットユニットの数と同じである。
好ましくは、各エンハンスノードは、それに対応するエンハンスエンコード層のノードの全部に接続されるか、又は各エンハンスノードは、それに対応するエンハンスエンコード層の一番目のノードのみに接続される。
好ましくは、前記フィルタリング層の層数は、前記エンハンスエンコード層の層数と同じであり、各エンハンスエンコード層は、一層のフィルタリング層に直接に接続される。
好ましくは、前記フィルタリング層は、一方向又は双方向長短期記憶層の構造形態を採用し、フィルタリング層内のノード数は、エンハンスエンコード層内のノード数と同じであり、各エンハンスエンコード層が出力した特徴は直接にそれに接続されるフィルタリング層の入力とされ、フィルタリング層の最後のノードの出力は当該フィルタリング層の出力とされるか、又は
前記フィルタリング層は、畳み込みニューラルネットワークの畳み込み層とプーリング層の構造形態を採用し、各フィルタリング層は一層又は複数層の畳み込み層と一層のプーリング層とを含み、前記プーリング層の出力は当該フィルタリング層の出力とされる。
好ましくは、複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメ
ーターをトレーニングすることは、
複数の前記トレーニングデータの特徴シーケンスを前記エンドツーエンドモジュールの入力とし、複数の前記トレーニングデータにおけるターゲットユニットのラベル付け情報を前記エンドツーエンドモジュールの出力とし、前記エンドツーエンドモデルのモデルパラメーターをトレーニングすることを含み、前記モデルパラメーターは前記エンドツーエンドモデルの各層間で接続される重み変換行列、及びオフセットである。
エンドツーエンドモデリングシステムであって、
ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定するためのトポロジ構造確定モジュールと、
複数のトレーニングデータを収集するためのトレーニングデータ収集モジュールと、
各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトにおけるターゲットユニットに対してラベル付けを行うためのラベル付けモジュールと、
各々の前記トレーニングデータの特徴シーケンスを抽出するための特徴抽出モジュールと、
複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得るためのパラメータートレーニングモジュールとを含み、
前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うためのものである。
好ましくは、前記エンコード層は一層又は複数層であり、エンコード層のノード数は入力層と同じである。
好ましくは、各エンコード層は一方向又は双方向長短期記憶ニューラルネットワークにける長短期記憶層を採用するか、又は、畳み込みニューラルネットワークにおける畳み込み層を採用する。
好ましくは、前記トポロジ構造は、隣接するエンコード層の間に位置するダウンサンプリング層をさらに含む。
好ましくは、前記ダウンサンプリング層は一層又は複数層である。
好ましくは、前記ダウンサンプリング層の各ノードの入力は一つ前のエンコード層の隣接する複数のノード特徴情報である。
好ましくは、前記ターゲットユニット情報は、エンハンスノードによりエンハンスエンコード層に付加され、各ターゲットユニットは一つのエンハンスノードに対応し、前記エンハンスノードの入力は対応するターゲットユニットの特徴ベクトルであり、エンハンスエンコード層の層数、及びエンハンスノード数はいずれもターゲットユニットの数と同じである。
好ましくは、各エンハンスノードは、それに対応するエンハンスエンコード層のノードの全部に接続されるか、各エンハンスノードは、それに対応するエンハンスエンコード層の一番目のノードのみに接続される。
好ましくは、前記フィルタリング層の層数は前記エンハンスエンコード層の層数と同じであり、各エンハンスエンコード層は一層のフィルタリング層に直接に接続される。
好ましくは、フィルタリング層は一方向又は双方向長短期記憶層の構造形態を採用し、フィルタリング層内のノード数はエンハンスエンコード層内のノード数と同じであり、各エンハンスエンコード層が出力した特徴は直接にそれに接続されるフィルタリング層の入力とされ、フィルタリング層の最後のノードの出力は当該フィルタリング層の出力とされるか、又は、
前記フィルタリング層は、畳み込みニューラルネットワークの畳み込み層とプーリング層の構造形態を採用し、各フィルタリング層は一層又は複数層の畳み込み層と一層のプーリング層とを含み、前記プーリング層の出力を当該フィルタリング層の出力とする。
好ましくは、前記パラメータートレーニングモジュールは、複数の前記トレーニングデータの特徴シーケンスを前記エンドツーエンドモデルの入力とし、複数の前記トレーニングデータにおけるターゲットユニットのラベル付け情報を前記エンドツーエンドモジュールの出力とし、前記エンドツーエンドモデルのモデルパラメーターをトレーニングし、前記モデルパラメーターは前記エンドツーエンドモデルの各層の間で接続される重み変換行列、及びオフセットである。
本発明の実施例が提供するエンドツーエンドモデリング方法及びシステムは、ターゲットに基づくエンドツーエンドモデルのトポロジ構造においてエンハンスエンコード層とフィルタリング層とを追加した。前記エンハンスエンコード層により前記エンコード層が出力した特徴シーケンスにターゲットユニットラベル付け情報を付加し、エンハンスエンコードされた後のエンコード特徴シーケンスにより完全な情報を含ませ、エンコード特徴シーケンスとターゲットラベル付けユニットとの差を効果的に低減し、前記フィルタリング層は前記エンハンスエンコード層により前記ターゲットユニットラベル付け情報が付加された特徴シーケンスに対して情報フィルタリングを行い、エンハンスエンコードされた後の冗長情報を削除し、デコード層はフィルタリングされた後の特徴シーケンスを利用してデコードし、デコードされた特徴シーケンスを出力層の入力とし、出力層により正規化された特徴シーケンスを得て、入力端から出力端までのモデリング制度を効果的に向上させる。
本出願の実施例又は従来技術における技術案をより明らかに説明するために、以下は、実施例で利用する必要がある図面を簡単に紹介し、明らかに、以下に説明される図面は、本発明のいくつかの実施例に過ぎず、当業者にとって、これらの図面に応じて、他の図面を取得できる。
従来技術におけるエンコード・デコードモデルのトポロジ構造の模式図である。 本発明の実施例に係るエンドツーエンドモデリング方法のフローチャートである。 本発明の実施例におけるターゲットに基づくエンドツーエンドモデルトポロジ構造の模式図である。 本発明の実施例に係る図3に示すトポロジ構造においてエンコード層の間にダウンサンプリング層を挿入した模式図である。 本発明の実施例におけるエンハンスノードとエンハンスエンコード層ノードとの接続模式図である。 本発明の実施例におけるエンハンスノードとエンハンスエンコード層ノードの他の接続模式図である。 本発明の実施例におけるエンハンスエンコード層とフィルタリング層との接続模式図である。 本発明の実施例におけるエンハンスエンコード層とフィルタリング層との他の接続模式図である。 本発明の実施例に係るエンドツーエンドモデリングシステムの構成模式図である。
当業者に本発明の実施例の技術案の理解を促すために、以下、図面及び実施形態と結びつけて本発明の実施例についてさらに詳細に説明する。
従来技術のエンドツーエンドモデリング方法に存在する上記問題について、本発明の実施例は、エンドツーエンドモデリング方法及びシステムを提供し、ターゲットに基づくエンドツーエンドモデルのトポロジ構造においてエンハンスエンコード層とフィルタリング層とを追加し、つまり、ターゲットに基づくエンドツーエンドモデルのトポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含む。前記エンハンスエンコード層により前記エンコード層が出力する特徴シーケンスに対してターゲットユニットラベル付け情報を付加し、エンハンスエンコードされた後のエンコード特徴シーケンスにより完全な情報を含ませ、エンコード特徴シーケンスとターゲットラベル付けユニットとの差を効果的に低減し、前記フィルタリング層により前記エンハンスエンコード層が前記ターゲットユニットラベル付け情報を付加した特徴シーケンスに対して情報フィルタリングを行い、エンハンスエンコードされた後の冗長情報を削除し、デコード層はフィルタリングされた特徴シーケンスを利用してデコードし、デコードされた特徴シーケンスを出力層の入力とし、出力層により正規化された特徴シーケンスを得て、入力端から出力端までのモデリングの精度を効果的に向上させる。
図2に示すように、本発明の実施例のエンドツーエンドモデリング方法のフローチャートであり、以下のステップを含む。
ステップ201において、ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定する。
従来のエンコード・デコードモデルと比べて、本発明の実施例において、ターゲットに基づくエンドツーエンドモデルのトポロジ構造においてエンハンスエンコード層と、フィルタリング層とを追加し、具体的に、前記エンドツーエンドモデルのトポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、その中、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、これにより、エンハンスエンコードされた後のエンコード特徴シーケンスにより完全な情報を含ませ、エンコード特徴シーケンスとターゲットユニットとの差を効果的に低減する。前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うためのものであり、これにより、エンハンスエンコードされた後の冗長情報を削除し、デコード層は、フィルタリングされた特徴シーケンスを利用してデコードし、デコードされた特徴シーケンスを出力層の入力とし、出力層により正規化された特徴シーケンスを得る。当該ターゲットに基づくエンドツーエンドモデルの具体的な構造について、以下詳細に記述する。
ステップ202において、複数のトレーニングデータを収集する。
前記トレーニングデータは、応用需要に応じて収集されてもよく、例えば、トレーニングデータは、音声データ、画像データ、テキストデータなどであってもよい。
ステップ203において、各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトにおけるターゲットユニットに対してラベル付けする。
前記ターゲットユニットは、応用需要に応じて確定されてもよく、一般的に、当分野の専門家により前記トレーニングデータに対応するラベル付けオブジェクトに対してラベル付けることで得られ、前記ラベル付けオブジェクトは前記トレーニングデータ自身であってもよい。
なお、実際の応用において、前記ターゲットユニットは応用需要に応じて確定されてもよく、例えば、音声認識応用において、収集されたトレーニングデータは音声データであり、ラベル付けオブジェクトは前記音声データに対応する認識テキストであってもよく、当該認識テキストにおける一字又は単語をターゲットユニットとする。また、例えば、画像認識応用において、収集されたトレーニングデータは画像データであり、ラベル付けオブジェクトは前記画像データに対応する認識テキスト、即ち、画像認識により得られる認識テキストであってもよく、当該認識テキストにおける一字又は単語をターゲットユニットとする。また、例えば、機械翻訳応用において、収集されたトレーニングデータはソース言語のテキストデータであり、ラベル付けオブジェクトはターゲット言語テキストデータであってもよく、当該ターゲット言語テキストデータにおける一字又は単語をターゲットユニットとする。
ステップ204において、各々の前記トレーニングデータの特徴シーケンスを抽出する。
前記特徴シーケンスにおける特徴は、応用需要に応じて確定されてもよく、例えば、音声認識応用において、前記特徴は、各音声フレームにおける音声データを表現する音響情報、例えば、Filter Bank特徴、MFCC特徴、又はPLP特徴などであって
もよく、また、例えば、画像認識応用において、前記特徴は、各フレーム画像における画素ドットの値であってもよく、また、例えば、機械翻訳応用において、前記特徴は各句のソース言語のテキストデータにおける各ワードのワードベクトルであってもよい。
ステップ205において、複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得る。
以下、図3ないし図6に結びつけて、本発明の実施例におけるターゲットに基づくエンドツーエンドモデルについて詳細に説明する。
図3に示すように、本発明の実施例におけるターゲットに基づくエンドツーエンドモデルのトポロジ構造模式図である。
前記ターゲットに基づくエンドツーエンドモデルトポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層及出力層を含み、具体的なトポロジ構造、及び各層の特徴変換過程は以下の通りである。
(1)入力層
入力層はトレーニングデータの特徴シーケンスを入力し、具体的なノード数は、トレーニングデータの特徴シーケンスに応じて確定され、例えば、トレーニングデータが音声データである場合に、入力層が入力した特徴シーケンスは各句の音声データの各フレーム音声特徴であり、入力層のノード数は各句の音声データのフレーム数であり、X={x,x,...,x,...,x}で示し、その中、xは現在のトレーニングデータの第tのフレ
ームの特徴ベクトルを示し、Tは現在のトレーニングデータのフレーム数である。
(2)エンコード層
入力層が入力した特徴シーケンスはエンコード層によりエンコードされ、前記エンコード層は一層又は複数層であり、各エンコード層のノード数は入力層と同じであり、各エンコード層は一方向又は双方向長短期記憶ニューラルネットワークにおける長短期記憶層、又は畳み込みニューラルネットワークの畳み込み層を採用してもよく、具体的にどのような構造を採用するかについて、応用需要に応じて確定されてもよく、トレーニングデータが多い大規模単語量の音声認識タスクについて、エンコード層は3〜5層の双方向長短期記憶層を採用してもよく、トレーニングデータが少ない制限領域音声認識タスクについて、エンコード層は1〜3層の一方向の長短期記憶層を採用してもよい。
さらに、エンコード層の間の算出効率を向上するために、エンコード層の間に一層のダウンサンプリング層を挿入でき、具体的に、隣接する複数のエンコード層の間に一層のダウンサンプリング層をそれぞれ挿入してもよく、全部で複数のダウンサンプリング層を挿入し、任意の二つの隣接するエンコード層を選択して一層のダウンサンプリング層を挿入し、全部で一層のダウンサンプリング層を挿入してもよく、ダウンサンプリング層が挿入されたエンコード層は、エンコード層のノード数が前のダウンサンプリング層のノード数と同じであり、同様に、最後の一層のエンコード層のノード数は、最後の一層のダウンサンプリング層ノード数と同じである。例えば、一般的に、音声認識又は画像認識などの複数フレームの入力特徴シーケンスに重複があるタスクについて、エンコード層の間にダウンサンプリング層を挿入することで、算出効率を向上できる。機械翻訳などの入力特徴シーケンスに重複がないタスクについて、エンコード層の間にダウンサンプリング層を挿入しなくてもよい。
図4は、エンコード層1とエンコード層2との間にダウンサンプリング層を挿入した模式図であり、ダウンサンプリング層の各ノードの入力は前のエンコード層の隣接する複数のノード特徴情報であり、前記特徴情報は、前のエンコード層の複数のノード特徴の最大値、平均値を求めるか、pノルムを求めるなどの操作により得られ、これにより、ダウンサンプリングの目的を達成する。図4で、ダウンサンプリング層の各ノードの入力は前のエンコード層の隣接する二つのノードの特徴情報であり、その中、Mがエンコード層の総数を示す。
エンコード層の特徴変換方法は、エンコード層が採用する相応構造の特徴変換方法により決定され、例えば、エンコード層が一方向又は双方向長短期記憶層の構造を採用する場合に、第lのエンコード層の出力特徴シーケンスは以下の数1で示される。
Figure 2019530119
また、第tのフレーム、第lのエンコード層の出力特徴ベクトルが以下の数2で示され、変換方法が以下の数3で示される。
Figure 2019530119
Figure 2019530119
ここで、fは一方向又は双方向長短期変換関数であり、Dは第lのエンコード層の各ノードにおける特徴ベクトルの次元数である。
(3)エンハンスエンコード層
前記エンハンスエンコード層はターゲットユニット情報を付加し、エンコード層から出力された特徴シーケンスをエンハンスすることにより、エンハンスされた特徴シーケンスにより完全な情報を含ませる。
ターゲットユニット情報は相応するエンハンスノードによりエンハンスエンコード層に付加され、各ターゲットユニットは一つのエンハンスノードに対応し、前記エンハンスノードの入力は対応するターゲットユニットの特徴ベクトルである。
各ターゲットオブジェクトにおいて複数のターゲットユニットがある可能性があるので、複数層のエンハンスエンコード層を必要とし、各エンハンスエンコード層は一つのエンハンスノードに対応し、エンハンスエンコード層の層数及びエンハンスノード数は、いずれもターゲットユニットの数と同じであり、各層のエンハンスエンコード層は、当該層に対応するターゲットユニットの前のターゲットユニットに対応するエンハンスノードに接続される。図5A、5Bに示すように、仮に、全部でN個のターゲットユニットがあるとすと、N層のエンハンスエンコード層を必要とし、なお、エンハンスエンコード層1は空きエンハンスノードに対応し、エンハンスエンコード層2は一番目のターゲットユニットに対応し、エンハンスエンコード層3は二番目のターゲットユニットに対応し、以下同様にして、エンハンスエンコード層NはN-1番目のターゲットユニットに対応し、即ち、
1〜N-1個のターゲットユニットの情報は各層に付加される。音声認識を例に、単語を
ターゲットユニットとして、現在の音声データのターゲットユニットラベル付け情報は「今日合肥の天気」であり、ターゲットユニットの数は4であり、四層のエンハンスエンコード層及び四つのエンハンスノードでエンコード層が出力した特徴シーケンスをエンハンスする必要がある。エンコード層が出力した特徴シーケンスをエンハンスする場合に、例えば、以上の例におけるターゲットユニットである「今日」に対応するエンハンスエンコード層がターゲットユニットである「合肥」に対応するエンハンスノードに接続され、第1のエンハンスエンコード層は一つの空きエンハンスノードに接続される。
もちろん、各ターゲットユニット情報を利用してエンコード層が出力した特徴シーケンスをエンハンスする処理方式は同じであるので、実際の応用において、上記複数層のエンハンスエンコード層は、一層のエンハンスエンコード層によるラベル付けオブジェクトにおける複数のターゲットユニットに対する逐次のエンハンスプロセスと見なすこともできる。
なお、実際の応用において、エンハンスノードとエンハンスエンコード層との接続形態は色々ある。例えば、図5Aに示すように、一つの接続形態は、各エンハンスノードがそれに対応するエンハンスエンコード層のノードと全部接続されることであり、図5Bに示すように、他の一つの接続形態は、各エンハンスノードがそれに対応するエンハンスエンコード層の一番目のノードのみに接続されることであり、図5A、5BにおけるNはター
ゲットユニットの数を示す。なお、前で言及された図3において図5Aに示す第一種の接続形態、即ち各エンハンスノードがそれに対応するエンハンスエンコード層のノードと全部接続される形態を示す。上記第2種の接続形態は計算量を節約することができるが、エンハンス効果は第1種の接続形態ほどよくない。
各層のエンハンスエンコード層のノード数は、最後の一層のエンコード層のノード数と同じであり、エンハンスエンコード層内のノード間の接続形態はエンコード層内のノード間の接続形態と同じである。
特徴変換を行う場合に、直接に各エンハンスノードが示すターゲットユニット特徴ベクトルとエンハンスエンコード層ノード接続重みとの積をエンハンスエンコード層の相応するノードが示す特徴ベクトルに加えればよい。
(4)フィルタリング層
前記フィルタリング層は、各エンハンスエンコード層によりエンハンスされた特徴シーケンスに対して情報フィルタリングを行うためのものであり、フィルタリング層の層数はエンハンスエンコード層の層数と同じであり、各層のエンハンスエンコード層は一層のフィルタリング層と直接に接続される。
実際の応用において、前記フィルタリング層の構造は、以下の二種の形態を採用することができ、一つは一方向又は双方向長短期記憶層の構造形態であり、他の一つは畳み込みニューラルネットワークの畳み込み層とプーリング層の構造形態である。
図6Aは、エンハンスエンコード層とフィルタリング層との第1種の接続形態であり、第1種の接続形態を採用する場合に、フィルタリング層の層数はエンハンスエンコード層の層数と同じであり、フィルタリング層内のノード数はエンハンスエンコード層内のノード数と同じであり、各層のエンハンスエンコード層が出力する特徴は直接にこれに接続されるフィルタリング層の入力とされ、フィルタリング層の最後のノードの出力を用いて当該フィルタリング層の出力とし、即ちフィルタリングされたエンハンスエンコード情報とする。
図6Bは、エンハンスエンコード層とフィルタリング層の第2種の接続形態であり、第2種の接続形態を採用する場合に、フィルタリング層は直接に一層又は複数層の畳み込み層を用いて接続された後、プーリング層に接続される形態を採用し、前記プーリング層の出力をフィルタリング後のエンハンスエンコード情報とする接続形態は、複数の畳み込み層を採用して徐々にエンハンスエンコード情報を各ノードからフィルタリングして、収集し、最終に一つのノードに集約する。第1種の接続形態で一層のフィルタリング層のみを用いてフィルタリングすることに比べて、第2種の接続形態のフィルタリング効果はより良好である。
なお、前で言及された図3において、図6A示す第1種の接続形態のみを示した。
フィルタリング層の特徴変換方法は、それぞれ各接続形態の特徴変換方法と同じであり、具体的な変換過程についての説明は省略する。
(5)デコード層
前記デコード層の入力は各フィルタリング層が出力するフィルタリングされた後のエンハンスエンコード情報であり、デコード層は、一般的に一方向の長短期記憶層の接続形態を採用し、デコード層は一層又は複数層であってもよく、一般的に、1〜2層のデコード層を使用すればよく、各デコード層のノード数はフィルタリング層の層数と同じであり、
具体的にデコード過程は従来技術と同じであるので、説明は省略する。
(6)出力層
デコード層により変換された出力特徴シーケンスを出力層の入力とし、出力層は入力特徴シーケンスを正規化した後に各ターゲットラベル付けユニットの事後確率ベクトルシーケンスを出力し、具体的な正規化方法は従来技術を採用してもよく、正規化関数は例えばsoftmax関数である。
上記エンドツーエンドモデルのトポロジ構造に基づいて、相応するモデルをトレーニングする場合に、直接にトレーニングデータの特徴シーケンスを使用してエンドツーエンドモデルの入力とし、相応するターゲットユニットのラベル付け情報をエンドツーエンドモジュールの出力とし、前記エンドツーエンドモデルのモデルパラメーターをトレーニングし、前記モデルパラメーターは前記エンドツーエンドモデルの各層の間で接続される重み変換行列、及び相応するオフセットである。具体的なパラメータートレーニング過程について、従来技術を採用してもよく、例えば、交差エントロピーを採用してモデルの最適化ターゲットとし、誤差逆伝播法を利用してモデルパラメーターを継続的に更新し、例えば、複数の繰り返しの方法を採用してモデルパラメーターを更新し、モデルパラメーターが収束ターゲットに達する場合に、繰り返し過程を停止し、モデルパラメーターの更新過程を完成し、エンドツーエンドモデルのモデルパラメーターを得る。
このように、本発明の実施例が提供するエンドツーエンドモデリング方法は、ターゲットに基づくエンドツーエンドモデルのトポロジ構造においてエンハンスエンコード層とフィルタリング層とを追加した。入力特徴シーケンスをエンコードした後に、各ターゲットユニットにエンハンスエンコード層を追加し、各エンハンスエンコード層により順に各ターゲットユニットの前の一つのターゲットユニットの情報をエンコードシーケンスに付加し、ターゲットユニットの履歴情報を考慮したので、エンハンスエンコードされた後のエンコード特徴シーケンスにより完全な情報を含ませ、エンコード特徴シーケンスとターゲットユニットとの差を効果的に低減する。さらに、エンハンスエンコード後の冗長情報を削除するために、各エンハンスエンコード層の後にフィルタリング層をさらに追加し、エンハンスエンコードされた後の特徴シーケンスに対して情報フィルタリングを行い、フィルタリングされた特徴シーケンスを利用してデコードして、デコードされた特徴シーケンスを出力層の入力とし、出力層により正規化された特徴シーケンスを得て、これにより、入力端から出力端までのモデリング精度を効果的に向上させる。
当業者であれば、上記実施例方法における全部又は一部のステップを実現することは、プログラムにより相関するハードウェアを指令することにより完成できると理解され、前記のプログラムは、例えば、ROM/RAM、磁気ディスク、CDなどのコンピュータ読
み取り可能な記憶媒体に記憶されてもよい。
本出願の実施例は、さらに、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータプログラムコードを含み、当該コンピュータプログラムコードは、プロセッサーにより実行され、当該プロセッサーに、
ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定し、
複数のトレーニングデータを収集し、
各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトのターゲットユニットをラベル付けし、
各々の前記トレーニングデータの特徴シーケンスを抽出し、
複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得る、
処理を実行させ、
前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力する特徴シーケンスにターゲットユニット情報を付加し、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うことを特徴とするコンピュータ読み取り可能な記憶媒体。
なお、前記ターゲットに基づくエンドツーエンドモデルの具体的な構造については、前の記述を参照する。
前記プロセッサーは、複数の前記トレーニングデータの特徴シーケンスを前記エンドツーエンドモデルの入力とし、複数の前記トレーニングデータにおけるターゲットユニットのラベル付け情報を前記エンドツーエンドモジュールの出力とし、前記エンドツーエンドモデルのモデルパラメーターをトレーニングし、前記モデルパラメーターは前記エンドツーエンドモデルの各層の間で接続される重み変換行列、及びオフセットである。
相応して、本発明の実施例は、さらに、エンドツーエンドモデリングシステムを提供し、図7に示すように、当該システムの構成模式図である。
当該実施例において、前記システムは、
ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定するためのトポロジ構造確定モジュール701と、
複数のトレーニングデータを収集するためのトレーニングデータ収集モジュール702と、
各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトのターゲットユニットをラベル付けするためのラベル付けモジュール703と、
各々の前記トレーニングデータの特徴シーケンスを抽出するための特徴抽出モジュール704と、
複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得るためのパラメータートレーニングモジュール705とを含み、
前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対してフィルタリングを行うためのものである。
前記ターゲットに基づくエンドツーエンドモデルのトポロジ構造については、上記の本発明の方法実施例を紹介する際に詳細に説明したので、ここでは説明を省略する。
当該ターゲットに基づくエンドツーエンドモデルのトポロジ構造は、パラメータートレーニングモジュール705がモデルトレーニングを行う際に、複数の前記トレーニングデータの特徴シーケンスを前記エンドツーエンドモデルの入力とし、複数の前記トレーニングデータにおけるターゲットユニットのラベル付け情報を前記エンドツーエンドモジュールの出力とし、前記エンドツーエンドモデルのモデルパラメーターをトレーニングし、前記モデルパラメーターは前記エンドツーエンドモデルの各層の間で接続される重み変換行列、及びオフセットである。具体的なパラメータートレーニング過程は従来技術を採用で
き、例えば、交差エントロピーを採用してモデルの最適化ターゲットとし、誤差逆伝播法によりモデルパラメーターを継続的に更新し、例えば、複数の繰り返しの方法を採用してモデルパラメーターを更新し、モデルパラメーターが収束ターゲットに達する場合に、繰り返し過程を停止し、モデルパラメーターの更新過程を完成し、エンドツーエンドモデルのモデルパラメーターを得る。
このように、本発明の実施例が提供するエンドツーエンドモデリングシステムは、ターゲットに基づくエンドツーエンドモデルのトポロジ構造にエンハンスエンコード層とフィルタリング層とを追加した。入力特徴シーケンスをエンコードした後に、各ターゲットユニットにエンハンスエンコード層を追加し、各エンハンスエンコード層により順に各ターゲットユニットの前の一つのターゲットユニットの情報をエンコードシーケンスに付加し、ターゲットユニットの履歴情報を考慮したので、エンハンスエンコードされた後のエンコード特徴シーケンスにより完全な情報を含ませ、エンコード特徴シーケンスとターゲットユニットとの差を効果的に低減する。さらに、エンハンスエンコード後の冗長情報を削除するために、各エンハンスエンコード層の後にフィルタリング層をさらに増加し、エンハンスエンコードされた後の特徴シーケンスに対して情報フィルタリングを行い、フィルタリングされた特徴シーケンスを利用してデコードし、デコードされた特徴シーケンスを出力層の入力とし、出力層により正規化された特徴シーケンスを得て、これにより、入力端から出力端までのモデリング精度を効果的に向上させる。
本発明の実施例に係るエンドツーエンドモデリングシステムにおける各モジュールは、具体的に、メモリ、プロセッサー、及び他のハードウェアにより実現されてもよく、各モジュールは、一つ又は複数の独立したハードウェアにより実現されてもよく、複数のモジュールを一つのハードウェアに集積することで実現されてもよい。もちろん、幾つかのモジュールの機能はソフトウェアにより実現されてもよく、本発明の実施例はこれに限定されない。
なお、本発明の実施例が提供する方法及びシステムは、パターン認識や機械学習分野における様々な応用需要、例えば、音声認識、画像認識、機械翻訳などの応用に適用できる。音声認識を例に、エンドツーエンドモデリングは、音響モデルと言語モデルとに対して共同モデリングを行い、直接に認識テキストを出力でき、例えば、一般的に、中国語で漢字又は単語をモデリングユニット、即ち、ターゲットユニットとし、音声信号シーケンスの入力と、漢字や単語の出力との対応関係を学習することでモデリングを行う。
本明細書における各実施例について漸進的に説明したが、各実施例間の同じ、又は類似する部分は、相互に参照すればよく、各実施例は他の実施例との相違点について主に説明している。特に、システムの実施例は、方法の実施例と基本的に同様であるので説明は簡単にしたが、関連する部分について、方法の実施例の一部の説明を参照すればよい。上述のシステムの実施例は例示に過ぎない。別個の構成要素として説明したユニットは、物理的に分離してもよく、分離していなくてもよい。ユニットとして示されている構成要素は、物理的ユニットであってもよく、そうでなくてもよく、すなわち、構成要素は1箇所に位置してもよく、複数のネットワークユニットに分散されてもよい。実際の需要に基づいて、これらのモジュールの一部又は全てを選択して、本実施例案の目的を達成できる。当業者なら、如何なる創造的努力もなしに、理解し実施することができる。
以上で、本発明の実施例について詳細に紹介し、具体的な実施形態を応用して本発明を述べたが、以上の実施例の説明はただ本発明の方法及びシステムを理解するためである。かつ、当業者にとって、本発明の思想に基づいて、具体な実施形態及び応用の範囲を変更でき、本明細書は、本発明を限定するためのものであると理解すべきではない。

Claims (22)

  1. エンドツーエンドモデリング方法であって、
    ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定し、
    複数のトレーニングデータを収集し、
    各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトにおけるターゲットユニットに対してラベル付けを行い、
    各々の前記トレーニングデータの特徴シーケンスを抽出し、
    複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得る、ことを含み、
    前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うためのものであることを特徴とする方法。
  2. 前記エンコード層は一層又は複数層であり、各層のエンコード層のノード数は入力層と同じであることを特徴とする請求項1に記載の方法。
  3. 各エンコード層は、一方向又は双方向長短期記憶ニューラルネットワークにおける長短期記憶層を採用するか、又は畳み込みニューラルネットワークにおける畳み込み層を採用することを特徴とする請求項2に記載の方法。
  4. 前記トポロジ構造は、隣接するエンコード層の間に位置するダウンサンプリング層をさらに含むことを特徴とする請求項1に記載の方法。
  5. 前記ダウンサンプリング層は、一層又は複数層であることを特徴とする請求項4に記載の方法。
  6. 前記ダウンサンプリング層の各ノードの入力は、一つ前のエンコード層の隣接する複数のノード特徴情報であることを特徴とする請求項4に記載の方法。
  7. 前記ターゲットユニット情報は、エンハンスノードによりエンハンスエンコード層に付加され、各ターゲットユニットは、一つのエンハンスノードに対応し、前記エンハンスノードの入力は対応するターゲットユニットの特徴ベクトルであり、エンハンスエンコード層の層数及びエンハンスノードの数はいずれもターゲットユニットの数と同じであることを特徴とする請求項1に記載の方法。
  8. 各エンハンスノードは、それに対応するエンハンスエンコード層のノードの全部に接続されるか、又は各エンハンスノードは、それに対応するエンハンスエンコード層の一番目のノードのみに接続されることを特徴とする請求項7に記載の方法。
  9. 前記フィルタリング層の層数は、前記エンハンスエンコード層の層数と同じであり、各エンハンスエンコード層は、一層のフィルタリング層に直接に接続されることを特徴とする請求項7に記載の方法。
  10. 前記フィルタリング層は、一方向又は双方向長短期記憶層の構造形態を採用し、フィル
    タリング層内のノード数は、エンハンスエンコード層内のノード数と同じであり、各エンハンスエンコード層が出力する特徴は直接にそれに接続されるフィルタリング層の入力とされ、フィルタリング層の最後のノードの出力は当該フィルタリング層の出力とされるか、又は
    前記フィルタリング層は、畳み込みニューラルネットワークの畳み込み層とプーリング層の構造形態を採用し、各フィルタリング層は一層又は複数層の畳み込み層と一層のプーリング層とを含み、前記プーリング層の出力は当該フィルタリング層の出力とされることを特徴とする請求項9に記載の方法。
  11. 複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることは、
    複数の前記トレーニングデータの特徴シーケンスを前記エンドツーエンドモジュールの入力とし、複数の前記トレーニングデータにおけるターゲットユニットのラベル付け情報を前記エンドツーエンドモジュールの出力とし、前記エンドツーエンドモデルのモデルパラメーターをトレーニングすることを含み、前記モデルパラメーターは前記エンドツーエンドモデルの各層の間で接続される重み変換行列、及びオフセットであることを特徴とする請求項1〜10のいずれか一項に記載の方法。
  12. エンドツーエンドモデリングシステムであって、
    ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定するためのトポロジ構造確定モジュールと、
    複数のトレーニングデータを収集するためのトレーニングデータ収集モジュールと、
    各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトにおけるターゲットユニットに対してラベル付けを行うためのラベル付けモジュールと、
    各々の前記トレーニングデータの特徴シーケンスを抽出するための特徴抽出モジュールと、
    複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得るためのパラメータートレーニングモジュールとを含み、
    前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うためのものであることを特徴とするシステム。
  13. 前記エンコード層は一層又は複数層であり、各層のエンコード層のノード数は入力層と同じであることを特徴とする請求項12に記載のシステム。
  14. 各エンコード層は、一方向又は双方向長短期記憶ニューラルネットワークにおける長短期記憶層を採用するか、又は、畳み込みニューラルネットワークにおける畳み込み層を採用することを特徴とする請求項13に記載のシステム。
  15. 前記トポロジ構造は、隣接するエンコード層の間に位置するダウンサンプリング層をさらに含むことを特徴とする請求項12に記載のシステム。
  16. 前記ダウンサンプリング層は、一層又は複数層であることを特徴とする請求項15に記
    載のシステム。
  17. 前記ダウンサンプリング層の各ノードの入力は一つ前のエンコード層の隣接する複数のノード特徴情報であることを特徴とする請求項15に記載のシステム。
  18. 前記ターゲットユニット情報は、エンハンスノードによりエンハンスエンコード層に付加され、各ターゲットユニットは一つのエンハンスノードに対応し、前記エンハンスノードの入力は対応するターゲットユニットの特徴ベクトルであり、エンハンスエンコード層の層数、及びエンハンスノード数はいずれもターゲットユニットの数と同じであることを特徴とする請求項12に記載のシステム。
  19. 各エンハンスノードは、それに対応するエンハンスエンコード層のノードの全部に接続されるか、又は各エンハンスノードは、それに対応するエンハンスエンコード層の一番目のノードのみに接続されることを特徴とする請求項18に記載のシステム。
  20. 前記フィルタリング層の層数は前記エンハンスエンコード層の層数と同じであり、各エンハンスエンコード層は一層のフィルタリング層に直接に接続されることを特徴とする請求項18に記載のシステム。
  21. 前記フィルタリング層は、一方向又は双方向長短期記憶層の構造形態を採用し、フィルタリング層内のノード数はエンハンスエンコード層内のノード数と同じであり、各エンハンスエンコード層が出力する特徴は直接にそれに接続されるフィルタリング層の入力とされ、フィルタリング層の最後のノードの出力は当該フィルタリング層の出力とされるか、又は、
    前記フィルタリング層は、畳み込みニューラルネットワークの畳み込み層とプーリング層の構造形態を採用し、各フィルタリング層は一層又は複数層の畳み込み層と一層のプーリング層とを含み、前記プーリング層の出力を当該フィルタリング層の出力とすることを特徴とする請求項20に記載のシステム。
  22. 前記パラメータートレーニングモジュールは、複数の前記トレーニングデータの特徴シーケンスを前記エンドツーエンドモデルの入力とし、複数の前記トレーニングデータにおけるターゲットユニットのラベル付け情報を前記エンドツーエンドモジュールの出力とし、前記エンドツーエンドモデルのモデルパラメーターをトレーニングし、前記モデルパラメーターは前記エンドツーエンドモデルの各層の間で接続される重み変換行列、及びオフセットであることを特徴とする請求項12〜21のいずれか一項に記載のシステム。
JP2019535428A 2016-11-29 2017-01-11 エンドツーエンドモデリング方法及びシステム Active JP6838161B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201611070244.2 2016-11-29
CN201611070244.2A CN108122035B (zh) 2016-11-29 2016-11-29 端到端建模方法及系统
PCT/CN2017/070812 WO2018098892A1 (zh) 2016-11-29 2017-01-11 端到端建模方法及系统

Publications (2)

Publication Number Publication Date
JP2019530119A true JP2019530119A (ja) 2019-10-17
JP6838161B2 JP6838161B2 (ja) 2021-03-03

Family

ID=62225306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019535428A Active JP6838161B2 (ja) 2016-11-29 2017-01-11 エンドツーエンドモデリング方法及びシステム

Country Status (6)

Country Link
US (1) US11651578B2 (ja)
EP (1) EP3550477A4 (ja)
JP (1) JP6838161B2 (ja)
KR (1) KR102232643B1 (ja)
CN (1) CN108122035B (ja)
WO (1) WO2018098892A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102695519B1 (ko) * 2018-07-02 2024-08-14 삼성전자주식회사 영상 모델 구축 장치 및 방법
CN108732550B (zh) * 2018-08-01 2021-06-29 北京百度网讯科技有限公司 用于预测雷达回波的方法和装置
CN109215662B (zh) * 2018-09-18 2023-06-20 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
JP7242903B2 (ja) 2019-05-14 2023-03-20 ドルビー ラボラトリーズ ライセンシング コーポレイション 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置
CN110263868A (zh) * 2019-06-24 2019-09-20 北京航空航天大学 基于SuperPoint特征的图像分类网络
CN112529986B (zh) * 2019-09-19 2023-09-22 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置
CN111261140B (zh) * 2020-01-16 2022-09-27 云知声智能科技股份有限公司 韵律模型训练方法及装置
WO2022168104A1 (en) * 2021-02-04 2022-08-11 Telefonaktiebolaget Lm Ericsson (Publ) Building an explainable machine learning model
CN112905591B (zh) * 2021-02-04 2022-08-26 成都信息工程大学 一种基于机器学习的数据表连接顺序选择方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289262A (ja) * 2008-05-29 2009-12-10 General Electric Co <Ge> 資産システムの高性能条件監視のためのシステムおよび方法
JP2012014617A (ja) * 2010-07-05 2012-01-19 Honda Motor Co Ltd ニューラルネットワーク学習装置
JP2015212731A (ja) * 2014-05-01 2015-11-26 日本放送協会 音響イベント認識装置、及びプログラム
JP2016139176A (ja) * 2015-01-26 2016-08-04 シャープ株式会社 画像処理装置、画像処理システム、画像処理方法、およびその画像処理プログラム
US20160284347A1 (en) * 2015-03-27 2016-09-29 Google Inc. Processing audio waveforms

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2465047B (en) * 2009-09-03 2010-09-22 Peter Graham Craven Prediction of signals
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
CN102982809B (zh) 2012-12-11 2014-12-10 中国科学技术大学 一种说话人声音转换方法
US9812150B2 (en) * 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
CN103544392B (zh) * 2013-10-23 2016-08-24 电子科技大学 基于深度学习的医学气体识别方法
CN104751227B (zh) * 2013-12-31 2018-03-06 科大讯飞股份有限公司 用于语音识别的深度神经网络的构建方法及系统
CN105551483B (zh) 2015-12-11 2020-02-04 百度在线网络技术(北京)有限公司 语音识别的建模方法和装置
CN106022237B (zh) * 2016-05-13 2019-07-12 电子科技大学 一种端到端的卷积神经网络的行人检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289262A (ja) * 2008-05-29 2009-12-10 General Electric Co <Ge> 資産システムの高性能条件監視のためのシステムおよび方法
JP2012014617A (ja) * 2010-07-05 2012-01-19 Honda Motor Co Ltd ニューラルネットワーク学習装置
JP2015212731A (ja) * 2014-05-01 2015-11-26 日本放送協会 音響イベント認識装置、及びプログラム
JP2016139176A (ja) * 2015-01-26 2016-08-04 シャープ株式会社 画像処理装置、画像処理システム、画像処理方法、およびその画像処理プログラム
US20160284347A1 (en) * 2015-03-27 2016-09-29 Google Inc. Processing audio waveforms

Also Published As

Publication number Publication date
JP6838161B2 (ja) 2021-03-03
EP3550477A1 (en) 2019-10-09
US20190279036A1 (en) 2019-09-12
KR102232643B1 (ko) 2021-03-26
WO2018098892A1 (zh) 2018-06-07
CN108122035A (zh) 2018-06-05
KR20190025976A (ko) 2019-03-12
US11651578B2 (en) 2023-05-16
CN108122035B (zh) 2019-10-18
EP3550477A4 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
JP6838161B2 (ja) エンドツーエンドモデリング方法及びシステム
US11531889B2 (en) Weight data storage method and neural network processor based on the method
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
JP6549332B2 (ja) 機械学習に基づくネットワークモデル構築方法及び装置
CN111414987B (zh) 神经网络的训练方法、训练装置和电子设备
CN114091450B (zh) 一种基于图卷积网络的司法领域关系抽取方法和系统
CN113505583B (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN112861795A (zh) 基于多尺度特征融合的遥感图像显著目标检测方法及装置
CN116049459A (zh) 跨模态互检索的方法、装置、服务器及存储介质
US20240362453A1 (en) Convolution-Augmented Transformer Models
CN113011396A (zh) 基于深度学习级联特征融合的步态识别方法
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113806554A (zh) 面向海量会议文本的知识图谱构建方法
CN115438197B (zh) 一种基于双层异质图的事理知识图谱关系补全方法及系统
CN113326940A (zh) 基于多重知识迁移的知识蒸馏方法、装置、设备及介质
CN116704506A (zh) 一种基于交叉环境注意力的指代图像分割方法
LU503098B1 (en) A method and system for fused subspace clustering based on graph autoencoder
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
CN115841119A (zh) 一种基于图结构的情绪原因提取方法
CN113255569B (zh) 一种基于图空洞卷积编码器解码器的3d姿态估计方法
WO2022246986A1 (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN116883746A (zh) 一种基于分区池化超图神经网络的图节点分类方法
CN116861021A (zh) 基于去噪和动量蒸馏的跨模态检索模型构建方法
CN114121178A (zh) 一种基于图卷积网络的色谱保留指数预测方法及装置
CN111078886A (zh) 基于dmcnn的特殊事件提取系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210210

R150 Certificate of patent or registration of utility model

Ref document number: 6838161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250