JP2019530119A - エンドツーエンドモデリング方法及びシステム - Google Patents
エンドツーエンドモデリング方法及びシステム Download PDFInfo
- Publication number
- JP2019530119A JP2019530119A JP2019535428A JP2019535428A JP2019530119A JP 2019530119 A JP2019530119 A JP 2019530119A JP 2019535428 A JP2019535428 A JP 2019535428A JP 2019535428 A JP2019535428 A JP 2019535428A JP 2019530119 A JP2019530119 A JP 2019530119A
- Authority
- JP
- Japan
- Prior art keywords
- layer
- enhancement
- encoding
- filtering
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001914 filtration Methods 0.000 claims abstract description 100
- 238000012549 training Methods 0.000 claims abstract description 86
- 238000002372 labelling Methods 0.000 claims abstract description 53
- 239000010410 layer Substances 0.000 claims description 433
- 238000011176 pooling Methods 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 239000002356 single layer Substances 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000007774 longterm Effects 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000013519 translation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N99/00—Subject matter not provided for in other groups of this subclass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
(1)エンコード・デコードモデルのトポロジ構造を確定する。
(2)複数のトレーニングデータを収集し、各々のトレーニングデータの特徴シーケンスを抽出し、相応するターゲットラベル付け情報を確定する。
(3)複数のトレーニングデータの特徴シーケンス、及び相応するターゲットラベル付け情報を利用してモデルパラメーターをトレーニングする。
エンドツーエンドモデリング方法であって、
ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定し、
複数のトレーニングデータを収集し、
各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトのターゲットユニットに対してラベル付けを行い、
各々の前記トレーニングデータの特徴シーケンスを抽出し、
複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得る、ことを含み、
前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うためのものである。
前記フィルタリング層は、畳み込みニューラルネットワークの畳み込み層とプーリング層の構造形態を採用し、各フィルタリング層は一層又は複数層の畳み込み層と一層のプーリング層とを含み、前記プーリング層の出力は当該フィルタリング層の出力とされる。
ーターをトレーニングすることは、
複数の前記トレーニングデータの特徴シーケンスを前記エンドツーエンドモジュールの入力とし、複数の前記トレーニングデータにおけるターゲットユニットのラベル付け情報を前記エンドツーエンドモジュールの出力とし、前記エンドツーエンドモデルのモデルパラメーターをトレーニングすることを含み、前記モデルパラメーターは前記エンドツーエンドモデルの各層間で接続される重み変換行列、及びオフセットである。
ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定するためのトポロジ構造確定モジュールと、
複数のトレーニングデータを収集するためのトレーニングデータ収集モジュールと、
各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトにおけるターゲットユニットに対してラベル付けを行うためのラベル付けモジュールと、
各々の前記トレーニングデータの特徴シーケンスを抽出するための特徴抽出モジュールと、
複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得るためのパラメータートレーニングモジュールとを含み、
前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うためのものである。
前記フィルタリング層は、畳み込みニューラルネットワークの畳み込み層とプーリング層の構造形態を採用し、各フィルタリング層は一層又は複数層の畳み込み層と一層のプーリング層とを含み、前記プーリング層の出力を当該フィルタリング層の出力とする。
もよく、また、例えば、画像認識応用において、前記特徴は、各フレーム画像における画素ドットの値であってもよく、また、例えば、機械翻訳応用において、前記特徴は各句のソース言語のテキストデータにおける各ワードのワードベクトルであってもよい。
入力層はトレーニングデータの特徴シーケンスを入力し、具体的なノード数は、トレーニングデータの特徴シーケンスに応じて確定され、例えば、トレーニングデータが音声データである場合に、入力層が入力した特徴シーケンスは各句の音声データの各フレーム音声特徴であり、入力層のノード数は各句の音声データのフレーム数であり、X={x1,x2,...,xt,...,xT}で示し、その中、xtは現在のトレーニングデータの第tのフレ
ームの特徴ベクトルを示し、Tは現在のトレーニングデータのフレーム数である。
入力層が入力した特徴シーケンスはエンコード層によりエンコードされ、前記エンコード層は一層又は複数層であり、各エンコード層のノード数は入力層と同じであり、各エンコード層は一方向又は双方向長短期記憶ニューラルネットワークにおける長短期記憶層、又は畳み込みニューラルネットワークの畳み込み層を採用してもよく、具体的にどのような構造を採用するかについて、応用需要に応じて確定されてもよく、トレーニングデータが多い大規模単語量の音声認識タスクについて、エンコード層は3〜5層の双方向長短期記憶層を採用してもよく、トレーニングデータが少ない制限領域音声認識タスクについて、エンコード層は1〜3層の一方向の長短期記憶層を採用してもよい。
前記エンハンスエンコード層はターゲットユニット情報を付加し、エンコード層から出力された特徴シーケンスをエンハンスすることにより、エンハンスされた特徴シーケンスにより完全な情報を含ませる。
1〜N-1個のターゲットユニットの情報は各層に付加される。音声認識を例に、単語を
ターゲットユニットとして、現在の音声データのターゲットユニットラベル付け情報は「今日合肥の天気」であり、ターゲットユニットの数は4であり、四層のエンハンスエンコード層及び四つのエンハンスノードでエンコード層が出力した特徴シーケンスをエンハンスする必要がある。エンコード層が出力した特徴シーケンスをエンハンスする場合に、例えば、以上の例におけるターゲットユニットである「今日」に対応するエンハンスエンコード層がターゲットユニットである「合肥」に対応するエンハンスノードに接続され、第1のエンハンスエンコード層は一つの空きエンハンスノードに接続される。
ゲットユニットの数を示す。なお、前で言及された図3において図5Aに示す第一種の接続形態、即ち各エンハンスノードがそれに対応するエンハンスエンコード層のノードと全部接続される形態を示す。上記第2種の接続形態は計算量を節約することができるが、エンハンス効果は第1種の接続形態ほどよくない。
前記フィルタリング層は、各エンハンスエンコード層によりエンハンスされた特徴シーケンスに対して情報フィルタリングを行うためのものであり、フィルタリング層の層数はエンハンスエンコード層の層数と同じであり、各層のエンハンスエンコード層は一層のフィルタリング層と直接に接続される。
前記デコード層の入力は各フィルタリング層が出力するフィルタリングされた後のエンハンスエンコード情報であり、デコード層は、一般的に一方向の長短期記憶層の接続形態を採用し、デコード層は一層又は複数層であってもよく、一般的に、1〜2層のデコード層を使用すればよく、各デコード層のノード数はフィルタリング層の層数と同じであり、
具体的にデコード過程は従来技術と同じであるので、説明は省略する。
デコード層により変換された出力特徴シーケンスを出力層の入力とし、出力層は入力特徴シーケンスを正規化した後に各ターゲットラベル付けユニットの事後確率ベクトルシーケンスを出力し、具体的な正規化方法は従来技術を採用してもよく、正規化関数は例えばsoftmax関数である。
み取り可能な記憶媒体に記憶されてもよい。
ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定し、
複数のトレーニングデータを収集し、
各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトのターゲットユニットをラベル付けし、
各々の前記トレーニングデータの特徴シーケンスを抽出し、
複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得る、
処理を実行させ、
前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力する特徴シーケンスにターゲットユニット情報を付加し、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うことを特徴とするコンピュータ読み取り可能な記憶媒体。
ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定するためのトポロジ構造確定モジュール701と、
複数のトレーニングデータを収集するためのトレーニングデータ収集モジュール702と、
各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトのターゲットユニットをラベル付けするためのラベル付けモジュール703と、
各々の前記トレーニングデータの特徴シーケンスを抽出するための特徴抽出モジュール704と、
複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得るためのパラメータートレーニングモジュール705とを含み、
前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対してフィルタリングを行うためのものである。
き、例えば、交差エントロピーを採用してモデルの最適化ターゲットとし、誤差逆伝播法によりモデルパラメーターを継続的に更新し、例えば、複数の繰り返しの方法を採用してモデルパラメーターを更新し、モデルパラメーターが収束ターゲットに達する場合に、繰り返し過程を停止し、モデルパラメーターの更新過程を完成し、エンドツーエンドモデルのモデルパラメーターを得る。
Claims (22)
- エンドツーエンドモデリング方法であって、
ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定し、
複数のトレーニングデータを収集し、
各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトにおけるターゲットユニットに対してラベル付けを行い、
各々の前記トレーニングデータの特徴シーケンスを抽出し、
複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得る、ことを含み、
前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は、前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うためのものであることを特徴とする方法。 - 前記エンコード層は一層又は複数層であり、各層のエンコード層のノード数は入力層と同じであることを特徴とする請求項1に記載の方法。
- 各エンコード層は、一方向又は双方向長短期記憶ニューラルネットワークにおける長短期記憶層を採用するか、又は畳み込みニューラルネットワークにおける畳み込み層を採用することを特徴とする請求項2に記載の方法。
- 前記トポロジ構造は、隣接するエンコード層の間に位置するダウンサンプリング層をさらに含むことを特徴とする請求項1に記載の方法。
- 前記ダウンサンプリング層は、一層又は複数層であることを特徴とする請求項4に記載の方法。
- 前記ダウンサンプリング層の各ノードの入力は、一つ前のエンコード層の隣接する複数のノード特徴情報であることを特徴とする請求項4に記載の方法。
- 前記ターゲットユニット情報は、エンハンスノードによりエンハンスエンコード層に付加され、各ターゲットユニットは、一つのエンハンスノードに対応し、前記エンハンスノードの入力は対応するターゲットユニットの特徴ベクトルであり、エンハンスエンコード層の層数及びエンハンスノードの数はいずれもターゲットユニットの数と同じであることを特徴とする請求項1に記載の方法。
- 各エンハンスノードは、それに対応するエンハンスエンコード層のノードの全部に接続されるか、又は各エンハンスノードは、それに対応するエンハンスエンコード層の一番目のノードのみに接続されることを特徴とする請求項7に記載の方法。
- 前記フィルタリング層の層数は、前記エンハンスエンコード層の層数と同じであり、各エンハンスエンコード層は、一層のフィルタリング層に直接に接続されることを特徴とする請求項7に記載の方法。
- 前記フィルタリング層は、一方向又は双方向長短期記憶層の構造形態を採用し、フィル
タリング層内のノード数は、エンハンスエンコード層内のノード数と同じであり、各エンハンスエンコード層が出力する特徴は直接にそれに接続されるフィルタリング層の入力とされ、フィルタリング層の最後のノードの出力は当該フィルタリング層の出力とされるか、又は
前記フィルタリング層は、畳み込みニューラルネットワークの畳み込み層とプーリング層の構造形態を採用し、各フィルタリング層は一層又は複数層の畳み込み層と一層のプーリング層とを含み、前記プーリング層の出力は当該フィルタリング層の出力とされることを特徴とする請求項9に記載の方法。 - 複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることは、
複数の前記トレーニングデータの特徴シーケンスを前記エンドツーエンドモジュールの入力とし、複数の前記トレーニングデータにおけるターゲットユニットのラベル付け情報を前記エンドツーエンドモジュールの出力とし、前記エンドツーエンドモデルのモデルパラメーターをトレーニングすることを含み、前記モデルパラメーターは前記エンドツーエンドモデルの各層の間で接続される重み変換行列、及びオフセットであることを特徴とする請求項1〜10のいずれか一項に記載の方法。 - エンドツーエンドモデリングシステムであって、
ターゲットに基づくエンドツーエンドモデルのトポロジ構造を確定するためのトポロジ構造確定モジュールと、
複数のトレーニングデータを収集するためのトレーニングデータ収集モジュールと、
各々の前記トレーニングデータのラベル付けオブジェクトを確定し、前記ラベル付けオブジェクトにおけるターゲットユニットに対してラベル付けを行うためのラベル付けモジュールと、
各々の前記トレーニングデータの特徴シーケンスを抽出するための特徴抽出モジュールと、
複数の前記トレーニングデータの特徴シーケンス、及びそのターゲットユニットのラベル付け情報を利用してターゲットに基づくエンドツーエンドモデルのパラメーターをトレーニングすることで、ターゲットに基づくエンドツーエンドモデルパラメーターを得るためのパラメータートレーニングモジュールとを含み、
前記トポロジ構造は、入力層、エンコード層、エンハンスエンコード層、フィルタリング層、デコード層、出力層を含み、前記エンハンスエンコード層は、前記エンコード層が出力した特徴シーケンスに対してターゲットユニット情報を付加するためのものであり、前記フィルタリング層は前記エンハンスエンコード層により前記ターゲットユニット情報が付加された特徴シーケンスに対して情報フィルタリングを行うためのものであることを特徴とするシステム。 - 前記エンコード層は一層又は複数層であり、各層のエンコード層のノード数は入力層と同じであることを特徴とする請求項12に記載のシステム。
- 各エンコード層は、一方向又は双方向長短期記憶ニューラルネットワークにおける長短期記憶層を採用するか、又は、畳み込みニューラルネットワークにおける畳み込み層を採用することを特徴とする請求項13に記載のシステム。
- 前記トポロジ構造は、隣接するエンコード層の間に位置するダウンサンプリング層をさらに含むことを特徴とする請求項12に記載のシステム。
- 前記ダウンサンプリング層は、一層又は複数層であることを特徴とする請求項15に記
載のシステム。 - 前記ダウンサンプリング層の各ノードの入力は一つ前のエンコード層の隣接する複数のノード特徴情報であることを特徴とする請求項15に記載のシステム。
- 前記ターゲットユニット情報は、エンハンスノードによりエンハンスエンコード層に付加され、各ターゲットユニットは一つのエンハンスノードに対応し、前記エンハンスノードの入力は対応するターゲットユニットの特徴ベクトルであり、エンハンスエンコード層の層数、及びエンハンスノード数はいずれもターゲットユニットの数と同じであることを特徴とする請求項12に記載のシステム。
- 各エンハンスノードは、それに対応するエンハンスエンコード層のノードの全部に接続されるか、又は各エンハンスノードは、それに対応するエンハンスエンコード層の一番目のノードのみに接続されることを特徴とする請求項18に記載のシステム。
- 前記フィルタリング層の層数は前記エンハンスエンコード層の層数と同じであり、各エンハンスエンコード層は一層のフィルタリング層に直接に接続されることを特徴とする請求項18に記載のシステム。
- 前記フィルタリング層は、一方向又は双方向長短期記憶層の構造形態を採用し、フィルタリング層内のノード数はエンハンスエンコード層内のノード数と同じであり、各エンハンスエンコード層が出力する特徴は直接にそれに接続されるフィルタリング層の入力とされ、フィルタリング層の最後のノードの出力は当該フィルタリング層の出力とされるか、又は、
前記フィルタリング層は、畳み込みニューラルネットワークの畳み込み層とプーリング層の構造形態を採用し、各フィルタリング層は一層又は複数層の畳み込み層と一層のプーリング層とを含み、前記プーリング層の出力を当該フィルタリング層の出力とすることを特徴とする請求項20に記載のシステム。 - 前記パラメータートレーニングモジュールは、複数の前記トレーニングデータの特徴シーケンスを前記エンドツーエンドモデルの入力とし、複数の前記トレーニングデータにおけるターゲットユニットのラベル付け情報を前記エンドツーエンドモジュールの出力とし、前記エンドツーエンドモデルのモデルパラメーターをトレーニングし、前記モデルパラメーターは前記エンドツーエンドモデルの各層の間で接続される重み変換行列、及びオフセットであることを特徴とする請求項12〜21のいずれか一項に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611070244.2 | 2016-11-29 | ||
CN201611070244.2A CN108122035B (zh) | 2016-11-29 | 2016-11-29 | 端到端建模方法及系统 |
PCT/CN2017/070812 WO2018098892A1 (zh) | 2016-11-29 | 2017-01-11 | 端到端建模方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019530119A true JP2019530119A (ja) | 2019-10-17 |
JP6838161B2 JP6838161B2 (ja) | 2021-03-03 |
Family
ID=62225306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019535428A Active JP6838161B2 (ja) | 2016-11-29 | 2017-01-11 | エンドツーエンドモデリング方法及びシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11651578B2 (ja) |
EP (1) | EP3550477A4 (ja) |
JP (1) | JP6838161B2 (ja) |
KR (1) | KR102232643B1 (ja) |
CN (1) | CN108122035B (ja) |
WO (1) | WO2018098892A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102695519B1 (ko) * | 2018-07-02 | 2024-08-14 | 삼성전자주식회사 | 영상 모델 구축 장치 및 방법 |
CN108732550B (zh) * | 2018-08-01 | 2021-06-29 | 北京百度网讯科技有限公司 | 用于预测雷达回波的方法和装置 |
CN109215662B (zh) * | 2018-09-18 | 2023-06-20 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
US10891969B2 (en) * | 2018-10-19 | 2021-01-12 | Microsoft Technology Licensing, Llc | Transforming audio content into images |
JP7242903B2 (ja) | 2019-05-14 | 2023-03-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置 |
CN110263868A (zh) * | 2019-06-24 | 2019-09-20 | 北京航空航天大学 | 基于SuperPoint特征的图像分类网络 |
CN112529986B (zh) * | 2019-09-19 | 2023-09-22 | 百度在线网络技术(北京)有限公司 | 图文相关性的计算模型建立方法、计算方法及装置 |
CN111261140B (zh) * | 2020-01-16 | 2022-09-27 | 云知声智能科技股份有限公司 | 韵律模型训练方法及装置 |
WO2022168104A1 (en) * | 2021-02-04 | 2022-08-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Building an explainable machine learning model |
CN112905591B (zh) * | 2021-02-04 | 2022-08-26 | 成都信息工程大学 | 一种基于机器学习的数据表连接顺序选择方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009289262A (ja) * | 2008-05-29 | 2009-12-10 | General Electric Co <Ge> | 資産システムの高性能条件監視のためのシステムおよび方法 |
JP2012014617A (ja) * | 2010-07-05 | 2012-01-19 | Honda Motor Co Ltd | ニューラルネットワーク学習装置 |
JP2015212731A (ja) * | 2014-05-01 | 2015-11-26 | 日本放送協会 | 音響イベント認識装置、及びプログラム |
JP2016139176A (ja) * | 2015-01-26 | 2016-08-04 | シャープ株式会社 | 画像処理装置、画像処理システム、画像処理方法、およびその画像処理プログラム |
US20160284347A1 (en) * | 2015-03-27 | 2016-09-29 | Google Inc. | Processing audio waveforms |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2465047B (en) * | 2009-09-03 | 2010-09-22 | Peter Graham Craven | Prediction of signals |
US9235799B2 (en) | 2011-11-26 | 2016-01-12 | Microsoft Technology Licensing, Llc | Discriminative pretraining of deep neural networks |
CN102982809B (zh) | 2012-12-11 | 2014-12-10 | 中国科学技术大学 | 一种说话人声音转换方法 |
US9812150B2 (en) * | 2013-08-28 | 2017-11-07 | Accusonus, Inc. | Methods and systems for improved signal decomposition |
CN103544392B (zh) * | 2013-10-23 | 2016-08-24 | 电子科技大学 | 基于深度学习的医学气体识别方法 |
CN104751227B (zh) * | 2013-12-31 | 2018-03-06 | 科大讯飞股份有限公司 | 用于语音识别的深度神经网络的构建方法及系统 |
CN105551483B (zh) | 2015-12-11 | 2020-02-04 | 百度在线网络技术(北京)有限公司 | 语音识别的建模方法和装置 |
CN106022237B (zh) * | 2016-05-13 | 2019-07-12 | 电子科技大学 | 一种端到端的卷积神经网络的行人检测方法 |
-
2016
- 2016-11-29 CN CN201611070244.2A patent/CN108122035B/zh active Active
-
2017
- 2017-01-11 EP EP17875986.6A patent/EP3550477A4/en not_active Ceased
- 2017-01-11 KR KR1020197003257A patent/KR102232643B1/ko active IP Right Grant
- 2017-01-11 WO PCT/CN2017/070812 patent/WO2018098892A1/zh unknown
- 2017-01-11 US US16/329,368 patent/US11651578B2/en active Active
- 2017-01-11 JP JP2019535428A patent/JP6838161B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009289262A (ja) * | 2008-05-29 | 2009-12-10 | General Electric Co <Ge> | 資産システムの高性能条件監視のためのシステムおよび方法 |
JP2012014617A (ja) * | 2010-07-05 | 2012-01-19 | Honda Motor Co Ltd | ニューラルネットワーク学習装置 |
JP2015212731A (ja) * | 2014-05-01 | 2015-11-26 | 日本放送協会 | 音響イベント認識装置、及びプログラム |
JP2016139176A (ja) * | 2015-01-26 | 2016-08-04 | シャープ株式会社 | 画像処理装置、画像処理システム、画像処理方法、およびその画像処理プログラム |
US20160284347A1 (en) * | 2015-03-27 | 2016-09-29 | Google Inc. | Processing audio waveforms |
Also Published As
Publication number | Publication date |
---|---|
JP6838161B2 (ja) | 2021-03-03 |
EP3550477A1 (en) | 2019-10-09 |
US20190279036A1 (en) | 2019-09-12 |
KR102232643B1 (ko) | 2021-03-26 |
WO2018098892A1 (zh) | 2018-06-07 |
CN108122035A (zh) | 2018-06-05 |
KR20190025976A (ko) | 2019-03-12 |
US11651578B2 (en) | 2023-05-16 |
CN108122035B (zh) | 2019-10-18 |
EP3550477A4 (en) | 2020-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6838161B2 (ja) | エンドツーエンドモデリング方法及びシステム | |
US11531889B2 (en) | Weight data storage method and neural network processor based on the method | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
JP6549332B2 (ja) | 機械学習に基づくネットワークモデル構築方法及び装置 | |
CN111414987B (zh) | 神经网络的训练方法、训练装置和电子设备 | |
CN114091450B (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN113505583B (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN112861795A (zh) | 基于多尺度特征融合的遥感图像显著目标检测方法及装置 | |
CN116049459A (zh) | 跨模态互检索的方法、装置、服务器及存储介质 | |
US20240362453A1 (en) | Convolution-Augmented Transformer Models | |
CN113011396A (zh) | 基于深度学习级联特征融合的步态识别方法 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN113806554A (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN115438197B (zh) | 一种基于双层异质图的事理知识图谱关系补全方法及系统 | |
CN113326940A (zh) | 基于多重知识迁移的知识蒸馏方法、装置、设备及介质 | |
CN116704506A (zh) | 一种基于交叉环境注意力的指代图像分割方法 | |
LU503098B1 (en) | A method and system for fused subspace clustering based on graph autoencoder | |
CN110705279A (zh) | 一种词汇表的选择方法、装置及计算机可读存储介质 | |
CN115841119A (zh) | 一种基于图结构的情绪原因提取方法 | |
CN113255569B (zh) | 一种基于图空洞卷积编码器解码器的3d姿态估计方法 | |
WO2022246986A1 (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN116883746A (zh) | 一种基于分区池化超图神经网络的图节点分类方法 | |
CN116861021A (zh) | 基于去噪和动量蒸馏的跨模态检索模型构建方法 | |
CN114121178A (zh) | 一种基于图卷积网络的色谱保留指数预测方法及装置 | |
CN111078886A (zh) | 基于dmcnn的特殊事件提取系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6838161 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |