JP7453712B2 - オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器 - Google Patents
オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器 Download PDFInfo
- Publication number
- JP7453712B2 JP7453712B2 JP2022573581A JP2022573581A JP7453712B2 JP 7453712 B2 JP7453712 B2 JP 7453712B2 JP 2022573581 A JP2022573581 A JP 2022573581A JP 2022573581 A JP2022573581 A JP 2022573581A JP 7453712 B2 JP7453712 B2 JP 7453712B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- information
- audio
- emotion
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 111
- 230000008451 emotion Effects 0.000 claims description 149
- 230000008909 emotion recognition Effects 0.000 claims description 69
- 230000001815 facial effect Effects 0.000 claims description 69
- 230000005236 sound signal Effects 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 17
- 238000000926 separation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 description 23
- 230000001755 vocal effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 239000011435 rock Substances 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/056—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
- G10H2240/085—Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
添付図面を参照しながら、本開示の実施例についてより詳細に説明することにより、本開示の上記及び他の目的、特徴と利点はより明らかになる。添付図面は、本開示の実施例のさらなる理解を提供するためのものであり、かつ、本明細書の一部を構成し、本開示の実施例とともに本開示を説明するためのものであり、本開示を限定するものではない。添付図面において、同一の参照番号は、同一の部材又はステップを表すことが一般的である。
現在のオーディオ再生システムでは、一般に、ユーザが、再生するオーディオを手動で選択するか、又は音声認識やジェスチャ認識等の方式によりオーディオの再生をトリガーする必要がある。これらの方式では、一般に、ユーザが能動的にオーディオ再生システムとインタラクションする必要があり、自動的にユーザの発声意図を判定してオーディオを再生することができず、利便性が足りなく、かつ、ユーザの特徴に基づいて対応するオーディオを自動再生することができず、オーディオ再生の指向性も足りない。
図1は、本開示の実施例のオーディオ再生方法又はオーディオ再生装置を適用できる例示的なシステムアーキテクチャ100を示す。
図2は、本開示の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。本実施例は、電子機器(図1に示す端末機器101又はサーバ103)に適用でき、図2に示すように、当該方法はステップ201~204を含む。
図9は、本開示の例示的な実施例にて提供されるオーディオ再生装置の概略構造図である。本実施例は電子機器に適用でき、図9に示すように、オーディオ再生装置は、目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得するための取得モジュール901と、意図判定データに基づいて、少なくとも1人のユーザが持つ目標発声意図を決定するための第1決定モジュール902と、前記目標発声意図に基づいて、少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定するための第2決定モジュール903と、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生するための第1再生モジュール904と、を含む。
以下、図11を参照しながら本開示の実施例による電子機器について説明する。当該電子機器は、図1に示す端末機器101及びサーバ103のうちのいずれか1つ、又は両方、又はそれらとは別体の単体機器であってもよく、当該単体機器は端末機器101及びサーバ103と通信して、収集された入力信号をそれらから受信することができる。
本開示の実施例は、上記の方法及び機器以外に、コンピュータプログラム命令を含むコンピュータプログラム製品でもあり得、前記コンピュータプログラム命令がプロセッサによって実行されると、前記プロセッサが、本明細書の上記「例示的な方法」部分に記載された本開示の様々な実施例によるオーディオ再生方法のステップを実行する。
Claims (10)
- 電子機器に適用され、前記電子機器によって実現されるオーディオ再生方法であって、
目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得するステップと、
前記意図判定データに基づいて、前記少なくとも1人のユーザが持つ目標発声意図を決定するステップと、
前記目標発声意図に基づいて、前記少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定するステップと、
プリセットのオーディオライブラリから前記特徴情報に対応するオーディオを抽出して再生するステップと、を含み、
前記特徴情報に対応するオーディオを抽出して再生する前記ステップの後、さらに、
現在の混合サウンド信号からユーザオーディオ情報を抽出するステップと、
前記ユーザオーディオ情報がプリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するステップと、を含み、
前記ユーザオーディオ情報に基づいて、前記ユーザオーディオ情報を再生する前記ステップは、
前記ユーザオーディオ情報に対してメロディー認識を行って、ユーザメロディー情報を取得し、前記ユーザメロディー情報と現在再生中のオーディオのメロディー情報とをマッチングさせ、得られた第1マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するステップ、及び/又は、
前記ユーザオーディオ情報に対して音声認識を行って、音声認識結果を取得し、前記音声認識結果と現在再生中のオーディオに対応するテキスト情報とをマッチングさせ、得られた第2マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するステップ、を含む、オーディオ再生方法。 - 前記ユーザオーディオ情報を再生する前記ステップの後、さらに、
前記少なくとも1人のユーザから前記ユーザオーディオ情報に対応する目標ユーザを決定して、前記目標ユーザの顔画像を取得するステップと、
前記ユーザオーディオ情報に対応する目標ユーザの顔画像を予め訓練しておいた第1感情認識モデルに入力し、前記目標ユーザに対応する感情タイプ情報を得るステップと、
前記感情タイプ情報に基づいて、前記ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付ける第1スコアを決定するステップ、及び/又は、
前記ユーザオーディオ情報に基づいて、前記ユーザオーディオ情報と前記現在再生中のオーディオとのマッチング度を特徴付ける第2スコアを決定するステップと、
前記第1スコア及び/又は前記第2スコアに基づいて、前記ユーザオーディオ情報のスコアを決定して出力するステップと、を含む、請求項1に記載の方法。 - 前記ユーザオーディオ情報を再生する前記ステップの後、さらに、
前記少なくとも1人のユーザから前記ユーザオーディオ情報に対応する目標ユーザを決定して、前記目標ユーザの顔画像を取得するステップと、
前記ユーザオーディオ情報に対応する目標ユーザの顔画像及び前記ユーザオーディオ情報を予め訓練しておいた第2感情認識モデルに入力し、感情タイプ情報を得るステップと、
前記感情タイプ情報に基づいて、前記ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定して出力するステップと、を含む、請求項1に記載の方法。 - 前記ユーザオーディオ情報に対応する目標ユーザの顔画像及び前記ユーザオーディオ情報を予め訓練しておいた第2感情認識モデルに入力して、感情タイプ情報を得る前記ステップは、
前記ユーザオーディオ情報に対応する目標ユーザの顔画像及び前記ユーザオーディオ情報を前記第2感情認識モデルに入力して、第3感情タイプ情報シーケンスを得るステップを含み、ここで、前記第3感情タイプ情報シーケンスにおける感情タイプ情報はそれぞれ1つの顔画像サブシーケンスに対応し、
前記感情タイプ情報に基づいて、前記ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定する前記ステップは、
前記現在再生中のオーディオに対応するビデオを取得して、前記ビデオから目標人物の顔画像シーケンスを抽出するステップと、
前記顔画像シーケンス及び前記現在再生中のオーディオを前記第2感情認識モデルに入力して、第4感情タイプ情報シーケンスを得るステップと、
前記第3感情タイプ情報シーケンスと前記第4感情タイプ情報シーケンスとの類似度を決定するステップと、
前記類似度に基づいて、前記ユーザオーディオ情報に対応するユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定するステップと、を含む、請求項3に記載の方法。 - 現在の混合サウンド信号からユーザオーディオ情報を抽出する前記ステップは、
前記目標空間に設置されたオーディオ収集装置によって収集される、前記混合サウンド信号を含む初期オーディオ情報を取得するステップと、
前記初期オーディオ情報に対して人声分離を行って、それぞれ1つのユーザに対応する少なくとも1チャンネルのユーザオーディオ情報を得るステップと、を含む、請求項1に記載の方法。 - 前記意図判定データに基づいて、前記少なくとも1人のユーザが持つ目標発声意図を決定する前記ステップは、
前記意図判定データに前記少なくとも1人のユーザの顔画像が含まれると決定したことに応答し、前記顔画像を予め訓練しておいた第3感情認識モデルに入力して、感情タイプ情報を取得し、前記感情タイプ情報がプリセットの感情タイプ情報である場合、前記少なくとも1人のユーザが目標発声意図を持つと決定するステップ、又は、
前記意図判定データに前記少なくとも1人のユーザのサウンド情報が含まれると決定したことに応答し、前記サウンド情報に対して音声認識を行って、音声認識結果を取得し、前記音声認識結果が前記少なくとも1人のユーザがオーディオの再生を指示することを特徴付ける場合、前記少なくとも1人のユーザが目標発声意図を持つと決定するステップ、又は、
前記意図判定データに前記少なくとも1人のユーザのサウンド情報が含まれると決定したことに応答し、前記サウンド情報に対してメロディー認識を行って、メロディー認識結果を取得し、前記メロディー認識結果が前記少なくとも1人のユーザが目標形態の発声を行っていることを特徴付ける場合、前記少なくとも1人のユーザが目標発声意図を持つと決定するステップを含む、請求項1に記載の方法。 - 前記少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定する前記ステップは、
前記少なくとも1人のユーザについてのオーディオ再生記録履歴を取得し、前記オーディオ再生記録履歴に基づいて、前記少なくとも1人のユーザの聴取習慣情報を決定し、前記聴取習慣情報に基づいて、前記特徴情報を決定するステップ、及び/又は、
前記少なくとも1人のユーザの顔画像を取得し、前記顔画像を予め訓練しておいた第4感情認識モデルに入力して、前記少なくとも1人のユーザの現在の感情を特徴付ける感情タイプ情報を取得し、前記感情タイプ情報に基づいて、前記特徴情報を決定するステップ、及び/又は、
前記少なくとも1人のユーザが位置する環境の環境画像を取得し、前記環境画像を予め訓練しておいた環境認識モデルに入力して、環境タイプ情報を取得し、前記環境タイプ情報に基づいて、前記特徴情報を決定するステップ、及び/又は、
前記目標空間を撮影して空間内画像を取得し、前記空間内画像に基づいて、前記目標空間内の人数を決定し、前記人数に基づいて、前記特徴情報を決定するステップを含む、請求項1に記載の方法。 - 目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得するための取得モジュールと、
前記意図判定データに基づいて、前記少なくとも1人のユーザが持つ目標発声意図を決定するための第1決定モジュールと、
前記少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定するための第2決定モジュールと、
プリセットのオーディオライブラリから前記特徴情報に対応するオーディオを抽出して再生するための第1再生モジュールと、
現在の混合サウンド信号からユーザオーディオ情報を抽出するための抽出モジュールと、
前記ユーザオーディオ情報がプリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第2再生モジュールと、を含み、
前記第2再生モジュールは、前記ユーザオーディオ情報に対してメロディー認識を行って、ユーザメロディー情報を取得し、前記ユーザメロディー情報と現在再生中のオーディオのメロディー情報とをマッチングさせ、得られた第1マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第1メロディー認識ユニット、及び/又は、前記ユーザオーディオ情報に対して音声認識を行って、音声認識結果を取得し、前記音声認識結果と現在再生中のオーディオに対応するテキスト情報とをマッチングさせ、得られた第2マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第1音声認識ユニット、を含む、オーディオ再生装置。 - 上記の請求項1~7のいずれか1項に記載の方法を実行するためのコンピュータプログラムが記憶されている、コンピュータ可読記憶媒体。
- プロセッサと、
前記プロセッサが実行可能な命令を記憶するためのメモリーと、を含み、
前記プロセッサは、前記メモリーから前記実行可能な命令を読み取り、前記命令を実行して上記の請求項1~7のいずれか1項に記載の方法を実現するために用いられる、電子機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110410353.9A CN113126951B (zh) | 2021-04-16 | 2021-04-16 | 音频播放方法、装置、计算机可读存储介质及电子设备 |
CN202110410353.9 | 2021-04-16 | ||
PCT/CN2022/076239 WO2022218027A1 (zh) | 2021-04-16 | 2022-02-14 | 音频播放方法、装置、计算机可读存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023527473A JP2023527473A (ja) | 2023-06-28 |
JP7453712B2 true JP7453712B2 (ja) | 2024-03-21 |
Family
ID=76777173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022573581A Active JP7453712B2 (ja) | 2021-04-16 | 2022-02-14 | オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240004606A1 (ja) |
JP (1) | JP7453712B2 (ja) |
CN (1) | CN113126951B (ja) |
WO (1) | WO2022218027A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113126951B (zh) * | 2021-04-16 | 2024-05-17 | 深圳地平线机器人科技有限公司 | 音频播放方法、装置、计算机可读存储介质及电子设备 |
CN114120939B (zh) * | 2021-11-26 | 2024-10-11 | 合肥若叶无间网络科技有限公司 | 一种古琴调音器的实现方法 |
CN114999534A (zh) * | 2022-06-10 | 2022-09-02 | 中国第一汽车股份有限公司 | 一种车载音乐的播放控制方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003132085A (ja) | 2001-10-19 | 2003-05-09 | Pioneer Electronic Corp | 情報選択装置及び方法、情報選択再生装置並びに情報選択のためのコンピュータプログラム |
JP2004163590A (ja) | 2002-11-12 | 2004-06-10 | Denso Corp | 再生装置及びプログラム |
JP2008216402A (ja) | 2007-02-28 | 2008-09-18 | Daiichikosho Co Ltd | カラオケシステム |
JP2016188978A (ja) | 2015-03-30 | 2016-11-04 | ブラザー工業株式会社 | カラオケ装置、プログラム |
JP2019132980A (ja) | 2018-01-31 | 2019-08-08 | 株式会社第一興商 | カラオケ装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099014A (ja) * | 1998-09-22 | 2000-04-07 | Ntt Data Corp | 音楽自動採点装置、音楽自動採点モデル作成装置、音楽自動採点モデル作成方法、音楽自動採点方法、及び、記録媒体 |
JP2000330576A (ja) * | 1999-05-19 | 2000-11-30 | Taito Corp | カラオケの歌唱評価方法と装置 |
US8583615B2 (en) * | 2007-08-31 | 2013-11-12 | Yahoo! Inc. | System and method for generating a playlist from a mood gradient |
CN102970427A (zh) * | 2012-11-16 | 2013-03-13 | 广东欧珀移动通信有限公司 | 一种手机播放歌曲的方法 |
US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
US10373611B2 (en) * | 2014-01-03 | 2019-08-06 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
JP6866715B2 (ja) * | 2017-03-22 | 2021-04-28 | カシオ計算機株式会社 | 情報処理装置、感情認識方法、及び、プログラム |
CN107609034A (zh) * | 2017-08-09 | 2018-01-19 | 深圳市汉普电子技术开发有限公司 | 一种智能音箱的音频播放方法、音频播放装置及存储介质 |
CN107632814A (zh) * | 2017-09-25 | 2018-01-26 | 珠海格力电器股份有限公司 | 音频信息的播放方法、装置和系统、存储介质、处理器 |
WO2019114426A1 (zh) * | 2017-12-15 | 2019-06-20 | 蔚来汽车有限公司 | 车载音乐的匹配方法、装置及车载智能控制器 |
CN108848416A (zh) * | 2018-06-21 | 2018-11-20 | 北京密境和风科技有限公司 | 音视频内容的评价方法和装置 |
CN109299318A (zh) * | 2018-11-13 | 2019-02-01 | 百度在线网络技术(北京)有限公司 | 音乐推荐的方法、装置、存储介质和终端设备 |
CN111199732B (zh) * | 2018-11-16 | 2022-11-15 | 深圳Tcl新技术有限公司 | 一种基于情感的语音交互方法、存储介质及终端设备 |
CN111754965B (zh) * | 2019-03-29 | 2023-11-14 | 比亚迪股份有限公司 | 车载k歌装置、方法和车辆 |
CN110111795B (zh) * | 2019-04-23 | 2021-08-27 | 维沃移动通信有限公司 | 一种语音处理方法及终端设备 |
CN110096611A (zh) * | 2019-04-24 | 2019-08-06 | 努比亚技术有限公司 | 一种歌曲推荐方法、移动终端及计算机可读存储介质 |
CN110197677A (zh) * | 2019-05-16 | 2019-09-03 | 北京小米移动软件有限公司 | 一种播放控制方法、装置及播放设备 |
CN110413250B (zh) * | 2019-06-14 | 2021-06-01 | 华为技术有限公司 | 一种语音交互方法、装置及系统 |
CN111523981A (zh) * | 2020-04-29 | 2020-08-11 | 深圳追一科技有限公司 | 虚拟试用方法、装置、电子设备及存储介质 |
CN111968611B (zh) * | 2020-08-12 | 2024-04-23 | 上海仙塔智能科技有限公司 | K歌方法、车载终端及计算机可读存储介质 |
CN112397065A (zh) * | 2020-11-04 | 2021-02-23 | 深圳地平线机器人科技有限公司 | 语音交互方法、装置、计算机可读存储介质及电子设备 |
CN113126951B (zh) * | 2021-04-16 | 2024-05-17 | 深圳地平线机器人科技有限公司 | 音频播放方法、装置、计算机可读存储介质及电子设备 |
-
2021
- 2021-04-16 CN CN202110410353.9A patent/CN113126951B/zh active Active
-
2022
- 2022-02-14 WO PCT/CN2022/076239 patent/WO2022218027A1/zh active Application Filing
- 2022-02-14 JP JP2022573581A patent/JP7453712B2/ja active Active
- 2022-02-14 US US18/247,754 patent/US20240004606A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003132085A (ja) | 2001-10-19 | 2003-05-09 | Pioneer Electronic Corp | 情報選択装置及び方法、情報選択再生装置並びに情報選択のためのコンピュータプログラム |
JP2004163590A (ja) | 2002-11-12 | 2004-06-10 | Denso Corp | 再生装置及びプログラム |
JP2008216402A (ja) | 2007-02-28 | 2008-09-18 | Daiichikosho Co Ltd | カラオケシステム |
JP2016188978A (ja) | 2015-03-30 | 2016-11-04 | ブラザー工業株式会社 | カラオケ装置、プログラム |
JP2019132980A (ja) | 2018-01-31 | 2019-08-08 | 株式会社第一興商 | カラオケ装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113126951B (zh) | 2024-05-17 |
JP2023527473A (ja) | 2023-06-28 |
US20240004606A1 (en) | 2024-01-04 |
CN113126951A (zh) | 2021-07-16 |
WO2022218027A1 (zh) | 2022-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7453712B2 (ja) | オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器 | |
JP7150939B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
JP6855527B2 (ja) | 情報を出力するための方法、及び装置 | |
CN105074822B (zh) | 用于音频分类和处理的装置和方法 | |
JP6053984B2 (ja) | 等化器コントローラおよび制御方法 | |
RU2513772C2 (ru) | Система и способ автоматического создания атмосферы, подходящей для общественной обстановки и настроя в окружающей среде | |
JP2020034895A (ja) | 応答方法及び装置 | |
JP2019525571A (ja) | ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送 | |
WO2019114015A1 (zh) | 一种机器人的演奏控制方法及机器人 | |
CN106488311B (zh) | 音效调整方法及用户终端 | |
KR20190084809A (ko) | 전자 장치 및 전자 장치에 의한 자막 표현 방법 | |
CN113691909B (zh) | 具有音频处理推荐的数字音频工作站 | |
JP4812733B2 (ja) | 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体 | |
WO2023040820A1 (zh) | 音频播放方法、装置、计算机可读存储介质及电子设备 | |
KR20200067382A (ko) | 사운드를 출력하기 위한 전자 장치 및 그의 동작 방법 | |
JP6678315B2 (ja) | 音声再生方法、音声対話装置及び音声対話プログラム | |
JP2017182275A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN111627417B (zh) | 播放语音的方法、装置及电子设备 | |
CN111696566B (zh) | 语音处理方法、装置和介质 | |
CN110232911B (zh) | 跟唱识别方法、装置、存储介质及电子设备 | |
CN114697689A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN111696564B (zh) | 语音处理方法、装置和介质 | |
CN114514576A (zh) | 数据处理方法、装置和存储介质 | |
CN111696565B (zh) | 语音处理方法、装置和介质 | |
US20240321320A1 (en) | Harmonizing system for optimizing sound in content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7453712 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |