WO2014155652A1 - 話者検索システム、プログラム - Google Patents
話者検索システム、プログラム Download PDFInfo
- Publication number
- WO2014155652A1 WO2014155652A1 PCT/JP2013/059450 JP2013059450W WO2014155652A1 WO 2014155652 A1 WO2014155652 A1 WO 2014155652A1 JP 2013059450 W JP2013059450 W JP 2013059450W WO 2014155652 A1 WO2014155652 A1 WO 2014155652A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- speaker
- listening
- search
- voice
- section
- Prior art date
Links
- 238000001514 detection method Methods 0.000 claims abstract description 49
- 238000013500 data storage Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 description 34
- 238000012545 processing Methods 0.000 description 21
- 238000000605 extraction Methods 0.000 description 20
- 239000013598 vector Substances 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 241001590997 Moolgarda engeli Species 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Definitions
- the present invention relates to a system for retrieving voice data.
- a keyword search technique in voice that automatically detects the time when a specific keyword in a voice database is spoken.
- the subword search method which is one of representative methods
- speech data is first converted into a subword string by a subword recognition process.
- the subword is a name indicating a unit smaller than a word such as a phoneme or a syllable.
- the subword expression of the keyword is compared with the subword recognition result of the voice data, and the time when the keyword is spoken in the voice data is detected by detecting the portion where the subword matches are high.
- Patent Document 2 discloses a speaker verification technique for automatically giving a speaker label to voice data.
- Patent Document 3 discloses a speaker identification technique.
- a speaker model is created by collecting voices of speakers to whom labels are to be assigned in advance. When speech is input, a speaker label is assigned to the speech using the created speaker model. In this way, a system has been disclosed that enables a speaker with a label attached to search voice data at high speed (Patent Document 4).
- Patent Document 5 a technique capable of searching voice data of an arbitrary speaker is disclosed.
- an object of the present invention is to make it possible to easily determine whether a detected result really belongs to the speaker in the speaker search system.
- the present invention calculates, as the optimal listening interval, the interval with the least cost (labor) required for confirmation of the speaker search result in view of, for example, the speaker's uniqueness, listening time, and ease of listening. ,
- the section is presented to the user.
- the speaker search system it is possible to easily determine whether or not the obtained detection result belongs to the speaker who is really looking for.
- FIG. 1 is a block diagram showing a configuration of a computer system to which the present invention is applied according to the first embodiment.
- the computer system of this embodiment includes a speaker index server 101, a search server 106, and an operation terminal 110, which are connected via a network 112. Also connected to the network 112 are an audio data storage device 114 that stores audio data to be searched and a speaker search database 113 that is used to search for a specific speaker in the audio data storage device.
- the speaker index server 101 includes a memory 120 in which each program of speech segment detection 102, speech clustering 103, speaker feature extraction 104, and optimum listening segment detection 105 is stored, and a processor 122 that reads and executes each program from the memory. And I / F121.
- the search server 106 includes a speaker feature extraction 107, a vector search 108, a memory 129 storing the search result presentation means 109, a processor 131 that reads and executes each program from the memory, and an I / F 130.
- an in-terminal audio data storage device 111 is accommodated. Also, an audio output device 115, a display device 116, an input device 117, and an audio input device 118 are connected to each other.
- FIG. 2 is a diagram in which the components of FIG. 1 are arranged according to the flow of processing. The process flow is roughly divided into a registration phase and a search phase.
- the speaker search database 113 is generated from the voice data stored in the voice data storage device 114.
- the search phase in accordance with the voice data input from the voice input device 118 or the input device 117, a voice section in which the same or similar speaker as the speaker who issued the voice data is speaking in the voice data storage device 114 is selected. To detect. During this detection operation, the speaker search database 113 is used. The detection result is presented to the user by the search result presentation means 109 via the display device 116 and the voice output device 115.
- the voice section detection 102 operates on the voice file input from the voice data storage device 114 first.
- the voice section detection 102 classifies voice data into voice and non-voice (noise, silence, etc.) according to the voice power, spectrum, etc. of the input voice data, and extracts only the section including the voice from the input voice data. .
- voice segment detection for example, a waveform for 25 msec is extracted from the voice every 10 msec, the power of that segment is calculated, and the state where the voice power is below the predetermined value is constant
- voice power for example, a waveform for 25 msec is extracted from the voice every 10 msec, the power of that segment is calculated, and the state where the voice power is below the predetermined value is constant
- Means for separating voice and non-voice according to the power and spectrum of the voice are well known to those skilled in the art, and details of other methods are omitted. Any known technique may be used for voice section detection.
- i is an ID (speech ID) assigned to the voice for convenience, and is given by the voice section detection 102.
- the voice section detection 102 gives information on how many seconds to how many seconds of the voice file input in the voice section X i is cut out as attached information.
- a method using speech alternation detection using BIC Bayesian information criterion
- a spectral feature used here for example, a 20-dimensional Mel Frequency Cepstrum Coefficients (MFCC) feature, a 60-dimensional MFCC feature including a difference and a secondary difference, and the like are used.
- MFCC Mel Frequency Cepstrum Coefficients
- a method for converting a speech waveform into an MFCC feature value is well known to those skilled in the art and will not be described here. In the following, the description will be continued assuming that the MFCC feature value is used, but other feature values may be used.
- the set c represents the result of clustering the voice IDs for each speaker, and the voice ID group included in an element of the set c represents that it is determined that the voice is from the same speaker.
- the set c includes an element ⁇ 1,2,10 ⁇ , it means that the speech sections X 1, X 2, and X 10 are determined to be speech from the same speaker.
- the speech segment clustering 103 obtains BIC ⁇ a, b ⁇ for all element sets ⁇ a, b ⁇ included in the set c (304 in FIG. 4).
- BIC ⁇ a, b ⁇ is a score defined according to the following.
- N Z and S Z are the number of frames of the feature quantity included in the MFCC feature quantity F i corresponding to the speech ID contained in the element Z of the set C when they are combined as one feature quantity series. It represents a covariance matrix of feature quantities.
- D is the dimension of the MFCC feature.
- ⁇ is a parameter selected experimentally. It is determined that the smaller the ⁇ BIC (a, b) is, the higher the possibility that the voice corresponding to the element a and the voice corresponding to the element b are uttered by the same speaker.
- the speech segment clustering 103 obtains a set ⁇ a_min, b_min ⁇ that is the smallest among all the sets of elements included in the set C.
- the speech section clustering 103 adds a new element ⁇ a_min, b_min ⁇ to the set C after removing a_min and b_min from the set C when ⁇ BIC (a_min, b_min) is less than the predetermined threshold ⁇ , and adds 304 a in FIG.
- the process returns to (306 in FIG. 4).
- the speech segment clustering 103 ends the process when ⁇ BIC (a_min, b_min) is equal to or greater than the threshold ⁇ .
- the set C is in a state in which the voice ID determined to be the voice of the same speaker is included in the same element. For example, as shown in FIG. 3, when there are ⁇ 3, 7, 8 ⁇ elements in the set C, it is determined that the speech sections X 3 , X 7 , X 8 are the speech of the same speaker. .
- the above is speech segment clustering processing.
- speaker feature extraction processing 104 operates.
- iVector feature amount extraction processing will be described.
- the speaker feature extraction processing 104 performs the following processing for each element Z of the set C obtained by the speech segment clustering 103.
- Gaussian mixture Model Gaussian mixture
- N C the statistics of the statistics of the general speaker
- ⁇ U is a parameter set of a general speaker GMM.
- f t , ⁇ U ) is a posterior probability for the c-th normal distribution in the general speaker GMM when the spectral feature quantity f t is obtained.
- ⁇ c is an average of the c-th normal distribution in the general speaker GMM. Since GMM is a model well known to those skilled in the art, description thereof is omitted.
- the speaker feature extraction process 104 obtains an I-dimensional speaker feature w by the following formula.
- T represents a factor loading matrix
- ⁇ represents a covariance matrix in w Z maximum posterior probability estimation
- N (u) is a CFxCF matrix, and is a block diagonal matrix whose diagonal element is N c I.
- the factor loading matrix is obtained in advance so that all speaker characteristics can be mapped to the feature space that can be most plausibly expressed using speech data of many speakers.
- the speaker characteristic quantity w Z is extracted.
- the speaker feature is an I-dimensional vector, and 200 or 400 is often used as the dimension number I.
- the speaker feature extraction processing 104 performs this operation on all elements of the set C and extracts the speaker feature.
- the optimal listening section detection processing 105 performs the following for all elements of the set C obtained by the speech section clustering 103.
- the element Z is selected from the elements of the set C.
- the element Z is a set of voice IDs assumed to be originated by the same speaker.
- speaker feature values w i are obtained for all speech sections X i corresponding to each speech ID included in Z (402 in FIG. 5).
- the speaker feature extraction method here is the same as the speaker feature extraction process 104.
- the following score, inter-speaker distance score S diff , intra-speaker correlation score S same , noise score S SN , and noise type score S for each speech section X i corresponding to the speech ID included in Z Noise voice length score S length is obtained.
- Each score is defined so that a smaller score is calculated as the cost (labor) required for comparing the voice section X i with the voice that the user is listening to is lower.
- the effort required to compare this user with the voice that is being listened to is defined as “listening cost”.
- the optimum listening section detection processing 105 calculates a score assuming that a speech section having a characteristic different from that of a general speaker's voice is more specific to the speaker and the listening cost of the section is lower. Specifically, an inter-speaker distance score S diff that measures how peculiar the speaker nature of the speech section X i is obtained (404 in FIG. 5). That the speaker characteristics of the speech section X i are unique is obtained by comparing the speech section X i with the speech that has collected many general speakers.
- the speaker is not the same speaker as a lot of speech data known by the speaker, or at least the speaker in the speech section X i Prepare one of many audio data.
- the large number of audio data is stored in the audio data storage device 114. From these speech data groups, a set of speaker features for each speech is obtained in the same way as speaker feature extraction processing 104.
- the inter-speaker distance score S diff for the speech section X i is obtained as follows.
- w i are as defined above, is a speaker feature amount with respect to the speech segment X i.
- Sim (w i , w j ) is a function that calculates the closeness between speaker features w i and w j , and is 1 if the speaker features are similar, otherwise Takes a value close to 0.
- sim (w i , w j ) For example, the following definition based on cosine distance can be used.
- the sigma ac is the covariance matrix representing the variation between speakers.
- Optimal listening interval detection process 105 as voice section X i repeatedly appearing in the utterance of the same speaker, speaker uniqueness of the speech segment X i is high, the listening cost of the section is assumed to be lower score calculate. Specifically, an intra-speaker correlation score S same that measures the degree of repeatability of the speech section X i within the same speaker is obtained (405 in FIG. 5). There are several possible ways to obtain the score S same , for example, the following definitions are used.
- Z is an element of the set C
- is the number of voice IDs included in Z.
- the score S same may use the following definition.
- the degree of repeatability of the speech section X i within the same speaker can be used as the score S same .
- the optimum listening interval detection processing 105 calculates a noise score that assumes that the listening cost of the speech waveform X i increases as the noise increases. Specifically, a noise score SSN for measuring the noise level of the speech section X i is obtained (406 in FIG. 5).
- the voice section X i is a voice section extracted as a result of discrimination between voice and non-voice by voice section detection, there are non-speech sections adjacent to the voice section X i before and after the voice. This is referred to as noise N pre and noise N post .
- the score S SN is obtained as follows. The score is designed to increase as the noise increases.
- power () is a function for obtaining the average power of the speech waveform.
- the method for obtaining the average power is well known by those skilled in the art and will not be described.
- ⁇ Calculation of noise type> The optimum listening section detection processing 105 calculates a noise type score assuming that the listening cost of the speech section X i varies according to the type of noise. For example, when white noise is superimposed on the voice section X i , it is more difficult to determine the difference in speaker characteristics than when pink noise is superimposed. These properties are calculated as a score S noise representing the listening cost of the speech section X i (407 in FIG. 5).
- Noise such as white noise and pink noise is prepared in advance, and MFCC feature values are extracted from the noise.
- GMM Gaussian Mixture Model
- the optimum listening interval detection processing 105 calculates the score S noise as follows using the noise N pre and the noise N post obtained by the same method as when the score S SN is obtained.
- n is a variable representing a predefined noise type
- GMM n is a function for calculating the likelihood obtained from the GMM corresponding to the noise.
- table () is a table function that returns a cost prepared for each noise type, and the cost is manually set for each noise type.
- length () is a function for obtaining the length of the speech waveform.
- the listening cost is calculated for the speech waveform X i corresponding to each speech ID by the following formula (409 in FIG. 5).
- ⁇ 1 to ⁇ 5 are weights determined for the respective scores, and are manually set in advance. It is defined so that the cost becomes smaller as the speech section is suitable for listening.
- the voice ID having the smallest Cost is obtained as the voice ID i Z, min of the optimum listening section.
- an interface may be provided that allows the user to change the weights ⁇ 1 to ⁇ 5 as desired.
- the display device 116 may be provided with an interface that allows the user to specify whether or not to place importance on the cost with a slide bar as shown in FIG.
- a slide bar 901 corresponding to each cost and an icon 902 for determining whether the cost is emphasized (that is, the weight ⁇ related to the cost is increased) or not emphasized (the weight ⁇ is decreased) are provided. It has been.
- the user in order to reduce the weight alpha 5 for cost S length of the listening time, to the cost
- the value of the associated slide bar is slid in the “not important” direction (903 in FIG. 9).
- the speaker index server 101 causes the speaker feature quantity corresponding to the element Z to be included in each element Z (a set of voice IDs of voices determined to be the same speaker) included in the set C (clustering result). Get w z and i Z, min .
- the speaker index server 101 registers these in the speaker search database 113.
- ⁇ Speaker search database> The structure of the speaker search database 113 is shown in FIG. Information corresponding to element Z is stored for each row.
- the file ID 501 describes the name of an audio file that includes audio corresponding to the audio ID included in the element Z.
- the voice section 502 stores information on the start and end (see FIG. 3) of the voice corresponding to the voice ID included in the element Z.
- the speaker feature quantity 503 stores a saved file name when the speaker feature quantity w z is saved in binary format.
- the optimum listening section 504 stores the start and end of the speech section Xi Z, min corresponding to the speech ID i Z, min .
- the first line in Fig. 6 is from the voice file AAA.wav (Fig. 6 501), the results of voice segment detection 102 and voice segment clustering 103 are 0.5 to 3.4 seconds, 4.1 to 8.4 seconds, 30.0 to 32.3. Three voice sections of seconds are extracted as the voice of the same speaker (Fig. 6 502), and the speaker feature values are stored in the file AAA-1.dat (Fig. 6 503). Thus, it is determined that the optimum listening interval is a speech interval of 30.0 seconds to 32.3 seconds (Fig. 6 504).
- each value of S diff , S same , S SN , S noise , S length, and Cost may be stored in the speaker search database.
- speaker labels may be assigned to speech corresponding to each row of the speaker search database using speaker identification technology. Details of the speaker identification technique are disclosed in the prior art, and are well known to those skilled in the art.
- the user inputs the speech X search of the speaker to be searched to the system.
- the search is performed by either the voice input device 118, the intra-terminal voice data storage device 111 being operated by the input device 117, or the voice data storage device 114 being operated by the input device 117.
- audio is input to the server 106.
- the search server 106 When the search server 106 receives the input of the speech X search of the speaker to be searched, the search server 106 operates the speaker feature extraction 107 and extracts the speaker feature w search from the speech X search . This uses the same means as the speaker feature extraction 104.
- the function sim () used here may be any of those defined in the optimum listening interval detection 105.
- the speaker feature value w search may be compared with the function sim (w search , w k ) to extract only the top N cases having the largest sim (w search , w k ).
- the search result display means 109 outputs the speaker search database rearranged as described above to the display device 116.
- Fig. 7 shows the display screen.
- a search button 702 is pressed after the name of an audio file to be searched is input from the user in the search window 701
- the search server 106 operates the above-described search phase and outputs a search result 703.
- a file name 704 including a voice that seems to be the same as [C: ⁇ wav ⁇ kanda.wav] and a representative value 705 of the utterance time are presented.
- the representative value the earliest utterance time may be presented, or the optimum listening utterance section (504 in FIG. 6) may be presented.
- the audio output device plays back the audio corresponding to the optimum listening section (504 in FIG. 6). Since the sound reproduced here is selected so that the speaker can be most easily determined by the optimum listening section detection 105, the user can easily determine whether the search result is correct or incorrect.
- the location “Play from beginning of file” (707 in FIG. 7) is pressed, audio can be played from the beginning of the file.
- the user searches for the speaker name unlike the above. It is also possible to search the speaker database by inputting into the window 701. Also in this case, the detection result presentation and playback interface is as shown in FIG. 7, and the optimum listening section detection result can be heard by pressing the “playback sound for confirmation” (706 in FIG. 7). The user can receive the effects of the present invention.
- the user can input conditions related to listening and limit the output result accordingly.
- a condition related to listening either or all of the upper limit of listening time and the upper limit of listening cost can be input simultaneously with the search sound X search . This is realized, for example, by a method of providing an input window in the interface or selecting from a plurality of conditions.
- the vector search 108 sorts the rows of the speaker search database according to sim (w search , w k ), and then outputs the top N search results to the user until the condition is reached.
- FIG. 8 shows the system configuration of the second embodiment.
- the computer 101 includes a memory 801 including each program of a voice segment detection 102, a voice segment clustering 103, a speaker feature extraction 104, an optimum listening segment detection 105, a speaker feature extraction 107, a vector search 108, and a search result presentation 109.
- Audio data storage device 114 in-terminal audio data storage device 111, speaker search database 113, processor 802 that reads and executes each program from memory, audio output device 115, display device 116, input device 117, audio input I / F (A) 803, I / F (B) 804, I / F (C) 805, and I / F (D) 805 connected to the apparatus 118 are provided.
- the device 111, the speaker search database 113, the voice output device 115, the display device 116, the input device 117, and the voice input device 118 are the same as those in the first embodiment. The difference from the first embodiment is that all modules are housed in one computer 101 in this system.
- the configuration of the third embodiment is the same as that of the first embodiment, the behavior of the optimal listening section detection is different. Specifically, a candidate to become the speech section of Example 1, the optimum listening interval detection sound ID was the sound corresponding to the sound ID included in the elements Z n, in the present embodiment in that element Z n A voice is generated by connecting a voice corresponding to, and the generated voice section is also a candidate for the optimum listening section.
- Example 3 the optimum listening interval detection clustering for elements Z n results in a set C (FIG. 3), the k-tuples continuous when arranged audio ID included in the element Z n in ascending order
- the speech X zn (i),..., Zn (i + i ⁇ 1) to which the speech is connected is extracted.
- the subsequent processing is the same as in the case of the first embodiment, and the optimum listening interval detection is performed by first extracting speaker feature amounts from the speech (1003 in FIG. 10), and then scores S diff , S same , S SN , Calculate S noise and S length , and finally calculate Cost. Since speaker feature extraction and score and cost calculation methods are the same as in the first embodiment, a description thereof will be omitted.
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
話者検索システムにおいて、検出された結果が本当に当該話者のものであるかを容易に判断できる最適聴取区間を検出しユーザに提示することで、ユーザが話者検索結果の正解/不正解を容易に判定できるようにするものである。話者を検索するシステムにおいては、検出された音声の話者が類似の場合、検出結果が本当に探したい人物が発したものであるかを判定することに困難を伴う。検出された結果が本当に当該話者のものであるかを容易に判断できる最適聴取区間を検出しユーザに提示する枠組みを提供する。
Description
本発明は音声データを検索するシステムに関するものである。
近年のストレージデバイスの大容量化に伴い、大量の音声データが蓄積されるようになってきている。従来の多くの音声データベースでは、音声データを管理するために音声データに音声データが録音された時刻の情報を付与し、その情報を元に所望の音声データを検索することが行われてきた。しかしながら、時刻情報に基づく検索では、所望の音声が発話された時刻を予め知っている必要があり、特定のキーワードが発話中に含まれる音声を検索するといった用途には不向きであった。特定のキーワードが発話中に含まれる音声を検索する場合、音声を始めから終わりまで聴取する必要があった。
そこで、音声データベース中の特定のキーワードが発話された時刻を自動的に検出する音声中のキーワード検索技術が開発されている。代表的な手法のひとつであるサブワード検索法では、まずサブワード認識処理によって、音声データをサブワード列へと変換しておく。ここでサブワードとは、音素や音節など、単語よりも細かい単位を指す名称である。キーワードが入力されると、当該キーワードのサブワード表現と音声データのサブワード認識結果を比較し、サブワードの一致度が高い個所を検出することにより、音声データ中で当該キーワードが発話されている時刻を検出する(特許文献1、非特許文献1)。
音声中のキーワード検索技術では、キーワードによる検索が可能であるが、特定の話者の音声データを探すことはできない。そこで、特許文献2には音声データに話者ラベルを自動付与するための話者照合技術が開示されている。また、特許文献3には話者識別技術が開示されている。これらの技術では予めラベルを付与しておきたい話者の音声を収集して、話者モデルを作成しておく。音声が入力されると作成済みの話者モデルを用いて、音声に対する話者ラベルの付与を行う。こうすることでラベル付与済みの話者であれば音声データを高速に検索することが可能となるシステムが開示されている(特許文献4)。
一方で、話者モデル未作成の話者の音声データを探したい場合には改めて話者モデルを作成した上で、全ての音声データに対する話者ラベル付与工程をやり直す必要がある。しかしながら話者ラベル付与処理は計算負荷が高く、音声データが大規模な時には話者モデル未作成の話者が出てくるたびに話者ラベル付与処理をやり直すことは非現実的である。
そこで、話者ラベルを付与するのではなく、音声から話者特徴量ベクトルを抽出して保存しておき、新たな話者の音声データを探す場合には話者特徴量ベクトルどうしのマッチングを行うことにより、任意の話者の音声データを検索できる技術が開示されている(特許文献5)。
K. Iwata et al.: Open-Vocabulary Spoken Document Retrieval based on new subword models and subword phonetic similarity,In Proc. Interspeech 2006,2006
しかしながら、上記の技術を用いて特定の話者の音声データを検索した結果を聴取によって確認する際に問題が生じる。ユーザは検出された結果が本当に探している話者の音声データであるのかを確認する必要がある。しかし、検出された音声は、多くの場合探したい話者と似た声質の音声であり、検出された音声が本当に探したい話者の声なのかを判断するためには、検出された音声をユーザが確信を持てるまで聞く必要がある。この結果、一つ一つの検出結果に対する正解/不正解をユーザが判断するのに非常に時間がかかるという問題があった。
そこで、本願発明は、話者検索システムにおいて、検出された結果が本当に当該話者のものであるかを容易に判断できるようにすることを目的とする。
本発明は上記を鑑み、例えば、話者の固有性や聴取時間、聴取の容易さなどから見て、話者検索結果の確認に要するコスト(労力)が最も少ない区間を最適聴取区間として算出し、ユーザに当該区間を提示する。
話者検索システムにおいて、得られた検出結果が本当に探している話者のものであるのかを容易に判断できるようになる。
以下、本発明の第1の実施形態を図面を用いて説明する。
図1は、第1の実施形態を示し、本発明を適用する計算機システムの構成を示すブロック図である。本実施形態の計算機システムは、話者インデクスサーバ101、検索サーバ106、操作端末110からなり、これらがネットワーク112を介して接続される。また、ネットワーク112には検索の対象となる音声データを蓄積する音声データ蓄積装置114と音声データ蓄積装置内の特定の話者を検索するために利用する話者検索用データベース113が接続される。
話者インデクスサーバ101は、音声区間検出102、音声クラスタリング103、話者特徴量抽出104、最適聴取区間検出105の各プログラムが格納されるメモリ120、メモリから各プログラムを読みだして実行するプロセッサ122、I/F121を備える。
検索サーバ106は、話者特徴量抽出107、ベクトル検索108、検索結果提示手段109が格納されるメモリ129、メモリから各プログラムを読みだして実行するプロセッサ131、I/F130を備える。
操作端末110内には端末内音声データ蓄積装置111が納められている。また音声出力装置115、表示装置116、入力装置117、音声入力装置118がそれぞれ接続されている。
図2は、図1の構成要素を処理の流れに従って配置した図である。処理の流れは大きく分けて登録フェーズと検索フェーズに分かれている。
登録フェーズでは、音声データ蓄積装置114に蓄積された音声データから話者検索用データベース113を生成する。検索フェーズでは、音声入力装置118もしくは入力装置117から入力された音声データに従って、当該音声データを発した話者と同一もしくは類似の話者が音声データ蓄積装置114内で発話している音声区間を検出する。この検出動作の際に話者検索用データベース113が利用される。検出の結果は検索結果提示手段109により表示装置116と音声出力装置115を介してユーザに提示される。
以下では、登録フェーズと検索フェーズの双方における処理の流れの詳細を図2に従って示す。まず、登録フェーズの処理を説明する。
<音声区間検出102>
登録フェーズでは、音声データ蓄積装置114から入力された音声ファイルに対して、まず音声区間検出102が動作する。音声区間検出102は、入力された音声データの音声のパワーやスペクトル等に従って音声データを音声と非音声(雑音、無音等)を分別し、入力された音声データから音声を含む区間のみを抽出する。
登録フェーズでは、音声データ蓄積装置114から入力された音声ファイルに対して、まず音声区間検出102が動作する。音声区間検出102は、入力された音声データの音声のパワーやスペクトル等に従って音声データを音声と非音声(雑音、無音等)を分別し、入力された音声データから音声を含む区間のみを抽出する。
音声のパワーに従った音声区間検出の実現法としては、例えば、音声から10msecごとに25msec分の波形を抽出し、当該区間のパワーを計算し、音声のパワーが既定値以下の状態が一定時間継続した場合に当該区間は雑音であると判定し、残りの区間は音声であると判定する、という方法がある。なお音声のパワーやスペクトル等に従って音声と非音声を分別する手段については当業者には周知であり、その他の手法の詳細は省略する。音声区間検出は周知の技術のいずれを用いてもよい。
音声区間検出102の結果、音声データは非音声区間によって分割され細切れの音声波形となる(図3)。ここで得られた一つ一つの音声波形を音声区間Xi(i=1,..,N)とする。iは音声に便宜的に割り振られたID(音声ID)であり、音声区間検出102が付与する。また、音声区間検出102は、音声区間Xiに入力された音声ファイルの何秒から何秒までを切り出したものであるかという情報を付属情報として付与する。
<音声区間クラスタリング103>
続いて音声区間クラスタリング処理103は、音声区間検出102によって得られた細切れの音声区間Xi(i=1,..,N)を、同一の話者の音声が同一の集合に含まれるように、クラスタリングを行う。ここではBIC(Bayesian information criterion)を用いた発話交代検知を用いる方法を、図4のフローチャートに従って説明する。
続いて音声区間クラスタリング処理103は、音声区間検出102によって得られた細切れの音声区間Xi(i=1,..,N)を、同一の話者の音声が同一の集合に含まれるように、クラスタリングを行う。ここではBIC(Bayesian information criterion)を用いた発話交代検知を用いる方法を、図4のフローチャートに従って説明する。
まず音声区間クラスタリング103は、音声区間Xi(i=1,..,N)のそれぞれからスペクトル特徴量系列Fi(i=1,..,N)を抽出する(図4の302)。ここで用いられるスペクトル特徴量は例えば20次元のMel Frequency Cepstrum Coefficients(MFCC)特徴量とその差分及び2次差分を併せた60次元のMFCC特徴量などが利用される。音声波形をMFCC特徴量に変換する方法は当業者であれば周知であるためここでは省略する。以下ではMFCC特徴量を利用するとして説明を続けるが、それ以外の特徴量を用いても良い。
続いて、音声区間クラスタリング103は、クラスタリング結果となる集合cの初期値をc={{1},…,{N}}と設定する(図4の303)。ここで集合cは音声IDを話者毎にクラスタリングした結果を表現したものであり、集合cのある要素に含まれる音声ID群は同一話者が発した音声と判定されたことを表す。例えば図3のように集合cに{1,2,10}という要素が含まれていた場合、音声区間X1、X2及びX10は同一話者が発した音声と判定されたことを意味する。図4の303で集合c={{1},…,{N}}と設定したということは、全ての音声区間Xiは異なる話者が発したものという状態を初期値として設定したことを意味する。
続いて、音声区間クラスタリング103は、集合cに含まれる全ての要素の組{a,b}についてBIC{a,b}を求める(図4の304)。ここでBIC{a,b}は下記に従って定義されるスコアである。
ここでNZとSZはそれぞれ、集合Cの要素Zに含まれる音声IDに対応したMFCC特徴量Fiを一つの特徴量系列として結合した場合に、そこに含まれる特徴量のフレーム数と特徴量の共分散行列を表している。またdはMFCC特徴量の次元である。αは実験的に選択されるパラメータである。ΔBIC(a,b)は、小さいほど、要素aに対応する音声と要素bに対応する音声が同一話者が発話したものである可能性が高い、と判断される。音声区間クラスタリング103は、集合Cに含まれる全ての要素の組の中で最小となる組{a_min, b_min}を求める。
音声区間クラスタリング103は、ΔBIC(a_min,b_min)が既定の閾値θ未満の場合、集合Cからa_minとb_minを取り除いた上で,新たな要素{a_min, b_min}を集合Cに加え図4の304の処理に戻る(図4の306)。音声区間クラスタリング103は、ΔBIC(a_min,b_min)が閾値θ以上となった場合に処理を終了する。
この処理の結果、集合Cには同一話者の音声と判定された音声IDが同一の要素に含まれる状態になる。例えば図3のように集合Cの要素に{3,7,8}という要素がある場合には音声区間X3,X7,X8は同一話者の音声であると判定されたことになる。以上が音声区間クラスタリング処理である。
<話者特徴量抽出104>
続いて話者特徴量抽出処理104が動作する。ここではiVector特徴量抽出処理について説明する。話者特徴量抽出処理104は、音声区間クラスタリング103で得られた集合Cの要素Zごとに以下の処理を行う。
続いて話者特徴量抽出処理104が動作する。ここではiVector特徴量抽出処理について説明する。話者特徴量抽出処理104は、音声区間クラスタリング103で得られた集合Cの要素Zごとに以下の処理を行う。
要素Zに含まれる音声IDに対応したMFCC特徴量Fiを一つの特徴量系列として結合した時に、結合された特徴量系列をft(t=1,…,L)と表す。
話者特徴量抽出処理104は、まず時刻tごとに得られるF次元のスペクトル特徴量ft(t=1,…,L)に対し一般話者の特徴量から作成されたC 混合のGMM(Gaussian Mixture Model;混合ガウス分布)を用いて以下の統計量NCとF~
c (c=1,…,C)を計算する。
ここでΩUは一般話者GMMのパラメータセットである。P(c|ft,ΩU)はスペクトル特徴量ftが得られた時の,一般話者GMMにおけるc番目の正規分布に対する事後確率である。またμcは一般話者GMMにおけるc番目の正規分布の平均である。なお、GMMについては当業者には周知のモデルであるので説明を省略する。
その後,話者特徴量抽出処理104は、以下の式によってI次元の話者特徴量wを得る。
ここでTは因子負荷行列,ΣはwZの最大事後確率推定における共分散行列を表す。またN(u)はCFxCFの行列であり,その対角要素がNcIであるようなブロック対角行列である。F~
c(u)はF~
cをc=1からc=Cまで直列につないだ値を対角要素として持つようなCFxCFの対角行列である。因子負荷行列は多数の話者の音声データを用い,全ての話者性を最も尤もらしく表現できる特徴空間へと写像できるように前もって求めておく。
以上の処理で要素Zに対応する音声から,その話者特徴量wZが抽出される。話者特徴量は一つのI次元のベクトルであり,次元数Iとしては200や400が良く用いられる。話者特徴量抽出処理104は、この作業を集合Cの全ての要素に対して行い,その話者特徴量を抽出する。
<最適聴取区間検出105>
続いて最適聴取区間検出処理105が動作する。この処理の流れを図5のフローチャートに従って説明する。
続いて最適聴取区間検出処理105が動作する。この処理の流れを図5のフローチャートに従って説明する。
最適聴取区間検出処理105は、音声区間クラスタリング103によって得られた集合Cの全ての要素に対して以下を行う。
ここでは集合Cの要素のうち要素Zを選択したとする。図3で示したように、要素Zは同一話者が発したと想定される音声IDの集合である。まずZに含まれる各音声IDに対応する音声区間Xi全てに対して話者特徴量wiを求める(図5の402)。ここでの話者特徴量の抽出方法は話者特徴量抽出処理104と同一である。続いてZに含まれる音声IDに対応する音声区間Xiそれぞれに対して以下のスコア、異話者間距離スコアSdiff、同一話者内相関スコアSsame、雑音スコアSSN、雑音種スコアSnoise、音声長スコアSlengthを求める。いずれのスコアも、当該音声区間Xiをユーザが聴取してある音声と比較をする際に要するコスト(労力)が低いほど小さいスコアを算出するように定義される。このユーザが聴取してある音声と比較をする際に要する労力を「聴取コスト」と定義する。
<異話者間距離の算出>
最適聴取区間検出処理105は、一般の話者の声と異なる特性を持つ音声区間ほど当該話者の固有性が高く、当該区間の聴取コストは低くなるものとしたスコアを算出する。具体的には、音声区間Xiの話者性がどれほど特異かを測る異話者間距離スコアSdiffを求める(図5の404)。音声区間Xiの話者性が特異であることは、一般話者を多数集めた音声と音声区間Xiを比較することで求める。
最適聴取区間検出処理105は、一般の話者の声と異なる特性を持つ音声区間ほど当該話者の固有性が高く、当該区間の聴取コストは低くなるものとしたスコアを算出する。具体的には、音声区間Xiの話者性がどれほど特異かを測る異話者間距離スコアSdiffを求める(図5の404)。音声区間Xiの話者性が特異であることは、一般話者を多数集めた音声と音声区間Xiを比較することで求める。
具体的には、異話者間距離スコアSdiffを求めるにあたり、話者が既知である多数の音声データ、もしくは、少なくとも音声区間Xiの話者とは同一の話者ではないと知っている多数の音声データのいずれかを用意しておく。この多数の音声データは音声データ蓄積装置114に蓄積されている。これらの音声データ群から、話者特徴量抽出処理104と同一の方法によって、それぞれの音声に対する話者特徴量の集合
を求める。
この時、音声区間Xiに対する異話者間距離スコアSdiffは次で求められる。
ただし、wiは前述の通り、音声区間Xiに対する話者特徴量である。また sim(wi,wj)は話者特徴量wiとwjの間の近さを算出する関数であり、話者特徴量どうしが類似している場合には1、そうでない場合には0に近い値を取る。sim(wi,wj)はいくつかの定義が可能であり、例えば次のコサイン距離による定義が利用できる。
また、次の確率モデルに基づいた定義を用いることもできる。
ただし、
ここでΣwcは話者内の変動を表す共分散行列,Σacは話者間の変動を表す共分散行列である。これらの共分散行列は多数の話者特徴量から因子分析の手法を用いてシステム開発時に推定しておく。
<同一話者内相関の算出>
最適聴取区間検出処理105は、同一話者の発話内で繰り返し出現する音声区間Xiほど、当該音声区間Xiの話者固有性が高く、当該区間の聴取コストは低くなるものとしたスコアを算出する。具体的には音声区間Xiの話者性が同一話者内で繰り返されている度合いを測る同一話者内相関スコアSsameを求める(図5の405)。スコアSsameの求め方としてはいくつかの定義が考えられ、例えば以下の定義が用いられる。
最適聴取区間検出処理105は、同一話者の発話内で繰り返し出現する音声区間Xiほど、当該音声区間Xiの話者固有性が高く、当該区間の聴取コストは低くなるものとしたスコアを算出する。具体的には音声区間Xiの話者性が同一話者内で繰り返されている度合いを測る同一話者内相関スコアSsameを求める(図5の405)。スコアSsameの求め方としてはいくつかの定義が考えられ、例えば以下の定義が用いられる。
ここでZは集合Cの要素であり、|Z|はZに含まれる音声IDの数である。
また、スコアSsameは次の定義を用いてもよい。
また、スコアSsameは次の定義を用いてもよい。
その他の定義でも、音声区間Xiの話者性が同一話者内で繰り返されている度合いであればスコアSsameとして用いることができる。
<雑音の大きさの算出>
最適聴取区間検出処理105は、雑音が大きいほど、当該音声波形Xiの聴取コストは高くなるものとした雑音スコアを算出する。具体的には音声区間Xiの雑音の大きさを測る雑音スコアSSNを求める(図5の406)。
最適聴取区間検出処理105は、雑音が大きいほど、当該音声波形Xiの聴取コストは高くなるものとした雑音スコアを算出する。具体的には音声区間Xiの雑音の大きさを測る雑音スコアSSNを求める(図5の406)。
ここでの実施例としては以下の方法を用いる。音声区間Xiは音声区間検出で音声と非音声の判別の結果抽出された音声区間であるので、音声区間Xiに隣接する非音声区間が当該音声の前後に存在する。これを雑音Npreおよび雑音Npostとする。このとき、スコアSSNは次のように求められる。スコアは雑音が大きくなるほど大きくなるように設計されている。
ここでpower()は音声波形の平均パワーを求める関数である。平均パワーを求める方法は当該業者であれば周知であるので説明は省略する。
<雑音の種類の算出>
最適聴取区間検出処理105は、雑音の種類に応じて、当該音声区間Xiの聴取コストが変動するものとした雑音種スコアを算出する。例えば音声区間Xiに白色雑音が重畳している場合は、ピンクノイズが重畳している場合よりも話者性の違いを判別することが難しくなる。これらの性質を音声区間Xiの聴取コストを表すスコアSnoiseとして算出する(図5の407)。
<雑音の種類の算出>
最適聴取区間検出処理105は、雑音の種類に応じて、当該音声区間Xiの聴取コストが変動するものとした雑音種スコアを算出する。例えば音声区間Xiに白色雑音が重畳している場合は、ピンクノイズが重畳している場合よりも話者性の違いを判別することが難しくなる。これらの性質を音声区間Xiの聴取コストを表すスコアSnoiseとして算出する(図5の407)。
具体的には、次のような方法が可能である。白色雑音、ピンク雑音などの雑音を予め用意しておき、当該雑音からMFCC特徴量を抽出する。MFCC特徴量から、それぞれの雑音を表すGaussian Mixture Model(GMM)を作成する。なお、MFCC特徴量の抽出方法及び、GMMについては当該業者であれば既知であるため詳細を省略する。
最適聴取区間検出処理105は、スコアSSNを求めた場合と同様の方法によって得られた雑音Npreおよび雑音Npostを用い、以下のようにスコアSnoiseを計算する。
ここでnは予め定義されたノイズ種類を表す変数であり、GMMnは当該ノイズに対応するGMMから得られる尤度を算出する関数である。また、table()はノイズ種別ごとに用意されたコストを返すテーブル関数であり、そのコストは人手でノイズ種別ごとに既定しておく。
<音声の長さの算出>
最適聴取区間検出処理105は、音声が長いほど、当該音声区間Xiの聴取コストは高くなるものとしたスコアを算出する。具体的には音声区間Xiの長さに対応する音声長スコアSlengthを求める(図5の408)。
<音声の長さの算出>
最適聴取区間検出処理105は、音声が長いほど、当該音声区間Xiの聴取コストは高くなるものとしたスコアを算出する。具体的には音声区間Xiの長さに対応する音声長スコアSlengthを求める(図5の408)。
ここでlength()は音声波形の長さを求める関数である。
最適聴取区間検出処理105は、各スコアと算出すると、各音声IDに対応する音声波形Xiについて下記の式によって聴取コストを算出する(図5の409)。
ここでα1~α5はそれぞれのスコアに対して定められた重みであり、予め人手で設定されている。聴取に適した音声区間ほどCostが小さくなるように定義しておく。
要素Zに含まれる音声IDのうちでCostが最小となる音声IDを、最適聴取区間の音声ID iZ,minとして求める。
なお、ここでの重みα1~α5をユーザが希望に応じて変更できるインタフェースを備えていても良い。このためには図9のようなスライドバーで当該コストを重視するかしないかをユーザが指定できるようなインタフェースを表示装置116に備えていても良い。ここでは各コストに対応するスライドバー901とそのコストを重視する(すなわち当該コストに係る重みαを大きくする)か、重視しない(重みαを小さくする)か、の度合いを決定するアイコン902が備えられている。例えば聴取時間が長くても、話者の特異性が明確な音声区間を最適聴取区間として設定する場合には、ユーザは聴取時間のコストSlengthに対する重みα5を小さくするために、当該コストに関わるスライドバーの値を「重視しない」方向へスライドさせる(図9 903)。
上記の処理によって、話者インデクスサーバ101は、集合C(クラスタリング結果)に含まれる要素Z(同一話者と判定された音声の音声IDの集合)ごとに、要素Zに対応する話者特徴量wzと、iZ,minを得る。
話者インデクスサーバ101は、これらを話者検索用データベース113に登録する。
<話者検索用データベース>
話者検索用データベース113の構造を図6に示す。各行ごとに要素Zに対応した情報が格納される。
話者検索用データベース113の構造を図6に示す。各行ごとに要素Zに対応した情報が格納される。
ファイルID 501には、要素Zに含まれる音声IDに対応する音声を含む音声ファイルの名前が記載される。音声区間502には要素Zに含まれる音声IDに対応する音声の始端と終端(図3を参照)の情報が格納される。話者特徴量503には話者特徴量wzをバイナリ形式で保存した場合の保存ファイル名が格納される。最適聴取区間504には音声ID iZ,minに対応する音声区間XiZ,minの始端と終端が格納される。
例えば図6における第1行めは、AAA.wavという音声ファイルから(図6 501)、音声区間検出102と音声区間クラスタリング103の結果0.5秒~3.4秒、4.1秒~8.4秒、30.0秒~32.3秒の3つの音声区間が同一話者の音声として切り出され(図6 502)、その話者特徴量はAAA-1.datというファイルに格納されており(図6 503)、最適聴取区間検出105によって最適聴取区間は30.0秒~32.3秒の音声区間であると判定された(図6 504)、ということを表している。
なお、話者検索用データベースには上記の他に、Sdiff、Ssame、SSN、Snoise、SlengthおよびCostの各値を保存しておいてもよい。
さらに話者識別技術を用いて、話者検索用データベースの各行に対応する音声に話者ラベルを付与しておいても良い。話者識別技術の詳細は従来技術において開示されており、当該業者には周知であるため詳細は省略する。
以上が登録フェーズ(図2)の説明である。
続いて、図2の流れに従い、検索フェーズの動作の説明を行う。
検索フェーズではユーザが、検索したい話者の音声Xsearchをシステムへ入力する。ここでは、音声入力装置118を通すか、もしくは端末内音声データ蓄積装置111を入力装置117で操作するか、もしくは音声データ蓄積装置114を入力装置117で操作するか、のいずれかの手段によって検索サーバ106に音声を入力するものとする。
検索サーバ106は、検索したい話者の音声Xsearchの入力を受け付けると話者特徴量抽出107を動作させ、音声Xsearchから話者特徴量wsearchを抽出する。これは話者特徴量抽出104と同一の手段を用いる。
その後ベクトル検索108モジュールが動作する。ベクトル検索108は、話者検索用データベースに登録された話者特徴量wk(k=1,…,K)と、音声Xsearchから得られた話者特徴量wsearchとを関数sim(wsearch,wk)によって比較し、sim(wsearch,wk)の降順に話者検索用データベース(図6)の各行を並べ替える。
なお、ここで用いる関数sim()は最適聴取区間検出105で定義したもののいずれを用いてもよい。また、話者特徴量wsearchとを関数sim(wsearch,wk)によって比較し、sim(wsearch,wk)が大きい上位N件だけを抽出してもよい。
検索結果表示手段109は、上述のようにして並べ替えた話者検索用データベースを表示装置116に出力する。
図7に表示画面を示す。検索窓701にユーザから検索したい音声ファイルの名前が入力された後、検索ボタン702が押下されると、検索サーバ106は、上述した検索フェーズを動作させ検索結果703を出力する。ここではベクトル検索108が並べ替えた順に、[C:\wav\kanda.wav]と同一だと思われる音声が含まれたファイル名704、その発話時刻の代表値705が提示される。代表値としては発話時刻のうちでもっとも早いものを提示してもよいし、最適聴取発話区間(図6の504)を提示しても良い。
また「確認用音声再生」という箇所(図7の706)が押下されると、音声出力装置は、最適聴取区間(図6の504)に相当する音声を再生する。ここで再生される音声は、最適聴取区間検出105によって最も当該話者の判定が容易に行えるように選択されているため、ユーザは容易に検索結果が正解か不正解かを判定できる。
「ファイル冒頭から再生」(図7の707)という箇所を押されると、当該ファイルの冒頭から音声を再生することもできる。
「ファイル冒頭から再生」(図7の707)という箇所を押されると、当該ファイルの冒頭から音声を再生することもできる。
上記に加えて、Sdiff、Ssame、SSN、Snoise、SlengthおよびCostの各値を保存している場合には、検索提示インタフェースに上記の他にそれらの値も同時に表示してもよい。
また、話者検索用データベース113(図6)の各行に対応する音声に対して話者識別技術で話者ラベルが付与されている場合には、上記とは異なり、ユーザが話者名を検索窓701に入力することで話者データベースを検索することも可能である。この場合にも検出結果の提示と再生のインタフェースは図7のようになり、「確認用音声再生」という箇所(図7の706)を押下することで最適聴取区間検出結果を聞くことができるため、ユーザは本発明の効果を受けることができる。
さらに、ユーザが聴取に関わる条件を入力し、それに従って出力結果を限定することも可能である。具体的には聴取に関わる条件として、聴取時間の上限、聴取コストの上限のいずれか一方または全てを検索用音声Xsearchと同時に入力できるようにしておく。これは例えば、入力用の窓をインタフェースに設けたり、複数の条件の中から選択できるようにするなどの方法で実現される。この時、ベクトル検索108は話者検索用データベースの各行をsim(wsearch,wk)に従って並べ替えた後、当該条件に達するまでユーザに上位N件の検索結果を出力する。
スタンドアローンシステム
以下、本発明の第2の実施形態を添付図面に基づいて説明する。
以下、本発明の第2の実施形態を添付図面に基づいて説明する。
図8は第2の実施形態のシステム構成を表したものである。計算機101は、音声区間検出102、音声区間クラスタリング103、話者特徴量抽出104、最適聴取区間検出105、話者特徴量抽出107、ベクトル検索108、検索結果提示109、の各プログラムを備えるメモリ801、音声データ蓄積装置114、端末内音声データ蓄積装置111、話者検索用データベース113、各プログラムをメモリから読みだして実行するプロセッサ802、音声出力装置115、表示装置116、入力装置117、音声入力装置118と接続されるI/F(A)803、I/F(B)804、I/F(C)805、I/F(D)805を備える。音声区間検出102、音声区間クラスタリング103、話者特徴量抽出104、最適聴取区間検出105、話者特徴量抽出107、ベクトル検索108、検索結果提示109、音声データ蓄積装置114、端末内音声データ蓄積装置111、話者検索用データベース113、音声出力装置115、表示装置116、入力装置117、音声入力装置118は実施例1のものと同一である。実施例1との違いは、本システムでは全てのモジュールが一つの計算機101に収められている点である。
処理の流れについては実施例1と同一であるので省略する。
最適聴取区間検出の第2の実施例
実施例3は実施例1と構成は同じであるが、最適聴取区間検出の挙動が異なる。具体的には、実施例1では最適聴取区間検出の候補となる音声区間は、要素Znに含まれる音声IDに対応する音声であったが、本実施例では要素Znに含まれる音声IDに対応する音声を接続することによって音声を生成し、その生成された音声区間も最適聴取区間の候補とする。
実施例3は実施例1と構成は同じであるが、最適聴取区間検出の挙動が異なる。具体的には、実施例1では最適聴取区間検出の候補となる音声区間は、要素Znに含まれる音声IDに対応する音声であったが、本実施例では要素Znに含まれる音声IDに対応する音声を接続することによって音声を生成し、その生成された音声区間も最適聴取区間の候補とする。
処理の流れを図10に従って説明する。
実施例3では、最適聴取区間検出は、クラスタリング結果である集合C(図3)の要素Znに対して、要素Znに含まれる音声IDを昇順に並べたときに連続するk個組の音声を接続した音声Xzn(i),…,zn(i+i-1)を抽出する。この作業をk=1からk=Kまで実行することで複数の音声を抽出する(図10の1003)。
その後の処理は実施例1の場合と同様であり、最適聴取区間検出は、まず音声から話者特徴量を抽出(図10の1003)した後、音声からスコアSdiff、Ssame、SSN、Snoise、Slengthを求め、最後にCostを算出する。話者特徴量の抽出や各スコア及びCostの算出方法は実施例1と同様なので省略する。
101 話者インデクスサーバ
106 検索サーバ
110 操作端末
113 話者検索用データベース
114 音声データ蓄積装置
115 音声出力装置
116 表示装置
117 入力装置
118 音声入力装置
106 検索サーバ
110 操作端末
113 話者検索用データベース
114 音声データ蓄積装置
115 音声出力装置
116 表示装置
117 入力装置
118 音声入力装置
Claims (10)
- 音声データを蓄積する音声データベースと
前記蓄積された音声データから話者の固有性が高い最適聴取区間を検出する最適聴取区間検出部と
ユーザが入力した音声または話者名に従い、当該音声または話者と同一話者が発話している音声データを前記蓄積された音声データから検索する話者検索部と
前記話者検索部により得られた音声データに関する情報を、前記最適聴取区間検出部で検出された当該音声データの話者の固有性が高い最適聴取区間に関する情報とともに提示する検索結果提示部と
を備えた話者検索システム。 - 請求項1に記載のシステムにおいて、
前記最適聴取区間検出部は、他話者音声との類似度と同一話者の音声データ内での類似度との両方もしくはいずれか一方に基づき前記最適聴取区間の前記固有性を算出し、
前記検索結果提示部は、前記最適聴取区間検出部により検出された話者の固有性が高い最適聴取区間を出力することを特徴とする,
話者検索システム。 - 請求項1に記載のシステムにおいて、
前記最適聴取区間検出部は、前記話者の固有性に加えて,音声の長さ、雑音量の有無、雑音の種類に係る情報を規定のパラメータに従って組み合わせて前記最適聴取区間の聴取コストを算出し、
前記検索結果提示部は、前記聴取コストの低い音声区間を出力することを特徴とする、
話者検索システム - 請求項3に記載のシステムにおいて、
前記最適聴取区間検出部で話者の固有性,音声の長さ、雑音量の有無、雑音の種類に係る情報から聴取コストを算出するためのパラメータをユーザが指定できるインタフェースを備えることを特徴とする、
話者検索システム - 請求項3に記載のシステムにおいて、
聴取時間の総和、聴取コストの総和のうち少なくともいずれか一方に係る条件をユーザが指定できるインタフェースを備え、
前記話者検索部は、当該条件に基づいて聴取コストの低い区間を出力することを特徴とする、
話者検索システム - 前記最適聴取区間の始端及び終端と、該音声が格納された音声ファイルを識別する識別子と、を少なくとも保持する話者検索用データベースを備え、
前記話者検索部は、前記蓄積された各音声データの話者特徴量と、前記ユーザが入力した音声の話者特徴量とに基づいて、前記話者検索用データベースの行を並べ替え、
検索結果提示部は、前記並べ替えた話者検索用データベースを提示することを特徴とする話者検索システム。 - コンピュータを
音声データを蓄積する音声データ蓄積手段と
ユーザが入力した音声または話者名に従い、当該音声と同一話者が発話している音声区間を検索する話者検索手段と、
当該検索結果の音声区間の中で話者の固有性が高い音声区間を検出する最適聴取区間検出手段と
最適聴取区間検出手段により検出された音声区間を話者検索手段により得られた話者検索結果とともに提示する検索結果提示手段
として機能させるための話者検索プログラム - 請求項7に記載の話者検索プログラムにおいて、
前記最適聴取区間検出手段は、他話者音声との類似度もしくは同一話者の音声データ内での類似度の両方もしくはいずれか一方に基づき前記最適聴取区間の前記固有性を算出し、
前記検索結果提示手段は、前記最適聴取区間検出部により検出された話者の固有性が高い最適聴取区間を出力することを特徴とする,話者検索プログラム - 請求項8に記載の話者検索プログラムにおいて、
前記最適聴取区間検出手段は、話者の固有性に加えて,音声の長さ、雑音量の有無、雑音の種類に係る情報を規定のパラメータに従って組み合わせて前記最適聴取区間の聴取コストを算出し、
前記検索結果提示手段は、前記聴取コストの低い音声区間を出力することを特徴とする、
話者検索プログラム - 請求項9に記載の話者検索プログラムにおいて、
前記話者検索手段は、入力を受け付けた聴取時間の総和、聴取コストの総和に係る条件の範囲内で聴取コストの低い区間を出力することを特徴とする、話者検索プログラム
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/059450 WO2014155652A1 (ja) | 2013-03-29 | 2013-03-29 | 話者検索システム、プログラム |
JP2015507859A JPWO2014155652A1 (ja) | 2013-03-29 | 2013-03-29 | 話者検索システム、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/059450 WO2014155652A1 (ja) | 2013-03-29 | 2013-03-29 | 話者検索システム、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014155652A1 true WO2014155652A1 (ja) | 2014-10-02 |
Family
ID=51622717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/059450 WO2014155652A1 (ja) | 2013-03-29 | 2013-03-29 | 話者検索システム、プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2014155652A1 (ja) |
WO (1) | WO2014155652A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020516935A (ja) * | 2017-04-10 | 2020-06-11 | 北京猟戸星空科技有限公司 | ユーザー登録方法、装置及び電子機器 |
JP2021152682A (ja) * | 2016-09-14 | 2021-09-30 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
WO2024176327A1 (ja) * | 2023-02-21 | 2024-08-29 | ハイラブル株式会社 | 情報処理装置、情報処理方法及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001069436A (ja) * | 1999-08-30 | 2001-03-16 | Nippon Hoso Kyokai <Nhk> | 話者情報記録装置および検索装置 |
JP2002169592A (ja) * | 2000-11-29 | 2002-06-14 | Sony Corp | 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム |
JP2009020461A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2009237353A (ja) * | 2008-03-27 | 2009-10-15 | Fujitsu Ltd | 関連付け装置、関連付け方法及びコンピュータプログラム |
JP2010286702A (ja) * | 2009-06-12 | 2010-12-24 | Nec Corp | 話者照合装置、話者照合方法およびプログラム |
JP2012053218A (ja) * | 2010-08-31 | 2012-03-15 | Nippon Hoso Kyokai <Nhk> | 音響処理装置および音響処理プログラム |
-
2013
- 2013-03-29 WO PCT/JP2013/059450 patent/WO2014155652A1/ja active Application Filing
- 2013-03-29 JP JP2015507859A patent/JPWO2014155652A1/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001069436A (ja) * | 1999-08-30 | 2001-03-16 | Nippon Hoso Kyokai <Nhk> | 話者情報記録装置および検索装置 |
JP2002169592A (ja) * | 2000-11-29 | 2002-06-14 | Sony Corp | 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム |
JP2009020461A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2009237353A (ja) * | 2008-03-27 | 2009-10-15 | Fujitsu Ltd | 関連付け装置、関連付け方法及びコンピュータプログラム |
JP2010286702A (ja) * | 2009-06-12 | 2010-12-24 | Nec Corp | 話者照合装置、話者照合方法およびプログラム |
JP2012053218A (ja) * | 2010-08-31 | 2012-03-15 | Nippon Hoso Kyokai <Nhk> | 音響処理装置および音響処理プログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021152682A (ja) * | 2016-09-14 | 2021-09-30 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
JP7342915B2 (ja) | 2016-09-14 | 2023-09-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
JP2020516935A (ja) * | 2017-04-10 | 2020-06-11 | 北京猟戸星空科技有限公司 | ユーザー登録方法、装置及び電子機器 |
US11568876B2 (en) | 2017-04-10 | 2023-01-31 | Beijing Orion Star Technology Co., Ltd. | Method and device for user registration, and electronic device |
WO2024176327A1 (ja) * | 2023-02-21 | 2024-08-29 | ハイラブル株式会社 | 情報処理装置、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2014155652A1 (ja) | 2017-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636860B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
US10593332B2 (en) | Diarization using textual and audio speaker labeling | |
US9881617B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
US7725318B2 (en) | System and method for improving the accuracy of audio searching | |
US8249870B2 (en) | Semi-automatic speech transcription | |
US9984677B2 (en) | Bettering scores of spoken phrase spotting | |
EP4113511A1 (en) | Method and system for automatically diarising a sound recording | |
CN107342077A (zh) | 一种基于因子分析的说话人分段聚类方法及系统 | |
KR101616112B1 (ko) | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 | |
JPH0990974A (ja) | 信号処理方法 | |
US20120232900A1 (en) | Speaker recognition from telephone calls | |
WO2014203328A1 (ja) | 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体 | |
CN107480152A (zh) | 一种音频分析及检索方法和系统 | |
Pandit et al. | Feature selection for a DTW-based speaker verification system | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
Verma et al. | Indian language identification using k-means clustering and support vector machine (SVM) | |
Mangalam et al. | Learning spontaneity to improve emotion recognition in speech | |
JP2011053569A (ja) | 音響処理装置およびプログラム | |
US8423354B2 (en) | Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method | |
WO2014155652A1 (ja) | 話者検索システム、プログラム | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
JP2012053218A (ja) | 音響処理装置および音響処理プログラム | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
Backstrom et al. | Forced-alignment of the sung acoustic signal using deep neural nets | |
JP2991288B2 (ja) | 話者認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13879844 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2015507859 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13879844 Country of ref document: EP Kind code of ref document: A1 |