[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2014026455A - Media data analysis device, method and program - Google Patents

Media data analysis device, method and program Download PDF

Info

Publication number
JP2014026455A
JP2014026455A JP2012166138A JP2012166138A JP2014026455A JP 2014026455 A JP2014026455 A JP 2014026455A JP 2012166138 A JP2012166138 A JP 2012166138A JP 2012166138 A JP2012166138 A JP 2012166138A JP 2014026455 A JP2014026455 A JP 2014026455A
Authority
JP
Japan
Prior art keywords
learning
content data
feature
data
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012166138A
Other languages
Japanese (ja)
Inventor
Shogo Kimura
昭悟 木村
Yasutomo Oishi
康智 大石
Masashi Sugiyama
将 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Tokyo Institute of Technology NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012166138A priority Critical patent/JP2014026455A/en
Publication of JP2014026455A publication Critical patent/JP2014026455A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a media data analysis device capable of giving a piece of precise tag information even under a situation where sufficient scale of learning data is hardly obtained.SOLUTION: A dimension reduced space learning section 3 learns a matrix representing a map for reducing the number of dimensions of a feature vector by applying a dimension reduction technique with semi-teacher to generate feature vectors whose dimensions have been reduced. A classifier learning section 4 learns a classifier for each tag based on a posterior probability estimation based on the feature vectors whose dimensions have been reduced. A feature dimension reduction section 6 generates a feature vector whose dimension has been reduced from extracted feature vector with respect to input media data. A classifier estimation section 7 classifies whether the input media data should be given with a tag on each tag based on the learnt classifier and outputs a tag vector.

Description

本発明は、メディアデータ解析装置、方法、及びプログラムに関する。   The present invention relates to a media data analysis apparatus, method, and program.

与えられた画像や音楽などのメディアに含まれる構成要素・情景・行動、ひいてはそれらの混合連結によって成り立つ意味(semantics)を獲得し、言語情報を介してテキストラベルという形でユーザに提示する自動メディアアノテーションの問題(図11(a))は、パターン認識分野における草創期からの重要課題の1つであるものの、未だ本質的な解決には至っていないのが現状である。   Automatic media that acquires the components (scenes) included in the media such as images and music, scenes, and actions, and consequently the semantics that are formed by their mixed connection, and presents them to the user in the form of text labels via linguistic information Although the annotation problem (FIG. 11 (a)) is one of the important issues from the early days in the pattern recognition field, it has not yet reached an essential solution.

また、自動アノテーション問題に類似する問題として、ユーザが思い描くsemanticsをテキストの形で計算機に与え、そのテキストに適合する画像を提示するメディア検索の問題(図11(b))が挙げられる。この問題は、semantics・言語情報・メディアの相互の対応関係から考えると、自動メディアアノテーションの双対問題として捉えることができると共に、自動メディアアノテーション同様、パターン認識分野における重要課題の1つである。しかし、この問題もまだ本質的な解決には至っていない。また、この数年で、これら2つの双対問題を統一的な枠組で記述するメディアアノテーションリトリーバルについても盛んに研究されている。本発明は、機械学習的なアプローチに基づいてメディア(特に、音響信号)へのアノテーションの問題に関する。   Further, as a problem similar to the automatic annotation problem, there is a media search problem (FIG. 11B) in which semantics envisioned by the user are given to the computer in the form of text and an image matching the text is presented. Considering the correspondence between semantics, language information, and media, this problem can be regarded as a dual problem of automatic media annotation and, like automatic media annotation, is an important issue in the field of pattern recognition. However, this problem has not yet been resolved. In recent years, media annotation retrieval has been actively studied to describe these two dual problems in a unified framework. The present invention relates to the problem of annotation on media (especially acoustic signals) based on a machine learning approach.

機械学習的なアプローチにおける最重要課題の1つとして、良質な学習データをどれだけ数多く集められるか、という点が挙げられる。FlickrやLast.fmなど、近年著しい発展を遂げているメディア共有サイトを介して大量のラベル付メディアを取得できる環境が整いつつあるが、これらのサイトから収集したラベルの信頼性は必ずしも高くない。その一方で、信頼性の高いラベルが付与された大量のメディアを集めるもしくは作成することは多大な労力を伴う。これらの議論から、信頼性の高いラベルが付与された少数のメディアと、ラベルの信頼性に乏しい大量のメディアとを併用した機械学習手法が重要な役割を果たす。特に、信頼性が乏しいラベルを廃棄してラベルなしデータとして扱う半教師付学習に焦点を当てる。   One of the most important issues in the machine learning approach is how many good quality learning data can be collected. Although it is becoming possible to acquire a large amount of labeled media through media sharing sites such as Flickr and Last.fm, which have been developing significantly in recent years, the reliability of labels collected from these sites is not necessarily high. On the other hand, collecting or creating a large amount of media with highly reliable labels is labor intensive. From these discussions, a machine learning method using a small number of media with highly reliable labels and a large amount of media with low label reliability plays an important role. In particular, we focus on semi-supervised learning that discards unreliable labels and treats them as unlabeled data.

従来、メディアとラベルとの共起関係を考慮した潜在変数空間を設計し、潜在変数空間内での隣接関係がラベルの類似性を強く反映させることで、半教師付学習を適用できる性質を学習データに与えた研究が知られている(例えば、非特許文献1、非特許文献2)。   Traditionally, designing a latent variable space that takes into account the co-occurrence relationship between media and labels, and learning the nature that semi-supervised learning can be applied by making the adjacency relationship in the latent variable space strongly reflect the similarity of labels Studies given to data are known (for example, Non-Patent Document 1, Non-Patent Document 2).

木村昭悟、杉山将、中野拓帆、亀岡弘和、坂野鋭、“SSCDE:画像認識検索のための半教師正準密度推定法、”画像の認識・理解シンポジウム予稿集,2010年.Shogo Kimura, Masaru Sugiyama, Takuho Nakano, Hirokazu Kameoka, Akira Sakano, “SSCDE: Semi-Teacher Canonical Density Estimation Method for Image Recognition Retrieval,” Proceedings of Symposium on Image Recognition and Understanding, 2010. J. Takagi, Y. Ohishi, A. Kimura, M. Sugiyama, M. Yamada, and H. Kameoka, “ Automatic audio tag classification via semi-supervised canonical density estimation, ”in Proc. ICASSP, pp.2232−2235, 2011年.J. Takagi, Y. Ohishi, A. Kimura, M. Sugiyama, M. Yamada, and H. Kameoka, “Automatic audio tag classification via semi-supervised canonical density estimation,” in Proc. ICASSP, pp. 2232-2235, 2011.

非特許文献1、2に示される従来研究では、アノテーションのために用いる分類器を事例ベースで設計しているため、非常に大規模な学習データを用意しなければ十分なアノテーション精度が得られない、という問題がある。   In the conventional research shown in Non-Patent Documents 1 and 2, the classifier used for annotation is designed on a case basis, so sufficient annotation accuracy cannot be obtained unless very large learning data is prepared. There is a problem.

本発明は、上記の問題を解決するためになされたものである。その目的は、十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができるメディアデータ解析装置、方法、及びプログラムを提供することにある。   The present invention has been made to solve the above problems. An object of the present invention is to provide a media data analysis apparatus, method, and program capable of providing tag information with high accuracy even in a situation where learning data of a sufficient scale cannot be obtained.

上記の目的を達成するために本発明に係るメディアデータ解析装置は、与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置であって、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段と、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段と、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段と、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段と、入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段と、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段と、前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段とを含んで構成されている。   In order to achieve the above object, a media data analysis apparatus according to the present invention is a media data analysis apparatus that adds tag information, which is information for explaining the content data, to given content data, Content data that is an element of a tagged learning data set that is a set of content data to which tag information is assigned in advance, and content data that is an element of an untagged learning data set that is a set of content data to which tag information is not given A learning data feature extracting means for extracting a feature vector, which is a vector expressing the characteristics of the content data, and the feature vector extracted for each content data in the tagged learning data set and the pre-assigned Tag information and each content of the untagged learning data set Based on the feature vector extracted for data, a dimension reduction space learning means for learning a matrix representing a mapping for reducing the number of dimensions of the feature vector, and the dimension reduction space learning means learned by the dimension reduction space learning means Dimension-reduced feature generating means for generating the feature vector with reduced dimensions from each of the feature vectors extracted for each content data of the tagged learning data set based on a matrix; and the tagged learning data A posteriori for classifying tag information to be assigned to content data based on the feature vector with reduced dimensions and the pre-assigned tag information generated by the dimension reduction feature generation means for each piece of content data in the set Classification model learning means for learning a classification model based on probability estimation and an input controller From the feature vector extracted for the input content data based on the matrix learned by the dimension reduction space learning means and the input data feature extraction means for extracting the feature vector from the component data Feature dimension reduction means for generating the reduced feature vector, the feature vector generated by the feature dimension reduction means, and the input content data based on the classification model learned by the classification model learning means And classifying means for classifying the tag information to be assigned to.

本発明に係るメディアデータ解析方法は、与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置におけるメディアデータ解析方法であって、学習用データ特徴抽出手段によって、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出し、次元削減空間学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習し、次元削減特徴生成手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成し、分類モデル学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習し、入力データ特徴抽出手段によって、入力されたコンテンツデータから、前記特徴ベクトルを抽出し、特徴次元削減手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成し、分類手段によって、前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する。   A media data analysis method according to the present invention is a media data analysis method in a media data analysis apparatus for adding tag information, which is information for explaining content data, to given content data. Content data that is an element of a tagged learning data set that is a set of content data to which the tag information is assigned in advance by the extraction means, and an untagged learning data set that is a set of content data to which no tag information is given. The feature vector, which is a vector representing the characteristics of the content data, is extracted from each of the content data as elements, and the feature vector extracted for each content data of the tagged learning data set by the dimension reduction space learning means. And pre-assigned tag information and A matrix representing a mapping for reducing the number of dimensions of the feature vector is learned based on the feature vector extracted for each content data of the untagged learning data set, Based on the matrix learned by the dimension reduction space learning means, each of the feature vectors extracted for each content data of the tagged learning data set is generated, and the feature vectors with reduced dimensions are generated and classified. Based on the feature vector with reduced dimensions and the pre-assigned tag information generated by the dimension reduction feature generation unit for each content data in the tagged learning data set by the model learning unit, Classification model based on posterior probability estimation for classifying tag information to be assigned The feature vector is extracted from the input content data by the input data feature extraction means, and the input is performed based on the matrix learned by the dimension reduction space learning means by the feature dimension reduction means. The feature vector with reduced dimensions is generated from the feature vector extracted with respect to the extracted content data, and the feature vector generated by the feature dimension reduction unit and the classification model learning unit learn by the classification unit Based on the classification model, the tag information to be given to the input content data is classified.

本発明に係るプログラムは、与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するためのプログラムであって、コンピュータを、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段、入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段、及び前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段として機能させるためのプログラムである。   The program according to the present invention is a program for assigning tag information, which is information for explaining the content data, to the given content data, the computer providing the content data to which the tag information is assigned in advance. Characteristics of content data from each of content data that is an element of a tagged learning data set that is a set of and content data that is an element of an untagged learning data set that is a set of content data to which no tag information is given. Learning data feature extracting means for extracting a feature vector that is a vector to be expressed, the feature vector extracted for each content data of the tagged learning data set, the tag information given in advance, and the untagged learning data Extracted for each content data of the set A dimension reduction space learning means for learning a matrix representing a mapping for reducing the number of dimensions of the feature vector based on the vector, and the tag based on the matrix learned by the dimension reduction space learning means Dimension reduction feature generation means for generating the feature vector with reduced dimensions from each of the feature vectors extracted for each content data in the tagged learning data set, and the dimension for each content data in the tagged learning data set Learning a classification model based on posterior probability estimation for classifying tag information to be assigned to content data based on the feature vector with reduced dimensions generated by the reduction feature generation means and the tag information given in advance. The classification model learning means for performing the feature vector from the input content data Based on the matrix learned by the input data feature extraction means and the dimension reduction space learning means, the feature vector with reduced dimensions is generated from the feature vector extracted for the input content data. Classifying tag information to be given to the input content data based on the feature dimension reducing means, the feature vector generated by the feature dimension reducing means, and the classification model learned by the classification model learning means It is a program for functioning as a classification means.

以上説明したように、本発明のメディアデータ解析装置、方法、及びプログラムによれば、タグ付き学習データ集合及びタグなし学習データ集合の各コンテンツデータについて抽出された特徴べクトルに基づいて、特徴ベクトルの次元数を削減するための写像を表わす行列を学習して、タグ付き学習データ集合の各コンテンツデータの特徴ベクトルに対して次元を削減した特徴ベクトルを用いて、事後確率推定に基づく分類モデルを学習し、入力されたコンテンツデータの特徴ベクトルに対して次元を削減した特徴ベクトルについて、学習された分類モデルに基づくタグ情報の分類を行うことにより、十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができる、という効果が得られる。   As described above, according to the media data analysis apparatus, method, and program of the present invention, the feature vector is based on the feature vector extracted for each content data of the tagged learning data set and the untagged learning data set. Learning a matrix that represents a mapping to reduce the number of dimensions, and using a feature vector with reduced dimensions for each content data feature vector in a tagged learning data set, a classification model based on posterior probability estimation Even in situations where sufficient scaled learning data cannot be obtained by classifying tag information based on the learned classification model for feature vectors that have been learned and reduced in dimension with respect to feature vectors of input content data. The effect that tag information can be provided with high accuracy is obtained.

(a)タグベクトルの作成を説明するための図、及び(b)分類器の学習を説明するための図である。(A) It is a figure for demonstrating preparation of a tag vector, (b) It is a figure for demonstrating learning of a classifier. 関数値qi(a|x;α)の計算方法を説明するための図である。It is a diagram for explaining a method of calculating; | (α x a) function value q i. 基底関数ベクトルφ(x,0)同士の乗算方法を説明するための図である。It is a figure for demonstrating the multiplication method of basis function vector (phi) (x, 0). 半教師学習の枠組み内での分類器の学習方法を説明するための図である。It is a figure for demonstrating the learning method of the classifier within the framework of semi-teacher learning. 本発明の第1の実施の形態に係るメディアデータ解析装置の一構成例を示すブロック図である。It is a block diagram which shows the example of 1 structure of the media data analyzer which concerns on the 1st Embodiment of this invention. 特徴ベクトルを抽出する方法を説明するための図である。It is a figure for demonstrating the method of extracting a feature vector. 本発明の第1の実施の形態に係るメディアデータ解析装置における分類器学習処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the classifier learning process routine in the media data analyzer which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るメディアデータ解析装置におけるタグ付与処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the tag provision process routine in the media data analyzer which concerns on the 1st Embodiment of this invention. 本発明の第2の実施の形態に係るメディアデータ解析装置の一構成例を示すブロック図である。It is a block diagram which shows the example of 1 structure of the media data analyzer which concerns on the 2nd Embodiment of this invention. ROC曲線とAUCを示す図である。It is a figure which shows a ROC curve and AUC. (a)メディアアノテーションを説明するための図、及び(b)メディア検索を説明するための図である。(A) It is a figure for demonstrating a media annotation, (b) It is a figure for demonstrating a media search.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

まず、コンテンツデータにタグベクトルを付与する原理について説明する。   First, the principle of adding a tag vector to content data will be described.

<概要>
識別学習に基づくアプローチで教師付・半教師付分類器を設計することで、十分な規模の学習データが得られない状況でも高い精度を確保できるアプローチを取る。特に、分類器としてサポートベクターマシン(SVM)、最小二乗確率的分類器(LSPC)、ラプラシアンSVM を用いて、この分類器をメディアとラベルとの共起関係を考慮した潜在変数空間の上で駆動することにより、精度の高いアノテーションを可能にする。
<Overview>
By designing supervised and semi-supervised classifiers using an approach based on discriminative learning, we take an approach that can ensure high accuracy even in situations where learning data of sufficient scale cannot be obtained. In particular, using support vector machines (SVM), least squares probabilistic classifiers (LSPC), and Laplacian SVM as classifiers, this classifier is driven on the latent variable space considering the co-occurrence relationship between media and labels. By doing so, it enables highly accurate annotation.

<教師付き学習に基づく自動タグ付け手法>
<問題の定式化>
メディアデータへの自動タグ付けは、例えばメディアデータとして音響信号を考える場合、クエリとなる音素材sqが入力された時、あらかじめ選定されたタグの種類の集合V={v1,v2,...,v|V|}から、音素材sqを説明する適切なタグを選んで付与するという問題である。ここで、sqはフィールドレコーディングで録音された音源や効果音などの音響信号であり、それぞれのタグviは「鳥の声」、「雨」、「車」などのその音素材に含まれる音や、「森林」、「街」などの音素材全体を表す単語、あるいはループミュージック用の素材や効果音であれば「ループミュージック」や「効果音」などの用途を表す単語などである。入力sqに対する出力は、タグの種類数|V|と等しい数の次元数を持つベクトルyqで表す。すなわち、i番目のタグviを付与する場合には、ベクトルyqのi番目の要素の値yq,iを1とし、付与しない場合には0とする。以下では、このようなタグの情報を表すベクトルをタグベクトルと呼ぶ。メディアデータ(上記の説明では音素材)sqから抽出される特徴ベクトルをxqで表すと、上記の問題はxqを入力として、適切なタグベクトルyqを出力する関数f′(・)を求める問題として表すことができる。
<Automatic tagging method based on supervised learning>
<Formulation of problem>
For example, when an audio signal is considered as media data, automatic tagging of media data is performed when a sound material s q serving as a query is input, and a set of tag types V = {v 1 , v 2 , ..., v | V | }, and selecting and assigning an appropriate tag that describes the sound material s q . Here, s q is an acoustic signal such as a sound source or sound effect recorded by field recording, and each tag v i is included in the sound material such as “bird's voice”, “rain”, “car”, etc. For example, a word representing an entire sound material such as sound or "forest" or "town", or a word representing an application such as "loop music" or "sound effect" if it is a material or sound effect for loop music. The output for the input s q is represented by a vector y q having a number of dimensions equal to the number of tag types | V |. That is, the value y q, i of the i-th element of the vector y q is set to 1 when the i-th tag v i is added, and 0 when not added. Hereinafter, a vector representing such tag information is referred to as a tag vector. When the feature vector extracted from the media data (sound material in the above description) s q is represented by x q , the above problem is a function f ′ (•) that takes x q as an input and outputs an appropriate tag vector y q Can be expressed as a problem.

f(・)は決定関数と呼ばれ、入力ベクトルxqについて、各タグを付与すべきかどうかを決定する基準となるスコアを計算し、それをタグの種類数|V|と等しい数の次元数を持つ実数ベクトルとして出力する。また、g(・)は識別関数と呼ばれ、決定関数f(・)で得られた実数ベクトルから、タグの種類数|V|と等しい数の次元数を持つ2値ベクトルyqを出力する。一般に、このような多次元の出力を行う関数を一度に求めようとすると問題が複雑になる。そのため、本発明ではこの出力の各次元を互いに独立であると仮定することで問題を簡単化する。すなわち、図1のように、タグを付与するかしないかの決定はタグ毎に行い、それらを全てまとめて、タグベクトルyqを作成する。したがって、関数f′(・)は、タグごとの出力を決定する|V|個の関数f′i(・)を使って下記のように表現できる。 f (・) is called a decision function, and for the input vector x q , a score that is a criterion for deciding whether or not each tag should be assigned is calculated, and this is the number of dimensions equal to the number of tag types | V | Output as a real vector with. Also, g (•) is called a discriminant function, and outputs a binary vector y q having a number of dimensions equal to the number of tag types | V | from the real vector obtained by the decision function f (•). . In general, it is complicated to obtain a function that performs such multi-dimensional output at once. Therefore, the present invention simplifies the problem by assuming that the dimensions of this output are independent of each other. That is, as shown in FIG. 1, the determination of whether or not to grant the tag performs for each tag together all of them, to create a tag vector y q. Accordingly, the function f ′ (•) can be expressed as follows using | V | functions f ′ i (•) that determine the output for each tag.


ただし、Xは、ベクトルまたは行列Xの転置を表わす。

However, X T represents the transpose of vector or matrix X.

つまり、この問題は2値の出力を行う関数f′i(・)を求める|V|個の問題の集合に分割される。個々の問題は入力xqが与えられた時に、タグviを付与するかしないかを求める問題であるから、2値分類問題の枠組みで解くことができる。すなわち、タグviが付与されるクラスと、付与されないクラスのいずれかのクラスにxqを分類する問題を解けばよい。本発明では、機械学習に基づく分類手法を用いてこの2値分類問題を解く。 In other words, this problem is divided into a set of | V | problems that find a function f ′ i (•) that outputs binary values. Since each problem is a problem for determining whether or not to attach a tag v i when an input x q is given, it can be solved in the framework of a binary classification problem. That is, it is only necessary to solve the problem of classifying x q into one of the class to which the tag v i is assigned and the class to which the tag v i is not given. In the present invention, this binary classification problem is solved using a classification method based on machine learning.

機械学習に基づく分類手法の1つの例として、入力xqに対して、まず分類を行う基準となる何らかのスコアを計算し、そのスコアと前もって定められた閾値を比較して分類を行う方法がある。すなわち、スコアを計算する関数fi(・)に関する閾値をθiで表したとき、分類を行う関数f′i(・)は As an example of a classification method based on machine learning, there is a method in which a certain score as a reference for classification is first calculated for the input x q , and classification is performed by comparing the score with a predetermined threshold value. . That is, when the threshold for the function f i (•) for calculating the score is represented by θ i , the function f ′ i (•) for classification is

と表される。スコアを計算する関数fi(・)は一般に決定関数と呼ばれる。教師付き学習に基づく分類手法では、あらかじめどちらのクラスに属するか分かっている学習用のデータを用いて決定関数fi(・)を求める。つまり、学習用の音響信号データ(メディアデータ)に、タグ付けが行われているものとする。以下では、この学習用の音素材(メディアデータ)を

で表し、タグ付き訓練標本、あるいは単にタグ付き標本と呼ぶ。また、NT:=|D(T)|はタグ付き訓練標本の数を表す。i番目のタグに対する分類器の学習の際には、全てのタグの情報

が用いられることはなく、i番目のタグが付与されているかどうかを表す情報

のみを用いる。
It is expressed. The function f i (•) for calculating the score is generally called a decision function. In the classification method based on supervised learning, seek a decision function f i (·) using the data for learning that you know belongs to either advance class. That is, it is assumed that tagging is performed on the acoustic signal data (media data) for learning. In the following, this learning sound material (media data)

And is called a tagged training specimen, or simply a tagged specimen. N T : = | D (T) | represents the number of tagged training samples. When learning the classifier for the i-th tag, information on all tags

Is used, and indicates whether the i-th tag is attached

Use only.

<教師付き次元削減手法>
タグごとに分類器を学習する場合、そのタグがメディアデータに付与されるか否かという情報しか使えない。実際は、異なるタグの間には相関があり、例えば「雨」というタグであれば「嵐」や「風」、「雷」などのタグと同時に付与されることが多いが、「シンセサイザー」や「ループミュージック」といったようなタグと同時に付与されることはあまりない。このようなタグの共起情報を用いれば、よりタグ付けの精度を向上させられる可能性がある。タグの共起情報はタグを個別にではなく、一度に扱うようにすれば利用することができるが、全てのタグを付与するか否かを一度に出力する関数を学習しようとすると問題が複雑になる。そこで、本発明では、全てのタグを一度に扱える次元削減手法、正準相関分析(CCA:Canonical Correlation Analysis、文献:H. Hotelling, “ Analysis of complex of statistical variables into principal components ”, J. Educ. Psych., Vol.24, 1933.)を用いることで、タグの共起情報を利用する。
<Supervised dimension reduction method>
When learning a classifier for each tag, only information about whether the tag is attached to media data can be used. Actually, there is a correlation between different tags. For example, tags such as “rain” are often given at the same time as tags such as “storm”, “wind”, and “thunder”, but “synthesizers” and “ It is not often given at the same time as a tag such as “Loop Music”. If such tag co-occurrence information is used, the tagging accuracy may be further improved. Tag co-occurrence information can be used by handling tags at once rather than individually, but the problem is complicated when trying to learn a function that outputs all tags at once or not become. Therefore, in the present invention, a dimension reduction method that can handle all tags at once, canonical correlation analysis (CCA: Canonical Correlation Analysis, literature: H. Hotelling, “Analysis of complex variables into principal components”, J. Educ. Psych., Vol.24, 1933.), the tag co-occurrence information is used.

CCAは2つの確率変数の組が与えられたとき、その相関を最大化させる写像を求める手法である。今回扱っている問題においては、二つの確率変数は特徴ベクトルとタグベクトルに対応するため、それらを写像した先の(wCCA xTxと(wCCA Tyの相関を最大化するような写像wCCA x、wCCA yを求めることになる。ここで、wCCA xは特徴ベクトルと等しいdimx次元、wCCA yはタグベクトルに等しいdimy:=|V|次元のベクトルである。(wCCA xTxと(wCCA Tyの相関ρは次のように与えられる。 CCA is a technique for obtaining a mapping that maximizes the correlation of a set of two random variables. In the problem we are dealing with, since the two random variables correspond to the feature vector and the tag vector, we maximize the correlation between the (w CCA x ) T x and (w CCA y ) T y that map them Such a mapping w CCA x , w CCA y is obtained. Here, w CCA x is a dim x dimension equal to the feature vector, and w CCA y is a dim y : = | V | dimension vector equal to the tag vector. The correlation ρ between (w CCA x ) T x and (w CCA y ) T y is given as follows.

ただし、SxxNT j=1xjxT j、SyyNT j=1yjyT jはそれぞれ音響特徴ベクトルとタグベクトルの自己分散、SxyNT j=1xjyT jは音響特徴ベクトルとタグベクトルの共分散である。また、xやyの平均ベクトルを0ベクトルと仮定する。そうでない場合にはあらかじめ平均ベクトルを各ベクトルから引き算することにより平均ベクトルを0にしておく。ρの値は写像wCCA x、wCCA yのスケールによらないため、適切にスケーリングすることで、ρの最大化問題は、 Where S xx = Σ NT j = 1 x j x T j and S yy = Σ NT j = 1 y j y T j are the self-distribution of the acoustic feature vector and the tag vector, S xy = Σ NT j = 1 x j y T j is the covariance of the acoustic feature vector and the tag vector. Further, an average vector of x and y is assumed to be a 0 vector. Otherwise, the average vector is set to 0 by subtracting the average vector from each vector in advance. Since the value of ρ does not depend on the scale of the mappings w CCA x , w CCA y , by scaling appropriately, the problem of maximizing ρ is

となる。これをさらにLagrangeの双対形に直し、wCCA xとwCCA yで偏微分した値を0と置くと、最大の相関を与える写像は下記の一般化固有値問題の解と等しくなる。 It becomes. If this is further converted into a Lagrange dual form and the value obtained by partial differentiation with w CCA x and w CCA y is set to 0, the mapping that gives the maximum correlation is equivalent to the solution of the generalized eigenvalue problem below.

ただし、Syx=ST xyである。 However, S yx = S T xy .

この固有値問題は、min(dimx,dimy)×2個の固有ベクトルを解として得ることができる。ただし、それらが全て相関を最大化させる写像として使えるわけではない。固有ベクトルの一つを(wCCA(1) x,wCCA(1) y)とすると、wCCA(1) xを−wCCA(1) xに置き換えたベクトル(−wCCA(1) x, wCCA(1) y)もまた固有ベクトルとなることは、式(8)から簡単に示される。この二対の固有ベクトルは絶対値が等しい正と負の固有値を持ち、正の固有値は正の相関を最大化する写像、負の固有値は負の相関を最大化する写像である。したがって、次元削減に用いることができるのは正の固有値を持つ固有ベクトルに対応するmin(dimx,dimy)個の写像のみとなる。CCAの解として得られた写像を大きい固有値を持つ固有ベクトルに対応するものから並べた行列をU=(wCCA(1) x,...,wCCA(min(dimx,dimy)) x)と置く。この行列を下記のように変換行列として用いれば、次元削減を行うことができる。 This eigenvalue problem can be obtained by solving min (dim x , dim y ) × 2 eigenvectors. However, they cannot all be used as mappings that maximize correlation. If one eigenvector and (w CCA (1) x, w CCA (1) y), w CCA (1) x the -w CCA (1) vector was replaced by x (-w CCA (1) x , It can be easily shown from equation (8) that w CCA (1) y ) is also an eigenvector. These two pairs of eigenvectors have positive and negative eigenvalues having the same absolute value. A positive eigenvalue is a mapping that maximizes a positive correlation, and a negative eigenvalue is a mapping that maximizes a negative correlation. Therefore, only min (dim x , dim y ) mappings corresponding to eigenvectors having positive eigenvalues can be used for dimension reduction. U = (w CCA (1) x , ..., w CCA (min (dimx, dimy)) x ) is a matrix in which the mapping obtained as a solution of CCA is arranged from those corresponding to eigenvectors with large eigenvalues. Put. If this matrix is used as a transformation matrix as described below, dimension reduction can be performed.

ここで、次元削減後のベクトルを音響特徴ベクトルx′jとし、その次元数はmin(dimx,dimy)となる。 Here, the vector after the dimension reduction is an acoustic feature vector x ′ j, and the number of dimensions is min (dim x , dim y ).

<教師付き学習に基づく分類器>
メディアデータの自動タグ付けに適用する教師付き学習に基づく分類手法を説明する。一つ目の手法は、サポートベクターマシン(SVM:Support Vector Machine)である。SVMは音楽のジャンル分類や曲調認識などの問題に対しても適用され、良い成果を上げている。二つ目の手法は、確率的分類器である最小二乗確率的分類器(LSPC:Least-Squares Probabilistic Classifier、文献:M. Sugiyama,“Superfast-Trainable Multi-Class Probabilistic Classifier by Least-Squares Posterior Fitting”,in IEICE Transactions on Information and Systems,Vol.E93-D, pp.2690-2701, 2010. Revised on June 26, 2011.)を用いる。LSPCは近年提案された確率的分類手法であり、学習を行う際に解が解析的に求められるため、高速に学習を行うことができ分類精度も良い。
<Classifier based on supervised learning>
A classification method based on supervised learning applied to automatic tagging of media data is described. The first method is a support vector machine (SVM). SVM has also been successfully applied to issues such as music genre classification and tone recognition. The second method is the Least-Squares Probabilistic Classifier (LSPC), a probabilistic classifier (literature: M. Sugiyama, “Superfast-Trainable Multi-Class Probabilistic Classifier by Least-Squares Posterior Fitting”). , in IEICE Transactions on Information and Systems, Vol. E93-D, pp. 2690-2701, 2010. Revised on June 26, 2011.). LSPC is a probabilistic classification method proposed in recent years, and since a solution is obtained analytically when learning is performed, learning can be performed at high speed and classification accuracy is also good.

<サポートベクターマシン(SVM)>
SVMはマージンという概念を用いて決定関数を学習させる2値分類手法である。マージンとは、正のクラス(yj,i=1)と負のクラス(yj,i=0)を分ける超平面から、最も近い正例の訓練標本あるいは負例の訓練標本までの特徴空間における距離である。SVMはこのマージンの幅を最大化させるように決定関数の学習を行う。
<Support Vector Machine (SVM)>
SVM is a binary classification method that learns a decision function using the concept of margin. The margin is the feature space from the hyperplane that separates the positive class (y j, i = 1) and the negative class (y j, i = 0) to the nearest positive or negative training sample. The distance at. SVM learns the decision function to maximize the width of this margin.

SVMは決定関数として下記のような線形モデルを用いる。   SVM uses the following linear model as a decision function.

ただし、ここでφSVM(・)は何らかの特徴空間への写像である。なお、マージンを最大化するuSVMはuSVMNT j=1αjφSVM(xj)という形で与えられることが知られているため、上記の決定関数は Here, φ SVM (•) is a mapping to some feature space. The u SVM that maximizes the margin is known to be given in the form u SVM = Σ NT j = 1 α j φ SVM (x j ).

と具体的に記述できる。ここで、φSVM(・)に対応するカーネル関数κ(・)を用いた。SVMはクラス分類の際の閾値はθi=0に定められているため、決定境界はfSVM i(x)=0によって表される超平面となる。したがって、決定関数から訓練標本xjまでの距離は|fSVM i(xj)|/||uSVM||で計算できる(||u||はユークリッドノルムを表わす)。さらに全ての訓練標本を正しく分類する決定関数ではyj,i=0のとき、fSVM i<0、yj,i=1のとき、fSVM i>0となるので、全ての訓練標本xjに対して(2yj,i−1)fSVM i(xj)>0が成り立つ。よってマージンの幅は Can be described specifically. Here, the kernel function κ (•) corresponding to φ SVM (•) was used. Since the threshold for classifying SVM is set to θ i = 0, the decision boundary is a hyperplane represented by f SVM i (x) = 0. Accordingly, the distance from the decision function to the training sample x j can be calculated by | f SVM i (x j ) | / || u SVM || (where || u || represents the Euclidean norm). Furthermore all y j is a decision function to correctly classify training samples, when i = 0, f SVM i < 0, y j, when i = 1, f SVM i> Since the 0, all training samples x (2y j, i -1) with respect to j f SVM i (x j) > 0 holds. So the margin width is

となる。この値はuSVMのスケールには依存しないので、(2yj,i−1)fSVM i(xj)の最小値が1になるようにuSVMのスケーリングを行うと、マージンの幅の最大化は1/||uSVM||の最大化、すなわち||uSVM||2を最小化することと等価になる。ただし、一般の分類問題は特徴空間での2つのクラスの間に重なりがあり、全ての正例と負例を完全に分ける決定境界を求めることはできないか、求めることができたとしても決定境界が複雑になりすぎて、分類器の汎化性能が低下する可能性がある。したがって、マージン境界はfSVM i(x)=±1となる2つの超平面に定め、(2yj,i−1)fSVM i(xj)<1となる訓練標本、すなわちマージンの内側あるいは決定境界の誤った側に存在する訓練標本に対してはペナルティを課すことで、誤分類を許すようにすることが一般的である。この場合のSVMはソフトマージンSVMと呼ばれる。ペナルティとして正しい側のマージン境界からの距離に等しいHinge損失ξj=max{0,1−(2yj,i−1)fSVM i(xj)}を用いる。ペナルティの項を加えたソフトマージンSVMの最適化問題は下記のようになる。 It becomes. This value is independent of the scale of the u SVM, (2y j, i -1) if the minimum value of f SVM i (x j) is scaling of u SVM to be 1, the maximum width of the margin Is equivalent to maximizing 1 / || u SVM ||, ie, minimizing || u SVM || 2 . However, the general classification problem has an overlap between two classes in the feature space, so it is not possible to find a decision boundary that completely separates all positive examples and negative examples, or even if it can be obtained May become too complex, and the generalization performance of the classifier may decrease. Therefore, the margin boundary is defined in two hyperplanes where f SVM i (x) = ± 1, and the training sample where (2y j, i −1) f SVM i (x j ) <1, ie, inside the margin or It is common to allow a misclassification by penalizing training samples that are on the wrong side of the decision boundary. The SVM in this case is called a soft margin SVM. As a penalty, Hinge loss ξ j = max {0,1− (2y j, i −1) f SVM i (x j )} equal to the distance from the margin boundary on the correct side is used. The optimization problem of the soft margin SVM with the penalty term added is as follows.

ただし、Cはマージンの大きさとペナルティの比重を決めるハイパーパラメータである。   However, C is a hyper parameter that determines the size of the margin and the specific gravity of the penalty.

この最適化問題はLagrangeの双対形で表した後、uSVMとbでそれぞれ偏微分した結果を0と置くと、最終的に下記の最適化問題を得ることができる。 This optimization problem is expressed in Lagrange dual form, and the result of partial differentiation with u SVM and b is set to 0. Finally, the following optimization problem can be obtained.

ここで、βj:=(2yj,i −1)αjは決定関数を定めるパラメータであり、eNTは全ての要素の値が1のNT次元ベクトル、行列K(T)はK(T) j,l:=κ(xj,xl)によって定義される(NT×NT)次元のGram行列、行列Yは対角成分がYj,j:=2yj,i−1によって定められる(NT×NT)次元の対角行列である。 Here, β j: = (2y j , i -1) α j is a parameter defining the decision function, e NT is N T dimensional vector values of all the elements 1, matrix K (T) is K ( (N T × N T ) dimensional Gram matrix defined by T) j, l : = κ (x j , x l ), matrix Y has diagonal components Y j, j : = 2y j, i −1 (N T × N T ) -dimensional diagonal matrix defined by

SVMの最適化問題である式(14)は解析解を求めることができないため、2次計画法を用いて最適化を行う。最適解β*=(β* 1,...,β* NT)Tが求められれば、そこからα* j:=(2yj,i−1)β* jとして決定関数のパラメータを求めることができ、式(11)を用いて決定関数の計算が行えるようになる。 Since Equation (14), which is an optimization problem of SVM, cannot obtain an analytical solution, optimization is performed using quadratic programming. If the optimal solution β * = (β * 1 , ..., β * NT ) T is determined, then determine the parameter of the decision function as α * j : = (2y j, i −1) β * j The decision function can be calculated using equation (11).

<最小二乗確率的分類器(LSPC)>
LSPCは事後確率推定に基づく分類器であり、下記の線形モデルを用いて事後確率推定する。
<Least squares probabilistic classifier (LSPC)>
LSPC is a classifier based on posterior probability estimation, and estimates posterior probability using the following linear model.

ここで、φj,a′(・)はdimxを特徴ベクトルxの次元としたとき、すべての可能な入力(x,a)∈Rdimx×{0,1}に対してφj,a′(x,a)≧0を満たす基底関数であり、 Here, φ j, a '(· ) is when the dimension of the feature vector x to dimx, all possible inputs (x, a) ∈R dimx φ j with respect × {0,1}, a' a basis function that satisfies (x, a) ≧ 0,

はすべての基底関数をベクトル表現にしたもの、 Is a vector representation of all basis functions,

は学習すべきパラメータである。なお、LSPCは多クラスの分類問題を扱うことのできる手法であるが、ここではクラスをa=0,1の2クラスとする。以下では基底関数として、文献:M.Sugiyama, “ Superfast-Trainable Multi-Class Probabilistic Classifier by Least-Squares Posterior Fitting”, in IEICE Transactions on Information and Systems, Vol.E93-D, pp.2690-2701, 2010. Revised on June 26, 2011. において用いられる下記のカーネルモデルを考える。 Is a parameter to be learned. Note that LSPC is a technique that can handle multi-class classification problems, but here the classes are assumed to be two classes with a = 0,1. In the following, as a basis function, the document: M. Sugiyama, “Superfast-Trainable Multi-Class Probabilistic Classifier by Least-Squares Posterior Fitting”, in IEICE Transactions on Information and Systems, Vol.E93-D, pp.2690-2701, 2010 Consider the following kernel model used in Revised on June 26, 2011.

ただし、δ(・)は下記により与えられるクロネッカーのデルタである。   Where δ (·) is the Kronecker delta given by:

LSPCは下記の式から計算される、真のクラス事後確率と推定されたクラス事後確率の二乗誤差を最小化するようにパラメータαを決定する。   The LSPC determines the parameter α so as to minimize the square error between the true class posterior probability and the estimated class posterior probability calculated from the following equation.

ただし、(2NT×2NT)次元行列Hと2NT次元ベクトルhは下記により定義される。 However, the (2N T × 2N T ) -dimensional matrix H and the 2N T- dimensional vector h are defined as follows.

この行列Hとhには未知の確率密度関数p(x)とp(x, y)が含まれるため、下記のように訓練標本を用いて近似される。   Since the matrices H and h include unknown probability density functions p (x) and p (x, y), they are approximated using training samples as follows.

この近似した行列^Hと^hを用いて二乗誤差J(α)を近似したものに、さらに正規化項λαTαを加えた下記の式がLSPCの目的関数となる。 The following expression, which is obtained by approximating the square error J (α) using the approximated matrix ^ H and ^ h and further adding the normalization term λα T α, is the objective function of LSPC.

ただし、λは正規化項の大きさを決めるハイパーパラメータである。   However, λ is a hyperparameter that determines the size of the normalization term.

この目的関数の最適解は、   The optimal solution of this objective function is

となる。ここで、I2NTは(2NT×2NT)次元の単位行列である。 It becomes. Here, I 2NT is a (2N T × 2N T ) -dimensional unit matrix.

基底関数に式(18)で表されるカーネルモデルを用いる場合、基底関数のベクトルφ(x, a)を上半分と下半分に分割すると、クラスの値aに対応する方は非ゼロ、もう一方はゼロベクトルとなる。このとき、関数値qi(a|x;α)の計算は、パラメータαをα(0)とα(1)の等しい要素数の2つのベクトルに分割したとき、図2のように対応するクラスに対するパラメータα(a)のみを用いて計算される。 When the kernel model represented by equation (18) is used as the basis function, if the basis function vector φ (x, a) is divided into the upper half and the lower half, the one corresponding to the class value a is non-zero. One is a zero vector. At this time, the function value q i (a | x; α) is calculated as shown in FIG. 2 when the parameter α is divided into two vectors having the same number of elements α (0) and α (1). Calculated using only the parameter α (a) for the class.

さらに、行列Hに用いられる基底関数ベクトルφ(x,0)同士の乗算の結果は、図3のように四分割した左上以外のブロックがすべてゼロ行列であるような(2NT×2NT)行列となる。 Furthermore, the result of the multiplication of basis function vectors φ (x, 0) used for the matrix H is such that all blocks other than the upper left divided into four as shown in FIG. 3 are zero matrices (2N T × 2N T ). It becomes a matrix.

クラスの値の入力を1にした基底関数ベクトルφ(x,1)同士の乗算では、非ゼロのブロックが左上から右下に変わるだけなので、これらの総和で計算される行列^Hは下記のようなブロック対角行列となる。   Multiplying basis function vectors φ (x, 1) with class value inputs set to 1, the non-zero block only changes from upper left to lower right, so the matrix ^ H calculated by these sums is It becomes such a block diagonal matrix.

ここで、行列~Hは下記より定義される(NT×NT)次元行列である。 Here, the matrix ~ H is an (N T × N T ) -dimensional matrix defined as follows.

したがって、^h(a)を下記より定義されるNT次元ベクトル Therefore, ^ T (a) is an NT dimension vector defined by

とすると、各クラスに対応するパラメータα(a)の最適解は下記のようなクラス毎の最適化問題から個別に解くことができる。 Then, the optimum solution of the parameter α (a) corresponding to each class can be individually solved from the following optimization problem for each class.

ここで、INTは(NT×NT)次元単位行列である。 Here, INT is a (N T × N T ) dimensional identity matrix.

関数qi(a|x;α)の最適化は式(30)を全てのクラスa∈{0,1}に対して解くことによって行うことができる。ただし、この関数の出力値をそのまま事後確率の推定値として使うことはできない。なぜならば、事後確率が負の値をとることはないが、関数qi(a|x;α)の出力は負の値を取りうるからである。そのため、出力値が負の値となってしまった場合にはその値を0に補正する必要がある。また、関数qi(a|x;α)の出力は、全てのクラスに対する事後確率の総和が常に1になるという性質も満たしていない。そこで、LSPCは最後にすべてのクラスに対して推定した関数qi(a|x;α)の値の総和が1になるように正規化を行い、クラス事後確率の推定値がこの性質を満たすように調整する。結局、LSPCを用いて分類を行う際の決定関数fLSPC i(x)=~P(y*,i=1|x)は下記のような式により計算される。 The optimization of the function q i (a | x; α) can be performed by solving equation (30) for all classes a∈ {0,1}. However, the output value of this function cannot be used as it is as an estimate of the posterior probability. This is because the posterior probability does not take a negative value, but the output of the function q i (a | x; α) can take a negative value. Therefore, when the output value becomes a negative value, it is necessary to correct the value to 0. Further, the output of the function q i (a | x; α) does not satisfy the property that the sum of posterior probabilities for all classes is always 1. Therefore, LSPC performs normalization so that the sum of the values of function q i (a | x; α) estimated for all classes at the end is 1, and the estimated value of class posterior probability satisfies this property. Adjust as follows. Eventually, the decision function f LSPC i (x) = ˜P (y *, i = 1 | x) when performing classification using LSPC is calculated by the following equation.

<半教師付き学習に基づく自動タグ付け手法>
<問題の定式化>
タグが付いていないメディアデータであれば容易に集めてくることができるが、教師付き学習の枠組みの中ではこれらの訓練標本を学習に用いることはできない。半教師付き学習に基づく手法を用いることで、タグ付き訓練標本とタグなし訓練標本の両方を学習に使った分類器の作成方法を説明する。
<Automatic tagging method based on semi-supervised learning>
<Formulation of problem>
Media data without tags can be easily collected, but these training samples cannot be used for learning within the framework of supervised learning. Using a method based on semi-supervised learning, a method for creating a classifier using both tagged and untagged training samples for learning is described.

半教師付き学習を用いる際のメディアデータの自動タグ付け問題は、前章の定式化とほぼ同じ枠組みの中で扱うことができる。すなわち、特徴ベクトルの入力xに対するタグベクトルの出力yは式(2)のように各タグを個別に扱って決定する。また、個別のタグに対して、それを付与するか否かの決定は式(5)のように、実数値の出力を行う決定関数fi(・)の出力を用いて行う。教師付き学習と異なる点は、決定関数fi(・)の学習をタグ付きの訓練標本D(T)に加え、タグなし訓練標本も用いて行う。このような拡張により、上記図1の学習の部分は、図4のように変更される。以下では、タグなし訓練標本を

、その数をNU:=|D(U)|とする。また、タグ付きとタグなしの訓練標本を合わせた訓練標本の総数はN:=NT+NUを用いて表す。
The problem of automatic tagging of media data when using semi-supervised learning can be handled in almost the same framework as the formulation in the previous chapter. That is, the output y of the tag vector with respect to the input x of the feature vector is determined by treating each tag individually as shown in Equation (2). Further, whether or not to add an individual tag is determined by using the output of a decision function f i (•) that outputs a real value as shown in Equation (5). The difference from supervised learning is that learning of the decision function f i (•) is performed by using an untagged training sample in addition to the tagged training sample D (T). By such an extension, the learning part of FIG. 1 is changed as shown in FIG. In the following, an untagged training sample

The number is N U : = | D (U) |. In addition, the total number of training samples including the tagged and untagged training samples is expressed using N: = N T + N U.

<半教師付き次元削減手法SemiCCA>
教師付きの次元削減手法として、タグ間の相関を扱うCCAについて述べたが、CCAで次元削減を行うと過学習が起きてしまって分類性能が低下してしまうことが分かっている。タグなし訓練標本を用いてこのような過学習を防ぐ、半教師付きの次元削減手法SemiCCA(文献:A.Kimura, H.Kameoka, M. Sugiyama, T. Nakano, E. Maeda, H. Sakano, K. Ishiguro,“ SemiCCA: Efficient semi-supervised learning of canonical correlations ”, in International Conference on Pattern Recognition(ICPR), pp. 2933-2936, Istanbul, Turkey, 2010.)を説明する。SemiCCAは、近年提案されたCCAに基づく半教師付きの次元削減手法である。SemiCCAは、主成分分析(PCA: Principal Component Analysis)をCCAに組み合わせることで、タグ付きとタグなしの全訓練標本の主成分に基づく補正を行い、過学習を防ぐ。特徴ベクトル、およびタグベクトルの主成分軸への写像をそれぞれwPCA x 、wPCA yとおくと、これらPCAの解は以下の固有値問題を解くことにより求めることができる。
<Semi-supervised dimension reduction method SemiCCA>
As a supervised dimension reduction method, CCA that handles correlation between tags has been described, but it has been found that if CCA performs dimension reduction, over-learning occurs and classification performance deteriorates. Semi-supervised dimension reduction method SemiCCA to prevent such over-learning using untagged training samples (Reference: A. Kimura, H. Kameoka, M. Sugiyama, T. Nakano, E. Maeda, H. Sakano, K. Ishiguro, “SemiCCA: Efficient semi-supervised learning of canonical correlations”, in International Conference on Pattern Recognition (ICPR), pp. 2933-2936, Istanbul, Turkey, 2010.). SemiCCA is a semi-supervised dimension reduction method based on CCA proposed in recent years. SemiCCA combines principal component analysis (PCA) with CCA to perform correction based on the principal components of all tagged and untagged training samples to prevent over-learning. If the mapping of the feature vector and the tag vector onto the principal component axis is set as w PCA x and w PCA y , respectively, the solution of these PCAs can be obtained by solving the following eigenvalue problem.

ここで、S′xx:=ΣN j=1xjxTjはタグ付きとタグなしの全ての学習用特徴ベクトルの自己分散行列である。 Here, S 'xx: = Σ N j = 1 x j x Tj is the self-dispersing matrix of all training feature vector of tagged and untagged.

SemiCCAでは式(8)にPCAの固有値問題である式(32)と式(33)を組み合わせた、下記の一般化固有値問題を解くことによって次元削減に用いる写像を得る。   SemiCCA solves the following generalized eigenvalue problem by combining Eq. (8) with Eq. (32) and Eq. (33), which are PCA eigenvalue problems.

ここで、DおよびEは以下の式により定義される行列であり、ηはCCAとPCAの重みを決めるパラメータである。   Here, D and E are matrices defined by the following equations, and η is a parameter that determines the weights of CCA and PCA.

SemiCCAの一般化固有値問題はη=1のとき、CCAの一般化固有値問題と一致し、η=0のときにPCAの固有値問題と一致する。SemiCCAで次元削減を行う際に用いる写像は、CCAの解の個数に等しいmin(dimx, dimy)個の最も大きな固有値に対応する固有ベクトルである。これらの固有ベクトルを並べてUSemiとすると、次元削減後の特徴ベクトルx′jは、以下の式(37)のように求めることができる。 The semi-CCA generalized eigenvalue problem is consistent with the CCA generalized eigenvalue problem when η = 1, and is consistent with the PCA eigenvalue problem when η = 0. The mapping used for dimensionality reduction with SemiCCA is the eigenvector corresponding to min (dim x , dim y ) largest eigenvalues equal to the number of CCA solutions. When these eigenvectors are arranged side by side and U Semi is used, the feature vector x ′ j after dimension reduction can be obtained as in the following Expression (37).

半教師付き学習に基づく分類器>
SVMを半教師化した分類手法はいくつか存在するが、本発明では、その中でも良く知られたLaplacian-SVM(文献:M. Belkin, P. Niyogi, and V. Sindhwani,“ On Manifold Regularization”,in Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics (AISTATS), Barbados, January 2005.)を用いる。Laplacian-SVMはLaplacian正規化によって半教師化を行ったSVMである。この半教師化の方法は、目的関数に対して関数をより滑らかにするLaplacian 正規化項と呼ばれる項を加える半教師化の手法である。
< Classifier based on semi-supervised learning>
There are several classification methods that semi-supervised SVM. In the present invention, Laplacian-SVM (literature: M. Belkin, P. Niyogi, and V. Sindhwani, “On Manifold Regularization”, in Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics (AISTATS), Barbados, January 2005.). Laplacian-SVM is SVM semi-supervised by Laplacian normalization. This semi-supervised method is a semi-supervised method of adding a term called a Laplacian normalization term that makes the function smoother than the objective function.

<Laplacian-SVM>
Laplacian正規化はタグ付きとタグなしの訓練標本を用いて決定関数を滑らかにする半教師化の手法である。半教師化に伴って具体的に行う操作は、分類器の決定関数のパラメータを決める際に解く最適化問題の目的関数に、関数の滑らかさに基づくペナルティの項を加えることである。決定関数fLapSVM iの滑らかさは下記に示すSLapSVMで表すことができ、この値が0に近づくほど関数は滑らかとなる。
<Laplacian-SVM>
Laplacian normalization is a semi-supervised technique that smooths the decision function using tagged and untagged training samples. The operation that is specifically performed with the semi-teaching is to add a penalty term based on the smoothness of the function to the objective function of the optimization problem to be solved when determining the parameters of the decision function of the classifier. The smoothness of the decision function f LapSVM i can be expressed by the following S LapSVM , and the function becomes smoother as this value approaches zero.

ただし、Wj,lは標本xjとxlの距離に基づいて定められる重みであり、 Where W j, l is a weight determined based on the distance between samples x j and x l ,

は全ての訓練標本に対する決定関数の出力値をベクトル表記したものである。また、LはGraph Laplacianと呼ばれる行列で、先ほどの重みWj,lを行列表記にしたものをWとし、(N×N)次元行列DをDj,j:=ΣlWj,lによって定義される対角行列とした時、L:=D−Wと定義される。式(38)は全ての訓練標本の対に対する決定関数の出力値の差の二乗を、重み付きで足し合わせた形となっている。したがって重みWj,lを距離の近い標本の対に対しては大きな値、距離の遠い標本対に対しては小さな値となるようにすると、距離の近い標本に対する決定関数の出力値が近く滑らかな関数ほど、SLapSVMの値が小さくなると言える。式(38) において注意すべきは、この計算にはタグ付き訓練標本だけでなく、タグなし訓練標本も使われていることである。 Is a vector representation of the decision function output values for all training samples. In addition, L is a matrix called Graph Laplacian, and the weight W j, l in the matrix notation is W, and the (N × N) dimensional matrix D is represented by D j, j : = Σ l W j, l When defined diagonal matrix is defined as L: = D−W. Expression (38) has a form in which the square of the difference between the output values of the decision functions for all pairs of training samples is added with a weight. Therefore, if the weight W j, l is set to a large value for a pair of samples with a short distance and a small value for a sample pair with a long distance, the output value of the decision function for a sample with a short distance is close and smooth. It can be said that the value of S LapSVM decreases as the function increases. It should be noted in equation (38) that not only tagged training samples but also untagged training samples are used in this calculation.

Laplacian-SVMでは、SlapSVMの値が小さくなるように決定関数の学習を行うため、SVMの目的関数の式(13)にこの値を加えたうえで最適化を行う。すなわち In Laplacian-SVM, since the decision function is learned so that the value of S lapSVM becomes small, optimization is performed after adding this value to the equation (13) of the objective function of SVM. Ie

がLaplacian-SVMの目的関数となる。ここで、γはLaplacian正規化項の大きさを決めるハイパーパラメータである。このように目的関数を変更したことによって、最適となる決定関数のカーネルを用いた表現は式(11)のような形ではなく、タグ無し訓練標本の上にもカーネルを置いた関数 Is the objective function of Laplacian-SVM. Here, γ is a hyperparameter that determines the size of the Laplacian normalization term. By changing the objective function in this way, the expression using the kernel of the optimal decision function is not in the form like equation (11), but the function with the kernel placed on the untagged training sample

で表されることになる。 It will be represented by

さらに、SVMと同様の操作をおこなって式(40)を変形すると、下記の目的関数が得られる。   Further, when the same operation as that of SVM is performed to transform equation (40), the following objective function is obtained.

ただし、(N×N)次元行列Kはタグ付きとタグ無しの全訓練標本のGram行列、(NT×N)次元行列Bはすべてのj∈{1,...,NT}に対してBj,j=1であり、その他の要素が全て0となるような行列である。この解であるN次元ベクトルβLap*を用いると、決定関数fLapSVM i(・)のパラメータα*=(α* 1,...,α* N)Tは下記のように計算される。 Where the (N × N) dimensional matrix K is the Gram matrix of all tagged and untagged training samples, and the (N T × N) dimensional matrix B is for all j∈ {1, ..., N T } B j, j = 1 and all other elements are zero. Using the N-dimensional vector β Lap * which is the solution, the parameter α * = (α * 1 ,... Α * N ) T of the decision function f LapSVM i (•) is calculated as follows.

なお、式(42)の最適化問題はSVMの最適化問題である式(14)と同様に解析解を求めることができないため、α*の計算に用いるベクトルβLap*は2次計画法などを用いて求める必要がある。 Since equation (42) of the optimization problem that can not be obtained analytical solutions as for formula (14) is a SVM optimization problem, alpha * vector used to calculate beta Lap * etc. quadratic programming It is necessary to obtain using

〔第1の実施の形態〕
<システム構成>
図5は、本発明の第1の実施の形態に係るメディアデータ解析装置100を示すブロック図である。メディアデータ解析装置100は、メディアデータを説明する情報であるタグ情報が予め付与されたメディアデータの集合であるタグ付き学習用データ集合、及びタグ情報が与えられていないメディアデータの集合であるタグなし学習用データ集合を入力し、メディアデータに付与するタグ情報を分類するための分類器を学習すると共に、タグ情報が与えられていないメディアデータを入力し、メディアデータに付与するタグ情報を出力する装置であり、具体的にはCPU(Central Processing Unit)と、RAMと、後述する分類器学習処理ルーチン及びタグ付与処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
[First Embodiment]
<System configuration>
FIG. 5 is a block diagram showing the media data analysis apparatus 100 according to the first embodiment of the present invention. The media data analyzing apparatus 100 includes a tagged learning data set that is a set of media data to which tag information that is information for describing media data is assigned in advance, and a tag that is a set of media data to which no tag information is given. None Input a learning data set, learn a classifier to classify tag information to be given to media data, input media data to which no tag information is given, and output tag information to be given to media data Specifically, it is composed of a computer that includes a CPU (Central Processing Unit), a RAM, and a ROM that stores a program for executing a classifier learning processing routine and a tagging processing routine described later. Functionally, it is configured as follows.

メディアデータ解析装置100は、入力部10、演算部20、及びタグベクトル出力部30を備えている。   The media data analysis apparatus 100 includes an input unit 10, a calculation unit 20, and a tag vector output unit 30.

入力部10は、メディアデータを説明する情報であるタグ情報が予め付与されたメディアデータの集合であるタグ付き学習用データ集合、及びタグ情報が与えられていないメディアデータの集合であるタグなし学習用データ集合の入力を受け付けると共に、タグ情報が与えられていないメディアデータの入力を受け付ける。   The input unit 10 includes a tagged learning data set, which is a set of media data to which tag information, which is information describing the media data, is given in advance, and untagged learning, which is a set of media data to which no tag information is given. In addition to receiving the input of the data set for the media, the input of the media data to which no tag information is given is received.

演算部20は、学習用データベース1、学習用データ特徴抽出部2、次元削減空間学習部3、分類器学習部4、入力データ特徴抽出部5、特徴次元削減部6、及び分類器評価部7を備えている。分類器学習部4は、分類モデル学習手段の一例であり、分類器評価部7は、分類手段の一例である。   The calculation unit 20 includes a learning database 1, a learning data feature extraction unit 2, a dimension reduction space learning unit 3, a classifier learning unit 4, an input data feature extraction unit 5, a feature dimension reduction unit 6, and a classifier evaluation unit 7. It has. The classifier learning unit 4 is an example of a classification model learning unit, and the classifier evaluation unit 7 is an example of a classification unit.

学習用データベース1は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースであり、入力されたタグ付き学習用データ集合、及びタグなし学習用データ集合を記憶する。   The learning database 1 is a database in which tagged media data and untagged media data are accumulated, and stores an input tagged learning data set and an untagged learning data set.

学習用データ特徴抽出部2は、学習用データのメディアデータから特徴ベクトルを算出する。以降の説明では、簡単のため、メディアデータの例として音響信号を採用した場合に限定して説明する。特徴抽出の方法を適切に変更することにより、音響信号以外のメディアデータ、例えば、画像信号、映像信号、テキスト、マイクロブログなどにも幅広く適用可能である。音響信号と対象とした場合、具体的には、音響信号をフレーム分析して、各フレームからメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficients、文献:P. Mermelstein“ DistanceMeasure for Speech Recognition, Psychological and Instrumental ”, in Pattern Recognitionand Artificial Intelligence, pp. 374-388, June 1976.)を算出する。MFCCは、人間の聴覚特性を考慮に入れた音響特徴量であり、音楽情報検索分野で標準的に用いられる。さらに音素材の音響信号は時間的に変化するため、動的特徴量としてMFCCの時間微分の近似値であるΔMFCCと、二次微分量の近似値であるΔMFCCを算出する。次に、このようにフレームごとに算出されるMFCC、ΔMFCC、ΔΔMFCCからなる局所特徴量を集めて、bag-of-features特徴量を作成し、これを特徴ベクトル(音響特徴ベクトル)とする。bag-of-features特徴量を作成するためには、まず全ての音素材から抽出した局所特徴量を集めて、LBGアルゴリズムによりコードブックを作成する(図6)。そして、一つの音素材から抽出した全ての局所特徴量を、コードブックを用いてベクトル量子化して、そのヒストグラムを作成する。これを正規化したものがbag-of-featuresであり、特徴ベクトルとして利用する。bag-of-features特徴量は画像の分野で標準的に用いられるほか、曲調認識の分野でもしばしば用いられている。一方、音素材に付与されたタグの扱いとして、i番目のタグviを付与する場合には、ベクトルyjのi番目の要素の値yj,iを1とし、付与しない場合には0とし、タグベクトルを作成する。 The learning data feature extraction unit 2 calculates a feature vector from the media data of the learning data. In the following description, for the sake of simplicity, the description is limited to the case where an acoustic signal is employed as an example of media data. By appropriately changing the feature extraction method, the present invention can be widely applied to media data other than sound signals, for example, image signals, video signals, texts, microblogs, and the like. When the target is an acoustic signal, specifically, the acoustic signal is subjected to frame analysis, and from each frame, Mel-Frequency Cepstrum Coefficients (MFCC: Literature: P. Mermelstein “DistanceMeasure for Speech Recognition, Psychological and Instrumental ”, in Pattern Recognition and Artificial Intelligence, pp. 374-388, June 1976.). MFCC is an acoustic feature that takes human auditory characteristics into account, and is used as a standard in the field of music information retrieval. Furthermore, since the acoustic signal of the sound material changes with time, ΔMFCC, which is an approximate value of the time derivative of MFCC, and ΔMFCC, which is an approximate value of the secondary derivative, are calculated as dynamic feature quantities. Next, the local feature amounts composed of the MFCC, ΔMFCC, and ΔΔMFCC calculated for each frame are collected to create a bag-of-features feature amount, which is used as a feature vector (acoustic feature vector). To create bag-of-features features, first collect local features extracted from all sound materials and create a codebook using the LBG algorithm (Fig. 6). Then, all local feature values extracted from one sound material are vector quantized using a code book, and a histogram thereof is created. This is normalized bag-of-features and used as a feature vector. The bag-of-features feature is used not only in the image field but also often in the tune recognition field. On the other hand, if the i-th tag v i is given as a tag assigned to the sound material, the value y j, i of the i-th element of the vector y j is set to 1, and 0 is not given. And create a tag vector.

次元削減空間学習部3は、タグ付けされていないメディアデータを含む学習用データの各メディアデータから算出された特徴ベクトルxjを用いて、上記の式(34)の一般化固有値問題を解いて、変換行列USemiを構成し、上記の式(37)によって、学習用データの各メディアデータについて、特徴ベクトルx′jを作成する。 The dimension reduction space learning unit 3 solves the generalized eigenvalue problem of the above equation (34) using the feature vector x j calculated from each media data of the learning data including the media data not tagged. Then, a transformation matrix U Semi is constructed, and a feature vector x ′ j is created for each media data of the learning data by the above equation (37).

分類器学習部4は、タグごとにLSPCによる分類器を作成する。ここでは学習用データベース1において、タグ付けされたメディアデータを利用して分類器を学習する。具体的には、タグごとに、学習用データのタグ付けされた各メディアデータについて作成した特徴ベクトルx′jに基づいて、上記の式(30)のα(a)*を全てのクラスa∈{0,1}に対して算出する。カーネル関数は The classifier learning unit 4 creates a classifier by LSPC for each tag. Here, in the learning database 1, the classifier is learned using the tagged media data. Specifically, for each tag, based on the feature vector x ′ j created for each media data tagged with learning data, α (a) * in the above equation (30) is changed to all classes a∈. Calculate for {0,1}. The kernel function

となるガウスカーネルを用いる。 Use a Gaussian kernel.

入力データ特徴抽出部5は、学習用データ特徴抽出部2と同様に、入力のメディアデータから特徴ベクトルxqを作成する。 Similar to the learning data feature extraction unit 2, the input data feature extraction unit 5 creates a feature vector x q from the input media data.

特徴次元削減部6は、次元削減空間学習部3で作成された変換行列USemiを用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。 The feature dimension reduction unit 6 uses the transformation matrix U Semi created by the dimension reduction space learning unit 3 to reduce the dimension of the feature vector x q as an input and create x ′ q .

分類器評価部7は、分類器学習部4でタグ毎に作成された、LSPCのパラメータαを用いて、タグ毎に、上記の式(31)の決定関数を計算する。これが0.5よりも大きければ、i番目のタグviを付与する。これをI個のLSPC分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力する。 The classifier evaluation unit 7 calculates the decision function of the above equation (31) for each tag using the LSPC parameter α created for each tag by the classifier learning unit 4. If this is greater than 0.5, the i-th tag v i is assigned. This is performed for all I pieces of LSPC classifier inputs 0 or 1 in the i-th element of the tag vector y q.

生成されたタグベクトルyqをタグベクトル出力部8により出力する。 The generated tag vector y q outputs by the tag vector output section 8.

<メディアデータ解析装置の作用>
次に、本実施の形態に係るメディアデータ解析装置100の作用について説明する。まず、タグベクトルが与えられたタグ付き学習用データ集合、及びタグベクトルが与えられていないタグなし学習用データ集合が、メディアデータ解析装置100に入力されると、メディアデータ解析装置100によって、入力されたタグ付き学習用データ集合及びタグなし学習用データ集合が、学習用データベース1へ格納される。そして、メディアデータ解析装置100によって、図7に示す分類器学習処理ルーチンが実行される。
<Operation of media data analyzer>
Next, the operation of the media data analysis apparatus 100 according to this embodiment will be described. First, when a tagged learning data set to which a tag vector is given and an untagged learning data set to which a tag vector is not given are input to the media data analyzing apparatus 100, the media data analyzing apparatus 100 inputs them. The tagged learning data set and untagged learning data set are stored in the learning database 1. Then, the media data analysis apparatus 100 executes a classifier learning process routine shown in FIG.

まず、ステップS101において、タグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データから、特徴ベクトルを抽出すると共に、タグ付き学習用データ集合の各学習用データについてタグベクトルを作成する。そして、ステップS102において、上記ステップS101で抽出されたタグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データの特徴ベクトルに基づいて、上記の式(34)を解いて、変換行列Usemiを構成する。 First, in step S101, a feature vector is extracted from each learning data in the tagged learning data set and the untagged learning data set, and a tag vector is created for each learning data in the tagged learning data set. . In step S102, based on the feature vectors of the learning data in the tagged learning data set and the untagged learning data set extracted in step S101, the above equation (34) is solved to obtain a transformation matrix. Construct U semi .

そして、ステップS103において、上記ステップS101で抽出されたタグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データの特徴ベクトルに対して、上記ステップS102で構成した変換行列Usemiを作用させて、タグ付き学習用データ集合及びタグなし学習用データ集合の各学習用データの、次元削減後の特徴ベクトルを作成する。 In step S103, the transformation matrix U semi configured in step S102 is applied to the feature vectors of the learning data in the tagged learning data set and the untagged learning data set extracted in step S101. Thus, a feature vector after dimension reduction is created for each learning data in the tagged learning data set and the untagged learning data set.

次のステップS104では、上記ステップS103で作成したタグ付き学習用データ集合の各学習用データの、次元削減後の特徴ベクトルに基づいて、タグ毎に、LSPCによる分類器を学習し、上記の式(30)のα(a)*を求め、分類器学習処理ルーチンを終了する。 In the next step S104, a classifier by LSPC is learned for each tag based on the feature vector after dimension reduction of each learning data of the tagged learning data set created in step S103, and the above equation Α (a) * of (30) is obtained, and the classifier learning processing routine is terminated.

また、タグなしの音響信号が、メディアデータ解析装置100に入力されると、メディアデータ解析装置100によって、図8に示すタグ付与処理ルーチンが実行される。   When an untagged acoustic signal is input to the media data analysis apparatus 100, the media data analysis apparatus 100 executes a tag addition processing routine shown in FIG.

ステップS111において、入力されたメディアデータを受け付け、ステップS112において、入力されたメディアデータから、特徴ベクトルを抽出する。   In step S111, the input media data is received. In step S112, a feature vector is extracted from the input media data.

次のステップS113では、上記ステップS112で抽出された特徴ベクトルに対して、上記の分類器学習処理ルーチンで作成された変換行列Usemiを作用させて、次元削減後の特徴ベクトルを作成する。 In the next step S113, the feature vector extracted in the step S112 is applied to the transformation matrix U semi created in the classifier learning processing routine to create a feature vector after dimension reduction.

そして、ステップS114において、タグ毎に、当該タグについて求めたα(a)*と、上記ステップS113で作成した次元削減後の特徴ベクトルとに基づいて、上記の式(31)の決定関数を計算する。ステップS115では、タグ毎に、上記ステップS114で計算した決定関数の値が、0.5よりも大きいか否かにより、当該タグを付与してタグベクトルを生成し、タグベクトル出力部30により出力し、タグ付与処理ルーチンを終了する。 Then, in step S114, for each tag, the determination function of the above equation (31) is calculated based on α (a) * obtained for the tag and the dimension-reduced feature vector created in step S113. To do. In step S115, depending on whether the value of the decision function calculated in step S114 is greater than 0.5 for each tag, a tag vector is generated by assigning the tag, and the tag vector output unit 30 outputs the tag vector. The tag assignment processing routine is terminated.

以上説明したように、第1の実施の形態に係るメディアデータ解析装置によれば、タグ付き学習用データ集合及びタグなし学習用データ集合の各メディアデータについて抽出された特徴べクトルに基づいて、特徴ベクトルの次元数を削減するための写像を表わす行列を学習して、タグ付き学習用データ集合の各メディアデータの特徴ベクトルに対して次元を削減した特徴ベクトルを作成し、事後確率推定に基づく分類器を学習する。入力されたメディアデータの特徴ベクトルに対して次元を削減した特徴ベクトルを作成し、学習された分類器に基づいて、タグベクトルのタグ毎に、当該タグを付与するか否かの分類を行う。これによって、十分な規模の学習データが得られない状況でも高い精度でタグ情報を付与することができる。   As described above, according to the media data analysis apparatus according to the first embodiment, based on the feature vectors extracted for each media data of the tagged learning data set and the untagged learning data set, Based on posterior probability estimation, learning a matrix that represents a mapping to reduce the number of dimensions of a feature vector, creating a feature vector with reduced dimensions for the feature vector of each media data in the tagged learning data set Learn classifier. A feature vector with a reduced dimension is created for the feature vector of the input media data, and based on the learned classifier, it is classified for each tag of the tag vector whether or not the tag is assigned. Thereby, tag information can be given with high accuracy even in a situation where learning data of a sufficient scale cannot be obtained.

〔第2の実施の形態〕
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第2の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
[Second Embodiment]
<System configuration>
Next, a second embodiment of the present invention will be described. Note that the configuration of the media data analysis apparatus according to the second embodiment is the same as that of the first embodiment, and thus the same reference numerals are given and description thereof is omitted.

第2の実施の形態では、タグ付き学習用データのみから、次元削減のための変換行列を学習している点と、SVMによる分類器を用いて、タグを付与している点とが、第1の実施の形態と異なっている。   In the second embodiment, the fact that a transformation matrix for dimension reduction is learned only from tagged learning data and that a tag is assigned using an SVM classifier are This is different from the first embodiment.

第2の実施の形態に係るメディアデータ解析装置の学習用データベース1は、タグ付けされたメディアデータが蓄積されたデータベースであり、入力されたタグ付き学習用データ集合を記憶する。   The learning database 1 of the media data analyzing apparatus according to the second embodiment is a database in which tagged media data is accumulated, and stores an input tagged learning data set.

学習用データ特徴抽出部2は、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグベクトルを作成する。   The learning data feature extraction unit 2 calculates a feature vector from each media data of the learning data and creates a tag vector.

次元削減空間学習部3は、学習用データの各メディアデータから算出された特徴ベクトルxjを用いて、上記の式(8)の一般化固有値問題を解いて、変換行列Uを構成し、上記式(9)によって、特徴ベクトルx′jを作成する。 The dimension reduction space learning unit 3 solves the generalized eigenvalue problem of the above equation (8) using the feature vector x j calculated from each media data of the learning data, forms a transformation matrix U, A feature vector x ′ j is created by Expression (9).

分類器学習部4は、タグごとにSVMによる分類器を作成する。具体的には、2次計画法を利用して、SVMの最適化問題である式(14)の最適解β*=(β* 1,...,β* NT)Tを求める。カーネル関数は、 The classifier learning unit 4 creates a SVM classifier for each tag. Specifically, the optimal solution β * = (β * 1 ,..., Β * NT ) T of Equation (14), which is an SVM optimization problem, is obtained using quadratic programming. The kernel function

となるガウスカーネルを用いる。 Use a Gaussian kernel.

入力データ特徴抽出部5は、上記の第1の実施の形態と同様に、入力のメディアデータ(例えば、音響信号)をフレーム分析して、各フレームからMFCC、ΔMFCC、ΔMFCCを算出する。そして、学習用データ特徴抽出部2で作成したコードブックを利用して、MFCC、ΔMFCC、ΔΔMFCCの特徴量をベクトル量子化して特徴ベクトルxqを作成する。特徴次元削減部6は、次元削減空間学習部3で作成された変換行列U を用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。 As in the first embodiment, the input data feature extraction unit 5 performs frame analysis on input media data (for example, an acoustic signal), and calculates MFCC, ΔMFCC, and ΔMFCC from each frame. Then, by using the codebook created in the learning data characteristic extraction unit 2, MFCC, ΔMFCC, to create a feature vector x q and vector quantizing the feature amount of DerutaderutaMFCC. The feature dimension reduction unit 6 uses the transformation matrix U created by the dimension reduction space learning unit 3 to reduce the dimension of the feature vector x q as an input and create x ′ q .

分類器評価部7は、分類器学習部4で作成された、SVMの最適解β*を用いて、α* j:=(2yj,i−1)β* jを計算し、入力特徴ベクトルx′qに対する、上記の式(11)の決定関数を計算する。すなわち、i番目のタグviを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。 The classifier evaluation unit 7 calculates α * j : = (2y j, i −1) β * j using the SVM optimum solution β * created by the classifier learning unit 4, and the input feature vector Calculate the decision function of equation (11) above for x ′ q . That is, it is classified whether or not the i-th tag v i is assigned. This is performed for all I number of classifiers, the i th element of the tag vector y q Type 0 or 1, and generates a tag vector y q.

生成されたタグベクトルyqをタグベクトル出力部8により出力する。 The generated tag vector y q outputs by the tag vector output section 8.

なお、第2の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。   Note that other configurations and operations of the media data analysis apparatus according to the second embodiment are the same as those of the first embodiment, and thus description thereof is omitted.

〔第3の実施の形態〕
<システム構成>
次に、本発明の第3の実施の形態について説明する。なお、第3の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
[Third Embodiment]
<System configuration>
Next, a third embodiment of the present invention will be described. Note that the configuration of the media data analysis apparatus according to the third embodiment is the same as that of the first embodiment, and therefore the same reference numerals are given and description thereof is omitted.

第3の実施の形態では、LSPCによる分類器を用いて、タグベクトルを付与している点が、第2の実施の形態と異なっている。   The third embodiment is different from the second embodiment in that tag vectors are assigned using a classifier based on LSPC.

第3の実施の形態に係るメディアデータ解析装置の学習用データベース1は、上記の第2の実施の形態と同様に、タグ付けされたメディアデータが蓄積されるデータベースである。   The learning database 1 of the media data analysis apparatus according to the third embodiment is a database in which tagged media data is accumulated, as in the second embodiment.

学習用データ特徴抽出部2は、上記の第2の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグベクトルを作成する。次元削減空間学習部3は、上記の第2の実施の形態と同様に、上記の式(8) の一般化固有値問題を解いて、変換行列Uを構成し、上記の式(9)によって、特徴ベクトルx′jを作成する。 The learning data feature extraction unit 2 calculates a feature vector from each piece of media data of learning data and creates a tag vector, as in the second embodiment. Similar to the second embodiment, the dimension reduction space learning unit 3 solves the generalized eigenvalue problem of the above equation (8) to construct the transformation matrix U, and the above equation (9) A feature vector x ′ j is created.

分類器学習部4は、タグごとにLSPCによる分類器を作成する。具体的には、タグごとに、上記の式(30)のα(a)*を全てのクラスa∈{0,1}に対して算出する。カーネル関数は The classifier learning unit 4 creates a classifier by LSPC for each tag. Specifically, for each tag, α (a) * in the above equation (30) is calculated for all classes a∈ {0, 1}. The kernel function

となるガウスカーネルを用いる。 Use a Gaussian kernel.

入力データ特徴抽出部5は、上記の第1の実施の形態と同様に、入力のメディアデータから特徴ベクトルxqを作成する。 The input data feature extraction unit 5 creates a feature vector x q from the input media data, as in the first embodiment.

特徴次元削減部6は、次元削減空間学習部3で作成された変換行列Uを用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。 The feature dimension reduction unit 6 uses the transformation matrix U created by the dimension reduction space learning unit 3 to reduce the dimension of the feature vector x q as an input and create x ′ q .

分類器評価部7は、分類器学習部4でタグごとに作成された、LSPCのパラメータαを用いて、タグごとに、上記の式(31)の決定関数を計算する。これが0.5よりも大きければ、i番目のタグviを付与する。これをI個のLSPC分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。 The classifier evaluator 7 calculates the decision function of the above equation (31) for each tag using the LSPC parameter α created for each tag by the classifier learning unit 4. If this is greater than 0.5, the i-th tag v i is assigned. This is performed for all I pieces of LSPC classifiers, the i th element of the tag vector y q Type 0 or 1, and generates a tag vector y q.

生成されたタグベクトルyqをタグベクトル出力部8により出力する。 The generated tag vector y q outputs by the tag vector output section 8.

なお、第3の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。   Note that other configurations and operations of the media data analysis apparatus according to the third embodiment are the same as those of the first embodiment, and thus the description thereof is omitted.

〔第4の実施の形態〕
<システム構成>
次に、本発明の第4の実施の形態について説明する。なお、第4の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
[Fourth Embodiment]
<System configuration>
Next, a fourth embodiment of the present invention will be described. Note that the configuration of the media data analysis apparatus according to the fourth embodiment is the same as that of the first embodiment, and therefore the same reference numerals are given and description thereof is omitted.

第4の実施の形態では、Laplacian-SVMによる分類器を用いて、タグベクトルを付与している点が、第2の実施の形態と異なっている。   The fourth embodiment is different from the second embodiment in that tag vectors are assigned using a Laplacian-SVM classifier.

第4の実施の形態に係るメディアデータ解析装置の学習用データベース1は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースである。   The learning database 1 of the media data analysis apparatus according to the fourth embodiment is a database in which tagged media data and untagged media data are stored.

学習用データ特徴抽出部2は、上記の第2の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグベクトルを作成する。次元削減空間学習部3は、上記の第2の実施の形態と同様に、上記の式(8) の一般化固有値問題を解いて、変換行列Uを構成し、上記の式(9)によって、特徴ベクトルx′jを作成する。 The learning data feature extraction unit 2 calculates a feature vector from each piece of media data of learning data and creates a tag vector, as in the second embodiment. Similar to the second embodiment, the dimension reduction space learning unit 3 solves the generalized eigenvalue problem of the above equation (8) to construct the transformation matrix U, and the above equation (9) A feature vector x ′ j is created.

分類器学習部4は、タグごとにLaplacian-SVMによる分類器を作成する。具体的には、2次計画法を利用して、Laplacian-SVMの最適化問題である式(42)の最適解βLap*を求める。カーネル関数は、 The classifier learning unit 4 creates a Laplacian-SVM classifier for each tag. Specifically, the optimal solution β Lap * of Equation (42), which is a Laplacian-SVM optimization problem, is obtained using quadratic programming. The kernel function

となるガウスカーネルを用いる。 Use a Gaussian kernel.

入力データ特徴抽出部5は、学習用データ特徴抽出部2と同様に、入力のメディアデータから特徴ベクトルxqを作成する。 Similar to the learning data feature extraction unit 2, the input data feature extraction unit 5 creates a feature vector x q from the input media data.

特徴次元削減部6は、次元削減空間学習部3で作成された変換行列Uを用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。 The feature dimension reduction unit 6 uses the transformation matrix U created by the dimension reduction space learning unit 3 to reduce the dimension of the feature vector x q as an input and create x ′ q .

分類器評価部7は、分類器学習部4でタグごとに作成された、Laplacian-SVMの最適解βLap*を用いて、式(43)のα*を計算し、タグごとに、入力特徴ベクトルx′qに対する、式(41)の決定関数を計算する。すなわち、i番目のタグviを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。 The classifier evaluator 7 calculates α * in Equation (43) using the Laplacian-SVM optimal solution β Lap * created for each tag by the classifier learning unit 4, and inputs features for each tag. Calculate the decision function of equation (41) for the vector x ′ q . That is, it is classified whether or not the i-th tag v i is assigned. This is performed for all I number of classifiers, the i th element of the tag vector y q Type 0 or 1, and generates a tag vector y q.

生成されたタグベクトルyqをタグベクトル出力部8により出力する。 The generated tag vector y q outputs by the tag vector output section 8.

なお、第4の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。   Note that other configurations and operations of the media data analysis apparatus according to the fourth embodiment are the same as those of the first embodiment, and thus description thereof is omitted.

〔第5の実施の形態〕
<システム構成>
次に、本発明の第5の実施の形態について説明する。なお、第5の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
[Fifth Embodiment]
<System configuration>
Next, a fifth embodiment of the present invention will be described. Note that the configuration of the media data analysis apparatus according to the fifth embodiment is the same as that of the first embodiment, and therefore the same reference numerals are given and description thereof is omitted.

第5の実施の形態では、SVMによる分類器を用いて、タグベクトルを付与している点が、第1の実施の形態と異なっている。   The fifth embodiment is different from the first embodiment in that a tag vector is assigned using a classifier based on SVM.

第5の実施の形態に係るメディアデータ解析装置の学習用データベース1は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースである。学習用データ特徴抽出部2は、上記の第1の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグ付けされたメディアデータの各々についてタグベクトルを作成する。   The learning database 1 of the media data analysis apparatus according to the fifth embodiment is a database in which tagged media data and untagged media data are stored. As in the first embodiment, the learning data feature extraction unit 2 calculates a feature vector from each media data of the learning data and creates a tag vector for each tagged media data. .

次元削減空間学習部3は、上記の式(34)の一般化固有値問題を解いて、変換行列USemiを構成し、上記の式(37)によって、特徴ベクトルx′jを作成する。 The dimension reduction space learning unit 3 solves the generalized eigenvalue problem of the above equation (34), forms a transformation matrix U Semi , and creates a feature vector x ′ j by the above equation (37).

分類器学習部4は、タグごとにSVMによる分類器を作成する。ここでは学習用データベース1において、タグ付けされたメディアデータを利用して分類器を学習する。具体的には、2次計画法を利用して、SVMの最適化問題である式(14)の最適解β*=(β* 1,...,β* NT)Tを求める。カーネル関数は、 The classifier learning unit 4 creates a SVM classifier for each tag. Here, in the learning database 1, the classifier is learned using the tagged media data. Specifically, the optimal solution β * = (β * 1 ,..., Β * NT ) T of Equation (14), which is an SVM optimization problem, is obtained using quadratic programming. The kernel function is

となるガウスカーネルを用いる。 Use a Gaussian kernel.

入力データ特徴抽出部5は、学習用データ特徴抽出部2と同様に、入力のメディアデータから特徴ベクトルxqを作成する。 Similar to the learning data feature extraction unit 2, the input data feature extraction unit 5 creates a feature vector x q from the input media data.

特徴次元削減部6は、次元削減空間学習部3で作成された変換行列USemiを用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。 The feature dimension reduction unit 6 uses the transformation matrix U Semi created by the dimension reduction space learning unit 3 to reduce the dimension of the feature vector x q as an input and create x ′ q .

分類器評価部7は、分類器学習部4でタグごとに作成された、SVMの最適解β* を用いて、α* j:=(2yj,i−1)β* jを計算し、タグごとに、入力特徴ベクトルx′qに対する、式(11)の決定関数を計算する。すなわち、i番目のタグviを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。 The classifier evaluation unit 7 calculates α * j : = (2y j, i −1) β * j using the SVM optimal solution β * created for each tag by the classifier learning unit 4, For each tag, the decision function of equation (11) is calculated for the input feature vector x ′ q . That is, it is classified whether or not the i-th tag v i is assigned. This is performed for all I number of classifiers, the i th element of the tag vector y q Type 0 or 1, and generates a tag vector y q.

生成されたタグベクトルyqをタグベクトル出力部8により出力する。 The generated tag vector y q outputs by the tag vector output section 8.

なお、第5の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。   Note that other configurations and operations of the media data analysis apparatus according to the fifth embodiment are the same as those of the first embodiment, and thus description thereof is omitted.

〔第6の実施の形態〕
<システム構成>
次に、本発明の第6の実施の形態について説明する。なお、第6の実施の形態に係るメディアデータ解析装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
[Sixth Embodiment]
<System configuration>
Next, a sixth embodiment of the present invention will be described. Note that the configuration of the media data analysis apparatus according to the sixth embodiment is the same as that of the first embodiment, and thus the same reference numerals are given and description thereof is omitted.

第6の実施の形態では、Laplacian-SVMによる分類器を用いて、タグベクトルを付与している点が、第1の実施の形態と異なっている。   The sixth embodiment is different from the first embodiment in that tag vectors are assigned using a Laplacian-SVM classifier.

第6の実施の形態に係るメディアデータ解析装置の学習用データベース1は、タグ付けされたメディアデータとタグ付けされていないメディアデータが蓄積されるデータベースである。学習用データ特徴抽出部2は、上記の第1の実施の形態と同様に、学習用データの各メディアデータから特徴ベクトルを算出すると共に、タグ付けされたメディアデータの各々についてタグベクトルを作成する。次元削減空間学習部3は、上記の式(34)の一般化固有値問題を解いて、変換行列USemiを構成し、上記の式(37)によって、特徴ベクトルx′jを作成する。 The learning database 1 of the media data analysis apparatus according to the sixth embodiment is a database in which tagged media data and untagged media data are stored. As in the first embodiment, the learning data feature extraction unit 2 calculates a feature vector from each media data of the learning data and creates a tag vector for each tagged media data. . The dimension reduction space learning unit 3 solves the generalized eigenvalue problem of the above equation (34), forms a transformation matrix U Semi , and creates a feature vector x ′ j by the above equation (37).

分類器学習部4は、タグごとにLaplacian-SVMによる分類器を作成する。具体的には、2次計画法を利用して、Laplacian-SVMの最適化問題である式(42)の最適解βLap*を求める。 The classifier learning unit 4 creates a Laplacian-SVM classifier for each tag. Specifically, the optimal solution β Lap * of Equation (42), which is a Laplacian-SVM optimization problem, is obtained using quadratic programming.

カーネル関数は、 The kernel function

となるガウスカーネルを用いる。 Use a Gaussian kernel.

入力データ特徴抽出部5は、学習用データ特徴抽出部2と同様に、入力のメディアデータから特徴ベクトルxqを作成する。 Similar to the learning data feature extraction unit 2, the input data feature extraction unit 5 creates a feature vector x q from the input media data.

特徴次元削減部6は、次元削減空間学習部3で作成された変換行列USemiを用いて、入力である特徴ベクトルxqを次元削減してx′qを作成する。 The feature dimension reduction unit 6 uses the transformation matrix U Semi created by the dimension reduction space learning unit 3 to reduce the dimension of the feature vector x q as an input and create x ′ q .

分類器評価部7は、分類器学習部4でタグごとに作成された、Laplacian-SVMの最適解βLap*を用いて、式(43)のα*を計算し、タグごとに、入力特徴ベクトルx′qに対する、式(41)の決定関数を計算する。すなわち、i番目のタグviを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。 The classifier evaluator 7 calculates α * in Equation (43) using the Laplacian-SVM optimal solution β Lap * created for each tag by the classifier learning unit 4, and inputs features for each tag. Calculate the decision function of equation (41) for the vector x ′ q . That is, it is classified whether or not the i-th tag v i is assigned. This is performed for all I number of classifiers, the i th element of the tag vector y q Type 0 or 1, and generates a tag vector y q.

生成されたタグベクトルyqをタグベクトル出力部8により出力する。 The generated tag vector y q outputs by the tag vector output section 8.

なお、第6の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。   Note that other configurations and operations of the media data analysis apparatus according to the sixth embodiment are the same as those of the first embodiment, and thus description thereof is omitted.

〔第7の実施の形態〕
<システム構成>
次に、本発明の第7の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
[Seventh Embodiment]
<System configuration>
Next, a seventh embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

第7の実施の形態では、特徴ベクトルの次元削減は行わない点が、第2の実施の形態と異なっている。   The seventh embodiment is different from the second embodiment in that feature vector dimension reduction is not performed.

図9に示すように、本発明の第7の実施の形態に係るメディアデータ解析装置700の演算部720は、学習用データベース1、学習用データ特徴抽出部2、分類器学習部704、入力データ特徴抽出部5、及び分類器評価部707を備えている。   As shown in FIG. 9, the computing unit 720 of the media data analysis apparatus 700 according to the seventh embodiment of the present invention includes a learning database 1, a learning data feature extraction unit 2, a classifier learning unit 704, input data. A feature extraction unit 5 and a classifier evaluation unit 707 are provided.

学習用データベース1は、タグ付けされたメディアデータが蓄積されたデータベースであり、入力されたタグ付き学習用データ集合を記憶する。   The learning database 1 is a database in which tagged media data is accumulated, and stores an input tagged learning data set.

学習用データ特徴抽出部2は、学習用データの各メディアデータから特徴ベクトルxjを算出すると共に、タグベクトルを作成する。 The learning data feature extraction unit 2 calculates a feature vector x j from each media data of the learning data and creates a tag vector.

分類器学習部704は、タグごとにSVMによる分類器を作成する。具体的には、2次計画法を利用して、各学習用データの特徴ベクトルxjに基づいて、SVMの最適化問題である式(14)の最適解β*=(β* 1,...,β* NT)Tを求める。 The classifier learning unit 704 creates an SVM classifier for each tag. Specifically, using quadratic programming, based on the feature vector x j of each learning data, the optimal solution β * = (β * 1 ,. .., β * NT ) T is obtained.

入力データ特徴抽出部5は、上記の第1の実施の形態と同様に、入力のメディアデータから特徴ベクトルxqを作成する。 The input data feature extraction unit 5 creates a feature vector x q from the input media data, as in the first embodiment.

分類器評価部707は、分類器学習部4で作成された、SVMの最適解β*を用いて、α* j:=(2yj,i−1)β* jを計算し、入力特徴ベクトルxqに対する、上記の式(11)の決定関数を計算する。すなわち、i番目のタグviを付与するか否かの分類を行う。これをI個の分類器全てに対して行い、タグベクトルyqのi番目の要素に0もしくは1を入力し、タグベクトルyqを生成する。 The classifier evaluation unit 707 calculates α * j : = (2y j, i −1) β * j using the SVM optimum solution β * created by the classifier learning unit 4, and the input feature vector Calculate the decision function of equation (11) above for x q . That is, it is classified whether or not the i-th tag v i is assigned. This is performed for all I number of classifiers, the i th element of the tag vector y q Type 0 or 1, and generates a tag vector y q.

生成されたタグベクトルyqをタグベクトル出力部8により出力する。 The generated tag vector y q outputs by the tag vector output section 8.

なお、第7の実施の形態に係るメディアデータ解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。   Note that the other configuration and operation of the media data analysis apparatus according to the seventh embodiment are the same as those of the first embodiment, and thus the description thereof is omitted.

上記の第7の実施の形態では、SVMによる分類器を学習する場合を例に説明したが、これに限定されるものではなく、上記の第3の実施の形態のように、LSPCによる分類器を学習し、LSPCによる分類器を用いて、タグベクトルを付与するように構成してもよい。また、上記の第4の実施の形態のように、Laplacian-SVMによる分類器を学習し、Laplacian-SVMによる分類器を用いて、タグベクトルを付与するように構成してもよい。   In the seventh embodiment, the case of learning a classifier based on SVM has been described as an example. However, the present invention is not limited to this, and the classifier based on LSPC is not limited to this. And a tag vector may be assigned using a classifier based on LSPC. Further, as in the fourth embodiment, a classifier based on Laplacian-SVM may be learned, and a tag vector may be assigned using a classifier based on Laplacian-SVM.

<実験結果>
教師付き学習および半教師付き学習に基づく分類手法と次元削減手法をそれぞれメディアデータの自動タグ付け問題に適用し、各手法の比較検討を行った。
<Experimental result>
A classification method and a dimension reduction method based on supervised learning and semi-supervised learning were applied to the automatic tagging problem of media data, respectively.

ここで、実験条件について説明する。自動タグ付けの実験用のメディアデータとして、Freesound(http://www.freesound.org/)の音素材データを用いた。Freesoundは作成者が定めた条件の下での著作物の二次利用を認めるCreative Commons License(http://creativecommons.org/)に基づいて、音楽素材の共有を行っているwebサービスである。このwebサービスではユーザ登録を行えば誰でも自分で作成した、あるいは録音した音楽素材を登録して共有することができ、既に多くの音素材が登録されている。登録されている音楽素材の多くはフィールドレコーディングにより録音された街頭の音や山や雨などの自然の音、あるいはドアの開閉音や機械の動作音などである。この他にもシンセサイザーにより作曲されたループミュージック用の短い素材なども多数登録さている。また、音素材の登録を行う際には、素材に対して任意の複数個の単語をタグとして付与することができる。したがって、Freesound上には豊富な種類の検索用のタグが存在する。   Here, experimental conditions will be described. The sound material data of Freesound (http://www.freesound.org/) was used as media data for experiments with automatic tagging. Freesound is a web service that shares music materials based on the Creative Commons License (http://creativecommons.org/), which allows secondary use of copyrighted works under conditions specified by the creator. With this web service, anyone who registers as a user can register and share music materials created or recorded by himself, and many sound materials are already registered. Many of the registered music materials are street sounds recorded by field recording, natural sounds such as mountains and rain, door opening and closing sounds and machine operating sounds. In addition to this, there are many short materials for loop music composed by synthesizers. In addition, when registering a sound material, a plurality of arbitrary words can be assigned to the material as tags. Therefore, there are a wide variety of search tags on Freesound.

実験の際には、ファイルがWAV形式、サンプリングレートが44.1kHz、量子化ビット数が16bitの音素材2012個をこのFreesoundのデータベースからダウンロードして用いた。ステレオになっているファイルに対しては、両チャネルの音の平均をとってモノラルの信号に変換した。   During the experiment, we used 2012 audio material with WAV format, sampling rate of 44.1kHz, and quantization bit rate of 16bit from this Freesound database. For stereo files, the sound of both channels was averaged and converted to a monaural signal.

MFCC特徴量を抽出するフレームは23ミリ秒とし、各フレームを12.5ミリ秒ずつづらしてとることで、それぞれの前後のフレームと半分ずつ重複するようにした。また、各フレームから抽出するMFCC特徴量は最初の13次元までの係数とした。したがって、Δ成分及びΔΔ成分まで含めた局所特徴量の次元数は39である。ベクトル量子化のクラスタリングの際には、全ての局所特徴量を用いると膨大な計算時間がかかるため、全ての音響素材から局所特徴量を500個ずつランダムランプリングしたものを集めてクラスタリングを行った。クラスタリングにはベクトル量子化の手法として、標準的なLBGアルゴリズムを使用し、クラスタ数は2048次元とした。bag-of-features特徴量の次元数はクラスタ数と等しくなり、dimx=2048である。 The frame for extracting the MFCC feature value is 23 milliseconds, and each frame is divided by 12.5 milliseconds so that it overlaps with each of the previous and next frames. In addition, the MFCC feature values extracted from each frame are coefficients up to the first 13 dimensions. Therefore, the dimension number of the local feature amount including the Δ component and the ΔΔ component is 39. In the case of vector quantization clustering, if all local features are used, it takes a lot of computation time, so clustering was performed by collecting random ramping of 500 local features from all acoustic materials. . For clustering, a standard LBG algorithm was used as a vector quantization method, and the number of clusters was 2048. The number of dimensions of the bag-of-features feature is equal to the number of clusters, and dim x = 2048.

Freesoundの2012個の音素材には全部で1000を超える種類のタグが付与されていたが、このうちほとんどのタグは少数の音楽素材にしか付与されていなかったため、付与されている音楽素材の数が12以上ある230種類のタグのみを実験に用いることとした。すなわち、dimy=|V|=230である。表1にこれらのタグの一例を示す。 In 2012, Freesound's 2012 sound materials were tagged with more than 1000 types of tags, but most of these tags were only given to a small number of music materials, so the number of music materials attached. Only 230 tags with 12 or more were used for the experiment. That is, dim y = | V | = 230. Table 1 shows an example of these tags.

実験には、2012個の音素材のうち、1000個のタグ付き訓練標本、712個のタグなし訓練標本、300個の評価用標本にランダムに分けて用いた。なお、各タグの付与された音素材が、1000個のタグ付き訓練標本中には少なくとも4個、300個の評価用標本の中には少なくとも1個は含まれるようにした。分類手法の性能評価は、上記のような標本の分け方で各標本を50回ランダムに選び直し、その全てで実験を行ったAUC(Area Under the Curve)の平均値を用いて行った。AUCとは、受信者動作特性曲線(ROC曲線:Reciever Operatorating Characteristic curve)の下の面積である。ROC曲線とは図10のような曲線であり、閾値を大きな値から小さな値に変えていった時、正のクラスに分類された正例と負例の数によって描かれる。明らかに、正例に対して大きな値、負例に対して小さな値を出力する決定関数を用いた方が分類性能は良くなるため、AUCの値が高い分類器の方が分類性能が良いと言える。なお、SVMは閾値を0に定めた上で決定関数の学習を行うため、本来であれば分類の際の閾値は0に固定されるが、AUCを用いる際には閾値を動かしてその性能を評価することに注意すべきである。まず、教師付き学習に基づく分類手法および次元削減手法を自動タグ付けの問題に適用する。従来法として、カーネル密度推定法(KDE: Kernel Density Estimation、文献:M. Wang, X. Hua, T. Mei, R. Hong, G. Qi, Y. Song, and L. Dai, “ Semi-supervised kernel density estimation for video annotation ”, Computer Vision and Image Understanding, Vol. 113, No. 1, pp. 384-396, January 2009.)に基づく分類手法を利用する。   In the experiment, out of 2012 sound materials, 1000 tagged training samples, 712 untagged training samples, and 300 evaluation samples were randomly divided and used. It should be noted that at least four of the 1000 tagged training samples and at least one of the 300 evaluation samples were included in the sound material to which each tag was assigned. The performance evaluation of the classification method was carried out using the average value of AUC (Area Under the Curve), in which each sample was randomly selected 50 times by the above-mentioned sample division method, and the experiment was performed on all of them. AUC is the area under the receiver operating characteristic curve (ROC curve). The ROC curve is a curve as shown in FIG. 10, and is drawn by the numbers of positive examples and negative examples classified into the positive class when the threshold value is changed from a large value to a small value. Obviously, using a decision function that outputs a large value for positive examples and a small value for negative examples provides better classification performance, so a classifier with a higher AUC value has better classification performance. I can say that. Since SVM learns the decision function after setting the threshold to 0, the threshold at the time of classification is originally fixed to 0, but when using AUC, the threshold is moved to improve its performance. Care should be taken to evaluate. First, we apply classification and dimension reduction techniques based on supervised learning to the problem of automatic tagging. Kernel Density Estimation (KDE), literature: M. Wang, X. Hua, T. Mei, R. Hong, G. Qi, Y. Song, and L. Dai, “Semi-supervised Kernel density estimation for video annotation ”, Computer Vision and Image Understanding, Vol. 113, No. 1, pp. 384-396, January 2009.).

SVM、LSPC、KDEに基づく分類手法はいずれも内部にカーネル関数を含んでいる。ここではこのカーネル関数にはよく用いられるガウスカーネル   All classification methods based on SVM, LSPC, and KDE contain kernel functions inside. Here is a commonly used Gaussian kernel for this kernel function

を用いた。ここで、σはカーネル幅と呼ばれるハイパーパラメータである。また、各分類手法が含むハイパーパラメータの値は、下記の(1)〜(3)の候補の中から2-fold交差確認法によって決定した。 Was used. Here, σ is a hyperparameter called kernel width. Moreover, the value of the hyperparameter included in each classification method was determined by the 2-fold intersection confirmation method from the following candidates (1) to (3).

(1)3つの手法全てのハイパーパラメータであるガウスカーネルの幅σの候補は{m/20,m/10,m/6,m/3,m/2,m,5m/2,5m,10m}とした。ただし、mは全訓練標本間の距離の中央値である。 (1) The candidate of Gaussian kernel width σ, which is the hyperparameter of all three methods, is {m / 20, m / 10, m / 6, m / 3, m / 2, m, 5m / 2,5m, 10m }. Where m is the median distance between all training samples.

(2)LSPCのハイパーパラメータである正規化項の係数λの候補値は{10−10,10−6,10−4,10−2,1}とした。 (2) The candidate values for the coefficient λ of the normalization term, which is a hyperparameter of LSPC, are {10 −10 , 10 −6 , 10 −4 , 10 −2 , 1}.

(3)SVMのマージンの大きさとHinge損失のトレードオフを決めるハイパーパラメータCの候補は{1/m′,0.5,1,10}を用いた。ここで、m′は||xj||2の平均値の逆数である。 (3) {1 / m ′, 0.5,1,10} is used as a candidate for hyperparameter C that determines the tradeoff between the SVM margin size and Hinge loss. Here, m 'is the inverse of the average value of || x j || 2.

教師付き学習を用いた分類では、これらのパラメータを全てのタグの分類器に共通で用いるものと、各タグに対する分類器ごとに異なる値を用いるものの二つの方法で実験を行った。また、分類に用いる特徴ベクトルは、そのままのbag-of-features特徴量と、CCAによって次元削減を行った特徴量の二つを用いた。なお、SVMの学習にはライブラリSVMlight(文献:T.Joachims,“SVMlight:Support Vector Machine ”, http://svmlight.joachims.org/, University of Dortmund, November 1999.)を使った。 In classification using supervised learning, experiments were conducted by two methods, one using these parameters in common for all tag classifiers and the other using different values for each classifier for each tag. The feature vectors used for classification were the bag-of-features features as they were and the features that were dimension-reduced by CCA. The library SVM light (literature: T. Joachims, “SVMlight: Support Vector Machine”, http://svmlight.joachims.org/, University of Dortmund, November 1999.) was used for SVM learning.

教師付き学習に基づく分類手法の実験結果を表2に示す。   Table 2 shows the experimental results of the classification method based on supervised learning.

CCAによる次元削減を行う場合と行わなかった場合を比較してみると、ほとんどの条件において、次元削減を適用した場合には性能が落ちてしまっていることが分かる。これは、次元削減を行った方が分類性能が良くなるという当初の予想に反した結果である。このように次元削減を行ったことで逆に分類性能が落ちてしまった大きな原因としては、タグ付きの訓練標本が少なすぎて過学習に陥っていることが挙げられる。   Comparing the case where dimensionality reduction is performed with CCA and the case where dimensionality reduction is not performed, it can be seen that performance is degraded when dimensionality reduction is applied under most conditions. This is a result contrary to the initial expectation that the classification performance is improved by performing dimension reduction. On the other hand, a major cause of the drop in the classification performance due to the reduction in dimensions is that there are too few training samples with tags, resulting in overlearning.

次に、次元削減に用いていたCCAの代わりに、半教師付きの次元削減手法SemiCCAを用いて実験を行った。SVMとLSPCのハイパーパラメータは全ての分類器で共通の値、KDEのカーネル幅はタグ毎に異なる値をそれぞれ用いることとした。また、SemiCCAのパラメータηは一律にη=0.99とした。   Next, instead of CCA used for dimension reduction, experiments were performed using a semi-supervised dimension reduction technique SemiCCA. The SVM and LSPC hyperparameters are common to all classifiers, and the KDE kernel width is a different value for each tag. In addition, the parameter η of SemiCCA is uniformly η = 0.99.

表3にその結果をまとめたものを示す。   Table 3 summarizes the results.

この結果から、SemiCCAで次元削減を行った特徴ベクトルを用いた分類性能は、CCAで次元削減を行った場合の分類性能よりも常に良くなっていることが分かる。これら二つの分類性能を有意水準5%のt検定にかけたところ、実際に有意な差があることも示された。特に、LSPCとKDEは次元削減を行わなかった場合よりもSemiCCAで次元削減を行った場合の方が有意に良い結果となっており、次元削減により分類性能を向上させることに成功した。一方、SVMを用いた際には次元削減前と比べるとSemiCCAで次元削減を行った場合の方が分類性能が悪くなってしまっている。   From this result, it can be seen that the classification performance using the feature vector subjected to dimension reduction by SemiCCA is always better than the classification performance when dimension reduction is performed by CCA. When these two classification performances were subjected to a t-test with a significance level of 5%, it was shown that there was actually a significant difference. In particular, LSPC and KDE achieved significantly better results when dimensionality reduction was performed with SemiCCA than when dimensionality reduction was not performed, and succeeded in improving classification performance by dimensionality reduction. On the other hand, when SVM is used, classification performance is worse when dimension reduction is performed with SemiCCA than before dimension reduction.

最後に、半教師付きの分類手法であるLaplacian-SVMを自動タグ付けの問題に適用する。従来法として、半教師付きカーネル密度推定法(SSKDE: Kernel Density Estimation、文献:M. Wang, X. Hua, T. Mei, R. Hong, G. Qi, Y. Song, and L. Dai,“ Semi-supervised kernel density estimation for video annotation ”, Computer Vision and Image Understanding, Vol. 113, No. 1, pp. 384-396, January 2009.)に基づく分類手法を利用する。   Finally, we apply Laplacian-SVM, a semi-supervised classification method, to the auto-tagging problem. Conventional methods include semi-supervised kernel density estimation (SSKDE: Kernel Density Estimation, literature: M. Wang, X. Hua, T. Mei, R. Hong, G. Qi, Y. Song, and L. Dai, “ Semi-supervised kernel density estimation for video annotation ”, Computer Vision and Image Understanding, Vol. 113, No. 1, pp. 384-396, January 2009.).

実験に用いるタグ付き・タグなしの訓練標本、および評価用標本はこれまでと同じものとする。また、各手法で用いるカーネル関数は教師付きの分類器と同じガウスカーネルとした。Laplacian-SVMでGraph Laplacianの計算に用いる重み行列Wは、   Tagged and untagged training specimens and evaluation specimens used for experiments shall be the same as before. The kernel function used in each method is the same Gaussian kernel as the supervised classifier. The weight matrix W used to calculate Graph Laplacian in Laplacian-SVM is

で定義される2値重みを用いた。また、SSKDEのタグ情報の信頼度τの値は良く使われる0.95を用いた。その他のハイパーパラメータは下記の(1)〜(5)の候補の中から2-fold交差確認法を用いて決定した。 The binary weight defined in (1) was used. In addition, the reliability value τ of the tag information of SSKDE is 0.95 which is often used. Other hyperparameters were determined from the following candidates (1) to (5) using the 2-fold intersection confirmation method.

(1)SSKDEのカーネルの幅は{m/20,m/10,m/6,m/4,m/3,m/2,m,5m/2,5m,10m}を候補とした。 (1) SSKDE kernel widths are {m / 20, m / 10, m / 6, m / 4, m / 3, m / 2, m, 5m / 2, 5m, 10m} as candidates.

(2)Laplacian-SVMのカーネルの幅は教師付きのSVMにおいて選ばれていた{m/4,m/3,m/2}を候補とした。 (2) The Laplacian-SVM kernel width was selected as {m / 4, m / 3, m / 2}, which was selected in the supervised SVM.

(3)Laplacian-SVMにおける重み行列W、およびSSKDEの疎な隣接行列M′の近傍数kはそれぞれ{1,5,10,20,30}を候補とした。 (3) The weight matrix W in Laplacian-SVM and the number of neighbors k of the sparse adjacency matrix M ′ of SSKDE are {1, 5, 10, 20, 30}, respectively.

(4)Laplacian-SVMのLaplacian正規化項の係数γは{N/100,N/10,N/2}を候補とした。 (4) The coefficient γ of the Laplacian normalization term of Laplacian-SVM is {N / 100, N / 10, N / 2} as candidates.

(5)Laplacian-SVMのマージンの幅とHinge損失のトレードオフを決めるパラメータCは{0.5,1,10}を候補とした。 (5) The parameter C that determines the trade-off between Laplacian-SVM margin width and Hinge loss is {0.5, 1, 10}.

次元削減手法としては、SSKDEではそれぞれの半教師化前の手法において最も良い結果を示したSemiCCAを用い、Laplacian-SVMは半教師化前のSVMでは次元削減を行うと分類性能が下がってしまっていたため、次元削減を行わないそのままの特徴ベクトルを用いた。表4にこの結果をまとめたものを示す。   As a dimension reduction technique, SSKDE uses SemiCCA, which showed the best results in each semi-supervised technique, and Laplacian-SVM reduced classification performance when dimension reduction was performed in semi-supervised SVM. Therefore, the feature vector is used as it is without any dimension reduction. Table 4 summarizes the results.

SSKDEの分類性能は、教師付きの分類手法に比べて大きく向上していると言える。一方で、Laplacian-SVMの分類性能は教師付きのSVMのものとほぼ変わらず、有意水準5%のt検定においても有意な差とはならなかった。   It can be said that the classification performance of SSKDE is greatly improved compared to the supervised classification method. On the other hand, the classification performance of Laplacian-SVM was almost the same as that of supervised SVM, and the t-test with a significance level of 5% showed no significant difference.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、メディアデータが、音素材(音響信号)以外であってもよい。例えば、画像データ、映像データ、テキストデータなどのコンテンツデータに対して、タグを付与するようにしてもよい。   For example, the media data may be other than sound material (acoustic signal). For example, a tag may be attached to content data such as image data, video data, text data, and the like.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

1 学習用データベース
2 学習用データ特徴抽出部
3 次元削減空間学習部
4、704 分類器学習部
5 入力データ特徴抽出部
6 特徴次元削減部
7、707 分類器評価部
8 タグベクトル出力部
10 入力部
20、720 演算部
30 タグベクトル出力部
100、700 メディアデータ解析装置
DESCRIPTION OF SYMBOLS 1 Learning database 2 Learning data feature extraction part 3 Dimension reduction space learning part 4, 704 Classifier learning part 5 Input data feature extraction part 6 Feature dimension reduction part 7, 707 Classifier evaluation part 8 Tag vector output part 10 Input part 20, 720 Calculation unit 30 Tag vector output unit 100, 700 Media data analysis device

Claims (3)

与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置であって、
前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段と、
前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段と、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段と、
前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段と、
入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段と、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段と、
前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段と、
を含むメディアデータ解析装置。
A media data analysis device for giving tag information, which is information for explaining the content data, to given content data,
Content data that is an element of a tagged learning data set that is a set of content data to which the tag information is assigned in advance, and content that is an element of an untagged learning data set that is a set of content data to which no tag information is given Data feature extraction means for learning for extracting a feature vector that is a vector expressing the characteristics of content data from each of the data;
Based on the feature vector extracted for each content data of the tagged learning data set and the pre-assigned tag information, and the feature vector extracted for each content data of the untagged learning data set. Dimensional reduction space learning means for learning a matrix representing a mapping for reducing the number of dimensions of the feature vector;
Dimensions for generating the feature vectors with reduced dimensions from each of the feature vectors extracted for each content data of the tagged learning data set based on the matrix learned by the dimension reduction space learning means. Reduction feature generation means;
Tag information to be given to content data based on the feature vector with reduced dimensions and the tag information given in advance generated by the dimension reduction feature generating means for each content data in the tagged learning data set. A classification model learning means for learning a classification model based on a posteriori probability estimation for classification;
Input data feature extraction means for extracting the feature vector from the input content data;
Based on the matrix learned by the dimension reduction space learning means, feature dimension reduction means for generating the feature vector with reduced dimensions from the feature vector extracted for the input content data;
Classification means for classifying tag information to be given to the input content data based on the feature vector generated by the feature dimension reduction means and the classification model learned by the classification model learning means;
Media data analysis device including
与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するメディアデータ解析装置におけるメディアデータ解析方法であって、
学習用データ特徴抽出手段によって、前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出し、
次元削減空間学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習し、
次元削減特徴生成手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成し、
分類モデル学習手段によって、前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習し、
入力データ特徴抽出手段によって、入力されたコンテンツデータから、前記特徴ベクトルを抽出し、
特徴次元削減手段によって、前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成し、
分類手段によって、前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する
メディアデータ解析方法。
A media data analysis method in a media data analysis apparatus for assigning tag information, which is information for explaining content data, to given content data,
Content data that is an element of a learning data set with a tag that is a set of content data to which the tag information is previously assigned by the learning data feature extracting unit, and no tag that is a set of content data to which no tag information is given From each of the content data that is an element of the learning data set, a feature vector that is a vector expressing the characteristics of the content data is extracted,
The feature vector extracted for each content data of the tagged learning data set and the pre-assigned tag information by the dimension reduction space learning means, and the content data extracted for each content data of the untagged learning data set. Learning a matrix representing a mapping for reducing the dimensionality of the feature vector based on the feature vector;
Based on the matrix learned by the dimension reduction space learning means by the dimension reduction feature generation means, the dimension is reduced from each of the feature vectors extracted for each content data of the tagged learning data set. Generate each feature vector,
Content data based on the feature vector reduced in dimension and the tag information given in advance generated by the dimension reduction feature generation unit for each content data of the tagged learning data set by the classification model learning unit Learn a classification model based on posterior probability estimation to classify tag information given to
The feature vector is extracted from the input content data by the input data feature extraction means,
Based on the matrix learned by the dimension reduction space learning means, the feature dimension reduction means generates the feature vector with reduced dimensions from the feature vector extracted for the input content data,
Media data for classifying tag information to be given to the input content data based on the feature vector generated by the feature dimension reduction unit and the classification model learned by the classification model learning unit by a classification unit analysis method.
与えられたコンテンツデータに対して、前記コンテンツデータを説明する情報であるタグ情報を付与するためのプログラムであって、
コンピュータを、
前記タグ情報が予め付与されたコンテンツデータの集合であるタグ付き学習データ集合の要素であるコンテンツデータ、及びタグ情報が与えられていないコンテンツデータの集合であるタグなし学習データ集合の要素であるコンテンツデータの各々から、コンテンツデータの特性を表現するベクトルである特徴ベクトルを抽出する学習用データ特徴抽出手段、
前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトル及び前記予め付与されたタグ情報と、前記タグなし学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルとに基づいて、前記特徴ベクトルの次元数を削減するための写像を表わす行列を学習する次元削減空間学習手段、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記タグ付き学習データ集合の各コンテンツデータについて抽出された前記特徴べクトルの各々から、次元を削減した前記特徴ベクトルを各々生成する次元削減特徴生成手段、
前記タグ付き学習データ集合の各コンテンツデータについて前記次元削減特徴生成手段によって生成された、次元を削減した前記特徴ベクトル、及び前記予め付与されたタグ情報に基づいて、コンテンツデータに付与するタグ情報を分類するための事後確率推定に基づく分類モデルを学習する分類モデル学習手段、
入力されたコンテンツデータから、前記特徴ベクトルを抽出する入力データ特徴抽出手段、
前記次元削減空間学習手段によって学習された前記行列に基づいて、前記入力されたコンテンツデータについて抽出された前記特徴べクトルから、次元を削減した前記特徴ベクトルを生成する特徴次元削減手段、及び
前記特徴次元削減手段によって生成された前記特徴ベクトル、及び前記分類モデル学習手段によって学習された前記分類モデルに基づいて、前記入力されたコンテンツデータに付与するタグ情報を分類する分類手段
として機能させるためのプログラム。
A program for giving tag information, which is information explaining the content data, to given content data,
Computer
Content data that is an element of a tagged learning data set that is a set of content data to which the tag information is assigned in advance, and content that is an element of an untagged learning data set that is a set of content data to which no tag information is given Data feature extraction means for learning for extracting a feature vector that is a vector expressing the characteristics of content data from each of the data;
Based on the feature vector extracted for each content data of the tagged learning data set and the pre-assigned tag information, and the feature vector extracted for each content data of the untagged learning data set. Dimensional reduction space learning means for learning a matrix representing a mapping for reducing the number of dimensions of the feature vector;
Dimensions for generating the feature vectors with reduced dimensions from each of the feature vectors extracted for each content data of the tagged learning data set based on the matrix learned by the dimension reduction space learning means. Reduction feature generation means,
Tag information to be given to content data based on the feature vector with reduced dimensions and the tag information given in advance generated by the dimension reduction feature generating means for each content data in the tagged learning data set. A classification model learning means for learning a classification model based on a posteriori probability estimation for classification;
Input data feature extraction means for extracting the feature vector from the input content data;
Based on the matrix learned by the dimension reduction space learning means, feature dimension reduction means for generating the feature vector with reduced dimensions from the feature vector extracted for the input content data, and the feature A program for functioning as a classification means for classifying tag information to be given to the input content data based on the feature vector generated by the dimension reduction means and the classification model learned by the classification model learning means .
JP2012166138A 2012-07-26 2012-07-26 Media data analysis device, method and program Pending JP2014026455A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012166138A JP2014026455A (en) 2012-07-26 2012-07-26 Media data analysis device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012166138A JP2014026455A (en) 2012-07-26 2012-07-26 Media data analysis device, method and program

Publications (1)

Publication Number Publication Date
JP2014026455A true JP2014026455A (en) 2014-02-06

Family

ID=50200041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012166138A Pending JP2014026455A (en) 2012-07-26 2012-07-26 Media data analysis device, method and program

Country Status (1)

Country Link
JP (1) JP2014026455A (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550172A (en) * 2016-01-13 2016-05-04 夏峰 Distributive text detection method and system
EP3016033A1 (en) 2014-10-29 2016-05-04 Ricoh Company, Ltd. Information processing system, information processing apparatus, and information processing method
CN105701077A (en) * 2016-01-13 2016-06-22 夏峰 Multi-language literature detection method and system
CN105701086A (en) * 2016-01-13 2016-06-22 夏峰 Method and system for detecting literature through sliding window
CN105701075A (en) * 2016-01-13 2016-06-22 夏峰 Joint detection method and system for literature
CN105701087A (en) * 2016-01-13 2016-06-22 夏峰 Formula plagiarism detection method and system
JP2019133496A (en) * 2018-02-01 2019-08-08 日本電信電話株式会社 Content feature quantity extracting apparatus, method, and program
CN110781906A (en) * 2018-07-31 2020-02-11 中国工程物理研究院电子工程研究所 N-gamma discrimination method based on semi-supervised support vector machine
CN111639540A (en) * 2020-04-30 2020-09-08 中国海洋大学 Semi-supervised character re-recognition method based on camera style and human body posture adaptation
CN113392642A (en) * 2021-06-04 2021-09-14 北京师范大学 System and method for automatically labeling child-bearing case based on meta-learning
CN114582366A (en) * 2022-03-02 2022-06-03 浪潮云信息技术股份公司 Method for realizing audio segmentation labeling based on LapSVM
US11367003B2 (en) 2017-04-17 2022-06-21 Fujitsu Limited Non-transitory computer-readable storage medium, learning method, and learning device
JP2023527403A (en) * 2020-05-27 2023-06-28 ロブロックス・コーポレーション Automatic generation of game tags
CN118585926A (en) * 2024-08-07 2024-09-03 广东电网有限责任公司广州供电局 Equipment operation efficiency evaluation method and device, storage medium and computer equipment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282980A (en) * 2008-05-20 2009-12-03 Ricoh Co Ltd Method and apparatus for image learning, automatic notation, and retrieving
JP2010250391A (en) * 2009-04-10 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> Data classification method, device, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282980A (en) * 2008-05-20 2009-12-03 Ricoh Co Ltd Method and apparatus for image learning, automatic notation, and retrieving
JP2010250391A (en) * 2009-04-10 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> Data classification method, device, and program

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG201001047001; 高木 潤: '半教師付き正準密度推定法に基づく音響信号の自動タグ付けと検索' 電子情報通信学会技術研究報告 Vol.110 No.330, 20101202, 1-6ページ, 社団法人電子情報通信学会 *
JPN6015003223; 高木 潤: '半教師付き正準密度推定法に基づく音響信号の自動タグ付けと検索' 電子情報通信学会技術研究報告 Vol.110 No.330, 20101202, 1-6ページ, 社団法人電子情報通信学会 *
JPN6015003224; Takagi: 'Automatic audio tag classification via semi-supervised canonical density estimation' Acoustics, Speech and Signal Processing (ICASSP) , 20110522, 2232 - 2235ページ *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3016033A1 (en) 2014-10-29 2016-05-04 Ricoh Company, Ltd. Information processing system, information processing apparatus, and information processing method
US10284583B2 (en) 2014-10-29 2019-05-07 Ricoh Company, Ltd. Information processing system, information processing apparatus, and information processing method
CN105701077A (en) * 2016-01-13 2016-06-22 夏峰 Multi-language literature detection method and system
CN105701086A (en) * 2016-01-13 2016-06-22 夏峰 Method and system for detecting literature through sliding window
CN105701075A (en) * 2016-01-13 2016-06-22 夏峰 Joint detection method and system for literature
CN105701087A (en) * 2016-01-13 2016-06-22 夏峰 Formula plagiarism detection method and system
CN105550172A (en) * 2016-01-13 2016-05-04 夏峰 Distributive text detection method and system
US11367003B2 (en) 2017-04-17 2022-06-21 Fujitsu Limited Non-transitory computer-readable storage medium, learning method, and learning device
JP6993250B2 (en) 2018-02-01 2022-01-13 日本電信電話株式会社 Content feature extractor, method, and program
JP2019133496A (en) * 2018-02-01 2019-08-08 日本電信電話株式会社 Content feature quantity extracting apparatus, method, and program
CN110781906A (en) * 2018-07-31 2020-02-11 中国工程物理研究院电子工程研究所 N-gamma discrimination method based on semi-supervised support vector machine
CN111639540A (en) * 2020-04-30 2020-09-08 中国海洋大学 Semi-supervised character re-recognition method based on camera style and human body posture adaptation
CN111639540B (en) * 2020-04-30 2023-08-04 中国海洋大学 Semi-supervised character re-recognition method based on camera style and human body posture adaptation
JP2023527403A (en) * 2020-05-27 2023-06-28 ロブロックス・コーポレーション Automatic generation of game tags
JP7410334B2 (en) 2020-05-27 2024-01-09 ロブロックス・コーポレーション Automatic generation of game tags
CN113392642A (en) * 2021-06-04 2021-09-14 北京师范大学 System and method for automatically labeling child-bearing case based on meta-learning
CN113392642B (en) * 2021-06-04 2023-06-02 北京师范大学 Automatic labeling system and method for child care cases based on meta learning
CN114582366A (en) * 2022-03-02 2022-06-03 浪潮云信息技术股份公司 Method for realizing audio segmentation labeling based on LapSVM
CN118585926A (en) * 2024-08-07 2024-09-03 广东电网有限责任公司广州供电局 Equipment operation efficiency evaluation method and device, storage medium and computer equipment

Similar Documents

Publication Publication Date Title
JP2014026455A (en) Media data analysis device, method and program
Sun et al. Domain adversarial training for accented speech recognition
Xu et al. Unsupervised feature learning based on deep models for environmental audio tagging
US9311609B2 (en) Techniques for evaluation, building and/or retraining of a classification model
Zhuang et al. Real-world acoustic event detection
Wang et al. Using parallel tokenizers with DTW matrix combination for low-resource spoken term detection
Babaee et al. An overview of audio event detection methods from feature extraction to classification
Dekel et al. An online algorithm for hierarchical phoneme classification
US11880755B2 (en) Semi-supervised learning with group constraints
Bouguila A model-based approach for discrete data clustering and feature weighting using MAP and stochastic complexity
Zou et al. Improved voice activity detection based on support vector machine with high separable speech feature vectors
US20220309292A1 (en) Growing labels from semi-supervised learning
Cho et al. Non-contrastive self-supervised learning for utterance-level information extraction from speech
US8185490B1 (en) Class-specific iterated subspace classifier
Egas-López et al. Predicting a cold from speech using fisher vectors; svm and xgboost as classifiers
Borgström Bayesian estimation of PLDA in the presence of noisy training labels, with applications to speaker verification
Cipli et al. Multi-class acoustic event classification of hydrophone data
JP4256314B2 (en) Acoustic model creation method for speech recognition, acoustic model creation device for speech recognition, acoustic model creation program for speech recognition, and recording medium recording this program
US20210192318A1 (en) System and method for training deep-learning classifiers
US11107460B2 (en) Adversarial speaker adaptation
CN114547264A (en) News diagram data identification method based on Mahalanobis distance and comparison learning
Wilkinson Robust voice activity detection for low-resource automatic speech recognition
Hammami et al. Tree distributions approximation model for robust discrete speech recognition
Revathi et al. A Robust Music Composer Identification System Based on Cepstral Feature and Models
Kangala et al. A Fractional Ebola Optimization Search Algorithm Approach for Enhanced Speaker Diarization.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140704

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140707

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150721