CN107924493A - 学习装置和学习识别系统 - Google Patents
学习装置和学习识别系统 Download PDFInfo
- Publication number
- CN107924493A CN107924493A CN201580082158.0A CN201580082158A CN107924493A CN 107924493 A CN107924493 A CN 107924493A CN 201580082158 A CN201580082158 A CN 201580082158A CN 107924493 A CN107924493 A CN 107924493A
- Authority
- CN
- China
- Prior art keywords
- identification
- class
- learning
- classes
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
学习样本取得部(2a)取得通过N(N为3以上的自然数)类识别而被分类成各类的学习样本。分类部(2b)将由学习样本取得部(2a)取得的学习样本再分类成作为比N少的M(M为2以上且小于N的自然数)类识别的对象的类。学习部(2c)根据由分类部(2b)再分类后的学习样本,学习用于进行M类识别的识别器。
Description
技术领域
本发明例如涉及学习用于识别图像中的对象物体所属的类的识别器的学习装置和学习识别系统。
背景技术
在图像处理技术领域中,已积极地研究开发出如下的图案识别技术:对图像数据进行特征提取,学习由从该图像数据中提取出的特征向量确定的图案,识别图像中的对象物体。
在特征提取中,可以直接提取图像数据的像素值作为特征向量,也可以将对图像进行加工而得到的数据作为特征向量。通过这种特征提取而得到的特征量一般成为多维度的数据,因此,该特征量被称作特征向量。但是,特征量也可以是单一维度的数据。
例如,在非专利文献1中记载有求出图像中的深浅等级的频度作为柱状图的技术。这种处理也是上述特征提取处理的一例。
并且,在图像识别处理中,已提出大量使用作为图案识别中的学习之一的有教师学习的学习方法。有教师学习是指如下的学习方法:准备赋予了与输入图像对应的标签的学习样本,根据该学习样本,求出根据图像或特征向量估计对应标签的计算式。
在非专利文献1中记载有使用作为该有教师学习之一的最短距离法的图像识别处理。在最短距离法中,求出与各类之间的特征空间中的距离作为分类单位,判定为属于该距离最小的类。
此时,图像数据的类为多个即可,一般而言,类越多则识别越困难,类越少则识别越简单。
在非专利文献2中记载有使用被称作Convolutional Neural Networks(卷积神经网络,以下记作CNN)的神经网络学习图像中映出的面部表情的方法。在该方法中,针对作为分类对象的图像求出属于各类的概率,将该概率最大的类判定为该图像所属的类。
并且,在非专利文献3中记载有识别图像中映出的人物表情的表情识别。在表情识别中,图像中映出的人物表情一般被分类成喜悦、悲伤、愤怒、严肃、惊讶、恐惧、厌恶这7个类,例如,可得到某个图像中映出的人物表情是喜悦度为80这样的识别结果。而且,表情识别的输出形式也可以是针对7个类分别求出可信度的形式。在任何情况下,都可设定表示识别对象图像属于哪类的基准。
现有技术文献
专利文献
非专利文献1:高木幹雄、下田陽久監修、“新編画像解析ハンドブック”、東京大学出版会、2004年、pp.1600-1603.
非专利文献2:Wei Li、Min Li、Zhong Su、Zhigang Zhu、“A Deep-LearningApproach to Facial Expression Recognition with Candid Images”、14th IAPRConference on Machine Vision Applications(MVA 2015)、pp.279-282、Tokyo.
非专利文献3:Michael Lyons、Shigeru Akamatsu、Miyuki Kamachi、Jiro Gyoba、“Coding Facial Expressions with Gabor Wavelets”、3rd IEEE InternationalConference on Automatic Face and Gesture Recognition、pp.200-205、1998.
发明内容
发明要解决的课题
在应用这种识别技术的领域中,有时希望使用通过多类识别而被分类成各类的学习样本,得到更少类的识别结果。
例如,在观看广告的人物的图像的表情识别中,为了根据被分类成7类(喜悦、悲伤、愤怒、严肃、惊讶、恐惧、厌恶)的识别结果判断广告的效果,有时希望检测观看广告的人物是否是肯定的表情。
但是,在N(N为3以上的自然数)类识别问题中,可利用各类的识别基准得到识别结果。因此,无法判别N类识别的结果在比N少的M(M为2以上且小于N的自然数)类识别问题的各类的识别基准中成为什么样的值。并且,在N类识别的结果针对各个类进行数值化的情况下,无法利用M类识别的识别基准来比较不同类的识别结果彼此。
这样,以往无法将N类识别的结果作为M类识别问题进行比较。
本发明用于解决上述课题,其目的在于,得到能够利用比N少的M类识别问题的识别基准来比较N类识别的结果的学习装置和学习识别系统。
用于解决课题的手段
本发明的学习装置具有学习样本取得部、分类部和学习部。学习样本取得部取得通过N类识别而被分类成各类的学习样本。分类部将由学习样本取得部取得的学习样本再分类成作为比N少的M类识别的对象的类。学习部根据由分类部再分类后的学习样本,学习用于进行M类识别的识别器。
发明效果
根据本发明,将通过N类识别而被分类成各类的学习样本再分类成比N少的M类识别的类,学习给出M类识别的识别基准的识别器,因此,能够利用比N少的M类识别问题的识别基准来比较N类识别的结果。
附图说明
图1是示出表情识别中的图像识别的概要的图。
图2是示出利用2类识别的识别基准来比较表情识别中的7类识别的结果的情况下的问题点的图。
图3是示出规定有6个类的特征空间的图。
图4是示出在图3的特征空间中设定了类间的识别边界的状况的图。
图5是示出本发明的实施方式1的学习识别系统的功能结构的框图。
图6是示出实施方式1的学习装置的硬件结构的框图。图6的(a)示出实现学习装置的功能的硬件的处理电路,图6的(b)示出执行实现学习装置的功能的软件的硬件结构。
图7是示出实施方式1的学习装置的动作的流程图。
图8是示出使用表情识别中的7类识别的结果进行2类识别的处理的概要的图。图8的(a)示出从7类再分类成2类的学习样本,图8的(b)示出2类识别的结果。
图9是示出本发明的实施方式2的学习装置的功能结构的框图。
图10是示出实施方式2的学习装置的动作的流程图。
图11是示出对类间的学习样本的样本数的比例进行调整的处理的图。图11的(a)示出未进行样本数的调整的情况,图11的(b)示出进行了样本数的调整的情况。
具体实施方式
下面,为了更加详细地说明本发明,根据附图对用于实施本发明的方式进行说明。
实施方式1
图1是示出表情识别中的图像识别的概要的图。如上所述,在表情识别中,一般存在喜悦、悲伤、愤怒、严肃、惊讶、恐惧、厌恶这7个分类标签,N=7。在该7类识别问题中,识别对象图像被分类成在输入到各类的识别器时输出最高识别分数的识别器的类,可利用各个类的识别基准得到识别结果。
另外,在图1中,图像100a被分类成标签“喜悦”的类,图像100b被分类成标签“悲伤”的类,图像100c被分类成标签“愤怒”的类。并且,作为识别结果,例如,关于图像100a输出“喜悦度80”这样的结果。喜悦度相当于识别对象图像属于标签“喜悦”的类的可信度,设为0~100的值。
图2是示出利用2类识别的识别基准来比较表情识别中的7类识别的结果的情况下的问题点的图。在图2中,通过表情识别的7类识别,关于图像100a得到“喜悦度80”这样的识别结果,关于图像100b得到“悲伤度80”这样的识别结果,关于图像100d得到“惊讶度80”这样的识别结果,关于图像100e得到“恐惧度80”这样的识别结果。另外,悲伤度相当于识别对象图像属于标签“悲伤”的类的可信度,设为0~100的值。惊讶度相当于识别对象图像属于标签“惊讶”的类的可信度,设为0~100的值。恐惧度相当于识别对象图像属于标签“恐惧”的类的可信度,设为0~100的值。
根据表情识别中的喜悦、悲伤、愤怒、严肃、惊讶、恐惧、厌恶的7类识别问题的识别结果,考虑“是否进行肯定的表情”这样的2类识别问题。
该情况下,需要利用“是否进行肯定的表情”这样的识别基准,分别比较7类识别问题各自的识别结果。
但是,7类识别问题各自的识别结果是利用7类识别问题中作为对象的类的识别基准进行判断而得到的结果,因此,无法利用“是否进行肯定的表情”这样的识别基准进行比较。
例如,在喜悦度80的识别结果和惊讶度80的识别结果中,未给出哪一方是否更加肯定的优劣,无法在图2所示的肯定度的轴上比较这些识别结果。即,无法得知“当喜悦度100的识别结果的肯定度为100时,惊讶度100的识别结果的肯定度为80”这样的对应关系。
图3是示出规定有6(N=6)个类的特征空间的图。学习样本的特征向量用变量(x1,x2)表示。在图3中,类C1~C6用虚线的圆表示,被分类成各类的学习样本的特征向量的平均向量成为圆的中心点。并且,圆的半径设为50,在各类中为相同半径。
这里,假设将类C1~C3分类成正类,将类C4~C6分类成负类的2(M=2)类识别问题。
正类是对检测对象数据进行分类的类。例如,在所述“是否进行肯定的表情”的2类识别问题中,对识别为被摄体的人物是肯定表情的图像进行分类。
并且,负类是对非检测对象数据进行分类的类。例如,在所述“是否进行肯定的表情”的2类识别问题中,对识别为被摄体的人物不是肯定表情的图像进行分类。
图4是示出针对图3的特征空间设定了类间的识别边界的状况的图。
识别边界是指在特征空间内的类间对数据进行分类的类交替的边界,设定作为类C1~C6各自的边界的识别边界E1~E6。
并且,这里,应用最短距离法解决6类识别问题,判定学习样本的特征向量接近类C1~C6中的哪个类的平均向量,最近的类的标签成为该学习样本的识别结果。
关于用于对识别结果彼此进行比较的可信度,如图4所示,使用利用线段规定的识别边界与学习样本的特征向量之间的距离。例如,点A的特征向量与类C2的平均向量一致,从类C2的圆与类C1、C3的各圆的切点起的距离为50,因此,成为类C2中的可信度50的数据。
另一方面,点B是类C2的圆与类C3的圆的切点,因此,该点B的特征向量成为类C2或类C3中的可信度0的数据。这样,2个类的可信度相等,因此,无法利用最短距离法判别点B的数据是类C2还是类C3。
在假设将类C1~C3分类成正类且将类C4~C6分类成负类的2类识别问题的情况下,正类的平均向量的中心点为点C,负类的平均向量的中心点为点D。
因此,2类识别问题中的正类与负类的识别边界成为识别边界E4。
并且,在设从识别边界E4起的距离为可信度的情况下,通过6类识别而被分类成类C2的可信度50的数据即点A的特征向量和被分类成类C2或类C3的可信度0的数据即点B的特征向量作为2类识别问题而成为相同的可信度50的数据。
即,与识别边界E4平行的线段F上的各点的特征向量在考虑到2类识别问题时成为相同的可信度。因此,无法定义6类识别的结果与2类识别的结果之间的对应关系。
在图4的例子中,示出在2类中识别边界仅为一个的情况,但是实际上,还存在M为3以上且小于N的情况,设定多个识别边界,类间的位置关系也变得复杂。
该情况下,也需要利用M类识别问题的识别基准对N类识别问题各自的识别结果彼此进行比较,无法定义N类识别的结果与M类识别的结果的对应关系成为问题。
因此,在本发明的学习装置中,将通过N类识别而被分类成各类的学习样本再分类成M类识别的类,根据再分类后的学习样本,学习用于进行M类识别的识别器。由此,能够根据通过N类识别而被分类成各类的学习样本,学习利用M类识别的识别基准进行识别的识别器。下面详细进行说明。
图5是示出本发明的实施方式1的学习识别系统1的功能结构的框图。学习识别系统1例如是进行基于表情识别、物体检测等图案识别的识别处理的系统,具有学习装置2、存储装置3和识别装置4。
实施方式1的学习装置2具有学习样本取得部2a、分类部2b和学习部2c。存储装置3是存储由学习装置2学习到的识别器的存储装置。识别装置4是使用由学习装置2学习到的识别器对识别对象数据进行识别的装置,具有特征提取部4a和识别部4b。
另外,在图5中,示出学习装置2和识别装置4是不同装置的情况,但是,也可以是具有两者的功能的一个装置。
在学习装置2中,学习样本取得部2a是取得学习样本的结构要素,例如,从摄像机、硬盘驱动器等外部存储装置取得学习样本。
学习样本由从学习对象数据中提取出的特征向量和该特征向量中附带的标签对构成。作为学习对象数据,例如可举出图像数据、影像数据、声音数据、文本数据等多媒体数据。
特征向量是表示学习对象数据的特征量的数据。在学习对象数据是图像数据的情况下,也可以使用图像数据作为特征向量。
并且,也可以使用对图像数据实施一次微分滤波器或平均值滤波器等的特征提取处理而成的加工数据作为特征向量。
标签是用于识别学习样本所属的类的信息,例如,针对被摄体为狗的图像数据的类,标注标签“狗”。
设学习样本通过N类识别而分别被分类成N个类。其中,N为3以上的自然数。
另外,学习样本也可以是识别装置4进行N类识别而得到的识别结果。
分类部2b将由学习样本取得部2a取得的学习样本再分类成作为比N少的M类识别的对象的类。其中,M是2以上且小于N的自然数。
例如,分类部2b根据规定有作为N类识别的对象的类的标签与作为M类识别的对象的类的标签的对应关系的参照数据,将上述学习样本再分类成M类识别的对应标签的类。
即,分类部2b根据这样规定有标签彼此的对应关系的参照数据,将对学习样本进行分类后的类的标签分配给M类识别中作为对象的类的标签中的对应标签。学习样本被分类成这样分配的标签的类。
通过对全部学习样本进行这种标签的再分配和分类,将通过N类识别而被分类成各类的学习样本再分类成M类识别中作为对象的类。
学习部2c根据由分类部2b再分类后的学习样本,学习用于进行M类识别的识别器。这里,学习多个学习样本的特征向量与标签的关系,决定M类识别的识别基准。作为学习方法,例如,可举出使用最短距离法或CNN的学习方法。
关于识别器,在被输入识别对象数据的特征向量时,利用M类识别的各类的识别基准识别识别对象数据所属的类并进行输出。
如上所述,存储装置3是存储由学习装置2学习到的识别器的存储装置。例如,由硬盘驱动器等外部存储装置实现。
并且,存储装置3也可以内置于学习装置2或识别装置4中。
另外,学习识别系统1也可以是不具有存储装置3的结构。即,学习装置2的学习部2c针对识别装置4的识别部4b直接设定识别器,由此,能够省略存储装置3。
在识别装置4中,特征提取部4a提取识别对象数据的特征量即特征向量。识别部4b根据由学习装置2学习到的识别器和由特征提取部4a取得的特征向量,进行识别对象数据的M类识别。
例如,识别部4b使用识别器来识别识别对象数据属于哪个类,输出该类的标签作为识别结果。
学习装置2中的学习样本取得部2a、分类部2b、学习部2c的各功能由处理电路实现。即,学习装置2具有用于进行后述图7所示的步骤ST1~步骤ST3的处理的处理电路。
处理电路可以是专用的硬件,也可以是执行存储器中存储的程序的CPU(CentralProcessing Unit:中央处理单元)。
图6是示出实施方式1的学习装置2的硬件结构的框图。图6的(a)示出实现学习装置2的功能的硬件的处理电路,图6的(b)示出执行实现学习装置2的功能的软件的硬件结构。
如图6的(a)所示,在上述处理电路是专用的硬件的处理电路100的情况下,处理电路100例如是单一电路、复合电路、程序化的处理器、并列程序化的处理器、ASIC(Application Specific Integrated Circuit:特定用途集成电路)、FPGA(FieldProgrammable Gate Array:现场可编程门阵列)或对它们进行组合而得到的部件。
可以分别通过处理电路实现学习样本取得部2a、分类部2b、学习部2c的各部的功能,也可以汇集各部的功能而由一个处理电路实现。
如图6的(b)所示,在上述处理电路是CPU101的情况下,学习样本取得部2a、分类部2b、学习部2c的功能通过软件、固件或软件与固件的组合来实现。
软件和固件作为程序进行记述,存储在存储器102中。CPU101读出并执行存储器102中存储的程序,由此实现各部的功能。
即,学习装置2具有存储器102,该存储器102用于存储在由CPU101执行时结果执行图7所示的步骤ST1~步骤ST3的处理的程序。并且,这些程序使计算机执行学习样本取得部2a、分类部2b、学习部2c的步骤或方法。
这里,存储器例如是RAM(Random Access Memory:随机存取存储器)、ROM、闪存、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)等非易失性或易失性半导体存储器、磁盘、软盘、光盘、高密度盘、迷你盘、DVD(Digital Versatile Disk)等。
另外,关于学习样本取得部2a、分类部2b、学习部2c的各功能,也可以利用专用的硬件实现一部分,利用软件或固件实现一部分。
例如,学习样本取得部2a利用专用的硬件的处理电路100实现其功能,分类部2b和学习部2c通过由CPU101执行存储器102中存储的程序来实现其功能。
这样,上述处理电路能够通过硬件、软件、固件或它们的组合来实现所述功能。
并且,关于识别装置4中的特征提取部4a和识别部4b的各功能,与学习装置2同样,可以由专用的硬件实现,也可以由软件或固件实现。并且,还可以利用专用的硬件实现这些功能的一部分,利用软件或固件实现一部分。
接着,对动作进行说明。
图7是示出学习装置2的动作的流程图。
首先,学习样本取得部2a取得通过N类识别而被分类成各类的学习样本(步骤ST1)。
例如,将观看广告的人物的图像作为识别对象数据,取得被分类成7(N=7)类(喜悦、悲伤、愤怒、严肃、惊讶、恐惧、厌恶)的识别结果作为学习样本。
接着,分类部2b将由学习样本取得部2a取得的学习样本再分类成作为M类识别的对象的类(步骤ST2)。
例如,将被分类成7类的学习样本再分类成2(M=2)类(肯定的、否定的)。
根据标签彼此的对应关系来执行再分类。
例如,在分类部2b中预先设定规定有作为7类识别的对象的类的标签与作为2类识别的对象的类的标签的对应关系的参照数据。
分类部2b根据上述参照数据,将学习样本的类的标签分配给2类识别中作为对象的类的标签中的对应标签。学习样本被分类成分配给分类部2b的标签的类。
通过对全部学习样本进行这种标签的再分配和分类,将通过7类识别而被分类成各类的学习样本再分类成2类识别中作为对象的类。
作为N类识别的对象的类的标签与作为M类识别的对象的类的标签的对应关系,根据用于进行利用学习识别系统1的信息处理的应用的目的而不同。
在应用的目的在于从观看广告的人物的图像中检测肯定的表情的情况下,例如,表情识别中的“喜悦”、“惊讶”、“严肃”的标签对应于“肯定的”的标签,“悲伤”、“愤怒”、“恐惧”、“厌恶”的标签对应于“否定的”的标签。
并且,除此之外,在应用的目的在于从观看恐怖电影的人物的图像中检测该人物是否感到恐怖的情况下,表情识别中的“恐惧”、“厌恶”、“悲伤”、“愤怒”、“惊讶”的标签对应于“具有恐怖效果”的标签,“喜悦”、“严肃”的标签对应于“没有恐怖效果”的标签。
另外,学习装置2可以自动决定标签彼此的对应关系,但是,也可以由用户设定。例如,分类部2b可以对应用的处理算法进行解析,确定该应用中实施的M类识别,进行该M类识别中作为对象的类的标签与N类识别中作为对象的类的标签的对应。并且,用户也可以使用输入装置设定标签彼此的对应关系。
然后,学习部2c根据由分类部2b再分类后的上述学习样本,学习用于进行M类识别的识别器(步骤ST3)。
例如,在输入了识别对象数据的特征向量时,生成识别2类识别的类(肯定的、否定的)中的该识别对象数据所属的类的识别器。这样得到的识别器存储在存储装置3中。
在从观看广告的人物的图像中检测肯定的表情的情况下,识别装置4的特征提取部4a输入映出观看广告的人物的图像,从该图像中提取特征向量。
接着,识别部4b根据从存储装置3读出的上述识别器和上述图像的特征向量,识别该图像属于肯定的的类还是属于否定的的类,输出该类的标签作为识别结果。
图8是示出使用表情识别中的7类识别的结果进行2类识别的处理的概要的图。图8的(a)示出从7类(喜悦、惊讶、严肃、悲伤、愤怒、恐惧、厌恶)再分类成2类(肯定的、否定的)的学习样本,图8的(b)示出2类识别的结果。
图8的(b)所示的图像100a是被分类成标签“喜悦”的类且得到喜悦度80这样的识别结果的图像,图像100b是被分类成标签“悲伤”的类且得到悲伤度80这样的识别结果的图像。并且,图像100d是被分类成标签“惊讶”的类且得到惊讶度80这样的识别结果的图像,图像100e是被分类成标签“恐惧”的类且得到恐惧度80这样的识别结果的图像。
在实施方式1的学习装置2中,根据标签彼此的对应关系,将通过7类识别而被分类成各类的数据再分类成2类识别中作为对象的类。
例如,由图像100a、100d的特征向量和标签对构成的各数据与喜悦度80和惊讶度80无关地,标签“喜悦”和标签“惊讶”被分配给标签“肯定的”而再分类成标签“肯定的”的类。
同样,由图像100b、100e的特征向量和标签对构成的各数据与悲伤度80和恐惧度80无关地,标签“悲伤”和标签“恐惧”被分配给标签“否定的”而再分类成标签“否定的”的类。
学习装置2根据这样再分类成“肯定的”的类和“否定的”的类的学习样本,学习将肯定的表情作为识别基准的识别器。
通过使用该识别器进行2类识别,如图8的(b)所示,能够利用肯定度这样的2类识别的识别基准,对通过7类识别而被分类成各类的图像100a、100b、100d、100e的数据进行比较。
例如,喜悦度80的图像100a的数据成为肯定度80,惊讶度80的图像100d的数据成为肯定度70。悲伤度80的图像100b的数据成为肯定度40,恐惧度80的图像100e的数据成为肯定度30。
如上所述,该实施方式1的学习装置2具有学习样本取得部2a、分类部2b和学习部2c。
学习样本取得部2a取得通过N类识别而被分类成各类的学习样本。分类部2b将由学习样本取得部2a取得的学习样本再分类成作为比N少的M类识别的对象的类。学习部2c根据由分类部2b再分类后的学习样本,学习用于进行M类识别的识别器。
这样,将通过N类识别而被分类成各类的学习样本再分类成M类识别的类,学习M类识别的识别器,因此,能够利用比N少的M类识别问题的识别基准来比较N类识别的结果。
并且,在实施方式1的学习装置2中,分类部2b根据表示作为N类识别的对象的类的标签与作为M类识别的对象的类的标签的对应关系的参照数据,将由学习样本取得部2a取得的学习样本再分类成M类识别的对应标签的类。由此,能够利用参照数据中规定的对应关系,将作为N类识别的对象的类汇集成作为M类识别的对象的类。
进而,实施方式1的学习识别系统1具有学习装置2和识别装置4。识别装置4使用由学习装置2学习到的识别器,识别作为M类识别的对象的类中的识别对象数据所属的类。
通过这样构成,可得到与上述相同的效果。并且,能够使用根据N类识别的结果而学习到的M类识别器进行M类识别。
实施方式2
图9是示出本发明的实施方式2的学习装置2A的功能结构的框图。在图9中,对与图1相同的结构要素标注相同标号并省略说明。
学习装置2A具有学习样本取得部2a、分类部2b、学习部2c和调整部2d。调整部2d对由分类部2b再分类后的学习样本的类间的样本数的比例进行调整,以使M类识别的误识别减少。
并且,学习装置2A中的学习样本取得部2a、分类部2b、学习部2c和调整部2d的各功能与实施方式1同样,可以由专用的硬件实现,也可以由软件或固件实现。
并且,还可以利用专用的硬件实现这些功能的一部分,利用软件或固件实现一部分。
接着,对动作进行说明。
图10是示出学习装置2A的动作的流程图。图10中的步骤ST1a和步骤ST2a的处理是与图7的步骤ST1和步骤ST2相同的处理,因此省略说明。
调整部2d对在步骤ST2a中再分类后的学习样本的类间的样本数的比例进行调整,以使M类识别的误识别减少(步骤ST3a)。
接着,学习部2c根据由调整部2d调整类间的样本数的比例后的学习样本,学习识别器(步骤ST4a)。
图11是示出对类间的学习样本的样本数的比例进行调整的处理的图,示出学习样本分布在肯定的类与否定的类之间的状况。
当进行学习而不对肯定的类与否定的类之间的学习样本的样本数的比例进行调整时,得到图11的(a)所示的识别边界L1。
肯定的样本是应该识别为肯定的类的学习样本,否定的样本是应该识别为否定的类的学习样本。
当进行学习而不对学习样本的样本数的比例进行调整时,决定跨过识别边界L1而被误识别为肯定的类侧的否定的样本(Fale Positive:以下记作FP)的数量和跨过识别边界L1而被误识别为否定的类侧的肯定的样本(Fale Negative:以下记作FN)的数量。
为了提高识别精度,需要进行学习以使这种FN和FP减少。
因此,例如如图11的(b)中箭头a所示,调整部2d对肯定的类与否定的类之间的否定的样本进行间疏。通过这样对肯定的类与否定的类之间的学习样本的样本数的比例进行调整并进行学习,从识别边界L1向识别边界L2移动。在识别边界L2,与识别边界L1相比,更多的学习样本被判定为肯定的类,M类识别的识别基准被调整成容易判定为肯定的类的基准。
另外,在机器学习中,还存在不在类间设定识别边界的情况,但是,该情况下,也根据类间的识别基准来判定学习样本的类识别的成功和失败,因此,能够得到上述这种效果。
作为样本数的比例的调整方法,例如可举出如下方法:从选择了被分类成某个类间的全部学习样本的状态起,反复进行随机解除一个样本选择的操作,直到成为预定的样本数为止。并且,也可以从被分类成类间的全部样本中随机反复进行选择,直到作为学习样本保留的样本成为预定的样本数为止。进而,也可以采用被称作自助法的方法。
如上所述,实施方式2的学习装置2A具有调整部2d,该调整部2d对由分类部2b再分类后的学习样本的类间的样本数的比例进行调整,以使M类识别的误识别减少。学习部2c根据由调整部2d调整类间的样本数的比例后的学习样本,学习识别器。
由此,能够调整成在类间的一方容易识别学习样本的识别基准,因此,类间的误识别减少,能够提高M类识别的识别精度。
另外,本发明能够在本发明的范围内进行各实施方式的自由组合、或各实施方式的任意结构要素的变形、或各实施方式的任意结构要素的省略。
产业上的可利用性
本发明的学习装置能够学习将N类识别问题各自的识别结果作为学习样本来求解M类识别问题的识别器,因此,能够应用于进行基于表情识别、物体检测等图案识别的各种识别的信息处理系统。
标号说明
1:学习识别系统;2、2A:学习装置;2a:学习样本取得部;2b:分类部;2c:学习部;2d:调整部;3:存储装置;4:识别装置;4a:特征提取部;4b:识别部;30:肯定度;100:处理电路;100a~100e:图像;101:CPU;102:存储器。
Claims (5)
1.一种学习装置,其特征在于,所述学习装置具有:
学习样本取得部,其取得通过N(N为3以上的自然数)类识别而被分类成各类的学习样本;
分类部,其将由所述学习样本取得部取得的学习样本再分类成作为比N少的M(M为2以上且小于N的自然数)类识别的对象的类;以及
学习部,其根据由所述分类部再分类后的学习样本,学习用于进行所述M类识别的识别器。
2.根据权利要求1所述的学习装置,其特征在于,
所述学习装置具有调整部,该调整部对由所述分类部再分类后的学习样本的类间的样本数的比例进行调整,以使所述M类识别的误识别减少,
所述学习部根据对所述类间的样本数的比例进行调整后的学习样本,学习所述识别器。
3.根据权利要求1所述的学习装置,其特征在于,
所述分类部根据表示作为所述N类识别的对象的类的标签与作为所述M类识别的对象的类的标签之间的对应关系的数据,将由所述学习样本取得部取得的学习样本再分类成所述M类识别的对应标签的类。
4.一种学习识别系统,其特征在于,所述学习识别系统具有:
学习装置,其具有学习样本取得部、分类部和学习部,所述学习样本取得部取得通过N(N为3以上的自然数)类识别而被分类成各类的学习样本,所述分类部将由所述学习样本取得部取得的学习样本再分类成作为比N少的M(M为2以上且小于N的自然数)类识别的对象的类,所述学习部根据由所述分类部再分类后的学习样本,学习用于进行所述M类识别的识别器;以及
识别装置,其具有特征提取部和识别部,所述特征提取部提取识别对象数据的特征量,所述识别部根据由所述学习装置学习到的所述识别器和由所述特征提取部取得的特征量进行所述识别对象数据的所述M类识别。
5.根据权利要求4所述的学习识别系统,其特征在于,
所述学习装置具有调整部,该调整部对由所述分类部再分类后的学习样本的类间的样本数的比例进行调整,以使所述M类识别的误识别减少,
所述学习部根据对所述类间的样本数的比例进行调整后的学习样本,学习所述识别器。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/073374 WO2017029758A1 (ja) | 2015-08-20 | 2015-08-20 | 学習装置および学習識別システム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107924493A true CN107924493A (zh) | 2018-04-17 |
Family
ID=58051188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580082158.0A Pending CN107924493A (zh) | 2015-08-20 | 2015-08-20 | 学习装置和学习识别系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20180039822A1 (zh) |
JP (1) | JP6338781B2 (zh) |
CN (1) | CN107924493A (zh) |
DE (1) | DE112015006815T5 (zh) |
WO (1) | WO2017029758A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417530B2 (en) * | 2016-09-30 | 2019-09-17 | Cylance Inc. | Centroid for improving machine learning classification and info retrieval |
US10929478B2 (en) * | 2017-06-29 | 2021-02-23 | International Business Machines Corporation | Filtering document search results using contextual metadata |
CN118303019A (zh) * | 2021-12-01 | 2024-07-05 | 索尼集团公司 | 图像处理装置、图像处理方法和程序 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4174891B2 (ja) * | 1999-02-22 | 2008-11-05 | ソニー株式会社 | 画像情報変換装置および方法 |
CN101853389A (zh) * | 2009-04-01 | 2010-10-06 | 索尼株式会社 | 多类目标的检测装置及检测方法 |
CN102262645A (zh) * | 2010-05-27 | 2011-11-30 | 索尼公司 | 信息处理装置、信息处理方法以及程序 |
CN103793714A (zh) * | 2012-10-26 | 2014-05-14 | 卡西欧计算机株式会社 | 多分类识别器、数据识别装置、多分类识别方法及数据识别方法 |
WO2014097670A1 (ja) * | 2012-12-21 | 2014-06-26 | 富士ゼロックス株式会社 | 文書分類装置及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2630474A4 (en) * | 2010-10-19 | 2017-04-19 | 3M Innovative Properties Company | Computer-aided assignment of ratings to digital samples of a manufactured web product |
-
2015
- 2015-08-20 CN CN201580082158.0A patent/CN107924493A/zh active Pending
- 2015-08-20 US US15/554,534 patent/US20180039822A1/en not_active Abandoned
- 2015-08-20 WO PCT/JP2015/073374 patent/WO2017029758A1/ja active Application Filing
- 2015-08-20 JP JP2017535217A patent/JP6338781B2/ja not_active Expired - Fee Related
- 2015-08-20 DE DE112015006815.5T patent/DE112015006815T5/de not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4174891B2 (ja) * | 1999-02-22 | 2008-11-05 | ソニー株式会社 | 画像情報変換装置および方法 |
CN101853389A (zh) * | 2009-04-01 | 2010-10-06 | 索尼株式会社 | 多类目标的检测装置及检测方法 |
CN102262645A (zh) * | 2010-05-27 | 2011-11-30 | 索尼公司 | 信息处理装置、信息处理方法以及程序 |
CN103793714A (zh) * | 2012-10-26 | 2014-05-14 | 卡西欧计算机株式会社 | 多分类识别器、数据识别装置、多分类识别方法及数据识别方法 |
WO2014097670A1 (ja) * | 2012-12-21 | 2014-06-26 | 富士ゼロックス株式会社 | 文書分類装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6338781B2 (ja) | 2018-06-06 |
DE112015006815T5 (de) | 2018-05-24 |
US20180039822A1 (en) | 2018-02-08 |
JPWO2017029758A1 (ja) | 2017-11-09 |
WO2017029758A1 (ja) | 2017-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110235138B (zh) | 用于外观搜索的系统和方法 | |
US10733477B2 (en) | Image recognition apparatus, image recognition method, and program | |
US9367766B2 (en) | Text line detection in images | |
Martinel et al. | Kernelized saliency-based person re-identification through multiple metric learning | |
US9378422B2 (en) | Image processing apparatus, image processing method, and storage medium | |
Becker et al. | Evaluating open-universe face identification on the web | |
Bi et al. | Person re-identification using multiple experts with random subspaces | |
Herbon et al. | Detection and segmentation of clustered objects by using iterative classification, segmentation, and Gaussian mixture models and application to wood log detection | |
TWI567660B (zh) | 多類別物件分類方法及系統 | |
Kumar et al. | Animal classification system: a block based approach | |
CN105069457B (zh) | 图像识别方法和装置 | |
WO2017181892A1 (zh) | 前景分割方法及装置 | |
Júnior et al. | An in-depth study on open-set camera model identification | |
JP5214679B2 (ja) | 学習装置、方法及びプログラム | |
Cherniavsky et al. | Semi-supervised learning of facial attributes in video | |
CN107924493A (zh) | 学习装置和学习识别系统 | |
Belharbi et al. | TCAM: Temporal class activation maps for object localization in weakly-labeled unconstrained videos | |
Kou et al. | Improve cam with auto-adapted segmentation and co-supervised augmentation | |
Timotius et al. | Evaluation of edge orientation histograms in smile detection | |
Sanin et al. | K-tangent spaces on Riemannian manifolds for improved pedestrian detection | |
Kaja et al. | Two stage intelligent automotive system to detect and classify a traffic light | |
Malviya et al. | Satellite image classification method using elbp and svm classifier | |
Loderer et al. | Optimization of LBP parameters | |
Goyal et al. | Moving Object Detection in Video Streaming Using Improved DNN Algorithm | |
Choi et al. | Determining the existence of objects in an image and its application to image thumbnailing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180417 |
|
RJ01 | Rejection of invention patent application after publication |