WO2024219247A1 - 教師データ修正装置 - Google Patents
教師データ修正装置 Download PDFInfo
- Publication number
- WO2024219247A1 WO2024219247A1 PCT/JP2024/013984 JP2024013984W WO2024219247A1 WO 2024219247 A1 WO2024219247 A1 WO 2024219247A1 JP 2024013984 W JP2024013984 W JP 2024013984W WO 2024219247 A1 WO2024219247 A1 WO 2024219247A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- category
- teacher data
- data
- correction device
- document
- Prior art date
Links
- 238000012937 correction Methods 0.000 title claims abstract description 112
- 238000012217 deletion Methods 0.000 claims abstract description 78
- 230000037430 deletion Effects 0.000 claims abstract description 78
- 238000012549 training Methods 0.000 claims description 35
- 238000013145 classification model Methods 0.000 claims description 33
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 46
- 238000004364 calculation method Methods 0.000 description 26
- 238000010801 machine learning Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 18
- 238000000034 method Methods 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 206010035664 Pneumonia Diseases 0.000 description 8
- 230000000877 morphologic effect Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 229960005486 vaccine Drugs 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Definitions
- One aspect of the present disclosure relates to a teacher data correction device that corrects teacher data.
- Patent document 1 discloses a correction method in which inaccurately labeled training data is the subject of correction work.
- the labels used in the above correction method consist of an OK label attached to image data of normal products and an NG label attached to image data of abnormal products. Therefore, with the above correction method, it is not possible to correct training data that consists of pairs of hierarchically structured categories and documents that belong to those categories, for example.
- a teacher data correction device is a teacher data correction device that corrects teacher data consisting of a set of categories having a hierarchical structure and documents belonging to the categories, and includes an acquisition unit that acquires category information indicating a first category, which is one category, and a second category, which is a category that has a hierarchical relationship with the first category, to which a document included in the teacher data that should belong to the first category mistakenly belongs or may mistakenly belong, and a deletion unit that identifies characteristic terms in documents included in the teacher data that belong to the first category indicated by the category information acquired by the acquisition unit, and deletes from the teacher data a set of documents that include the identified terms from among documents included in the teacher data that belong to the second category indicated by the category information.
- the teacher data consists of pairs of hierarchically structured categories and documents belonging to those categories, and among documents belonging to a second category (which is a category that has a hierarchical relationship with the first category) included in the teacher data, pairs of documents that contain terms characteristic of documents belonging to the first category are deleted from the teacher data.
- the teacher data consisting of pairs of hierarchically structured categories and documents belonging to those categories can be modified.
- training data consisting of pairs of hierarchically structured categories and documents belonging to those categories.
- FIG. 2 is a diagram illustrating an example of a functional configuration of a teacher data correction device according to an embodiment.
- FIG. 1 is a diagram showing an example of a hierarchical category system.
- FIG. 3 shows a scene in which the example system of FIG. 2 is modified.
- FIG. 13 is a diagram showing an example of misclassification of a document classification model trained based on training data of an erroneous system example.
- 1 is a flowchart illustrating an example of processing executed by a teacher data correction device according to an embodiment.
- FIG. 13 is a diagram illustrating an example of a table of teacher data.
- FIG. 13 is a diagram showing an example of a table of upper-lower category pair data.
- FIG. 13 is a diagram showing an example of a table of table data in which category classification results are horizontally joined to training data.
- FIG. 13 is a diagram showing an example of a table of upper-lower category pair data with a correction-required flag.
- FIG. 13 is a diagram illustrating an example of a table of data representing feature words and feature amounts of lower categories.
- FIG. 13 illustrates an example of deleting teacher data.
- 1 is a flowchart showing an example of processing executed by a machine learning unit 11 and an inference unit 12.
- FIG. 13 is a diagram illustrating another example of a table of teacher data.
- FIG. 13 is a diagram illustrating an example of a table of learning data.
- FIG. 13 is a diagram illustrating an example of a table of evaluation data.
- FIG. 13 is a diagram illustrating an example of a table of category classification results.
- FIG. 13 is a diagram showing another example of table data in which category classification results are horizontally joined to training data.
- 11 is a flowchart showing an example of processing executed by a misclassification rate calculation unit 13 and a teacher data correction determination unit 14.
- FIG. 18 is a diagram showing an example of records extracted from the example table of FIG. 17.
- FIG. 8 is a diagram illustrating an example of a table in which a misclassification rate column is added to the example table of FIG. 7.
- 13 is a flowchart showing an example of processing executed by a deletion data determination unit 15 and a teacher data deletion unit 16.
- FIG. 13 is a diagram showing an example of a table of table data obtained by morphological analysis; FIG.
- FIG. 23 is a diagram illustrating an example of division of the example table of FIG. 22.
- FIG. 24 is a diagram showing an example of a table of data obtained by combining all morphological analysis columns of tables extracted from the example table of FIG. 23 .
- FIG. 13 is a diagram illustrating an example of a feature amount table.
- FIG. 13 is a diagram showing another example of a table of data representing characteristic words and characteristic amounts of lower categories.
- FIG. 13 is a diagram illustrating an example of deletion of a higher category table.
- 13 is a flowchart showing another example of processing executed by the teacher data correction device according to the embodiment.
- FIG. 2 is a diagram illustrating an example of the hardware configuration of a computer used in the teacher data correction device according to the embodiment.
- FIG. 1 is a diagram showing an example of the functional configuration of a teacher data correction device 1 according to an embodiment.
- the teacher data correction device 1 includes a storage unit 10, a machine learning unit 11 (learning unit), an inference unit 12 (learning unit), a misclassification rate calculation unit 13, a teacher data correction determination unit 14, a deletion data determination unit 15 (acquisition unit, deletion unit), and a teacher data deletion unit 16 (acquisition unit, deletion unit).
- Each functional block of the teacher data correction device 1 is assumed to function within the teacher data correction device 1, but this is not limited to the above.
- some of the functional blocks of the teacher data correction device 1 may function within a computer device different from the teacher data correction device 1 and connected to the teacher data correction device 1 via a network, while appropriately sending and receiving information with the teacher data correction device 1.
- some functional blocks of the teacher data correction device 1 may be omitted, multiple functional blocks may be integrated into one functional block, or one functional block may be decomposed into multiple functional blocks.
- the teacher data correction device 1 corrects teacher data consisting of pairs of hierarchically structured categories and documents belonging to those categories.
- the hierarchical structure of the categories may change over time.
- Figure 2 is a diagram showing an example of a system of categories with a hierarchical structure.
- the categories include sports, baseball, novel pneumonia, and vaccines.
- Each category has a hierarchical structure.
- the sports category is a higher-level category of the baseball category, and conversely, the baseball category is a lower-level category of the sports category.
- the novel pneumonia category is a higher-level category of the vaccine category, and conversely, the vaccine category is a lower-level category of the novel pneumonia category.
- Each category is linked (contains) to documents that belong to that category.
- the sports category is linked to sumo articles, golf articles, basketball articles, and soccer articles.
- the baseball category is linked to articles about international baseball tournaments and professional baseball articles.
- the new type of pneumonia category is linked to articles about masks and articles about the medical field.
- the vaccine category is linked to articles about pharmaceutical company F and pharmaceutical company M.
- Figure 3 is a diagram showing a scene where the example system in Figure 2 has been changed.
- Figure 3 shows a scene where, as time passes, the soccer World Cup is held and soccer-related articles are gaining more attention, so a new soccer category is added (extracted). Soccer articles that were linked to the sports category before the soccer category was added are removed from the sports category (unlinked) and moved (linked) to the added soccer category. Specifically, the soccer articles - the World Cup article, the article about the World Cup hosting country Q, and the article about player K - are moved to the added soccer category. In this way, the soccer category is added during the World Cup, and removed from the category once the craze has died down.
- Figure 4 shows an example of misclassification in a document classification model trained on training data of an erroneous system example.
- the training data up to September 2022 (past training data) and the training data as of December 2022 (current training data) shown in Figure 4 are training data consisting of pairs of hierarchically structured categories and documents belonging to those categories.
- World Cup articles are linked to the sports category.
- World Cup articles have been removed from the sports category and are linked to the newly added soccer category.
- a new World Cup article is inferred using a document classification model that was trained based on the past training data and that automatically classifies articles by category, it will be misclassified and classified into the sports category.
- a new World Cup article is inferred using a document classification model trained based on the current training data, it will be correctly classified into the soccer category.
- the teacher data correction device 1 can efficiently and easily correct and reshape past teacher data when the category system changes.
- FIG. 5 is a flowchart showing an example of processing executed by the teacher data correction device 1.
- the storage unit 10 stores training data consisting of pairs of hierarchically structured categories and documents belonging to the categories.
- FIG. 6 is a diagram showing an example of a training data table.
- article text which is a document, corresponds to (the name of) the correct category, which is the category to which the article text belongs.
- the correct category may be a category that has been manually assigned by a person who has looked at the contents of the article text in advance.
- the correct category for the article text about soccer, "Player M in the soccer IP league" is "sports" (the correct category is "soccer"), but the goal (of the flowchart shown in FIG. 5) is to remove this.
- the storage unit 10 stores higher-level-lower-level category pair data, which is data on pairs of higher-level categories and lower-level categories.
- Figure 7 is a diagram showing an example table of higher-level-lower-level category pair data. In the example table shown in Figure 7, higher-level categories (the category names) correspond to lower-level categories (the category names).
- the storage unit 10 also stores any information (including various data described in the embodiments) used in calculations in the teacher data correction device 1, and the results of calculations in the teacher data correction device 1.
- the information stored by the storage unit 10 may be referenced by each function of the teacher data correction device 1 as appropriate.
- the machine learning unit 11 trains a document classification model by machine learning using the training data stored by the storage unit 10 (step S1).
- the document classification model is a model that classifies the category to which an input document belongs.
- the inference unit 12 inputs the evaluation data (for example, the article text in the example table of teacher data shown in FIG. 6) into the trained document classification model, outputs the category classification results, and outputs table data in which the category classification results are horizontally linked to the teacher data (step S2).
- FIG. 8 is a diagram showing an example of table data in which the category classification results are horizontally linked to the teacher data.
- the article text in the example table of teacher data shown in FIG. 6
- the correct category in the example table of teacher data shown in FIG. 6
- the above-mentioned category classification results correspond to each other.
- the misclassification rate calculation unit 13 compares the predicted category of the table data output in S2 with the correct category based on the higher-lower category pair data stored by the storage unit 10, and calculates the misclassification rate (described later) into the higher category (step S3).
- FIG. 9 is a diagram showing an example table of higher-lower category pair data with a correction required flag (described later).
- the higher category in the example table of higher-lower category pair data shown in FIG. 7
- the lower category in the example table of higher-lower category pair data shown in FIG. 7
- the misclassification rate, and the correction required flag correspond to each other.
- the teacher data correction determination unit 14 determines whether or not there is a correction required flag in the correction required column (of the upper-lower category pair data with the correction required flag) (step S4). If it is determined in S4 that there is no correction required flag (S4: NO), the process ends.
- Figure 10 is a diagram showing an example table of data representing characteristic words and characteristic amounts of lower categories.
- the example table shown in Figure 10 includes characteristic words of lower categories that are composed of the name indicating the lower category, a characteristic word (described below), and the characteristic amount of the characteristic word.
- FIG. 11 is a diagram showing an example of teacher data deletion.
- the deletion example shown in FIG. 11 shows that, from the article text of the example table of teacher data shown in FIG. 6, article text that contains words included in the example table of data representing characteristic words and characteristic quantities of lower categories shown in FIG. 10 has been deleted.
- FIG. 12 is a flowchart showing an example of the processing executed by the machine learning unit 11 and the inference unit 12.
- the machine learning unit 11 divides the previously acquired (stored by the storage unit 10) teacher data into K (K is an integer equal to or greater than 2) groups (step S10).
- FIG. 13 is a diagram showing another example of a table of teacher data.
- the machine learning unit 11 trains a document classification model using the data (training data) of group K-1 (step S11). For example, the machine learning unit 11 trains using the data of groups G1 and G2.
- FIG. 14 is a diagram showing an example table of training data. The example table shown in FIG. 14 shows the data of groups G1 and G2 from the example table of teacher data shown in FIG. 13.
- the machine learning unit 11 repeatedly learns S11 K times to obtain K document classification models. For example, the machine learning unit 11 obtains three document classification models: document classification model 1 trained with the data of groups G1 and G2, document classification model 2 trained with the data of groups G1 and G3, and document classification model 3 trained with the data of groups G2 and G3.
- the inference unit 12 performs inference for all document classification models using teacher data (evaluation data) that has not been used in learning (step S12). For example, the inference unit 12 performs inference for document classification model 1 using data from group G3, for document classification model 2 using data from group G2, and for document classification model 3 using data from group G1.
- Figure 15 is a diagram showing an example table of evaluation data. The example table shown in Figure 15 shows the data from group G3 (evaluation data for document classification model 1) from the example table of teacher data shown in Figure 13.
- FIG. 16 is a diagram showing an example table of the category classification result.
- the first and second records are the results of inference using the evaluation data of group G3
- the third and fourth records are the results of inference using the evaluation data of group G2
- the fifth and sixth records are the results of inference using the evaluation data of group G1.
- FIG. 17 is a diagram showing another example of table data combined horizontally with the category classification results and the teacher data.
- the example table of teacher data shown in FIG. 13 and the example table of category classification results shown in FIG. 16 are combined.
- the processing of S11 to S12 is what is known as cross-validation.
- the reason for performing cross-validation is to eliminate the possibility that the data (evaluation data) used when calculating the misclassification rate does not contain any articles (news) in the correct categories "soccer" and "sports" for which the training data is to be corrected this time, or that there are extremely few of them. In other words, it is performed with the motivation of preventing the evaluation data from not containing article text corresponding to the higher-lower category pair data. It may be defined that the evaluation data must always contain article text corresponding to the higher-lower category pair data.
- FIG. 18 is a flowchart showing an example of the processing executed by the misclassification rate calculation unit 13 and the teacher data correction determination unit 14.
- the misclassification rate calculation unit 13 compares the correct category and predicted category pairs in the table data (table data in which the category classification results are horizontally linked to the teacher data) obtained by the machine learning unit 11 and the inference unit 12, and calculates the misclassification rate (step S20). Specifically, the misclassification rate calculation unit 13 calculates the misclassification rate into a higher-level category based on the higher-level-lower-level category pair data prepared in advance (stored by the storage unit 10).
- the misclassification rate calculation unit 13 extracts one record each (hereinafter referred to as "one upper-lower pair") from the upper-lower category pair data.
- the misclassification rate calculation unit 13 extracts records in which the correct category of the table data (table data in which the category classification results are horizontally combined with the teacher data) obtained from the machine learning unit 11 and the inference unit 12 corresponds to a lower category of the upper-lower pair, calculates the proportion of the predicted category/correct category pair among the extracted records that matches the order of the upper-lower pair, and adds it to the misclassification rate column of the upper-lower category pair data (step S20).
- the misclassification rate calculation unit 13 calculates the misclassification rate of the correct category "soccer" to the upper category "sports”.
- the misclassification rate calculation unit 13 performs the same operation on all upper-lower category pair data.
- FIG. 19 is a diagram showing an example of a record extracted from the example table of FIG. 17.
- the example table shown in FIG. 19 is a record extracted from the example table of FIG. 17 where the correct category corresponds to the subcategory "soccer" in the top-bottom pair.
- FIG. 20 is a diagram showing an example table in which a misclassification rate column has been added to the example table in FIG. 7.
- the misclassification rate calculated in S20 is newly associated with the example table in FIG. 7.
- the misclassification rate calculation unit 13 outputs the higher-lower category pair data with correction flags (see the example table shown in FIG. 9) by flagging records with correction flags higher than a (predetermined) threshold from the misclassification rate column of the higher-lower category pair data (see the example table shown in FIG. 20) (step S21).
- the teacher data correction determination unit 14 determines whether or not the column requiring correction has a correction required flag (step S22). If the column requiring correction has a correction required flag (step S22: YES), the unit transitions to the deletion data determination unit 15. If the column requiring correction does not have a correction required flag (step S22: NO), the unit terminates the process.
- FIG. 21 is a flowchart showing an example of the processing executed by the data to be deleted determination unit 15 and the teacher data deletion unit 16.
- the deletion data determination unit 15 calculates words that are characteristic of the lower category.
- the deletion data determination unit 15 performs morphological analysis on the table data (table data in which the category classification results are horizontally linked to the teacher data) obtained from the machine learning unit 11 and the inference unit 12 (step S30).
- FIG. 22 is a diagram showing an example of table data that has been morphologically analyzed.
- the table example shown in FIG. 22 is the table example of table data in which the category classification results are horizontally linked to the teacher data shown in FIG. 17, with the morphological analysis results of each data in the article body column added as a morphological analysis column.
- the deletion data determination unit 15 divides the morphologically analyzed table data for each correct category (step S31).
- the deletion data determination unit 15 may divide the data into lower categories, upper categories, and others based on the upper category-lower category pair data.
- the deletion data determination unit 15 extracts records with a "requires correction" flag set, one record at a time (hereinafter referred to as "one upper-lower pair requiring correction"), based on the upper category-lower category pair data obtained from the misclassification rate calculation unit 13.
- the deletion data determination unit 15 compares the extracted one upper-lower pair requiring correction with the divided table data, and extracts tables other than the table corresponding to the upper category of the record (step S32).
- Figure 23 is a diagram showing an example of dividing the example table in Figure 22.
- the example table shown in FIG. 23 shows that the example table in FIG. 22 is divided into the correct categories "Sports,” “Soccer,” and "New Type of Pneumonia" (represented as the upper category table, lower category table, and new type of pneumonia table, respectively), and the lower category table and new type of pneumonia table, which are tables other than the table corresponding to the upper category "Sports" of the top-lower pair that needs correction consisting of the upper category "Sports" and the lower category "Soccer,” are extracted.
- the deletion data determination unit 15 calculates words that are characteristic of the lower category.
- FIG. 24 is a diagram showing an example table of data obtained by combining all of the morpheme analysis columns of the tables extracted from the example table of FIG. 23.
- the example table shown in FIG. 24 includes an example table of data obtained by combining all of the morpheme analysis columns of the lower category tables from the example table of FIG. 23, and an example table of data obtained by combining all of the morpheme analysis columns of the new type of pneumonia category table from the example table of FIG. 23.
- the deletion data determination unit 15 calculates the importance (TFIDF value) of each word in the category based on the TFIDF calculation formula (step S34).
- TFIDF wi, dj TF wi, dj ⁇ IDF wi
- TF wi,dj frequency of occurrence of word wi in document dj
- IDF wi log ((1 + total number of documents (J))/(number of documents in which word wi appears))
- document d is the combined morphological analysis result above, and j is each category.
- dj is the combined morphological analysis result of each category j.
- FIG. 25 is a diagram showing an example of a feature table.
- the importance (TFIDF value) of each word is associated with each category.
- the teacher data deletion unit 16 deletes articles related to the lower category from the higher category.
- the deletion data determination unit 15 extracts, in list form, records corresponding to the pair of lower-level categories that require revision from the feature table obtained in the previous stage, sorts them in descending order by TFIDF value, and extracts the top four (step S35).
- the teacher data deletion unit 16 uses all five feature words, including the lower-level category name, to delete articles of the lower category that are mixed in the higher-level category table by keyword matching (step S36).
- FIG. 26 is a diagram showing another example table of data representing feature words and features of lower categories.
- the example table shown in FIG. 26 includes the name of the lower category ("Soccer"), feature words of the lower category that include the top four words sorted in descending order by TFIDF value ("Player M”, “Country Q”, “Player K”, and “World Cup”), and the feature values of each of those words.
- FIG. 27 is a diagram showing an example of deletion from a higher-level category table.
- the deletion example shown in FIG. 27 shows that, for the higher-level category table shown in FIG. 23, a record of the article text that contains a word ("Player M") included in the example table of data representing the characteristic words and characteristic amounts of the lower-level categories shown in FIG. 26 has been deleted.
- Player M a word included in the example table of data representing the characteristic words and characteristic amounts of the lower-level categories shown in FIG. 26 has been deleted.
- the teacher data deletion unit 16 then vertically joins the higher category table, lower category table, and other category tables that were corrected in the previous step (step S37).
- the teacher data deletion unit 16 then performs these operations on all records for which the higher category-lower category pair data has a "needs correction" flag, and once processing has been completed for all records, it deletes the morphological analysis column and predicted category column, and transitions back to the machine learning unit 11 and inference unit 12 (step S38).
- the teacher data deletion unit 16 outputs the corrected (formatted) teacher data (or causes the storage unit 10 to store it).
- the machine learning unit 11 and the inference unit 12 may learn and output a document classification model that classifies the category to which any input document belongs, based on the teacher data deleted by the teacher data deletion unit 16.
- the deletion data determination unit 15 may acquire category information indicating a first category, which is one category, and a second category, which is a category in a hierarchical relationship with the first category, to which a document included in the training data that should belong to the first category mistakenly belongs or may mistakenly belong, and identify characteristic terms in documents included in the training data that belong to the first category indicated by the acquired category information.
- the second category may be a higher hierarchical level than the first category.
- the deletion data determination unit 15 may acquire category information indicating the first category and the second category when a misclassification rate, which is the probability that a document that should belong to the first category is erroneously classified as belonging to the second category, of a document classification model that classifies the category to which an input document belongs and that is trained based on teacher data, satisfies a predetermined criterion. In the learning based on the teacher data, cross-validation may be performed.
- the misclassification rate may be the probability that a document that should belong to the first category is erroneously classified as belonging to the second category.
- the teacher data deletion unit 16 may delete from the teacher data a set of documents that are included in the teacher data and belong to a second category indicated by the category information acquired by the deletion data determination unit 15, and that contain a term identified by the deletion data determination unit 15. If the misclassification rate of a document classification model that classifies a category to which an arbitrary input document belongs and that has been trained based on the teacher data satisfies a predetermined criterion, the teacher data deletion unit 16 may delete the teacher data.
- the teacher data deletion unit 16 may delete from the teacher data a set of documents that are included in the teacher data and belong to a second category indicated by the category information acquired by the deletion data determination unit 15, and that contain a term identified by the deletion data determination unit 15 and a name indicating the first category indicated by the category information.
- FIG. 28 is a flowchart showing another example of processing executed by the teacher data correction device 1.
- the deletion data determination unit 15 acquires category information (upper-lower category pair data with a correction required flag) indicating a first category, which is one category, and a second category, which is a category in a hierarchical relationship with the first category, to which a document included in the teacher data that should belong to the first category mistakenly belongs or may mistakenly belong (step S40).
- the deletion data determination unit 15 identifies characteristic terms in documents included in the teacher data that belong to the first category indicated by the category information acquired in S40, and the teacher data deletion unit 16 deletes from the teacher data a set of documents that contain the identified term from among documents included in the teacher data that belong to the second category indicated by the category information (step S41).
- the teacher data correction device 1 corrects teacher data consisting of a set of a hierarchical category and a document belonging to the category, and includes: a deletion data determination unit 15 that acquires category information indicating a first category, which is one category, and a second category, which is a category in a hierarchical relationship with the first category, to which a document included in the teacher data that should belong to the first category mistakenly belongs or may mistakenly belong; and a teacher data deletion unit 16 that deletes from the teacher data a set of documents that include the term identified by the deletion data determination unit 15 among documents included in the teacher data and that belong to the second category indicated by the category information acquired by the deletion data determination unit 15.
- a set of documents that includes a characteristic term in documents belonging to the first category among documents that belong to the second category (a category in a hierarchical relationship with the first category) included in the teacher data consisting of a set of a hierarchical category and a document belonging to the category is deleted from the teacher data.
- teacher data consisting of a set of a hierarchical category and a document belonging to the category can be corrected.
- the hierarchical structure of categories may be changed over time. With this configuration, even over time, the teacher data can be more appropriately corrected in accordance with the changed hierarchical structure.
- the second category may be a higher level than the first category.
- the teacher data correction device 1 if the misclassification rate of a document classification model that classifies the category to which an input document belongs and that is trained based on teacher data meets a predetermined criterion, the teacher data may be deleted (by the deletion data determination unit 15 and) by the teacher data deletion unit 16. With this configuration, when there is a defect in the teacher data, the teacher data can be corrected more reliably.
- cross-validation may be performed in learning based on teacher data.
- This configuration makes it possible to eliminate the possibility that the evaluation data used in calculating the misclassification rate does not contain documents to be corrected in the teacher data, or that the documents contained therein are extremely small.
- the misclassification rate may be the probability that a document that should belong to the first category is erroneously classified as belonging to the second category.
- the deletion data determination unit 15 may acquire category information indicating the first category and the second category when a misclassification rate, which is the probability that a document that should belong to a first category is erroneously classified as belonging to a second category, of a document classification model that classifies the category to which an arbitrary input document belongs and that is trained based on teacher data, meets a predetermined criterion.
- a misclassification rate which is the probability that a document that should belong to a first category is erroneously classified as belonging to a second category
- a document classification model that classifies the category to which an arbitrary input document belongs and that is trained based on teacher data
- the deletion data determination unit 15 may identify characteristic terms in documents included in the teacher data and belonging to a first category indicated by the acquired category information, and the teacher data deletion unit 16 may delete from the teacher data a set of documents that include the terms identified by the deletion data determination unit 15 and a name indicating the first category from among documents included in the teacher data and belonging to a second category indicated by the category information acquired by the deletion data determination unit 15.
- the set of documents that includes the name indicating the first category is also deleted from the teacher data, making it possible to correct the teacher data with greater accuracy.
- the teacher data correction device 1 may further include a machine learning unit 11 that learns and outputs a document classification model that classifies the category to which any input document belongs, based on the teacher data deleted by the teacher data deletion unit 16. This configuration can improve the accuracy of the document classification model.
- the teacher data correction device 1 relates to the automation of the formatting of teacher data. After learning using inaccurate training data that contains a mixture of old and new categories, the teacher data correction device 1 calculates the misclassification rate into higher categories, and identifies higher-lower categories that require correction of the teacher data based on the calculated misclassification rate, identifies words characteristic of the lower categories, and deletes documents related to the lower categories from the past teacher data, thereby quickly correcting the teacher data at low cost and improving the accuracy of the model.
- the teacher data correction device 1 has the effect from the user's perspective that articles are correctly classified into subcategories, eliminating the situation where articles are scattered across both higher and lower categories. Also, from the operator's perspective, it has the effect that data reformatting can be easily performed even if a new category is added.
- the teacher data correction device 1 disclosed herein may have the following configuration.
- a teacher data correction device for deleting teacher data of a lower category that is mixed in teacher data of a higher category, a machine learning and inference unit that learns a document classification model using training data, inputs text data constituting the training data into the trained document classification model, and outputs a category classification result; a misclassification rate calculation unit that compares the output category classification result with a category previously assigned to the training data, and calculates a misclassification rate into a higher category based on the higher-level-lower-level category pair data; a teacher data correction determination unit that determines whether to correct the teacher data depending on whether the misclassification rate into a higher category is higher than a threshold; A teacher data correction device having a teacher data correction unit that corrects teacher data by deleting teacher data of a lower category that is mixed in with teacher data of a higher category using characteristic words that represent the lower category.
- a deletion data determination unit for extracting characteristic words representing the lower categories The teacher data correction unit corrects the teacher data by using the feature words and category names obtained by the deletion data determination unit.
- the teacher data correction device according to [A].
- the teacher data correction device 1 disclosed herein may have the following configuration.
- a teacher data correction device that corrects teacher data consisting of a set of a hierarchical category and a document belonging to the category, comprising: an acquisition unit that acquires category information indicating a first category, which is one of the categories, and a second category, which is a category that is in a hierarchical relationship with the first category, and to which a document included in the teaching data that should belong to the first category mistakenly belongs or may mistakenly belong; a deletion unit that identifies characteristic terms in documents included in the teacher data and belonging to a first category indicated by the category information acquired by the acquisition unit, and deletes from the teacher data a set of documents that include the identified term from among documents included in the teacher data and belonging to a second category indicated by the category information;
- a teacher data correction device comprising:
- the second category is a higher level than the first category.
- the teacher data correction device according to [1] or [2].
- the training data is deleted by the deletion unit.
- the teacher data correction device according to any one of [1] to [3].
- the misclassification rate is the probability that a document that should belong to the first category is misclassified as belonging to the second category.
- the acquiring unit acquires category information indicating the first category and the second category when a misclassification rate, which is a probability that a document that should belong to a first category is erroneously classified as belonging to a second category, of a document classification model that classifies the category to which an input document belongs and that is trained based on the teacher data satisfies a predetermined criterion.
- the teacher data correction device according to any one of [1] to [6].
- the deletion unit identifies a characteristic term in a document included in the teacher data and belonging to a first category indicated by the category information acquired by the acquisition unit, and deletes from the teacher data a set of documents that include the identified term and a name indicating the first category among documents included in the teacher data and belonging to a second category indicated by the category information.
- the teacher data correction device according to any one of [1] to [7].
- each functional block may be realized using one device that is physically or logically coupled, or may be realized using two or more devices that are physically or logically separated and connected directly or indirectly (for example, using wires, wirelessly, etc.) and these multiple devices.
- the functional blocks may be realized by combining the one device or the multiple devices with software.
- Functions include, but are not limited to, judgement, determination, judgment, calculation, computation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, resolution, selection, election, establishment, comparison, assumption, expectation, regarding, broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, and assignment.
- a functional block (component) that performs the transmission function is called a transmitting unit or transmitter.
- the teacher data correction device 1 in one embodiment of the present disclosure may function as a computer that performs processing of the teacher data correction method of the present disclosure.
- FIG. 29 is a diagram showing an example of the hardware configuration of the teacher data correction device 1 in one embodiment of the present disclosure.
- the teacher data correction device 1 described above may be physically configured as a computer device including a processor 1001, memory 1002, storage 1003, communication device 1004, input device 1005, output device 1006, bus 1007, etc.
- the term "apparatus” can be interpreted as a circuit, device, unit, etc.
- the hardware configuration of the teacher data correction device 1 may be configured to include one or more of the devices shown in the figure, or may be configured to exclude some of the devices.
- Each function of the teacher data correction device 1 is realized by loading a specific software (program) onto hardware such as the processor 1001 and memory 1002, causing the processor 1001 to perform calculations, control communications via the communication device 1004, and control at least one of the reading and writing of data in the memory 1002 and storage 1003.
- a specific software program
- the processor 1001 operates an operating system to control the entire computer.
- the processor 1001 may be configured with a central processing unit (CPU) including an interface with peripheral devices, a control device, an arithmetic unit, a register, etc.
- CPU central processing unit
- the above-mentioned machine learning unit 11, inference unit 12, misclassification rate calculation unit 13, teacher data correction judgment unit 14, deletion data decision unit 15, and teacher data deletion unit 16 may be realized by the processor 1001.
- the processor 1001 also reads out programs (program codes), software modules, data, etc. from at least one of the storage 1003 and the communication device 1004 into the memory 1002, and executes various processes according to these.
- the programs used are those that cause a computer to execute at least a part of the operations described in the above-mentioned embodiments.
- the machine learning unit 11, the inference unit 12, the misclassification rate calculation unit 13, the teacher data correction determination unit 14, the deletion data determination unit 15, and the teacher data deletion unit 16 may be realized by a control program stored in the memory 1002 and operating in the processor 1001, and may be similarly realized for other functional blocks.
- the above-mentioned various processes have been described as being executed by one processor 1001, they may be executed simultaneously or sequentially by two or more processors 1001.
- the processor 1001 may be implemented by one or more chips.
- the programs may be transmitted from a network via a telecommunications line.
- Memory 1002 is a computer-readable recording medium, and may be composed of at least one of, for example, ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), RAM (Random Access Memory), etc. Memory 1002 may also be called a register, cache, main memory (primary storage device), etc. Memory 1002 can store executable programs (program codes), software modules, etc. for implementing a wireless communication method according to one embodiment of the present disclosure.
- ROM Read Only Memory
- EPROM Erasable Programmable ROM
- EEPROM Electrical Erasable Programmable ROM
- RAM Random Access Memory
- Memory 1002 may also be called a register, cache, main memory (primary storage device), etc.
- Memory 1002 can store executable programs (program codes), software modules, etc. for implementing a wireless communication method according to one embodiment of the present disclosure.
- Storage 1003 is a computer-readable recording medium, and may be composed of at least one of, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, a magneto-optical disk (e.g., a compact disk, a digital versatile disk, a Blu-ray (registered trademark) disk), a smart card, a flash memory (e.g., a card, a stick, a key drive), a floppy (registered trademark) disk, a magnetic strip, etc.
- Storage 1003 may also be referred to as an auxiliary storage device.
- the above-mentioned storage medium may be, for example, a database, a server, or other suitable medium including at least one of memory 1002 and storage 1003.
- the communication device 1004 is hardware (transmission/reception device) for communicating between computers via at least one of a wired network and a wireless network, and is also called, for example, a network device, a network controller, a network card, a communication module, etc.
- the communication device 1004 may be configured to include a high-frequency switch, a duplexer, a filter, a frequency synthesizer, etc. to realize at least one of, for example, Frequency Division Duplex (FDD) and Time Division Duplex (TDD).
- FDD Frequency Division Duplex
- TDD Time Division Duplex
- the above-mentioned machine learning unit 11, inference unit 12, misclassification rate calculation unit 13, teacher data correction judgment unit 14, deletion data determination unit 15, and teacher data deletion unit 16, etc. may be realized by the communication device 1004.
- the input device 1005 is an input device (e.g., a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that accepts input from the outside.
- the output device 1006 is an output device (e.g., a display, a speaker, an LED lamp, etc.) that performs output to the outside. Note that the input device 1005 and the output device 1006 may be integrated into one structure (e.g., a touch panel).
- each device such as the processor 1001 and memory 1002 is connected by a bus 1007 for communicating information.
- the bus 1007 may be configured using a single bus, or may be configured using different buses between each device.
- the teacher data correction device 1 may also be configured to include hardware such as a microprocessor, a digital signal processor (DSP), an application specific integrated circuit (ASIC), a programmable logic device (PLD), or a field programmable gate array (FPGA), and some or all of the functional blocks may be realized by the hardware.
- the processor 1001 may be implemented using at least one of these pieces of hardware.
- Each aspect/embodiment described in this disclosure may be applied to at least one of systems utilizing LTE (Long Term Evolution), LTE-Advanced (LTE-A), SUPER 3G, IMT-Advanced, 4G (4th generation mobile communication system), 5G (5th generation mobile communication system), FRA (Future Radio Access), NR (new Radio), W-CDMA (registered trademark), GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi (registered trademark)), IEEE 802.16 (WiMAX (registered trademark)), IEEE 802.20, UWB (Ultra-Wide Band), Bluetooth (registered trademark), or other suitable systems, and next generation systems enhanced based on these. Additionally, multiple systems may be combined (for example, a combination of at least one of LTE and LTE-A with 5G, etc.).
- the input and output information may be stored in a specific location (e.g., memory) or may be managed using a management table.
- the input and output information may be overwritten, updated, or added to.
- the output information may be deleted.
- the input information may be sent to another device.
- the determination may be based on a value represented by one bit (0 or 1), a Boolean value (true or false), or a numerical comparison (e.g., a comparison with a predetermined value).
- notification of specific information is not limited to being done explicitly, but may be done implicitly (e.g., not notifying the specific information).
- Software shall be construed broadly to mean instructions, instruction sets, code, code segments, program code, programs, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, executable files, threads of execution, procedures, functions, etc., whether referred to as software, firmware, middleware, microcode, hardware description language, or otherwise.
- Software, instructions, information, etc. may also be transmitted and received via a transmission medium.
- a transmission medium For example, if the software is transmitted from a website, server, or other remote source using at least one of wired technologies (such as coaxial cable, fiber optic cable, twisted pair, Digital Subscriber Line (DSL)), and/or wireless technologies (such as infrared, microwave), then at least one of these wired and wireless technologies is included within the definition of a transmission medium.
- wired technologies such as coaxial cable, fiber optic cable, twisted pair, Digital Subscriber Line (DSL)
- wireless technologies such as infrared, microwave
- the information, signals, etc. described in this disclosure may be represented using any of a variety of different technologies.
- the data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description may be represented by voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, optical fields or photons, or any combination thereof.
- system and “network” are used interchangeably.
- information, parameters, etc. described in this disclosure may be expressed using absolute values, may be expressed using relative values from a predetermined value, or may be expressed using other corresponding information.
- determining may encompass a wide variety of actions.
- Determining and “determining” may include, for example, judging, calculating, computing, processing, deriving, investigating, looking up, search, inquiry (e.g., searching in a table, database, or other data structure), ascertaining something that is deemed to be a “judging” or “determining,” and the like.
- Determining and “determining” may also include receiving (e.g., receiving information), transmitting (e.g., sending information), input, output, accessing (e.g., accessing data in memory), and the like.
- judgment and “decision” can include considering resolving, selecting, choosing, establishing, comparing, etc., to have been “judged” or “decided.” In other words, “judgment” and “decision” can include considering some action to have been “judged” or “decided.” Additionally, “judgment” can be interpreted as “assuming,” “expecting,” “considering,” etc.
- connection refers to any direct or indirect connection or coupling between two or more elements, and may include the presence of one or more intermediate elements between two elements that are “connected” or “coupled” to each other.
- the coupling or connection between elements may be physical, logical, or a combination thereof.
- “connected” may be read as "access”.
- two elements may be considered to be “connected” or “coupled” to each other using at least one of one or more wires, cables, and printed electrical connections, as well as electromagnetic energy having wavelengths in the radio frequency range, microwave range, and optical (both visible and invisible) range, as some non-limiting and non-exhaustive examples.
- the phrase “based on” does not mean “based only on,” unless expressly stated otherwise. In other words, the phrase “based on” means both “based only on” and “based at least on.”
- any reference to an element using a designation such as "first,” “second,” etc., used in this disclosure does not generally limit the quantity or order of those elements. These designations may be used in this disclosure as a convenient method of distinguishing between two or more elements. Thus, a reference to a first and a second element does not imply that only two elements may be employed or that the first element must precede the second element in some way.
- a and B are different may mean “A and B are different from each other.”
- the term may also mean “A and B are each different from C.”
- Terms such as “separate” and “combined” may also be interpreted in the same way as “different.”
- 1...teacher data correction device 10...storage unit, 11...machine learning unit, 12...inference unit, 13...misclassification rate calculation unit, 14...teacher data correction judgment unit, 15...deletion data determination unit, 16...teacher data deletion unit, 1001...processor, 1002...memory, 1003...storage, 1004...communication device, 1005...input device, 1006...output device, 1007...bus.
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正することを課題とする。階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置(1)は、一のカテゴリである第1カテゴリと、当該第1カテゴリと階層関係にあるカテゴリである第2カテゴリであって当該第1カテゴリに属すべき教師データに含まれる文書が誤って属している又は誤って属している可能性がある第2カテゴリとを示すカテゴリ情報を取得し、教師データに含まれる文書であって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定する削除データ決定部(15)と、教師データに含まれる文書であって取得されたカテゴリ情報が示す第2カテゴリに属する文書のうち特定された用語を含む文書の組を当該教師データから削除する教師データ削除部(16)とを備える。
Description
本開示の一側面は、教師データを修正する教師データ修正装置に関する。
下記特許文献1では、不正確なラベルの付された教師データを修正作業の対象とする修正方法が開示されている。
上記修正方法におけるラベルは、正常品の画像データに付されたOKラベルと、異常品の画像データに付されたNGラベルとから構成される。それゆえ上記修正方法では、例えば、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正することはできない。
本開示の一側面に係る教師データ修正装置は、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置であって、一のカテゴリである第1カテゴリと、当該第1カテゴリと階層関係にあるカテゴリである第2カテゴリであって当該第1カテゴリに属すべき教師データに含まれる文書が誤って属している又は誤って属している可能性がある第2カテゴリとを示すカテゴリ情報を取得する取得部と、教師データに含まれる文書であって取得部によって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第2カテゴリに属する文書のうち特定された当該用語を含む文書の組を当該教師データから削除する削除部と、を備える。
このような側面においては、教師データは階層構造を持つカテゴリと当該カテゴリに属する文書との組からなり、教師データに含まれる(第1カテゴリと階層関係にあるカテゴリである)第2カテゴリに属する文書のうち、第1カテゴリに属する文書において特徴的な用語を含む文書の組が、当該教師データから削除される。すなわち、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正することができる。
本開示の一側面によれば、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正することができる。
以下、図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。また、以下の説明における本開示での実施形態は、本発明の具体例であり、特に本発明を限定する旨の記載がない限り、これらの実施形態に限定されないものとする。
図1は、実施形態に係る教師データ修正装置1の機能構成の一例を示す図である。図1に示す通り、教師データ修正装置1は、格納部10、機械学習部11(学習部)、推論部12(学習部)、誤分類率算出部13、教師データ修正判定部14、削除データ決定部15(取得部、削除部)及び教師データ削除部16(取得部、削除部)を含んで構成される。
教師データ修正装置1の各機能ブロックは、教師データ修正装置1内にて機能することを想定しているが、これに限るものではない。例えば、教師データ修正装置1の機能ブロックの一部は、教師データ修正装置1とは異なるコンピュータ装置であって、教師データ修正装置1とネットワーク接続されたコンピュータ装置内において、教師データ修正装置1と情報を適宜送受信しつつ機能してもよい。また、教師データ修正装置1の一部の機能ブロックは無くてもよいし、複数の機能ブロックを一つの機能ブロックに統合してもよいし、一つの機能ブロックを複数の機能ブロックに分解してもよい。
教師データ修正装置1は、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する。カテゴリの階層構造は、時間経過と共に変更されてもよい。
カテゴリについて説明する。背景として、階層構造を持つカテゴリ分類において、必要に応じて新規にカテゴリを切り出し、下位カテゴリとして追加及び削除する事がある。例えば、実施形態にて対象とするニュース記事サイトの場合、注目度が高い話題を新たに別カテゴリを追加することで、より多くのユーザがウェブサイト内で必要なコンテンツを見つけやすくすることができる。
図2は、階層構造を持つカテゴリの体系例を示す図である。図2に示す体系例では、カテゴリとしてスポーツ、野球、新型肺炎及びワクチンが含まれる。各カテゴリは階層構造を持つ。例えば、スポーツカテゴリは野球カテゴリの上位カテゴリであり、逆に野球カテゴリはスポーツカテゴリの下位カテゴリである。同様に、新型肺炎カテゴリはワクチンカテゴリの上位カテゴリであり、逆にワクチンカテゴリは新型肺炎カテゴリの下位カテゴリである。
各カテゴリには、当該カテゴリに属する文書が紐付いている(含まれている)。具体的には、スポーツカテゴリには、相撲の記事、ゴルフの記事、バスケの記事及びサッカーの記事が紐付いている。野球カテゴリには、野球国際大会の記事及びプロ野球の記事が紐付いている。新型肺炎カテゴリには、マスクの記事及び医療現場の記事が紐付いている。ワクチンカテゴリには、製薬会社Fの記事及び製薬会社Mの記事が紐付いている。
図3は、図2の体系例が変更された場面を示す図である。図3は、時間経過と共にサッカーのW杯が開催され、サッカーに関する記事の注目度が高くなってきたため、新たにサッカーカテゴリを追加した(切り出した)場面を示す。サッカーカテゴリが追加される前はスポーツカテゴリに紐付いていたサッカーの記事は、スポーツカテゴリから削除され(紐付きが解除され)、追加されたサッカーカテゴリに移動される(紐付けられる)。具体的には、サッカーの記事であるW杯の記事、W杯開催国Qの記事及びK選手の記事が、追加されたサッカーカテゴリに移動される。このように、W杯の時期はサッカーカテゴリを追加し、流行りが沈静化したらカテゴリから削除する。
上記のようなカテゴリの課題について説明する。機械学習を用いてカテゴリ毎に記事を自動分類する場合、過去のカテゴリ体系が異なるデータが混在していると誤分類を助長する。機械学習では、通常、データ数が多いほどより正確なモデルを作成することができるため、変更した箇所以外のデータは残しておくべきである。過去の教師データから、変更した箇所のみ(例えばサッカー関連の記事)を取り除くことで、誤分類を減らすことが求められる。
図4は、誤った体系例の教師データに基づいて学習された文書分類モデルの誤分類例を示す図である。図4に示す2022年9月までの教師データ(過去の教師データ)及び2022年12月時点の教師データ(現在の教師データ)はそれぞれ、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データである。
過去の教師データでは、W杯の記事がスポーツカテゴリに紐付いている。現在の教師データでは、W杯の記事がスポーツカテゴリから削除され、新たに追加されたサッカーカテゴリに紐付いている。ここで、過去の教師データに基づいて学習された、カテゴリ毎に記事を自動分類する文書分類モデルを用いてW杯の新規記事を推論した場合、スポーツカテゴリに分類され、誤分類となる。一方、現在の教師データに基づいて学習された文書分類モデルを用いてW杯の新規記事を推論した場合、サッカーカテゴリに正しく分類される。
教師データ修正装置1は、カテゴリ体系が変更した時、過去の教師データの修正・整形を効率的かつ容易に実施することができる。
以下、図1に示す教師データ修正装置1の各機能について、図5に示すフローチャート及び図6~図11に示すテーブル例などを用いながら説明する。図5は、教師データ修正装置1が実行する処理の一例を示すフローチャートである。
格納部10は、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを格納する。図6は、教師データのテーブル例を示す図である。図6に示すテーブル例では、文書である記事本文と、当該記事本文が属するカテゴリである正解カテゴリ(の名称)とが対応付いている。正解カテゴリは、予め人が記事本文の内容を見て、人手によって付与されたカテゴリであってもよい。図6に示すテーブル例では、サッカーに関する記事本文である「サッカーのIPリーグでM選手…」の正解カテゴリが「スポーツ」となっているが(正しくは「サッカー」)、これを取り除くことが(図5に示すフローチャートの)目標である。
格納部10は、上位カテゴリと下位カテゴリのペアのデータである上位-下位カテゴリペアデータを格納する。図7は、上位-下位カテゴリペアデータのテーブル例を示す図である。図7に示すテーブル例では、上位カテゴリ(のカテゴリ名称)と、下位カテゴリ(のカテゴリ名称)とが対応付いている。
格納部10は、その他にも、教師データ修正装置1における算出などで利用される任意の情報(実施形態で説明する各種データを含む)及び教師データ修正装置1における算出の結果などを格納する。格納部10によって格納された情報は、教師データ修正装置1の各機能によって適宜参照されてもよい。
機械学習部11は、格納部10によって格納された教師データで文書分類モデルを機械学習させる(ステップS1)。文書分類モデルは、入力された任意の文書が属するカテゴリを分類するモデルである。
S1に続き、推論部12は、評価データ(例えば図6に示す教師データのテーブル例の記事本文)を学習済の文書分類モデルに入力し、カテゴリ分類結果を出力すると共に、カテゴリ分類結果を教師データに横に結合したテーブルデータを出力する(ステップS2)。図8は、カテゴリ分類結果を教師データに横に結合したテーブルデータのテーブル例を示す図である。図8に示すテーブル例では、(図6に示す教師データのテーブル例の)記事本文と、(図6に示す教師データのテーブル例の)正解カテゴリと、上述のカテゴリ分類結果とが対応付いている。
S2に続き、誤分類率算出部13は、格納部10によって格納された上位-下位カテゴリペアデータに基づいて、S2で出力されたテーブルデータの予測カテゴリと正解カテゴリとを比較して、上位カテゴリへの誤分類率(後述)を算出する(ステップS3)。図9は、要修正フラグ(後述)がついた上位-下位カテゴリペアデータのテーブル例を示す図である。図9に示すテーブル例では、(図7に示す上位-下位カテゴリペアデータのテーブル例の)上位カテゴリと、(図7に示す上位-下位カテゴリペアデータのテーブル例の)下位カテゴリと、上述の誤分類率と、上述の要修正フラグとが対応付いている。
S3に続き、教師データ修正判定部14は、(要修正フラグがついた上位-下位カテゴリペアデータの)要修正カラムに要修正フラグがあるか否かを判定する(ステップS4)。S4にて要修正フラグが無いと判定された場合(S4:NO)、処理を終了する。
S4にて要修正フラグがあると判定された場合(S4:YES)、削除データ決定部15は、削除する単語を「カテゴリ名+特徴語」で決定する(ステップS5)。図10は、下位カテゴリの特徴語と特徴量を表すデータのテーブル例を示す図である。図10に示すテーブル例では、下位カテゴリを示す名称と特徴語(後述)と当該特徴語の特徴量とから構成される下位カテゴリの特徴語が含まれる。
S5に続き、教師データ削除部16は、上位カテゴリから、下位カテゴリのデータを削除する(ステップS6)。図11は、教師データの削除例を示す図である。図11に示す削除例では、図6に示す教師データのテーブル例の記事本文のうち、図10に示す下位カテゴリの特徴語と特徴量を表すデータのテーブル例に含まれている単語を含む記事本文が削除されていることを示している。
S6の後、S1に戻り、処理が繰り返される。
以下、機械学習部11及び推論部12の詳細について、図12に示すフローチャート及び図13~図17に示すテーブル例などを用いながら説明する。図12は、機械学習部11及び推論部12が実行する処理の一例を示すフローチャートである。
機械学習部11は、予め取得した(格納部10によって格納された)教師データをK(Kは2以上の整数)グループに分割する(ステップS10)。図13は、教師データの別のテーブル例を示す図である。図13に示すテーブル例では、(図6に示す教師データのテーブル例と同様の構成の)教師データが、3つ(K=3)のグループであるグループG1(教師データの1レコード目と2レコード目を含む)、グループG2(教師データの3レコード目と4レコード目を含む)及びグループG3(教師データの5レコード目と6レコード目を含む)に分割されていることを示す。
S10に続き、機械学習部11は、K-1グループのデータ(学習データ)を用いて文書分類モデルを学習する(ステップS11)。例えば、機械学習部11は、グループG1及びグループG2のデータで学習する。図14は、学習データのテーブル例を示す図である。図14に示すテーブル例は、図13に示す教師データのテーブル例のうち、グループG1及びグループG2のデータを示している。
機械学習部11は、S11についてK回繰り返し学習を行なって、K個の文書分類モデルを得る。例えば、機械学習部11は、グループG1及びグループG2のデータで学習した文書分類モデル1、グループG1及びグループG3のデータで学習した文書分類モデル2、及び、グループG2及びグループG3のデータで学習した文書分類モデル3の3個の文書分類モデルを得る。
S11に続いて、推論部12は、全ての文書分類モデルに対して学習で用いていない教師データ(評価データ)を用いて推論を行う(ステップS12)。例えば、推論部12は、文書分類モデル1に対してグループG3のデータで推論し、文書分類モデル2に対してグループG2のデータで推論し、文書分類モデル3に対してグループG1のデータで推論する。図15は、評価データのテーブル例を示す図である。図15に示すテーブル例は、図13に示す教師データのテーブル例のうち、グループG3のデータ(文書分類モデル1に対する評価データ)を示している。
S12の推論の結果、推論部12はカテゴリ分類結果を出力する。図16は、カテゴリ分類結果のテーブル例を示す図である。図16に示すテーブル例において、1レコード目及び2レコード目はグループG3の評価データで推論した結果であり、3レコード目及び4レコード目はグループG2の評価データで推論した結果であり、5レコード目及び6レコード目はグループG1の評価データで推論した結果である。
続いて、推論部12は、推論されたカテゴリ分類結果を全て縦に結合し、教師データに横に結合したテーブルデータを誤分類率算出部へ入力する(ステップS13)。図17は、カテゴリ分類結果を教師データに横に結合したテーブルデータの別のテーブル例を示す図である。図17に示すテーブル例では、図13に示す教師データのテーブル例と、図16に示すカテゴリ分類結果のテーブル例とが結合されている。
S11~S12の処理は、いわゆる交差検証を実施している。例えば、教師データをK=5グループに分割して、K-1=4グループのデータを学習(訓練)データ、1グループのデータを評価(テスト)データとする。全てのグループが評価(テスト)データとなるようK回繰り返し学習を行う。交差検証を実施する理由は、誤分類率を算出する際に用いるデータ(評価データ)に、今回教師データ修正をする正解カテゴリ「サッカー」及び「スポーツ」の記事(ニュース)が含まれていない、あるいは極端に少ないという可能性を排除するためである。すなわち、評価データに上位-下位カテゴリペアデータに対応する記事本文が含まれていないことを防ぎたいという動機で実施している。評価データに上位-下位カテゴリペアデータに対応する記事本文を必ず含めるよう定義づけしてもよい。
以下、誤分類率算出部13及び教師データ修正判定部14の詳細について、図18に示すフローチャート及び図19及び図20に示すテーブル例などを用いながら説明する。図18は、誤分類率算出部13及び教師データ修正判定部14が実行する処理の一例を示すフローチャートである。
S13に続いて、誤分類率算出部13は、機械学習部11及び推論部12で得られたテーブルデータ(カテゴリ分類結果を教師データに横に結合したテーブルデータ)内の正解カテゴリ・予測カテゴリペアを比較し、誤分類率を算出する(ステップS20)。具体的には、誤分類率算出部13は、予め用意した(格納部10によって格納された)上位-下位カテゴリペアデータを元に、上位カテゴリへの誤分類率を算出する。
より具体的には、まず、誤分類率算出部13は、上位-下位カテゴリペアデータから1レコード(以降「上位下位1ペア」と呼称)ずつ抽出する。次に、誤分類率算出部13は、機械学習部11及び推論部12より得られたテーブルデータ(カテゴリ分類結果を教師データに横に結合したテーブルデータ)の正解カテゴリが上位下位1ペアの下位カテゴリと対応するレコードを抽出し、当該抽出したレコードのうち予測カテゴリ・正解カテゴリペアが上位下位1ペアと並びが一致する割合を算出し、上位-下位カテゴリペアデータに新たに誤分類率カラムに追記する(ステップS20)。例えば、誤分類率算出部13は、正解カテゴリ「サッカー」に対して、上位カテゴリ「スポーツ」への誤分類率を算出する。誤分類率算出部13は、全ての上位-下位カテゴリペアデータに対して同じ操作を行う。
図19は、図17のテーブル例から抽出されたレコード例を示す図である。図19に示すテーブル例は、図17のテーブル例の正解カテゴリが、上位下位1ペアの下位カテゴリ「サッカー」と対応するレコードを抽出したものである。
図20は、図7のテーブル例に誤分類率カラムが追記されたテーブル例を示す図である。図20に示すテーブル例では、図7のテーブル例に対して、S20で算出された誤分類率が新たに対応付けられている。
S20に続き、誤分類率算出部13は、上位-下位カテゴリペアデータの誤分類率カラム(図20に示すテーブル例参照)から(所定の)閾値より高いレコードに要修正フラグをつけた、要修正フラグがついた上位-下位カテゴリペアデータ(図9に示すテーブル例参照)を出力する(ステップS21)。
S21に続き、教師データ修正判定部14は、要修正カラムに要修正フラグがあるか否かを判定し(ステップS22)、要修正カラムに要修正フラグがある場合(ステップS22:YES)、削除データ決定部15へ遷移し、要修正カラムに要修正フラグが無い場合(ステップS22:NO)、処理を終了する。
以下、削除データ決定部15及び教師データ削除部16の詳細について、図21に示すフローチャート及び図22~図27に示すテーブル例などを用いながら説明する。図21は、削除データ決定部15及び教師データ削除部16が実行する処理の一例を示すフローチャートである。
S22:YESに続き、削除データ決定部15は、下位カテゴリに特徴的な単語を算出する。
具体的には、まず、削除データ決定部15は、機械学習部11及び推論部12より得られたテーブルデータ(カテゴリ分類結果を教師データに横に結合したテーブルデータ)に対して形態素解析を行う(ステップS30)。図22は、形態素解析したテーブルデータのテーブル例を示す図である。図22に示すテーブル例は、図17に示すカテゴリ分類結果を教師データに横に結合したテーブルデータのテーブル例について、記事本文カラムの各データの形態素解析結果を形態素解析カラムとして追加したものである。
次に、削除データ決定部15は、当該形態素解析したテーブルデータを正解カテゴリごとに分割する(ステップS31)。なお、削除データ決定部15は、上位カテゴリ-下位カテゴリペアデータを元に、下位カテゴリと上位カテゴリとそれ以外に分割してもよい。次に、削除データ決定部15は、誤分類率算出部13より得られた上位カテゴリ-下位カテゴリペアデータを元に「要修正」フラグがついているレコードを順に1レコード(以降「要修正上位下位1ペア」と呼称)ずつ抽出する。削除データ決定部15は、抽出した要修正上位下位1ペアについて、分割されたテーブルデータと照らし合わせ、当該レコードの上位カテゴリに対応するテーブル以外のテーブルを抽出(ステップS32)。図23は、図22のテーブル例の分割例を示す図である。図23に示すテーブル例では、図22のテーブル例を、正解カテゴリ「スポーツ」、「サッカー」及び「新型肺炎」ごとに分割し(それぞれ上位カテゴリテーブル、下位カテゴリテーブル及び新型肺炎テーブルとする)、上位カテゴリ「スポーツ」及び下位カテゴリ「サッカー」からなる要修正上位下位1ペアの上位カテゴリ「スポーツ」に対応するテーブル以外のテーブルである下位カテゴリテーブル及び新型肺炎テーブルを抽出していることを示している。
S32に続き、削除データ決定部15は、下位カテゴリに特徴的な単語を算出する。
具体的には、まず、削除データ決定部15は、S32にて抽出した各カテゴリテーブルの形態素解析カラムを全て結合する(ステップS33)。図24は、図23のテーブル例のうち抽出したテーブルの形態素解析カラムを全て結合したデータのテーブル例を示す図である。図24に示すテーブル例は、図23のテーブル例のうち下位カテゴリテーブルの形態素解析カラムを全て結合したデータのテーブル例と、図23のテーブル例のうち新型肺炎カテゴリテーブルの形態素解析カラムを全て結合したデータのテーブル例とを含む。
次に、削除データ決定部15は、TFIDFの計算式をもとに各単語のそのカテゴリ内での重要度(TFIDF値)を算出する(ステップS34)。TFIDFの計算式の一例は以下で示される(i及びjは本来下付形式ではあるが便宜上下付形式にしていない)。
TFIDFwi,dj=TFwi,dj×IDFwi
TFwi,dj=文書djの中の単語wiの出現頻度
IDFwi=log((1+全文書数(J))/(単語wiが登場する文書数))
TFIDFwi,dj=TFwi,dj×IDFwi
TFwi,dj=文書djの中の単語wiの出現頻度
IDFwi=log((1+全文書数(J))/(単語wiが登場する文書数))
この時、文書dは上で結合した形態素解析結果とし、jは各カテゴリとする。つまり、djは各カテゴリjの結合された形態素解析結果となる。
削除データ決定部15は、上記計算を行い、特徴量テーブルを得る。図25は、特徴量テーブルのテーブル例を示す図である。図25に示すテーブル例では、各カテゴリについて、各単語の重要度(TFIDF値)が対応付けられている。
続いて、教師データ削除部16は、上位カテゴリから下位カテゴリに関連する記事を削除する。
具体的には、まず、削除データ決定部15は、前段で得られた特徴量テーブルから、要修正上位下位1ペアの下位カテゴリと対応するレコードをリスト形式で抽出し、TFIDF値で降順にソートし、上位4件を抽出する(ステップS35)。次に、教師データ削除部16は、下位カテゴリ名を含めた特徴語全5件を用いて、上位カテゴリテーブルに混在する下位カテゴリの記事をキーワードマッチングで削除する(ステップS36)。
図26は、下位カテゴリの特徴語と特徴量を表すデータの別のテーブル例を示す図である。図26に示すテーブル例では、下位カテゴリ名(「サッカー」)と、TFIDF値で降順にソートした上位4件の単語(「M選手」、「Q国」、「K選手」及び「W杯」)と当該単語それぞれの特徴量とを含む下位カテゴリの特徴語が含まれている。
図27は、上位カテゴリテーブルの削除例を示す図である。図27に示す削除例では、図23に示す上位カテゴリテーブルについて、図26に示す下位カテゴリの特徴語と特徴量を表すデータのテーブル例に含まれている単語(「M選手」)を含む記事本文のレコードが削除されていることを示している。
次に、教師データ削除部16は、前段で修正された上位カテゴリテーブル・下位カテゴリテーブル・その他のカテゴリのテーブルを縦に結合する(ステップS37)。次に、教師データ削除部16は、これらの操作を上位カテゴリ-下位カテゴリペアデータに「要修正」フラグがついているレコード全てに対して行い、全てのレコードに対し処理が終わったら、形態素解析カラム・予測カテゴリカラムを削除し、再度機械学習部11及び推論部12へ遷移する(ステップS38)。すなわち、教師データ削除部16は、修正(整形)された教師データを出力する(又は格納部10によって格納させる)。
以下、各機能ブロックの他の側面を説明する。
機械学習部11及び推論部12は、教師データ削除部16によって削除された教師データに基づいて、入力された任意の文書が属するカテゴリを分類する文書分類モデルを学習して出力してもよい。
削除データ決定部15は、一のカテゴリである第1カテゴリと、当該第1カテゴリと階層関係にあるカテゴリである第2カテゴリであって当該第1カテゴリに属すべき教師データに含まれる文書が誤って属している又は誤って属している可能性がある第2カテゴリとを示すカテゴリ情報を取得し、教師データに含まれる文書であって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定してもよい。第2カテゴリは、第1カテゴリの上位の階層であってもよい。
削除データ決定部15は、入力された任意の文書が属するカテゴリを分類する文書分類モデルであって教師データに基づいて学習された文書分類モデルの、第1カテゴリに属すべき文書が誤って第2カテゴリに属すると分類される確率である誤分類率が所定の基準を満たす場合に、当該第1カテゴリと当該第2カテゴリとを示すカテゴリ情報を取得してもよい。教師データに基づく学習では、交差検証が実行されてもよい。誤分類率は、第1カテゴリに属すべき文書が誤って第2カテゴリに属すると分類される確率であってもよい。
教師データ削除部16は、教師データに含まれる文書であって削除データ決定部15によって取得されたカテゴリ情報が示す第2カテゴリに属する文書のうち削除データ決定部15によって特定された用語を含む文書の組を当該教師データから削除してもよい。入力された任意の文書が属するカテゴリを分類する文書分類モデルであって教師データに基づいて学習された文書分類モデルの誤分類率が所定の基準を満たす場合に、当該教師データに対して教師データ削除部16による削除を実行してもよい。
教師データ削除部16は、教師データに含まれる文書であって削除データ決定部15によって取得されたカテゴリ情報が示す第2カテゴリに属する文書のうち削除データ決定部15によって特定された用語及び当該カテゴリ情報が示す第1カテゴリを示す名称を含む文書の組を当該教師データから削除してもよい。
続いて、図28を参照しながら、教師データ修正装置1が実行する処理の例を説明する。図28は、教師データ修正装置1が実行する処理の別の一例を示すフローチャートである。
まず、削除データ決定部15が、一のカテゴリである第1カテゴリと、当該第1カテゴリと階層関係にあるカテゴリである第2カテゴリであって当該第1カテゴリに属すべき教師データに含まれる文書が誤って属している又は誤って属している可能性がある第2カテゴリとを示すカテゴリ情報(要修正フラグがついた上位-下位カテゴリペアデータ)を取得する(ステップS40)。次に、削除データ決定部15が、教師データに含まれる文書であってS40にて取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定し、教師データ削除部16が、当該教師データに含まれる文書であって当該カテゴリ情報が示す第2カテゴリに属する文書のうち特定された当該用語を含む文書の組を当該教師データから削除する(ステップS41)。
続いて、実施形態に係る教師データ修正装置1の作用効果について説明する。
教師データ修正装置1は、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置1であって、一のカテゴリである第1カテゴリと、当該第1カテゴリと階層関係にあるカテゴリである第2カテゴリであって当該第1カテゴリに属すべき教師データに含まれる文書が誤って属している又は誤って属している可能性がある第2カテゴリとを示すカテゴリ情報を取得し、教師データに含まれる文書であって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定する削除データ決定部15と、教師データに含まれる文書であって削除データ決定部15によって取得されたカテゴリ情報が示す第2カテゴリに属する文書のうち削除データ決定部15によって特定された用語を含む文書の組を当該教師データから削除する教師データ削除部16と、を備える。この構成により、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データに含まれる(第1カテゴリと階層関係にあるカテゴリである)第2カテゴリに属する文書のうち、第1カテゴリに属する文書において特徴的な用語を含む文書の組が、当該教師データから削除される。すなわち、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正することができる。
また、教師データ修正装置1において、カテゴリの階層構造は、時間経過と共に変更されてもよい。この構成により、時間が経過しても、教師データを変更後の階層構造に沿ってより適切に修正することができる。
また、教師データ修正装置1において、第2カテゴリは、第1カテゴリの上位の階層であってもよい。この構成により、教師データに、上位である第2カテゴリに下位である第一カテゴリの文書が属していても、当該文書を適切に削除することができる。
また、教師データ修正装置1において、入力された任意の文書が属するカテゴリを分類する文書分類モデルであって教師データに基づいて学習された文書分類モデルの誤分類率が所定の基準を満たす場合に、当該教師データに対して(削除データ決定部15及び)教師データ削除部16による削除を実行してもよい。この構成により、教師データに不備がある場合により確実に当該教師データを修正することができる。
また、教師データ修正装置1において、教師データに基づく学習では、交差検証が実行されてもよい。この構成により、誤分類率を算出する際に用いる評価データに、教師データの修正対象とする文書が含まれていない、あるいは極端に少ないという可能性を排除することができる。
また、教師データ修正装置1において、誤分類率は、第1カテゴリに属すべき文書が誤って第2カテゴリに属すると分類される確率であってもよい。この構成により、第1カテゴリに属すべき文書が誤って第2カテゴリに属している教師データをより確実に修正することができる。
また、教師データ修正装置1において、削除データ決定部15は、入力された任意の文書が属するカテゴリを分類する文書分類モデルであって教師データに基づいて学習された文書分類モデルの、第1カテゴリに属すべき文書が誤って第2カテゴリに属すると分類される確率である誤分類率が所定の基準を満たす場合に、当該第1カテゴリと当該第2カテゴリとを示すカテゴリ情報を取得してもよい。この構成により、教師データに不備がある場合により確実に当該教師データを修正することができる。
また、教師データ修正装置1において、削除データ決定部15は、教師データに含まれる文書であって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定し、教師データ削除部16は、教師データに含まれる文書であって削除データ決定部15によって取得されたカテゴリ情報が示す第2カテゴリに属する文書のうち削除データ決定部15によって特定された用語及び当該第1カテゴリを示す名称を含む文書の組を当該教師データから削除してもよい。この構成により、第1カテゴリを示す名称を含む文書の組も教師データから削除されるため、より精度良く教師データを修正することができる。
また、教師データ修正装置1において、教師データ削除部16によって削除された教師データに基づいて、入力された任意の文書が属するカテゴリを分類する文書分類モデルを学習して出力する機械学習部11をさらに備えてもよい。この構成により、文書分類モデルの精度を高めることができる。
教師データ修正装置1は、教師データの整形自動化に関する。教師データ修正装置1は、新旧カテゴリが混在した不正確な学習データを用いて学習後、上位カテゴリへの誤分類率を算出し、算出した誤分類率によって、教師データの修正が必要な上位-下位カテゴリを特定し、下位カテゴリに特徴的な単語を特定し、過去教師データから下位カテゴリに関連する文書を削除することで、低コストかつ迅速に教師データを修正し、モデルの精度を高める。
教師データ修正装置1によれば、ユーザ目線の効果として、記事が下位カテゴリに正しく分類されており、上位カテゴリ・下位カテゴリどちらにも記事が点在するという状態がなくなるという効果を奏する。また、運用者目線の効果として、あるカテゴリを新規に追加しても、容易にデータの整形が実施されるという効果を奏する。
本開示の教師データ修正装置1は、以下の構成を有してもよい。
[A]
上位カテゴリの教師データに混在する下位カテゴリの教師データを削除する教師データ修正装置であって、
教師データを用いて文書分類モデルを学習し、教師データを構成するテキストデータを学習済の文書分類モデルに入力し、カテゴリ分類結果を出力させる機械学習・推論部と、
前記より出力されたカテゴリ分類結果と教師データに予め付与されていたカテゴリとを比較して、上位-下位カテゴリペアデータに基づいて上位カテゴリへの誤分類率を算出する誤分類率算出部と、
上位カテゴリへの誤分類率が閾値より高いかどうかによって教師データを修正するか否かを判断する教師データ修正判定部と、
上位カテゴリの教師データに混在する下位カテゴリの教師データを下位カテゴリを表す特徴的な単語を用いて削除することで、教師データの修正を行う教師データ修正部を備える教師データ修正装置。
上位カテゴリの教師データに混在する下位カテゴリの教師データを削除する教師データ修正装置であって、
教師データを用いて文書分類モデルを学習し、教師データを構成するテキストデータを学習済の文書分類モデルに入力し、カテゴリ分類結果を出力させる機械学習・推論部と、
前記より出力されたカテゴリ分類結果と教師データに予め付与されていたカテゴリとを比較して、上位-下位カテゴリペアデータに基づいて上位カテゴリへの誤分類率を算出する誤分類率算出部と、
上位カテゴリへの誤分類率が閾値より高いかどうかによって教師データを修正するか否かを判断する教師データ修正判定部と、
上位カテゴリの教師データに混在する下位カテゴリの教師データを下位カテゴリを表す特徴的な単語を用いて削除することで、教師データの修正を行う教師データ修正部を備える教師データ修正装置。
[B]
前記下位カテゴリを表す特徴的な単語を抽出するための削除データ決定部をさらに備え、
前記教師データ修正部は、前記削除データ決定部を用いて得られた特徴語及びカテゴリ名を用いて、教師データの修正を行う、
[A]に記載の教師データ修正装置。
前記下位カテゴリを表す特徴的な単語を抽出するための削除データ決定部をさらに備え、
前記教師データ修正部は、前記削除データ決定部を用いて得られた特徴語及びカテゴリ名を用いて、教師データの修正を行う、
[A]に記載の教師データ修正装置。
本開示の教師データ修正装置1は、以下の構成を有してもよい。
[1]
階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置であって、
一の前記カテゴリである第1カテゴリと、当該第1カテゴリと階層関係にある前記カテゴリである第2カテゴリであって当該第1カテゴリに属すべき前記教師データに含まれる文書が誤って属している又は誤って属している可能性がある第2カテゴリとを示すカテゴリ情報を取得する取得部と、
前記教師データに含まれる文書であって前記取得部によって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第2カテゴリに属する文書のうち特定された当該用語を含む文書の組を当該教師データから削除する削除部と、
を備える教師データ修正装置。
階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置であって、
一の前記カテゴリである第1カテゴリと、当該第1カテゴリと階層関係にある前記カテゴリである第2カテゴリであって当該第1カテゴリに属すべき前記教師データに含まれる文書が誤って属している又は誤って属している可能性がある第2カテゴリとを示すカテゴリ情報を取得する取得部と、
前記教師データに含まれる文書であって前記取得部によって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第2カテゴリに属する文書のうち特定された当該用語を含む文書の組を当該教師データから削除する削除部と、
を備える教師データ修正装置。
[2]
前記カテゴリの階層構造は、時間経過と共に変更される、
[1]に記載の教師データ修正装置。
前記カテゴリの階層構造は、時間経過と共に変更される、
[1]に記載の教師データ修正装置。
[3]
第2カテゴリは、第1カテゴリの上位の階層である、
[1]又は[2]に記載の教師データ修正装置。
第2カテゴリは、第1カテゴリの上位の階層である、
[1]又は[2]に記載の教師データ修正装置。
[4]
入力された任意の文書が属する前記カテゴリを分類する文書分類モデルであって前記教師データに基づいて学習された文書分類モデルの誤分類率が所定の基準を満たす場合に、当該教師データに対して前記削除部による削除を実行する、
[1]~[3]の何れか一項に記載の教師データ修正装置。
入力された任意の文書が属する前記カテゴリを分類する文書分類モデルであって前記教師データに基づいて学習された文書分類モデルの誤分類率が所定の基準を満たす場合に、当該教師データに対して前記削除部による削除を実行する、
[1]~[3]の何れか一項に記載の教師データ修正装置。
[5]
前記教師データに基づく学習では、交差検証が実行される、
[4]に記載の教師データ修正装置。
前記教師データに基づく学習では、交差検証が実行される、
[4]に記載の教師データ修正装置。
[6]
誤分類率は、第1カテゴリに属すべき文書が誤って第2カテゴリに属すると分類される確率である、
[4]又は[5]に記載の教師データ修正装置。
誤分類率は、第1カテゴリに属すべき文書が誤って第2カテゴリに属すると分類される確率である、
[4]又は[5]に記載の教師データ修正装置。
[7]
前記取得部は、入力された任意の文書が属する前記カテゴリを分類する文書分類モデルであって前記教師データに基づいて学習された文書分類モデルの、第1カテゴリに属すべき文書が誤って第2カテゴリに属すると分類される確率である誤分類率が所定の基準を満たす場合に、当該第1カテゴリと当該第2カテゴリとを示すカテゴリ情報を取得する、
[1]~[6]の何れか一項に記載の教師データ修正装置。
前記取得部は、入力された任意の文書が属する前記カテゴリを分類する文書分類モデルであって前記教師データに基づいて学習された文書分類モデルの、第1カテゴリに属すべき文書が誤って第2カテゴリに属すると分類される確率である誤分類率が所定の基準を満たす場合に、当該第1カテゴリと当該第2カテゴリとを示すカテゴリ情報を取得する、
[1]~[6]の何れか一項に記載の教師データ修正装置。
[8]
前記削除部は、前記教師データに含まれる文書であって前記取得部によって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第2カテゴリに属する文書のうち特定された当該用語及び当該第1カテゴリを示す名称を含む文書の組を当該教師データから削除する、
[1]~[7]の何れか一項に記載の教師データ修正装置。
前記削除部は、前記教師データに含まれる文書であって前記取得部によって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第2カテゴリに属する文書のうち特定された当該用語及び当該第1カテゴリを示す名称を含む文書の組を当該教師データから削除する、
[1]~[7]の何れか一項に記載の教師データ修正装置。
[9]
前記削除部によって削除された前記教師データに基づいて、入力された任意の文書が属する前記カテゴリを分類する文書分類モデルを学習して出力する学習部をさらに備える、
[1]~[8]の何れか一項に記載の教師データ修正装置。
前記削除部によって削除された前記教師データに基づいて、入力された任意の文書が属する前記カテゴリを分類する文書分類モデルを学習して出力する学習部をさらに備える、
[1]~[8]の何れか一項に記載の教師データ修正装置。
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
例えば、本開示の一実施の形態における教師データ修正装置1などは、本開示の教師データ修正方法の処理を行うコンピュータとして機能してもよい。図29は、本開示の一実施の形態に係る教師データ修正装置1のハードウェア構成の一例を示す図である。上述の教師データ修正装置1は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。教師データ修正装置1のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
教師データ修正装置1における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述の機械学習部11、推論部12、誤分類率算出部13、教師データ修正判定部14、削除データ決定部15及び教師データ削除部16などは、プロセッサ1001によって実現されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、機械学習部11、推論部12、誤分類率算出部13、教師データ修正判定部14、削除データ決定部15及び教師データ削除部16は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の機械学習部11、推論部12、誤分類率算出部13、教師データ修正判定部14、削除データ決定部15及び教師データ削除部16などは、通信装置1004によって実現されてもよい。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
また、教師データ修正装置1は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。
本開示において説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G(4th generation mobile communication system)、5G(5th generation mobile communication system)、FRA(Future Radio Access)、NR(new Radio)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi(登録商標))、IEEE 802.16(WiMAX(登録商標))、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及びこれらに基づいて拡張された次世代システムの少なくとも一つに適用されてもよい。また、複数のシステムが組み合わされて(例えば、LTE及びLTE-Aの少なくとも一方と5Gとの組み合わせ等)適用されてもよい。
本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
本開示において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみが採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。
本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
本開示において、例えば、英語でのa、an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
1…教師データ修正装置、10…格納部、11…機械学習部、12…推論部、13…誤分類率算出部、14…教師データ修正判定部、15…削除データ決定部、16…教師データ削除部、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス。
Claims (9)
- 階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置であって、
一の前記カテゴリである第1カテゴリと、当該第1カテゴリと階層関係にある前記カテゴリである第2カテゴリであって当該第1カテゴリに属すべき前記教師データに含まれる文書が誤って属している又は誤って属している可能性がある第2カテゴリとを示すカテゴリ情報を取得する取得部と、
前記教師データに含まれる文書であって前記取得部によって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第2カテゴリに属する文書のうち特定された当該用語を含む文書の組を当該教師データから削除する削除部と、
を備える教師データ修正装置。 - 前記カテゴリの階層構造は、時間経過と共に変更される、
請求項1に記載の教師データ修正装置。 - 第2カテゴリは、第1カテゴリの上位の階層である、
請求項1に記載の教師データ修正装置。 - 入力された任意の文書が属する前記カテゴリを分類する文書分類モデルであって前記教師データに基づいて学習された文書分類モデルの誤分類率が所定の基準を満たす場合に、当該教師データに対して前記削除部による削除を実行する、
請求項1に記載の教師データ修正装置。 - 前記教師データに基づく学習では、交差検証が実行される、
請求項4に記載の教師データ修正装置。 - 誤分類率は、第1カテゴリに属すべき文書が誤って第2カテゴリに属すると分類される確率である、
請求項4に記載の教師データ修正装置。 - 前記取得部は、入力された任意の文書が属する前記カテゴリを分類する文書分類モデルであって前記教師データに基づいて学習された文書分類モデルの、第1カテゴリに属すべき文書が誤って第2カテゴリに属すると分類される確率である誤分類率が所定の基準を満たす場合に、当該第1カテゴリと当該第2カテゴリとを示すカテゴリ情報を取得する、
請求項1に記載の教師データ修正装置。 - 前記削除部は、前記教師データに含まれる文書であって前記取得部によって取得されたカテゴリ情報が示す第1カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第2カテゴリに属する文書のうち特定された当該用語及び当該第1カテゴリを示す名称を含む文書の組を当該教師データから削除する、
請求項1に記載の教師データ修正装置。 - 前記削除部によって削除された前記教師データに基づいて、入力された任意の文書が属する前記カテゴリを分類する文書分類モデルを学習して出力する学習部をさらに備える、
請求項1に記載の教師データ修正装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023-069331 | 2023-04-20 | ||
JP2023069331 | 2023-04-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024219247A1 true WO2024219247A1 (ja) | 2024-10-24 |
Family
ID=93152348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2024/013984 WO2024219247A1 (ja) | 2023-04-20 | 2024-04-04 | 教師データ修正装置 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024219247A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019164402A (ja) * | 2018-03-19 | 2019-09-26 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2022150552A (ja) * | 2021-03-26 | 2022-10-07 | 株式会社デンソーテン | データ処理装置及び方法 |
US20220366298A1 (en) * | 2021-05-14 | 2022-11-17 | Oracle International Corporation | Automated data hierarchy extraction and prediction using a machine learning model |
-
2024
- 2024-04-04 WO PCT/JP2024/013984 patent/WO2024219247A1/ja unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019164402A (ja) * | 2018-03-19 | 2019-09-26 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2022150552A (ja) * | 2021-03-26 | 2022-10-07 | 株式会社デンソーテン | データ処理装置及び方法 |
US20220366298A1 (en) * | 2021-05-14 | 2022-11-17 | Oracle International Corporation | Automated data hierarchy extraction and prediction using a machine learning model |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7043492B1 (en) | Automated classification of items using classification mappings | |
US6697799B1 (en) | Automated classification of items using cascade searches | |
US20130138430A1 (en) | Methods and apparatus to classify text communications | |
JP2005092271A (ja) | 質問応答方法及び質問応答装置 | |
US20110184932A1 (en) | Search using proximity for clustering information | |
JP2013178851A (ja) | ドキュメントを分類するシステム、方法、およびソフトウェア | |
CN109033244B (zh) | 搜索结果排序方法和装置 | |
JPWO2019225154A1 (ja) | 作成文章評価装置 | |
US8943101B2 (en) | Keyword acquiring device, content providing system, keyword acquiring method, a computer-readable recording medium and content providing method | |
WO2024219247A1 (ja) | 教師データ修正装置 | |
US11663420B2 (en) | Dialogue system | |
US10261998B2 (en) | Search apparatus and search method | |
JP6976448B2 (ja) | 機械翻訳制御装置 | |
JP6944360B2 (ja) | コンテンツの提示順位を制御する装置、方法、及び、プログラム | |
JP7320058B2 (ja) | 対話システム | |
CN114519153B (zh) | 一种网页历史记录显示方法、装置、设备及存储介质 | |
US12105759B2 (en) | Recommendation system that selects an optimal algorithm for making an appropriate content recommendation to a user | |
JP7412307B2 (ja) | 作成支援装置、作成支援方法、および作成支援プログラム | |
WO2020235136A1 (ja) | 対話システム | |
JPWO2020070943A1 (ja) | パターン認識装置及び学習済みモデル | |
WO2023007922A1 (ja) | 情報処理装置 | |
JP2021179665A (ja) | 文章作成装置 | |
JP7576178B2 (ja) | 時系列データ処理装置 | |
JP4690232B2 (ja) | 情報処理装置、ソフトウェア登録方法およびプログラム | |
JP7575894B2 (ja) | 作成文章評価装置 |