JP2021103386A - 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 - Google Patents
学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 Download PDFInfo
- Publication number
- JP2021103386A JP2021103386A JP2019233573A JP2019233573A JP2021103386A JP 2021103386 A JP2021103386 A JP 2021103386A JP 2019233573 A JP2019233573 A JP 2019233573A JP 2019233573 A JP2019233573 A JP 2019233573A JP 2021103386 A JP2021103386 A JP 2021103386A
- Authority
- JP
- Japan
- Prior art keywords
- data
- image
- image data
- character string
- existence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000010365 information processing Effects 0.000 title claims abstract description 36
- 238000004590 computer program Methods 0.000 title claims abstract description 14
- 238000003672 processing method Methods 0.000 title claims abstract description 6
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 52
- 238000012545 processing Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 14
- 230000015654 memory Effects 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
Description
の画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルを記憶しておき、画像データを取得し、取得した画像データを前記モデルに入力し、前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する処理を含む。
図1は、文字認識を実行する情報処理装置1のブロック図である。情報処理装置1は、制御部10、画像処理部11、記憶部12、通信部13、及び読取部14を備える。情報処理装置1及び情報処理装置1における動作について以下では、1台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
Processing Unit)又は専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行し、学習モデル1Mとして機能する。なお、制御部10及び画像処理部11は、一体のハードウェアであってもよい。また制御部10及び画像処理部11は、CPU、GPU等のプロセッサ、メモリ、更には記憶部12及び通信部13を集積した1つのハードウェア(SoC:System On a Chip)として構成されていてもよい。
文字列のデータを出力する第1出力層124と、分岐された出力を入力し、画像に文字列が写っているかの存否データを出力する第2出力層125とを含む。
合に対する、認識精度の向上の推移を示す。図6中、実線は、上述の学習モデル1Mの学習方法によって生成されている過程における精度の推移を示す。破線は、第2出力層125を用いないモデル、即ち単純に文字列認識を学習させたモデルにおける精度の推移を示す。
実施の形態では、実施の形態1で説明した情報処理装置1によって文字列を認識し、認識した文字列と、文字列を含む画像が撮影された位置情報とを対応付けて記憶するデータベースを作成し、文字列が示すテキストデータに基づく情報を提供する情報提供サービスを実現する。認識される文字列は、実施の形態2においてはガソリンスタンドにおけるガソリンの値段を示す数字列である。
位置データ対応付けて送信してもよい。
モデル1Mを用いて認識できることにより、以下に示すように、ガソリンの値段を地図上に示すサービスが実現される。
ト又は画像が重畳して表示されている。これにより、情報端末装置6を操作する操作者は、ガソリンの値段を把握することができる。ガソリンの値段は、車両Vで撮像された画像データが送信される都度、最新のデータに更新される。履歴として記憶装置4に蓄積されるので、制御部60は、操作に応じて、ガソリンの値段の推移を表示部62に表示させてもよい。
10 制御部
11 画像処理部
12 記憶部
13 通信部
1M 学習モデル(第2モデル)
121 CNN
122 RNN
123 CRF層
124 第1出力層
125 第2出力層
1P 学習プログラム
3 収集装置
30 制御部
32 記憶部
30P 処理プログラム
31P 画像処理プログラム
3M 検出モデル(第1モデル)
4 記憶装置
41 記憶部
6 情報端末装置
62 表示部
Claims (14)
- 文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、画像データ及び該画像データの画像に文字列が写っているか否かを示す存否データの組を含む教師データを取得し、
画像データを入力した場合に、写っている文字列のテキストデータ及び存否データを出力する学習モデルを、前記教師データを用いて生成する
学習モデルの生成方法。 - 前記学習モデルは、画像データを分別して順次入力する畳み込みニューラルネットワーク、及び、該畳み込みニューラルネットワークから出力された特徴量データを順次入力する再帰型ニューラルネットワークを含み、
前記再帰型ニューラルネットワークは、入力された画像データの画像に写る文字列を出力する第1出力層、及び、前記画像における文字列の存否データを出力する第2出力層を含む
請求項1に記載の生成方法。 - 前記畳み込みニューラルネットワークには、入力された画像データの画像から、水平方向に順次、相互に重複する所定範囲を抽出し、抽出した所定範囲の画像の画像データが入力される
請求項2に記載の生成方法。 - 前記教師データに含まれる、文字列が写っている画像の画像データが入力される場合に、前記第1出力層からの出力と、第2出力層からの出力とを用いて前記教師データの正解のテキストデータとなる確率を最大化するように、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを学習し、
前記教師データに含まれる、文字列が写っていない画像の画像データが入力される場合には、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを、前記第1出力層からの出力を用いず、前記第2出力層からの出力を用いた損失関数によって学習する
請求項2又は3に記載の生成方法。 - 前記学習モデルは、
文字列が写っている画像の画像データが入力された場合には、前記文字列のテキストデータ、及び文字列が写っていることを示す存否データを出力し、
文字列が写っていない画像の画像データが入力された場合には文字列が写っていないことを示す存否データを出力するように学習される
請求項2から請求項4のいずれか1項に記載の生成方法。 - 前記画像データは、車両に外向きに搭載された撮影装置によって撮影された画像データである
請求項1から請求項5のいずれか1項に記載の生成方法。 - 画像データを入力した場合に、前記画像データの画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルを記憶してあるコンピュータに、
画像データを取得し、
取得した画像データを前記モデルに入力し、
前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する
処理を実行させるコンピュータプログラム。 - 前記コンピュータに、
前記モデルから出力されたテキストデータと、該テキストデータと共に出力される前記画像データの画像に文字列が写っている確信度に関する情報と、前記画像データとを対応付けて記憶する
処理を実行させる請求項7に記載のコンピュータプログラム。 - 前記コンピュータに、
前記モデルから出力された存否データが、文字列が写っていないことを示している場合に、前記画像データと、文字列の不存在を示すデータとを対応付けて記憶する
処理を実行させる請求項7又は8に記載のコンピュータプログラム。 - 前記画像データは、車両に外向きに搭載された撮影装置によって撮影された画像データである
請求項7から請求項9のいずれかに記載のコンピュータプログラム。 - 前記コンピュータに、
前記画像データが撮影されたタイミングにおける前記車両の位置データを取得し、
取得した位置データを、前記画像データを前記モデルに入力することによって前記モデルから出力されるテキストデータ及び存否データと対応付けて記憶する
処理を実行させる請求項10に記載のコンピュータプログラム。 - 画像データを入力した場合に、前記画像データの画像に検出対象の文字列が写っている範囲を検出するように学習されてある第1モデル、及び、画像データを入力した場合に、写っている文字列を示すテキストデータ及び存否データを出力するように学習してある第2モデルを記憶してあるコンピュータに、
第1画像データを取得し、
取得した第1画像データを前記第1モデルに入力し、
前記第1画像データの画像から、前記第1モデルにて検出された検出範囲を抽出した第2画像データを取得し、
第2画像データを前記第2モデルに入力し、
前記第1モデルから出力される、検出範囲及び該検出範囲に文字列が写っている確信度、並びに、前記第2モデルから出力されたテキストデータ及び該テキストデータと共に出力される文字列である確信度を、前記第1画像データと対応付けて記憶する
処理を実行させるコンピュータプログラム。 - 画像データを入力した場合に、前記画像データの画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルが記憶してある記憶部と、
画像データを取得する画像取得部と、
該画像取得部が取得した画像データを前記モデルに入力することによって前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する出力部と
を備える情報処理装置。 - 画像データを入力した場合に、前記画像データの画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルを記憶しておき、
画像データを取得し、
取得した画像データを前記モデルに入力し、
前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する
処理を含む情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019233573A JP7416614B2 (ja) | 2019-12-24 | 2019-12-24 | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019233573A JP7416614B2 (ja) | 2019-12-24 | 2019-12-24 | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021103386A true JP2021103386A (ja) | 2021-07-15 |
JP7416614B2 JP7416614B2 (ja) | 2024-01-17 |
Family
ID=76755190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019233573A Active JP7416614B2 (ja) | 2019-12-24 | 2019-12-24 | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7416614B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609965A (zh) * | 2021-08-03 | 2021-11-05 | 同盾科技有限公司 | 文字识别模型的训练方法及装置、存储介质、电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018132953A (ja) * | 2017-02-15 | 2018-08-23 | ソフネック株式会社 | 画像処理方法、及びコンピュータプログラム |
JP2018152026A (ja) * | 2017-03-15 | 2018-09-27 | ソフネック株式会社 | 文字認識方法及びコンピュータプログラム |
JP2019148521A (ja) * | 2018-02-28 | 2019-09-05 | 株式会社Jvcケンウッド | 認識画像表示装置、認識画像表示方法、及びプログラム |
-
2019
- 2019-12-24 JP JP2019233573A patent/JP7416614B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018132953A (ja) * | 2017-02-15 | 2018-08-23 | ソフネック株式会社 | 画像処理方法、及びコンピュータプログラム |
JP2018152026A (ja) * | 2017-03-15 | 2018-09-27 | ソフネック株式会社 | 文字認識方法及びコンピュータプログラム |
JP2019148521A (ja) * | 2018-02-28 | 2019-09-05 | 株式会社Jvcケンウッド | 認識画像表示装置、認識画像表示方法、及びプログラム |
Non-Patent Citations (3)
Title |
---|
KHAOULA ELAGOUNI: "Combining Multi-Scale Character Recognition and Linguistic Knowledge for Natural Scene Text OCR", 2012 10TH IAPR INTERNATIONAL WORKSHOP ON DOCUMENT ANALYSIS SYSTEMS, JPN6023041342, 2012, pages 120 - 124, XP032178174, ISSN: 0005169522, DOI: 10.1109/DAS.2012.26 * |
SIYANG QIN: "Cascaded Segmentation-Detection Networks for Word-Level Text Spotting", 2017 14TH IAPR INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION, JPN6023041344, 2017, pages 1275 - 1282, XP033307943, ISSN: 0005169524, DOI: 10.1109/ICDAR.2017.210 * |
芦田 和毅: "情景画像からの文字抽出", 電子情報通信学会論文誌 D-II, vol. 88, no. 9, JPN6023041343, 1 September 2005 (2005-09-01), JP, pages 1817 - 1824, ISSN: 0005169523 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609965A (zh) * | 2021-08-03 | 2021-11-05 | 同盾科技有限公司 | 文字识别模型的训练方法及装置、存储介质、电子设备 |
CN113609965B (zh) * | 2021-08-03 | 2024-02-13 | 同盾科技有限公司 | 文字识别模型的训练方法及装置、存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP7416614B2 (ja) | 2024-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12002364B1 (en) | Facial recognition technology for improving driver safety | |
CN110909630B (zh) | 一种异常游戏视频检测方法和装置 | |
US20210097103A1 (en) | Method and system for automatically collecting and updating information about point of interest in real space | |
EP3767519A1 (en) | Graphic code recognition method and apparatus, and terminal, and storage medium | |
US11157723B1 (en) | Facial recognition for drivers | |
JP2011059810A (ja) | 画像認識システム | |
CN109214280A (zh) | 基于街景的店铺识别方法、装置、电子设备及存储介质 | |
EP4211601B1 (en) | Method for electronic trip familiarity detection | |
CN110889421A (zh) | 目标物检测方法及装置 | |
CN113033463B (zh) | 减速带检测方法、装置、电子设备及存储介质 | |
US12047715B2 (en) | Systems and methods for automatic recognition of vehicle information | |
CN115205855B (zh) | 融合多尺度语义信息的车辆目标识别方法、装置及设备 | |
CN111310770A (zh) | 目标检测方法和装置 | |
CN111339976B (zh) | 室内定位方法、装置、终端及存储介质 | |
CN114418021B (zh) | 模型优化方法、装置及计算机程序产品 | |
CN110119725B (zh) | 用于检测信号灯的方法及装置 | |
JP2021111273A (ja) | 学習モデルの生成方法、プログラム及び情報処理装置 | |
CN112418096A (zh) | 检测跌的方法、装置和机器人 | |
CN112748453B (zh) | 道路侧定位方法、装置、设备及存储介质 | |
CN114092920A (zh) | 一种模型训练的方法、图像分类的方法、装置及存储介质 | |
US20200342247A1 (en) | Systems and methods for automatic recognition of vehicle information | |
JP7416614B2 (ja) | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 | |
CN114396956A (zh) | 导航方法及装置、计算设备、存储介质和计算机程序产品 | |
CN113298042B (zh) | 遥感影像数据的处理方法及装置、存储介质、计算机设备 | |
CN116823884A (zh) | 多目标跟踪方法、系统、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200121 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7416614 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |