-
ALLGEMEINER STAND DER TECHNIK
-
Gebiet der Erfindung
-
Die vorliegende Erfindung betrifft eine Produktionsausrüstung, die ein Maschinenlernsystem und eine Montage- und Prüfeinheit umfasst, und betrifft insbesondere eine Produktionsausrüstung, die ein Maschinenlernsystem und eine Montage- und Prüfeinheit umfasst und die die Funktion hat, Produkte derart zu produzieren, dass die Güte des aus mehreren Bauteilen zusammengebauten Produkts nahe an einem Sollniveau liegt und der Unterschied in den Lagerhaltungsmengen unter den basierend auf ihren Kennwerten gruppiert Bauteilen reduziert wird.
-
Beschreibung des Standes der Technik
-
Eine Motor-Montageausrüstung, die eine kostengünstige Masseproduktion von Motoren mit hoher Produktivität und hoher Qualitätsstabilität durch Automatisieren des größten Teils eines Montageprozesses ermöglicht ist bereits bekannt (siehe zum Beispiel die ungeprüfte Japanische Patentanmeldung
JP 2003-324 909 A .
-
Bei einer herkömmlichen Montageausrüstung für Motoren, Motorantrieben und dergleichen wird selbst eine Auswahl von mehreren Bauteilen manuell vorgenommen. Da die mehreren Bauteile im Einzelnen in ihren Kenngrößen Fehler aufweisen, hängen die Kenngrößen eines Produkts von den Fehlern der mehreren Bauteile ab. Wenn somit zufällig ausgewählte Bauteile zu einem Produkt zusammengebaut werden, weist das zusammengebaute Produkt einen Kennwert, d.h. die Summe von Kennwerten der Bauteile, auf. Des Weiteren erfordert das manuelle Auswählen der Bauteile einen beträchtlichen Zeitbedarf und Aufwand.
-
Die Druckschrift
DE 198 28 528 A1 offenbart ein auf künstlicher Intelligenz basierendes Expertensystem, die Druckschrift
DE 10 2012 216 574 A1 offenbart ein Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems und die Druckschrift
US 2006/0106477 A1 offenbart ein Produktionsplanerstellungssystem.
-
KURZDARSTELLUNG DER ERFINDUNG
-
Die vorliegende Erfindung zielt darauf ab, eine Produktionsausrüstung bereitzustellen, die Produkte mit einer geringen Abweichung in ihren Schaltungskenngrößen aufweisen, ohne Mannstunden zu erfordern.
-
Eine Produktionsausrüstung gemäß einer Ausführungsform der vorliegenden Erfindung umfasst ein Maschinenlernsystem und eine Montage- und Prüfeinheit. Die Montage- und Prüfeinheit wählt mehrere Bauteile aus mehreren Bauteilgruppen mit unterschiedlichen Kennwerten aus, baut die ausgewählten mehreren Bauteile zu einem Produkt zusammen und prüft das zusammengebaute Produkt. Das Maschinenlernsystem umfasst einen Zustandsbeobachter zum Beobachten eines Prüfergebnisses des Produkts und der Inventarmengen der mehreren basierend auf den Kennwerten der Bauteile gruppierten Bauteile; einen Belohnungsrechner zum Berechnen einer Belohnung basierend auf dem Prüfergebnis und den Inventarmengen; eine künstliche Intelligenz zum Bestimmen eines Aktionswerts basierend auf einem Beobachtungsergebnisses durch den Zustandsbeobachter und der durch den Belohnungsrechner berechneten Belohnung; und einen Entscheidungsfinder zum Auswählen, basierend auf einem Bestimmungsergebnis durch die künstliche Intelligenz, von mehreren Bauteilen, die beim nächsten Produktzusammenbau aus den mehreren Bauteilgruppen verwendet werden sollen.
-
Figurenliste
-
Die Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden deutlicher aus der folgenden Beschreibung einer Ausführungsform in Verbindung mit den beigefügten Zeichnungen, in denen:
- 1 ein Blockschaltbild einer Produktionsausrüstung gemäß einer Ausführungsform der vorliegenden Erfindung ist;
- 2 ein konzeptionelles Schaubild eines Prozesses zum Produzieren einer Schaltung aus mehreren von mehreren Bauteilgruppen ausgewählten Bauteilen unter Verwendung der Produktionsausrüstung gemäß der Ausführungsform der vorliegenden Erfindung ist;
- 3 ein schematisches Schaubild eines Modells eines Neurons ist;
- 4 ein schematisches Schaubild eines dreischichtigen neuralen Netzwerkmodells ist; und
- 5 ein Ablaufdiagramm des Betriebsprozesses der Produktionsausrüstung gemäß der Ausführungsform der vorliegenden Erfindung.
-
AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
-
Eine Produktionsausrüstung gemäß der vorliegenden Erfindung wird nachfolgend mit Bezug auf die Zeichnungen beschrieben.
-
Die 1 ist ein Blockschaltbild einer Produktionsausrüstung gemäß einer Ausführungsform der vorliegenden Erfindung. Die Produktionsausrüstung 100 gemäß einer Ausführungsform der vorliegenden Erfindung umfasst eine Maschinenlernvorrichtung 10 und eine Montage- und Prüfeinheit 20. Das Maschinenlernsystem 10 umfasst einen Zustandsbeobachter 1, einen Belohnungsrechner 2, eine künstliche Intelligenz (nachfolgend auch „Lerneinheit“ genannt) 3 und einen Entscheidungsfinder 4.
-
Die 2 ist ein konzeptionelles Schaubild eines Prozesses zum Produzieren einer Schaltung aus mehreren aus mehreren Bauteilgruppen ausgewählten Bauteilen unter Verwendung der Produktionsausrüstung gemäß der Ausführungsform der vorliegenden Erfindung. Die Montage- und Prüfeinheit 20 wählt mehrere Bauteile (11 und 12) aus mehreren Bauteilgruppen (A1, A2, A3, B1, B2 und B3) mit unterschiedlichen Kennwerten aus, baut die ausgewählten mehreren Bauteile (11 und 12) zu einem Produkt 200 zusammen und prüft das zusammengebaute Produkt 200.
-
Die Kenngröße des Bauteils ist beispielsweise ein Fehler im Widerstand oder dergleichen des Bauteils, ist jedoch nicht darauf beschränkt. Die Kenngröße kann eine elektrische Kenngröße, wie etwa Spannung, oder mechanische Kenngrößen, wie etwa Abmessungen, sein.
-
In 2 wird ein Bauteil A (11) aus drei Fertigungschargen, d.h. ersten bis dritten Fertigungscharge A1 bis A3 von Bauteilen A ausgewählt. In ähnlicher Weise wird ein Bauteil B (12) aus drei Fertigungschargen, d.h. ersten bis dritten Fertigungscharge B1 bis B3 von Bauteilen B ausgewählt. Die Anzahl von Fertigungschargen ist jedoch nicht darauf beschränkt, sondern kann zwei, vier oder mehr betragen.
-
Jede Fertigungscharge enthält mehrere Bauteile mit im Wesentlichen gleichen Kennwerten. Beispielsweise enthält die erste Fertigungscharge A1 1000 Bauteile A mit Fehlern von ungefähr +1% in Bezug auf einen Referenzkennwert der Bauteile A. Die zweite Fertigungscharge A2 enthält 1000 Bauteile A mit Fehlern von ungefähr +0,5% in Bezug auf den Referenzkennwert der Bauteile A. Gleichermaßen enthält beispielsweise die erste Fertigungscharge B1 700 Bauteile B mit Fehlern von ungefähr +0,5% in Bezug auf einen Referenzkennwert der Bauteile B. Die zweite Fertigungscharge B2 enthält 700 Bauteile B mit Fehlern von ungefähr -1% in Bezug auf den Referenzkennwert der Bauteile B. Jedoch sind die Typen von Bauteilen, die Anzahl von Fertigungschargen, die Anzahl von in jeder Fertigungscharge enthaltenen Bauteilen, die Kennwerte der Bauteile, die jede Fertigungscharge enthält, und dergleichen, wie sie oben beschrieben werden, nicht darauf beschränkt.
-
Wie in 2 gezeigt wählt beispielsweise die Produktionsausrüstung 100 das einzelne Bauteil A (11) aus der ersten Fertigungscharge A1 der Bauteile A und das einzelne Bauteil B (12) aus der zweiten Fertigungscharge B2 der Bauteile B und produziert daraus das Produkt (Schaltung) 200. Angenommen dass zu diesem Zeitpunkt die mehreren in der ersten Fertigungscharge A1 enthaltenen Bauteile A einen Fehler von +1% in ihrer Kenngröße aufweisen und die mehreren in der zweiten Fertigungscharge B2 enthaltenen Bauteile B einen Fehler von -1% in ihrer Kenngröße aufweisen, dann weist das Produkt 200 einen Fehler von ±0% in der Schaltungsausbringung auf, d.h. in seiner Güte in Bezug auf ein Sollniveau.
-
In einer Schaltung, die aus mehreren zehn bis mehreren hundert Bauteilen besteht, äußert sich im Allgemeinen die Summe von Fehlern der Bauteile als ein Fehler in der Schaltungsausbringung. Wenn Bauteile, die unterschiedliche Fehler von Fertigungscharge zu Fertigungscharge aufweisen, zu einem Produkt zusammengebaut werden, dann weist jedes der Produkte wünschenswerterweise einen Fehler in der Schaltungsausbringung auf, der so nahe wie möglich bei ±0% liegt. Anderseits ist es wünschenswert zu verhindern, dass eine Fertigungscharge mit einem großen Fehler nicht verwendet wird.
-
Daher lernt die Produktionsausrüstung gemäß der Ausführungsform der vorliegenden Erfindung Bauteile zu verwenden, um einen Fehler in der Schaltungsausbringung nahe an ±0% zu bringen, während verhindert wird, dass eine Fertigungscharge mit einem relativ großen Fehler als Inventar verbleibt. Zu Beginn kennt das Maschinenlernsystem 10 den Fehler einer jeden Fertigungscharge eines jeden Typs von Bauteilen nicht. Das Maschinenlernsystem 10 lernt jedoch die Fehler von einzelnen Fertigungschargen, während die Schaltungsausbringungen der zusammengebauten Produkte gemessen werden. Um einen Fehler in der Schaltungsausbringung nahe an ±0% zu bringen, besteht die Tendenz, dass vorzugsweise Fertigungschargen mit kleinen Fehlern verwendet werden. Das Verbleiben einer Fertigungscharge mit einem großen Fehler als Inventar sorgt jedoch zum Zwecke des Reduzierens des Unterschieds in den Inventarmengen unter den basierend auf ihren Kennwerten gruppierten Bauteilen für eine niedrige Belohnung.
-
Der Zustandsbeobachter 1 beobachtet Prüfergebnisse der Produkte 200 und die Inventarmengen der in mehrere Bauteilgruppen (A1, A2, A3, B1, B2, B3) gruppierten mehreren Bauteile basierend auf den Kennwerten der Bauteile. Wenn, als ein Beispiel der Prüfergebnisse der Produkte 200, ein Bauteil als ein Bauteil A (11) aus der ersten Fertigungscharge A1 (mit einem Fehler von +1%), d.h. einer Bauteilgruppe der Bauteile A, gewählt wird, und ein Bauteil als ein Bauteil B (12) aus der ersten Fertigungscharge B1 (mit einem Fehler von +0,5%), d.h. einer Bauteilgruppe der Bauteile B, gewählt wird, dann weist ein Produkt 200 einen Fehler in der Größenordnung von 1,5% in seiner Güte auf. Als ein Beispiel der Inventarmengen der basierend auf ihren Kennwerten gruppierten Bauteile, beträgt zudem unter der Annahme, dass die erste Fertigungscharge A1 zu Beginn 1000 Bauteile A enthält, die Inventarmenge der Bauteile mit einem Fehler von ±1% in ihren Kennwerten 900, nach der Verwendung von 100 Bauteilen.
-
Der Belohnungsrechner 2 berechnet eine Belohnung basierend auf dem Prüfergebnis und den Inventarmengen. Ein Verfahren zum Berechnen der Belohnung wird später beschrieben.
-
Die künstliche Intelligenz (Lerneinheit) 3 bestimmt einen Aktionswert basierend auf einem Beobachtungsergebnis durch den Zustandsbeobachter 1 und der Belohnung von dem Belohnungsrechner 2. Ein Verfahren zum Bestimmen des Aktionswerts wird später beschrieben.
-
Der Entscheidungsfinder 4 wählt mehrere Bauteile (Bauteile A und B), die beim nächsten Produktzusammenbau verwendet werden sollen, aus den mehreren Bauteilgruppen (A1, A2, A3, B1, B2 und B3) basierend auf einem Bestimmungsergebnis durch die künstliche Intelligenz 3 aus.
-
Als Nächstes wird das Verfahren zum Berechnen der Belohnung beschrieben. Beispielsweise kann der Belohnungsrechner 2 eine höhere Belohnung errechnen, wenn die Güte eines Produkts 200, d.h. ein Prüfergebnis näher an einem Sollniveau liegt. Der Belohnungsrechner 2 kann eine niedrigere Belohnung errechnen, wenn sich der Unterschied in den Inventarmengen der basierend auf den Kennwerten der Bauteile gruppierten Bauteile vergrößert. Wenn beispielsweise ein Prüfergebnis gleich einem Sollniveau ist, beträgt ein Fehler ±0%. Wenn zu diesem Zeitpunkt ein erhaltenes Produkt einen Fehler von 0.5% aufweist wird im Vergleich zu einem Fall mit einem Fehler von +1% eine höhere Belohnung bereitgestellt. Wenn zudem ein erhaltenes Produkt einen Fehler aufweist, der ein vorbestimmtes Niveau überschreitet (zum Beispiel 2%), kann eine negative Belohnung bereitgestellt werden. Wenn anderseits in Bezug auf die Inventarmengen der Unterschied in den Inventarmengen zwischen einer ersten Fertigungscharge A1, einer zweiten Fertigungscharge A2 und einer dritten Fertigungscharge A3 von Bauteilen A, d.h. der Unterschied zwischen einer Maximalmenge und einer Minimalmenge der Inventarmengen der Fertigungschargen der Bauteile 20 beträgt, wird im Vergleich zu dem Fall, der einen Unterschied von 10 aufweist, eine niedrigere Belohnung bereitgestellt. Es wird angemerkt, dass die Kenngröße des Produkts eine elektrische Kenngröße, wie Spannung, oder eine mechanische Kenngröße, wie Abmessungen, sein kann.
-
Die künstliche Intelligenz 3 führt vorzugsweise eine Berechnung einer durch den Zustandsbeobachter 1 beobachteten Zustandsvariablen in einer mehrschichtigen Struktur aus und aktualisiert eine Aktionswerttabelle zum Bestimmen eines Aktionswerts in Echtzeit. Als Verfahren zum Ausführen der Berechnung der Zustandsvariablen in der mehrschichtigen Struktur kann beispielsweise ein in 4 gezeigtes mehrschichtiges neurales Netzwerk verwendet werden.
-
Hierzu wird das wie in 1 gezeigte Maschinenlernsystem 10 ausführlich beschrieben. Das Maschinenlernsystem 10 hat die Funktion des Lernens von Wissen, sowie die Funktionen des Extrahierens von nützlichen Regeln, Wissensdarstellungen, Kriterien und dergleichen aus einer durch eine Analyse in das Maschinenlernsystem 19 eingegeben Datengruppe, und des Ausgebens eines Bestimmungsergebnisses. Dafür gibt es verschiedene Verfahren, die im Allgemeinen in „überwachtes Lernen“, „unüberwachtes“ Lernen und „bestärkendes Lernen“ eingeteilt werden. Wenn darüber hinaus diese Verfahren verwirklicht werden, wird ein als „Deep Learning“ bezeichnetes Verfahren, das die Extraktion von Merkmalen lernt, verwendet.
-
Beim „überwachten Lernen“ wird eine große Menge an Datenpaaren einer bestimmten Eingabe und ein Ergebnis (Label) einem Lernsystem bereitgestellt. Das Lernsystem lernt Merkmale aus dem Datensatz und erhält heuristisch ein Modell, um ein Ergebnis aus einer Eingabe, d.h. der Beziehung dazwischen, vorherzusagen. In dieser Ausführungsform kann das überwachte Lernen dazu verwendet werden, die im nächsten Produktzusammenbau zu verwendende Fertigungscharge eines jeden Bauteils basierend auf einem Beobachtungsergebnis durch den Zustandsbeobachter, das ein Prüfergebnis eines Produkts und den Unterschied in den Inventarmengen der basierend auf ihren Kennwerten gruppierten Bauteile umfasst, und einer durch den Belohnungsrechner berechneten Belohnung vorherzusagen. Dies kann durch Verwenden eines Algorithmus, wie z.B. ein später beschriebenes neurales Netzwerk. Beim „unüberwachten Lernen“ wird nur eine große Menge von Eingabedaten dem Lernsystem bereitgestellt. Das Lernsystem lernt die Verteilung der Eingabedaten und wendet Komprimierung, Klassifizierung, Ausrichtung oder dergleichen auf die Eingabedaten an, ohne dass entsprechende Ausgabedaten als Überwacher angewendet werden. Die Merkmale des Datensatzes können einem Clustern durch Analogie unterworfen werden. Mit Verwendung dieses Ergebnisses wird, während ein bestimmtes Kriterium bereitgestellt wird, eine Ausgabe zugeordnet, um das Kriterium zu optimieren, und dies erlaubt eine Vorhersage der Ausgabe. Es gibt ebenfalls ein als „teilüberwachtes Lernen“ bezeichnetes Verfahren als eine Zwischenproblemermittlung zwischen dem „überwachten Lernen“ und dem „unüberwachten Lernen“, in dem ein Teil der Daten Paare einer Eingabe und einer Ausgabe umfassen, während der andere Teil nur Eingabedaten umfasst. In dieser Ausführungsform verwendet das unüberwachte Lernen Daten, die ohne aktuelles Betreiben der Montage- und Prüfeinheit erhalten werden können, um die Lerneffizienz zu verbessern.
-
Probleme mit dem bestärkenden Lernen werden wie folgt bestimmt.
- - Die Montage- und Prüfeinheit beobachtet einen Umweltzustand und bestimmt eine Aktion.
- - Eine Umwelt ändert sich in Übereinstimmung mit einigen Regeln, und außerdem ändert manchmal eine eigene Aktion die Umwelt.
- - Ein Belohnungssignal kehrt immer dann zurück, wenn eine Aktion ausgeführt wird.
- - Das Ziel ist, eine (diskontierte) Gesamtbelohnung in der Zukunft zu maximieren.
- - Das Lernen wird ab einem Zustand begonnen, in dem ein Ergebnis, das durch eine Aktion bewirkt wird, niemals oder nur unzureichend bekannt ist. Die Montage- und Prüfeinrichtung kann das Ergebnis als Daten erst erhalten, nachdem die Montage- und Prüfeinheit tatsächlich betrieben wird. Mit anderen Worten, es ist notwendig, eine optimale Aktion durch Ausprobieren zu suchen.
- - Das Lernen kann ab einem günstigen Startpunkt begonnen werden, indem ein vorausgehendes Lernen ausgeführt wird (mittels dem oben beschriebenen überwachten Lernen oder inversen bestärkenden Lernen), um die Aktion eines Menschen in einem Ausgangszustand zu imitieren.
-
Das „bestärkende Lernen“ ist ein Verfahren, um eine Sequenz von optimalen Aktionen durch Lernen, sowie durch Bestimmen und Klassifizieren, und durch auf Interaktionen zwischen der Aktion und der Umwelt basierenden Aktion zu lernen; mit anderen Worten, es ist ein Lernverfahren, um eine in der Zukunft erhaltene Gesamtbelohnung zu maximieren. In dieser Ausführungsform zeigt dies an, dass eine Sequenz von Aktionen, die eine Wirkung auf die Zukunft haben, erhalten wird. Die folgende Beschreibung nimmt Q-Lernen als ein Beispiel, ist jedoch nicht darauf beschränkt.
-
Das Q-Lernen ist ein Verfahren zum Lernen eines Werts Q(s, a) zum Wählen einer Aktion „a“ in einem gewissen Umweltzustand „s“. Mit anderen Worten, in einem gewissen Zustand „s“ wird eine Aktion „a“ mit dem höchsten Wert Q(s, a) als eine optimale Aktion gewählt. Jedoch ist ein korrekter Wert Q(s, a) bezüglich einer Kombination eines Zustands „s“ und einer Aktion „a“ zu Beginn überhaupt nicht bekannt. Daher wählt ein Agent verschiedene Aktionen „a“ in einem gewissen Zustand „s“, und die Ausführung einer jeden Aktion „a“ in dem Zustand „s“ stellt dem Agenten eine Belohnung bereit. Dadurch lernt der Agent eine bessere Aktion, d.h. einen korrekten Wert Q(s, a) zu wählen.
-
Das Ziel ist, als Ergebnis des Wählens einer Sequenz von Aktionen eine in der Zukunft zu erzielende Gesamtbelohnung zu maximieren. Daher zielt der Agent auf Q(s, a) = E[Σγ
tr
t] ab (ein erwarteter Wert einer diskontierten Gesamtbelohnung: y ist ein Diskontierungsfaktor) (der erwartete Wert wird genommen, wenn sich der Agent von Zustand zu Zustand bewegt, indem eine Sequenz von optimalen Aktionen ausgeführt wird. Die Sequenz von optimalen Aktionen war selbstverständlich nicht bekannt und muss somit während des Lernens gefunden werden). Beispielsweise wird eine Aktualisierungsgleichung für einen Wert Q(s, a) wie folgt dargestellt:
wobei s
t einen Umweltzustand zum Zeitpunkt t darstellt und a
t eine Aktion zum Zeitpunkt t darstellt. Durch Ausführen der Aktion a
t bewegt sich der Agent zu einem Zustand s
t+1. Die Zustandsänderung stellt dem Agenten eine Belohnung r
t+1 bereit. Ein Begriff „max“ stellt das Produkt aus einem Wert Q, wenn eine Aktion „a“ mit dem zu diesem Zeitpunkt bekannten höchsten Wert Q in dem Zustand s
t+1 gewählt wird, und γ dar. „γ“ ist ein Parameter im Bereich von 0<γ≤1 und wird Diskontierungsfaktor genannt. „α“ ist eine Lernrate im Bereich von 0<α≤1.
-
Diese Gleichung bezeichnet ein Verfahren zum Aktualisieren eines Werts Q(st, at) einer Aktion at in einem Zustand st basierend auf einer Belohnung rt+1, die als ein Ergebnis der Aktion at zurückgesendet wurde. Die Aktualisierungsgleichung zeigt an, dass Q(st, at) im Vergleich zu einem Wert Q(st, at) einer Aktion „a“ in einem Zustand „s“ erhöht wird, wenn ein von einer Belohnung rt+1 plus der Aktion „a“ abgeleiteter Wert Q(st+1, max at+1) einer optimalen Aktion „max a“ im nächsten Zustand höher ist. Wenn nicht, dann wird Q(st, at) verringert. Mit anderen Worten, der Wert einer Aktion in einem gewissen Zustand wird an einen optimalen Aktionswert im nächsten Zustand angenähert, d.h. wird von einer als Ergebnis einer Aktion zurückgesendeten Belohnung und der Aktion selbst abgeleitet.
-
Es gibt zwei Verfahren zum Darstellen von Werten Q(s, a) in einem Computer, d.h. ein Verfahren, in dem Q-Werte von allen Paaren (s, a) von Zustandsaktionen in einer Tabelle (Aktionswerttabelle) gespeichert werden, und ein Verfahren, in dem eine Funktion zum Nähern von Q(s, a)-Werten erstellt wird. Bei letzterem Verfahren kann das oben beschriebene Aktualisierungsverfahren verwirklicht werden, indem ein Parameter für eine Näherungsfunktion mittels eines stochastischen Gradientenverfahrens oder dergleichen angepasst wird. Als die Näherungsfunktion kann ein wie später beschriebenes neurales Netzwerk verwendet werden.
-
Als ein Näherungsalgorithmus für eine Wertefunktion im überwachten Lernen, dem unüberwachten Lernen und dem bestärkenden Lernen kann ein neurales Netzwerk verwendet werden. Das neurale Netzwerk besteht beispielsweise aus einer Arithmetik-Einheit, einem Speicher und dergleichen, die ein Modell eines Neurons imitieren, wie in 3 gezeigt. Die 3 ist eine schematische Ansicht eines Modells eines Neurons.
-
Wie in
3 gezeigt erzeugt ein Neuron eine Ausgabe y in Erwiderung von mehreren Eingaben x (zum Beispiel Eingaben x
1 bis x
3). Jede der Eingaben x
1 bis x
3 wird mit einem der Eingabe x entsprechenden Gewicht w (w
1 bis w
3) beaufschlagt. Somit erzeugt das Neuron die durch die folgende Gleichung dargestellte Ausgabe y. Es wird angemerkt, dass die Eingabe x, die Ausgabe y und das Gewicht w alle die Form eines
wobei θ eine systematische Messabweichung ist und f
k die Aktivierungsfunktion ist.
-
Als Nächstes wird ein dreischichtiges Netzwerk, in dem die oben beschriebenen Neuronen kombiniert sind, mit Bezug auf 4 beschrieben. Die 4 ist eine schematische Ansicht eines neuralen Netzwerks mit Gewichten von drei Schichten D1 bis D3. Wie in 4 gezeigt werden mehrere Eingaben z (zum Beispiel Eingaben x1 bis x3) von der linken Seite des neuralen Netzwerks her eingegeben, und das Ergebnis y (zum Beispiel Ergebnisse y1 bis y3) wird von der rechten Seite dieses Netzwerks ausgegeben.
-
Genauer gesagt werden die Eingaben x1 bis x3 in jede der drei Neuronen N11 bis N13 eingegeben, während sie entsprechend gewichtet werden. Die den Eingaben auferlegten Gewichte werden insgesamt als W1 bezeichnet.
-
Die Neuronen N11 bis N13 geben die jeweiligen Vektoren Z11 bis Z13 aus. Die Vektoren Z11 bis Z13 werden insgesamt durch einen Merkmalsvektor Z1 bezeichnet, der als ein Vektor betrachtet wird, der einen Merkmalsbetrag aus dem Eingabevektor extrahiert. Der Merkmalsvektor Z1 befindet sich zwischen dem Gewicht W1 und einem Gewicht W2.
-
Die Vektoren Z11 bis Z13 werden in jede der zwei Neuronen eingegeben, während sie entsprechend gewichtet werden. Die den Merkmalsvektoren auferlegten Gewichte werden insgesamt als W2 bezeichnet.
-
Die Neuronen N21 und N22 geben die jeweiligen Vektoren Z21 und Z22 aus. Die Vektoren Z21 und Z22 werden insgesamt durch einen Merkmalsvektor Z2 bezeichnet. Der Merkmalsvektor Z2 befindet sich zwischen dem Gewicht W2 und einem Gewicht W3.
-
Die Merkmalsvektoren Z21 und Z22 werden in jede der drei Neuronen N31 bis N33 eingegeben, während sie entsprechend gewichtet werden. Die den Merkmalsvektoren auferlegten Gewichte werden insgesamt als W3 bezeichnet.
-
Zuletzt geben die Neuronen N31 bis N33 die jeweiligen Ergebnisse y1 bis y3 aus.
-
Das neurale Netzwerk besitzt einen Lernmodus und einen Wertvorhersagemodus. Im Lernmodus wird das Gewicht W unter Verwendung eines Lerndatensatzes gelernt. Im Wertvorhersagemodus wird die Aktion der Montage- und Prüfeinheit unter Verwendung des in dem Lernmodus erhaltenen Parameters bestimmt (das Wort „Vorhersage“ wird er Einfachheit halber verwendet, es können jedoch verschiedene Aufgaben vorgenommen werden, die Detektion, Klassifizierung, Schlussfolgerung und dergleichen umfassen).
-
Der Agent kann unmittelbar Daten lernen, die durch tatsächliches Betreiben der Montage- und Prüfeinheit erhalten werden, und das Lernergebnis in der nächsten Aktion wiedergeben (Online-Lernen). Der Agent kann ebenfalls insgesamt eine vorab gesammelte Datengruppe lernen und danach einen Detektionsmodus unter Verwendung des Parameters ausführen (Batch-Lernen). Der Agent kann den Lernmodus jedes Mal ausführen, wenn sich eine gewisse Menge an Daten angesammelt hat.
-
Die Gewichte W1 bis W3 können unter Verwendung eines Fehlerrückführungsalgorithmus (Rückführungsalgorithmus) gelernt werden. Informationen über einen Fehler treten von rechts ein und breiten sich nach links aus. Der Fehlerrückführungsalgorithmus ist ein Verfahren, in dem die Gewichte in Bezug auf jedes Neuron angepasst (gelernt) werden, um den Unterschied zwischen einer Ausgabe y und einer Ist-Ausgabe y (Überwacher) in Erwiderung einer Eingabe x zu minimieren.
-
Ein solches neurales Netzwerk kann mehr als drei Schichten aufweisen (als Deep-Learning bezeichnet). Eine Arithmetik-Einheit, die eine Merkmalextraktion aus Eingaben in Stufen und der Regression von Ergebnissen ausführt kann automatisch nur von Überwachungsdaten erfasst werden.
-
Um demzufolge das oben beschriebene Q-Lernen auszuführen, wie in 1 gezeigt, umfasst das Maschinenlernsystem 10 gemäß dieser Ausführungsform den Zustandsbeobachter 1, die künstliche Intelligenz 3 und den Entscheidungsfinder 4. Ein auf die vorliegende Erfindung angewendetes Maschinenlernverfahren ist jedoch nicht auf das Q-Lernen beschränkt. Beispielsweise entspricht im Falle der Anwendung des überwachten Lernens eine Wertefunktion einem Lernmodell und eine Belohnung entspricht einem Fehler.
-
Wie in 1 gezeigt umfasst der Zustand der Montage- und Prüfeinheit 20 einen durch eine Aktion indirekt geänderten Zustand und einen durch eine Aktion direkt geänderten Zustand. Der durch eine Aktion indirekt geänderte Zustand umfasst jedes Prüfergebnis. Der durch eine Aktion direkt geänderte Zustand umfasst die Fertigungscharge eines jeden im nächsten Produktzusammenbau zu verwendenden Bauteils und die Inventarmengen von Bauteilen von Fertigungscharge zu Fertigungscharge.
-
Die künstliche Intelligenz 3 aktualisiert den Aktionswert entsprechend der aktuellen Zustandsvariablen und der in der Aktionstabelle zu ergreifenden Aktion basierend auf der Aktualisierungsgleichung und der Belohnung.
-
Das Maschinenlernsystem 10 kann mit der Montage- und Prüfeinheit 20 durch ein Netzwerk verbunden sein, und der Zustandsbeobachter 1 kann die aktuelle Zustandsvariable durch das Netzwerk erfassen. Das Maschinenlernsystem 10 ist vorzugsweise in einem Cloud-Server vorhanden.
-
Das Maschinenlernsystem 10 kann in der Produktionsausrüstung 100 enthalten sein. Mit anderen Worten, die Produktionsausrüstung 100 kann das Maschinenlernsystem 10 und die Montage- und Prüfeinheit 20 umfassen.
-
In dem Beispiel von 1 wird die eigene Aktionswerttabelle unter Verwendung der durch die künstliche Intelligenz aktualisierten Aktionswerttabelle des eigenen Maschinenlernsystems aktualisiert, ist jedoch nicht darauf beschränkt. Mit anderen Worten, die eigene Aktionswerttabelle kann unter Verwendung einer Aktionswerttabelle aktualisiert werden, die durch eine künstliche Intelligenz eines von dem eigenen Maschinenlernsystem unterschiedlichen anderen Maschinenlernsystem aktualisiert wird.
-
Als Nächstes wird der Betriebsvorgang des in der Produktionsausrüstung gemäß der Ausführungsform der vorliegenden Erfindung umfassten Maschinenlernsystems beschrieben. Die 5 ist ein Ablaufdiagramm des Betriebsprozesses des Maschinenlernsystems gemäß der Ausführungsform der vorliegenden Erfindung.
-
Zunächst beobachtet in Schritt S101 der Zustandsbeobachter 1 die verschiedenen Zustände der Montage- und Prüfeinheit 20. Mit anderen Worten, der Zustandsbeobachter 1 beobachtet ein Prüfergebnis eines durch die Montage- und Prüfeinheit 20 produzierten Produkts und die Inventarmengen von basierend auf ihren Kennwerten gruppierten Bauteilen nach der Produktion des Produkts.
-
Als Nächstes berechnet in Schritt S102 der Belohnungsrechner 2 eine Belohnung aus den beobachteten Zuständen. Beispielsweise stellt der Belohnungsrechner 2 eine höhere Belohnung bereit, wenn die Güte des Produkts, die aus dem Prüfergebnis erhalten wird, näher am Sollniveau ist, und stellt eine niedrigere Belohnung bereit, wenn der Unterschied in den Inventarmengen zwischen den basierend auf ihren Kennwerten gruppierten Bauteilen vergrößert wird.
-
Als Nächstes lernt in Schritt S103 die künstliche Intelligenz 3 einen Aktionswert aus den beobachteten Zustanden und der Belohnung.
-
Als Nächstes bestimmt in Schritt S104 der Entscheidungsfinder 4 einen optimalen Parameter (Aktion) basierend auf den Zuständen und dem Aktionswert. Der Entscheidungsfinder 4 bestimmt beispielsweise einen Parameter (die Fertigungscharge jedes im nächsten Produktzusammenbau verwendeten Bauteils), um eine gewünschte Produktgüte und einen gewünschten Unterschied in den Inventarmengen zu erhalten.
-
Als Nächstes ändern sich in Schritt S105 die Zustände entsprechend dem Parameter (Aktion). Mit anderen Worten, die Montage- und Prüfeinheit 20 bestimmt die Fertigungscharge eines jeden im nächsten Produktzusammenbau zu verwendenden Bauteils, um die gewünschte Produktgüte und den gewünschten Unterschied in den Inventarmengen zu erhalten.
-
Mindestens ein Teil der durch die Produktionsausrüstung gemäß dieser Ausführungsform produzierten Produkte können Motorantriebe sein. Dies ist jedoch lediglich ein Beispiel, und die vorliegende Erfindung ist auf andere Produkte anwendbar.
-
Mehrere der Bauteile, die die Produktionsausrüstung gemäß dieser Ausführungsform für den Zusammenbau des Produkts verwendet, können mindestens eines von einem Stromsensor und einem A/D-Wandler, die eine Stromdetektionsschaltung bilden, umfassen.
-
Die Kenngröße der Bauteile können eine Offsetspannung umfassen, und ein Testergebnis kann einen Offsetwert der Stromdetektionsschaltung des Motorantriebs umfassen.
-
Da, wie oben beschrieben, gemäß der Produktionsausrüstung der Ausführungsform der vorliegenden Erfindung ein Parameter für die Montage- und Prüfeinheit durch maschinelles Lernen in Bezug auf eine gewünschte Produktgüte und einen gewünschten Unterschied in den Inventarmengen automatisch angepasst wird, ist es möglich, eine Produktgüte zu verbessern, während ein Unterschied in den Inventarmengen reduziert wird. Als ein Ergebnis ist es möglich Produkte zu produzieren, die nahezu ideale Schaltungsausbringungen aufweisen (einen Fehler von ±0% aufweisen), während Bauteile mit großen Fehlern verwendet werden, wodurch verhindert wird, dass die Bauteile mit großen Fehlern als Inventar verbleiben.
-
Gemäß der Produktionsausrüstung gemäß der Ausführungsform der vorliegenden Erfindung ist es möglich, Produkte zu produzieren, die eine geringe Abweichung in ihren Schaltungskenngrößen aufweisen, ohne Mannstunden zu erfordern.