WO2021220556A1 - 機械学習システム、機械学習装置、及び機械学習方法 - Google Patents
機械学習システム、機械学習装置、及び機械学習方法 Download PDFInfo
- Publication number
- WO2021220556A1 WO2021220556A1 PCT/JP2021/001234 JP2021001234W WO2021220556A1 WO 2021220556 A1 WO2021220556 A1 WO 2021220556A1 JP 2021001234 W JP2021001234 W JP 2021001234W WO 2021220556 A1 WO2021220556 A1 WO 2021220556A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- machine learning
- information
- target
- scent
- control unit
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M15/00—Inhalators
- A61M15/0001—Details of inhalators; Constructional features thereof
- A61M15/0003—Details of inhalators; Constructional features thereof with means for dispensing more than one drug
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M15/00—Inhalators
- A61M15/08—Inhaling devices inserted into the nose
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M11/00—Sprayers or atomisers specially adapted for therapeutic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
- A61M2021/0005—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus
- A61M2021/0016—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the smell sense
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
- A61M2021/0005—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus
- A61M2021/0027—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the hearing sense
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
- A61M2021/0005—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus
- A61M2021/0044—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the sight sense
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
- A61M2021/0005—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus
- A61M2021/0044—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the sight sense
- A61M2021/005—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the sight sense images, e.g. video
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
- A61M2021/0005—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus
- A61M2021/0066—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus with heating or cooling
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
- A61M21/02—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis for inducing sleep or relaxation, e.g. by direct nerve stimulation, hypnosis, analgesia
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2202/00—Special media to be introduced, removed or treated
- A61M2202/02—Gases
- A61M2202/0208—Oxygen
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2202/00—Special media to be introduced, removed or treated
- A61M2202/02—Gases
- A61M2202/0225—Carbon oxides, e.g. Carbon dioxide
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2202/00—Special media to be introduced, removed or treated
- A61M2202/02—Gases
- A61M2202/0241—Anaesthetics; Analgesics
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2205/00—General characteristics of the apparatus
- A61M2205/12—General characteristics of the apparatus with interchangeable cassettes forming partially or totally the fluid circuit
- A61M2205/123—General characteristics of the apparatus with interchangeable cassettes forming partially or totally the fluid circuit with incorporated reservoirs
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2205/00—General characteristics of the apparatus
- A61M2205/33—Controlling, regulating or measuring
- A61M2205/3331—Pressure; Flow
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2205/00—General characteristics of the apparatus
- A61M2205/33—Controlling, regulating or measuring
- A61M2205/3368—Temperature
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2205/00—General characteristics of the apparatus
- A61M2205/35—Communication
- A61M2205/3546—Range
- A61M2205/3553—Range remote, e.g. between patient's home and doctor's office
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2205/00—General characteristics of the apparatus
- A61M2205/50—General characteristics of the apparatus with microprocessors or computers
- A61M2205/502—User interfaces, e.g. screens or keyboards
- A61M2205/505—Touch-screens; Virtual keyboard or keypads; Virtual buttons; Soft keys; Mouse touches
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2205/00—General characteristics of the apparatus
- A61M2205/50—General characteristics of the apparatus with microprocessors or computers
- A61M2205/52—General characteristics of the apparatus with microprocessors or computers with memories providing a history of measured variating parameters of apparatus or patient
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
Definitions
- This technology relates to machine learning systems, machine learning devices, and machine learning methods.
- Patent Document 1 discloses "a sales promotion system that provides consumers with sales promotion information that induces consumption and promotes sales by using a computer network". In Patent Document 1, it is described that machine learning is performed based on the behavior of a consumer after the sales promotion information is provided.
- Patent Document 1 Conventionally, in order to encourage human behavior to target behavior, a technique of providing information to a person in a direct expression, such as the provision of sales promotion information explained in Patent Document 1, has been used.
- this technology provides a machine learning system, a machine learning device, and a machine learning method that promotes a person's behavior to a target behavior by machine learning the correlation between the person's behavior and the environment around the person.
- the main purpose is that.
- the present technology evaluates a state acquisition unit that acquires at least state information related to a person's behavior, environmental information about the environment around the person when the state information is acquired, and the state information to obtain a value function. It is provided with at least an evaluation unit to obtain and a machine learning classifier that strengthens and learns the value function and selects the environmental information when the value function becomes the highest in order to encourage the action to the target action. , Provides a machine learning system.
- the evaluation unit calculates a reward based on the difference between the target state information related to the target behavior and the state information, and the value function is based on the reward, the environmental information, and the state information. May be calculated.
- the machine learning system may possess target state-related information including a plurality of target behavior information.
- the target state-related information may include hourly target state information and / or staged target state information.
- the environmental information may include information on scent, lighting, temperature, humidity, video, or audio.
- a scent control unit is further provided, and the scent control unit may control the generated scent based on the environmental information selected by the machine learning classifier. Further provided with a scent adhering portion, the scent adhering portion attaches a scent to an object based on the environmental information selected by the machine learning classifier, and the machine learning classifier is based on the environmental information. , The scent control unit or the scent adhesion unit may determine which of the scents is generated.
- a lighting control unit is further provided, and the lighting control unit may control the light to be emitted based on the environmental information selected by the machine learning classifier.
- It may further include an air regulator, which may control temperature and / or humidity based on the environmental information selected by the machine learning classifier.
- An image control unit is further provided, and the image control unit may control the image to be displayed based on the environmental information selected by the machine learning classifier.
- a voice control unit is further provided, and the voice control unit may control the voice to be reproduced based on the environmental information selected by the machine learning classifier.
- the value function is divided into a plurality of value groups, and the machine learning classifier can use the value function owned by each of the plurality of value groups.
- a plurality of state acquisition units and an achievement difficulty calculation unit are further provided, and the achievement difficulty calculation unit is based on the state information acquired by each of the plurality of state acquisition units, and the achievement difficulty regarding the target action is achieved.
- the degree may be calculated.
- the achievement difficulty level may include an achievement rate indicating the ratio of the target action.
- the achievement difficulty level may include a standard achievement time indicating a standard time until the target action is prompted.
- the achievement difficulty level may include an average number of environmental items indicating the average number of items of the environmental information when prompted to the target action.
- the present technology evaluates and values a state acquisition unit that acquires at least state information related to a person's behavior, environmental information about the environment around the person when the state information is acquired, and the state information. It is provided with at least an evaluation unit that obtains a function and a machine learning classifier that strengthens and learns the value function and selects the environmental information when the value function becomes the highest in order to encourage the action to be a target action.
- the present technology evaluates at least the acquisition of state information regarding a person's behavior, the environmental information regarding the environment around the person when the state information is acquired, and the state information, and obtains a value function.
- a machine learning method that includes at least obtaining and selecting the environmental information when the value function is the highest by reinforcement learning of the value function in order to encourage the action to be a target action. I will provide a.
- This is a database showing an example of target state-related information according to an embodiment of the present technology.
- It is a block diagram which shows the hardware structure of the machine learning apparatus 10 which concerns on one Embodiment of this technique.
- It is a block diagram which shows the structure of the machine learning system 1 which concerns on one Embodiment of this technique.
- It is a block diagram which shows the structure of the machine learning system 1 which concerns on one Embodiment of this technique.
- It is a flowchart which shows the procedure of the machine learning system 1 which concerns on one Embodiment of this technique.
- This is an example of a database used by the machine learning device 10 according to an embodiment of the present technology. It is a flowchart which shows an example of the procedure of the machine learning apparatus 10 which concerns on one Embodiment of this technique.
- the present technology will be described in the following order. 1.
- First Embodiment of the present technology (Example 1 of a machine learning system) (1) Overview (2) Evaluation unit (3) Machine learning classifier (4) Behavioral transformation flow (5) Multiple target state information (6) Hardware configuration 2.
- Second Embodiment of the present technology (Example 2 of machine learning system) (1) Overview (2) Fragrance control unit (3) Fragrance adhesion unit (4) Lighting control unit (5) Air adjustment unit (6) Video control unit (7) Audio control unit 3.
- Third Embodiment of the present technology Example 3 of machine learning system
- Fourth Embodiment of the present technology (Example 4 of machine learning system) 5.
- Fifth Embodiment of the present technology (Example 5 of machine learning system) (1) Overview (2) Achievement difficulty 6.
- Sixth Embodiment of this technology (machine learning method)
- the machine learning system evaluates information on a person's behavior and information on the environment around the person and performs machine learning to obtain a correlation between the behavior and the environment. Can be done. As a result, it becomes possible to encourage human behavior to target behavior by controlling the environment.
- FIG. 1 is a block diagram showing a configuration of a machine learning system 1 according to an embodiment of the present technology.
- the machine learning system 1 can include, for example, a machine learning device 10.
- the machine learning device 10 can include, for example, a state acquisition unit 11, an evaluation unit 12, a recording unit 13, a machine learning classifier 14, and the like.
- the state acquisition unit 11 acquires at least state information related to human behavior. As a result, the machine learning system 1 can grasp the behavioral changes of a person in response to changes in the environment.
- the status information includes, for example, Cookie used for browsing websites, purchase history on EC (Electronic Commerce) sites, location information obtained using GPS (Global Positioning System), conversation history such as chat, and others. Information obtained by using sensing technology is included.
- the state information may include information on the weather or temperature in the area where the person exists.
- the machine learning system 1 can grasp the behavioral changes peculiar to the weather or temperature in the area where the person exists.
- the evaluation unit 12 evaluates the environmental information regarding the environment around the person when the state information is acquired and the state information to obtain a value function. As a result, the correlation between the environmental information and the state information can be obtained. Specific evaluation means will be described later.
- Environmental information includes, for example, information on scent, lighting, temperature, humidity, video, or audio. Specific examples of environmental information will be described later.
- the recording unit 13 records state information, environmental information, and the like.
- the machine learning system 1 uses a system that acquires state information but records environmental information without acquiring it.
- the machine learning classifier 14 reinforces the value function and selects the environmental information when the value function becomes the highest in order to encourage the human behavior to the target behavior. This provides a correlation between behavior and the environment.
- the machine learning method is not particularly limited, but for example, reinforcement learning can be used.
- Reinforcement learning is a type of machine learning that deals with the problem that software observes the current state (state information in this technology) and determines the action to be taken (change of environmental information in this technology).
- the agent (machine learning classifier 14 in the present technology) can determine the action when the value is the highest by performing reinforcement learning by trial and error of the action.
- the machine learning device 10 may have a control unit that controls each component, a communication interface that communicates via a communication network, and the like.
- the evaluation unit 12 evaluates the environmental information about the environment around the person when the state information is acquired and the state information to obtain the value function.
- the evaluation unit 12 can have a reward calculation unit (not shown) and a value calculation unit (not shown).
- the state information related to human behavior can change according to changes in environmental information.
- the reward calculation unit calculates the reward R based on the difference between the target state information related to the target behavior and the state information when the machine learning system 1 changes the environmental information. The larger the value of the reward R, the smaller the difference between the target state information and the state information. That is, the larger the value of the reward R, the closer the human behavior is to the target behavior.
- the reward R can be expressed by, for example, the following equation (1) using the score Pt according to the target state information and the score Pm according to the state information.
- the action of "purchasing product A using the EC site" is set as the target action. Then, when a person performs a target action by changing the environmental information, 5 points are set as a score.
- the score Pt according to the target state information is "5".
- the score Pm according to the state information is also "5".
- the reward R becomes "1".
- the score Pm according to the state information is set to "0".
- the reward R is also "0".
- the reward calculation unit calculates the reward R when the environmental information is changed when the reward R becomes the highest.
- the value calculation unit calculates the value function Q based on the reward R, the environmental information, and the state information.
- the value calculation unit calculates the value function Q based on the state information when the environmental information is changed when the reward R is the highest. For example the value function when the environment information change a t is made to state information s t at time t is expressed as Q (s t, a t) .
- This value function Q may be recorded by, for example, the recording unit 13. More specifically, the recording unit 13 may record the value function Q on the table for each state information or environmental information.
- Machine learning classifier 14 reinforces the value function Q and selects the environmental information when the value function Q becomes the highest.
- the machine learning classifier 14 automatically performs trial and error and learning so that the value function Q is the highest. The higher the value function Q, the closer the human behavior is to the target behavior. By reinforcement learning so that the value function Q is the highest, the machine learning classifier 14 can prompt the human behavior to the target behavior.
- the machine learning classifier 14 updates the value function Q when the environmental information at which the value function Q is the highest is determined. Against state information s t at e.g. time t, change is made a t environmental information, when a transition is made to state information s t + 1 at time t + 1, value function Q (s t, a t) is the following formula ( Updated using 2).
- ⁇ is a learning coefficient.
- the learning coefficient ⁇ is set to a value larger than 0 and 1 or less, but a value of about 0.1 is often used.
- R t + 1 is the reward obtained by the transition of this state information.
- the discount rate ⁇ is the discount rate.
- the discount rate ⁇ is set to a value larger than 0 and 1 or less, but a value of about 0.9 to 0.99 is often used.
- maxQ (st + 1 , a) is the ideal value function for the future.
- maxQ (s t + 1 , a) is a value function when the action a when the value function Q becomes the highest is selected in the state s t + 1 at the time t + 1.
- This value function maxQ (st + 1 , a) is multiplied by the discount rate ⁇ .
- the machine learning classifier 14 keeps updating the value function Q using the above mathematical formula (2), and selects the environmental information when the value function Q becomes the highest. As a result, the machine learning classifier 14 can select environmental information that can prompt the target behavior.
- FIG. 2 is a conceptual diagram showing an example of behavioral change according to the present embodiment.
- the behavior of "viewing a video on a video sharing site” is set as the target behavior.
- a plurality of behavioral transformation flows are set to encourage this target behavior.
- the machine learning classifier 14 can construct this behavior change flow by repeating reinforcement learning. By following this flow, the machine learning classifier 14 can promote a person's behavior to a target behavior.
- human behavior is divided into multiple levels according to the proximity to the target behavior.
- the action set at the first level may be the action closest to the target action.
- the action set at the second level may be the action next to the target action.
- the value function Q related to the first level behavior is higher than the value function Q related to the second level behavior.
- the actions of "going to the bathroom” and “sitting on the sofa” are set to the first level.
- the behaviors of "the child went to bed”, “goed home”, “away from the table”, and “drinked” are set.
- a flow of behavior change is constructed. For example, in this characteristic of individual behavioral transformation, it is shown that when the behavior of "children went to bed” is performed, the behavior of "going to the toilet” tends to be performed.
- FIG. 3 to 7 are conceptual diagrams showing an example of behavioral transformation according to the present embodiment.
- FIG. 3 shows an example of a behavioral transformation flow for encouraging a target behavior of “using an EC site”.
- FIG. 4 shows an example of a behavioral transformation flow for encouraging a target behavior of “browsing an SNS (Social Networking Service)”.
- FIG. 5 shows an example of a behavioral change flow for encouraging the target behavior of “shopping for a large amount of money”.
- FIG. 6 shows an example of a behavioral transformation flow for encouraging the target behavior of “drinking beer”.
- FIG. 7 shows an example of a behavioral transformation flow for encouraging the target behavior of “going to bed”. In this way, various behavioral transformation flows are constructed according to the target behavior.
- FIG. 8 is a conceptual diagram showing an example of behavioral transformation according to the present embodiment.
- FIG. 8A shows an example of behavioral change of an individual. As shown in FIG. 8A, the action of "purchasing clothing" is set as the target action.
- FIG. 8B shows an example of behavioral transformation of an individual who is not an individual shown in FIG. 8A.
- the target behavior is the same as that in FIG. 8A, but the flow of behavioral transformation for encouraging the target behavior is different.
- the machine learning device 10 may have target state information related to one target action, but may have a plurality of target state information related to a plurality of target actions. Some or all of these plurality of target actions can be set, for example, by time and / or by stage.
- Part or all of a plurality of target actions can be set for each time, for example.
- some or all of the plurality of target behaviors are the target behavior in the first time zone (for example, 0 to 6 am) of the day and the second time zone (for example, in the morning). It can be set as a target action in the 7 to 7 pm range) and a target action in the third time zone (for example, the 8 to 11 pm range).
- the target behavior in the first time zone may be, for example, "getting sleep”.
- the target behavior in the second time zone may be, for example, "eating food S”.
- the target behavior in the third time zone (for example, 8 to 11 pm) may be, for example, "drinking beverage T".
- the target actions can be flexibly set according to the time zone.
- the machine learning device 10 can prompt the target action of "eating food S at 3:00 pm".
- some or all of the plurality of target actions can be set for each stage, for example.
- some or all of the plurality of target behaviors can be set as the target behavior in the first stage and the target behavior in the second stage.
- the target action in the first stage may be, for example, "going to the store U”.
- the target action in the second stage may be, for example, "eating food S”.
- a plurality of target actions having a series of flows can be set.
- the machine learning device 10 can prompt the target action of "eating food S when going to the store U".
- some or all of the plurality of target actions can be set, for example, by time and by stage.
- the target behavior in the first and second stages can be set.
- a plurality of target actions having a series of flows can be flexibly set according to the time zone.
- the machine learning device 10 can prompt the target action of "eating food S when going to the store U in the morning".
- the machine learning device 10 may have target state-related information including a plurality of target state information.
- FIG. 9 is a database showing an example of target state-related information according to the present embodiment.
- the time zone and the target behavior are related.
- the target behavior in the first time zone (midnight to 6 am) is "go to bed”.
- the target behavior in the second time zone (7 am to 7 pm) is "eat food S”.
- the target behavior in the third time zone (8 to 11 pm) is, for example, "drinking beverage T”. The same applies to the target state-related information set for each stage.
- the target state-related information can be recorded in, for example, a recording unit 13 included in the machine learning device 10.
- the target state-related information may be held by another computer device of the machine learning device 10.
- the target state related information may be held in a server on the cloud.
- the machine learning device 10 may receive the target state-related information from the server via the information communication network.
- FIG. 10 is a block diagram showing a hardware configuration of the machine learning device 10 according to the present embodiment.
- the machine learning device 10 can include a CPU 101, a storage 102, a RAM (Random Access Memory) 103, and a communication interface 104 as components. Each component is connected by a bus, for example, as a data transmission line.
- a bus for example, as a data transmission line.
- the CPU 101 is realized by, for example, a microcomputer, and controls each component of the machine learning device 10.
- the CPU 101 can function as, for example, an evaluation unit 12 or a machine learning classifier 14.
- the machine learning classifier 14 can be realized, for example, by a program. This program can function by being read by the CPU 101.
- the storage 102 stores control data such as programs and calculation parameters used by the CPU 101.
- the storage 102 can be realized by using, for example, an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
- the storage 102 can function as, for example, a recording unit 13.
- the RAM 103 temporarily stores, for example, a program executed by the CPU 101.
- the communication interface 104 has a function of communicating via an information communication network by using communication technology such as Wi-Fi, Bluetooth (registered trademark), LTE (Long Term Evolution) and the like.
- the program that realizes the machine learning classifier 14 and the like may be stored in another computer device or computer system of the machine learning system 1.
- the machine learning system 1 can use the cloud service that provides the function of this program.
- this cloud service include SaaS (Software as a Service), IaaS (Infrastructure as a Service), and PaaS (Platform as a Service).
- Non-temporary computer-readable media include various types of tangible storage mediums. Examples of non-temporary computer-readable media are magnetic recording media (eg flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg magneto-optical disks), CompactDisc ReadOnlyMemory (CD-ROM), CD- Includes R, CD-R / W, and semiconductor memory (eg, mask ROM, Programmable ROM (PROM), Erasable PROM (EPROM), flash ROM, Random Access Memory (RAM)).
- the above program may be supplied to a computer by various types of temporary computer readable media (transitory computer readable medium). Examples of temporary computer-readable media include electrical, optical, and electromagnetic waves.
- the temporary computer-readable medium can supply the above program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
- the machine learning system 1 may include an environment control device for controlling the environment around a person.
- the environment control device controls the environment around the person based on the environment information selected by the machine learning classifier 14.
- the machine learning system 1 can prompt the human behavior to the target behavior.
- the machine learning system 1 can promote sales, for example, by encouraging human behavior to target behavior.
- the machine learning system 1 can control the internal or external environment of the store in order to make the customer purchase the product.
- the machine learning system 1 is not limited to the actual store, and may be an EC site, for example.
- the machine learning system 1 can also be used for content to be downloaded or streamed or a website, and can promote browsing of the content or website.
- the machine learning system 1 can improve a person's lifestyle, for example, by encouraging a person's behavior to a target behavior.
- the machine learning system 1 can control the environment in order to encourage smoking cessation and abstinence from drinking.
- the machine learning system 1 may be used for improving, for example, shopping dependence, lack of sleep, lack of exercise, and the like.
- the machine learning system 1 can be sent to vote in an election, for example, by encouraging human behavior to target behavior.
- the machine learning system 1 can improve public health, morals, etc. by encouraging human behavior to target behavior.
- the machine learning system 1 may be used for separating garbage, suppressing littering of garbage and rushing in, observing cough etiquette and washing hands, aligning, and suppressing violence.
- the machine learning system 1 can improve work efficiency, for example, by encouraging human behavior to target behavior.
- the machine learning system 1 may be used for improving concentration, suppressing looking away, switching on / off, and the like.
- FIG. 11 is a block diagram showing the configuration of the machine learning system 1 according to the present embodiment.
- the same components as those in the first embodiment are designated by the same reference numerals, and detailed description thereof will be omitted.
- the machine learning system 1 may further include an environmental control device 20.
- the environment control device 20 and the machine learning device 10 are connected via the information communication network 40.
- the environment control device 20 controls an environment such as fragrance, lighting, temperature, humidity, video, or voice based on the environment information selected by the machine learning classifier 14.
- the environment control device 20 can include, for example, a communication control unit 21, a memory 22, a scent control unit 23, a lighting control unit 24, an air control unit 25, a video control unit 26, a voice control unit 27, and the like.
- the environment control device 20 does not have to have all of these components. It suffices to have at least one of the components.
- the machine learning system 1 may include a plurality of environmental control devices 20.
- one environmental control device 20 has a scent control unit 23 and the other environmental control device 20 has a lighting control unit 24. You may.
- the communication control unit 21 can communicate information with the machine learning device 10 via the information communication network 40. Further, the communication control unit 21 may control each component.
- the memory 22 can record information used by the environmental control device 20, such as environmental information.
- the machine learning classifier 14 included in the machine learning device 10 may be provided in, for example, the environment control device 20, or may be provided in other computer devices.
- the environmental control device 20 may include, for example, a scent control unit 23.
- the scent control unit 23 controls the generated scent based on the environmental information selected by the machine learning classifier 14.
- the environment control device 20 including the scent control unit 23 can be realized by using, for example, an aroma diffuser.
- the scent includes not only those that can be recognized as scents by humans, but also those that cannot be recognized as scents by humans but have some effect on humans by being inhaled.
- the scent includes a medical sedative that is inhaled, or a gas that is odorless but acts on a person's physical condition by being inhaled, such as oxygen and carbon dioxide.
- a person is unawarely prompted to take a target action by sucking a scent optimized for the person controlled by the scent control unit 23.
- FIG. 12 is a block diagram showing the configuration of the scent control unit 23 according to the present embodiment.
- the scent control unit 23 can include, for example, an additive component cartridge 231, a scent control unit 232, a scent output unit 233, and the like.
- the additive component cartridge 231 is a component that houses the scent additive component.
- the additive component cartridge 231 may be replaceable.
- the additive component cartridge 231 includes, for example, a container such as a cylinder, a bottle, or a can containing the additive component, a material such as paper, a non-woven fabric, or stone adsorbing the additive component, or a solid substance such as wax or soap mixed with the additive component. It may be.
- the additive component may be a solid, a liquid, a gas containing, for example, a powder or a gel, or a mixture thereof.
- the additive component may be, for example, a natural fragrance extracted from nature, a synthetic fragrance obtained from chemical synthesis, or a blended fragrance in which these are blended. Alternatively, the additive component may not contain a fragrance.
- the scent control unit 232 controls the additive components for generating the scent based on the environmental information.
- the scent control unit 232 can determine, for example, the ratio of each additive component when the additive component is mixed. Alternatively, the scent control unit 232 may determine the dilution ratio. The ratio or the dilution ratio is determined according to the environmental information selected by the machine learning classifier 14.
- the scent control unit 233 may control, for example, the injection pressure and the number of injections related to the output of the scent.
- the injection pressure or the number of injections is determined according to the environmental information selected by the machine learning classifier 14.
- the scent output unit 233 outputs a scent based on the information determined by the scent control unit 232.
- the machine learning system 1 provided with the scent control unit 23 can encourage a person's behavior to a target behavior by causing a person to suck a specific scent. For example, by making a person inhale a scent that makes him / her physiologically want to purchase a specific product, the machine learning system 1 causes the person to purchase a specific product by mail order or to go to a store. Can be done.
- the scent and content may be associated.
- the machine learning system 1 can make a person unconsciously learn the association between the scent and the content before the reinforcement learning.
- the machine learning system 1 can make a person suck a specific scent and let a person watch a specific video content.
- This video content includes, for example, an advertisement related to a specific product.
- the machine learning system 1 can make a person unconsciously learn the association between a specific scent and a specific product. By letting a person inhale this specific scent, the machine learning system 1 can make the person purchase a specific product by mail order or go to a store.
- scent and environment may be associated.
- This environment is an environment related to places or things that people actually experience. This location includes, for example, stores, public transport, movie theaters, theaters, theme parks, and the like. As a result, the machine learning system 1 can make a person unconsciously learn the association between fragrance and the environment before reinforcement learning.
- the machine learning system 1 can make a person who visits a specific store inhale a specific scent. As a result, the machine learning system 1 can make a person unconsciously learn a specific scent and a specific store association. By letting a person inhale this specific scent at a place different from the store, the machine learning system 1 can direct the person to the store or purchase the products displayed in the store by mail order. can.
- the machine learning system 1 can suck the scent generated from a specific product by experiencing, for example, drinking coffee. As a result, the machine learning system 1 can make a person unconsciously learn the association between a specific scent and a specific product.
- the scent control unit 23 When the scent control unit 23 generates this specific scent, the machine learning system 1 may make the specific product purchased by mail order or direct the specific product to the store where the specific product is displayed. can.
- the scent may be attached to the object.
- the object may be, for example, clothing, books, miscellaneous goods, promotional materials, packing materials, etc. delivered to a person who promotes the target action. A person is unknowingly encouraged to target behavior by inhaling a scent that is attached to an object and optimized for that person.
- FIG. 13 is a block diagram showing the configuration of the machine learning system 1 according to the present embodiment.
- the same components as those in the first embodiment are designated by the same reference numerals, and detailed description thereof will be omitted.
- the machine learning system 1 further includes a scent adhering portion 30.
- the scent adhering portion 30 and the machine learning device 10 are connected via the information communication network 40.
- the scent adhering portion 30 may have the same configuration as the scent control unit 23.
- the above-mentioned scent control unit 23 is arranged around the person who is prompted by the target action.
- the scent adhering portion 30 is arranged, for example, in a factory where goods are shipped.
- the scent adhering portion 30 attaches the scent to an object based on the environmental information selected by the machine learning classifier 14.
- the machine learning classifier 14 determines which of the scent control unit 23 and the scent adhesion unit 30 generates the scent based on the environmental information.
- FIG. 14 is a flowchart showing the procedure of the machine learning system 1 according to the present embodiment.
- the machine learning classifier 14 reinforces the correlation between fragrance and behavior (step S11), and the machine learning classifier 14 selects environmental information (step). S12), the machine learning classifier 14 determines that the scent control unit 23 generates the scent (step S13), and the scent control unit 23 controls the scent around the person (step S14). Steps S11 to S14 are repeated until the correlation between the scent and the behavior can be sufficiently learned (step S15: No).
- step S15 the machine learning classifier 14 determines that the scent adhering portion 30 generates the scent (step S16), and the scent adhering portion 30 Adheres the scent to the object (step S17).
- the machine learning system 1 can more flexibly control the scent around the person.
- the machine learning classifier 14 changes the scent while the scent control unit 23 arranged around the person changes the scent in a short period of time. Reinforcement learning of correlation with behavior with high efficiency.
- the machine learning classifier 14 determines the optimum scent for the target behavior.
- the machine learning classifier 14 continuously reinforces the correlation between the scent and the behavior.
- the environment control device 20 may include, for example, a lighting control unit 24.
- the lighting control unit 24 controls the emitted light based on the environmental information selected by the machine learning classifier 14.
- the environment control device 20 including the lighting control unit 24 can be realized by using, for example, a light bulb (including a so-called smart light bulb).
- a person is unknowingly urged to take a target action by visually recognizing the light optimized for the person emitted by the lighting control unit 24.
- FIG. 15 is a block diagram showing the configuration of the lighting control unit 24 according to the present embodiment.
- the illumination control unit 24 may include, for example, an optical control unit 241 and an optical output unit 242.
- the light control unit 241 controls the expression of the output light.
- the optical control unit 241 can determine, for example, the color temperature and brightness of light.
- the color temperature or the brightness is determined according to the environmental information selected by the machine learning classifier 14.
- the color temperature may be determined to be 3500 to 3900K, and the brightness may be determined to be 3000 to 4000 lm.
- the optical control unit 241 may randomly determine the value from the range.
- the machine learning device 10 can narrow this range while accumulating reinforcement learning. The same applies to the other components described below.
- the light output unit 242 outputs light based on the information determined by the light control unit 241.
- the environmental control device 20 may include, for example, an air regulating unit 25.
- the air control unit 25 controls the temperature and / or humidity based on the environmental information selected by the machine learning classifier 14.
- the environment control device 20 including the air adjusting unit 25 can be realized by using, for example, an air conditioner or the like.
- a person is unknowingly urged to target behavior by the temperature and / or humidity optimized for the person controlled by the air conditioning unit 25.
- FIG. 16 is a block diagram showing the configuration of the air adjusting unit 25 according to the present embodiment.
- the air adjusting unit 25 can include, for example, an air control unit 251 and an air output unit 252.
- the air control unit 251 can determine the temperature and / or humidity of the air.
- the temperature and / or the humidity is determined according to the environmental information selected by the machine learning classifier 14. For example, the temperature may be determined to be 25.5 to 27.5 degrees, and the humidity may be determined to be 45 to 50%.
- the air output unit 252 outputs air based on the information determined by the air control unit 251.
- the environment control device 20 may include, for example, an image control unit 26.
- the image control unit 26 controls the image to be displayed based on the environmental information selected by the machine learning classifier 14.
- the environment control device 20 including the image control unit 26 can be realized by using, for example, a television, a portable game machine, a PC, a tablet, a smartphone, an HMD (Head Mounted Display), a wearable device, a car navigation system, or the like.
- the video includes still images as well as moving images.
- the video may include audio.
- a person is unknowingly urged to take a target action by visually recognizing an image optimized for the person displayed by the image control unit 26.
- FIG. 17 is a block diagram showing the configuration of the video control unit 26 according to the present embodiment.
- the video control unit 26 can include, for example, a video selection unit 261 and a video display unit 262.
- the video selection unit 261 selects the video to be output.
- the means for selecting the video is not particularly limited, but for example, the video selection unit 261 can determine the video file by using an address in which the video file is recorded, an advertisement banner code, or the like. The address, code, and the like are determined according to the environmental information selected by the machine learning classifier 14. Further, the video selection unit 261 may synthesize or edit a plurality of video files. Further, the image selection unit 261 may adjust the color temperature, the brightness, and the like of the image.
- the video file may be recorded inside the video control unit 26, or may be recorded outside the video control unit 26.
- the video display unit 262 outputs a video based on the information determined by the video selection unit 261.
- the environment control device 20 may include, for example, a voice control unit 27.
- the voice control unit 27 controls the voice to be reproduced based on the environmental information selected by the machine learning classifier 14.
- the environment control device 20 including the voice control unit 27 can be realized by using, for example, a speaker (including a so-called smart speaker or a speaker with a streaming function), a tablet, a smartphone, headphones, a wearable device, a car stereo, or the like.
- a person is unknowingly urged to take a target action by viewing a voice optimized for the person played by the voice control unit 27.
- FIG. 18 is a block diagram showing the configuration of the voice control unit 27 according to the present embodiment.
- the voice control unit 27 may include, for example, a voice selection unit 271 and a voice output unit 272.
- the voice selection unit 271 selects the voice to be reproduced.
- the means for selecting the voice is not particularly limited, but for example, the voice selection unit 271 can be determined by using an address in which the voice file is recorded, an advertisement banner code, or the like. The address, code, and the like are determined according to the environmental information selected by the machine learning classifier 14.
- the voice selection unit 271 may synthesize or edit a plurality of voice files. Further, the voice selection unit 271 may adjust the pitch, volume, and the like.
- the voice file may be recorded inside the voice control unit 27, or may be recorded outside the voice control unit 27.
- the voice output unit 272 outputs voice based on the information determined by the voice selection unit 271.
- the machine learning device 10 can record the value function Q, the state information s, and the change a of the environmental information for each target action. Then, the machine learning device 10 can select environmental information that can be promoted to the target behavior by reinforcing learning the correlation between the behavior of the person and the environment around the person.
- multiple people with similar correlations between behavior and the environment can be set in one value group. For example, a plurality of people who are likely to be prompted by a specific target behavior when they feel a scent and a temperature change can be set as one group.
- FIG. 19 is an example of a database used by the machine learning device 10 according to the present embodiment.
- this database holds the value function Q, the state information s, and the change a of the environmental information for each target action.
- This value function Q is divided into a plurality of value groups Q1 to Q8 according to the degree of similarity of the correlation between the state information s and the change a of the environmental information.
- Persons h01 to 32 belonging to the value group are associated with each of the plurality of value groups Q1 to Q8.
- Attribute information A to C indicating the characteristics of the person may be associated with each person.
- the machine learning device 10 can use information such as the value function Q related to this value group. By using information such as the value function Q that has already been reinforcement-learned, the machine learning device 10 can omit, for example, a part of the process of reinforcement learning, and can perform reinforcement learning in a shorter period of time.
- the machine learning device 10 can start reinforcement learning by setting the information that has already been strengthened learning as an initial value.
- information such as the value function Q that has already been reinforcement-learned may be used for reinforcement learning regarding the behavior of another person who belongs to the same value group.
- information such as the value function Q that has been reinforcement-learned about the behavior of the person h13 belonging to the value group Q4 is used for reinforcement learning about the behavior of the person h14 belonging to the same value group Q4. be able to.
- FIG. 20 is a flowchart showing an example of the procedure of the machine learning device 10 according to the present embodiment.
- the state acquisition unit 11 included in the machine learning device 10 acquires the state information (step S21).
- the evaluation unit 12 included in the machine learning device 10 calculates the reward and the value function based on the state information (step S22).
- the machine learning classifier 14 included in the machine learning device 10 updates the value function (step S23).
- the machine learning classifier 14 selects environmental information in order to learn further behavior change (step S24).
- the machine learning classifier 14 determines whether or not the predetermined condition is satisfied (step S25).
- This determination condition is not particularly limited, but may be determined based on whether or not the number of updates of the value function exceeds a predetermined threshold value, for example.
- the machine learning classifier 14 refers to the database, such as the value function Q of a similar group or the change a of the environmental information for which a high reward has been obtained in the past. Acquire information (step S26).
- This database may be provided by the machine learning device 10, or may be provided by another computer device of the machine learning device 10. As a result, the machine learning device 10 can perform reinforcement learning using the information that has already been reinforcement-learned.
- step S25 when the predetermined condition is not satisfied (step S25: No), the value function of a similar group is not acquired.
- the machine learning classifier 14 determines whether or not to end reinforcement learning (step S27).
- This determination condition is not particularly limited, but may be determined, for example, by whether or not the value function is higher than a predetermined threshold value.
- step S27: No When it is determined that the machine learning is not completed (step S27: No), the steps S21 to 26 are repeated.
- step S27 When it is determined that the machine learning is finished (step S27: Yes), the machine learning classifier 14 selects the environmental information (step S28).
- Target actions may be set randomly.
- the machine learning classifier 14 can reinforce the correlation between the behavior and the environment by encouraging various target behaviors without being fixed to a specific target behavior. By this reinforcement learning, the machine learning classifier 14 can discover regularities such as signs of behavior and continuity even in changes in the environment that are considered to have a low relationship with behavior, for example.
- Attribute information indicating the characteristics of each of the plurality of people registered in this database is associated with each other.
- the attribute A may be a person having the characteristic that "when the color temperature of the illumination is 3650K, the brightness of the illumination is 3000 lm, and the temperature is 26.5 degrees, there is a tendency to drink beer".
- the attribute C may be a person having the characteristic that "when the temperature is 25 degrees, the humidity is 48%, and the scent contains the additive component T, there is a tendency to browse the EC site”. ..
- the value function of a randomly selected group may be acquired.
- the machine learning system 1 may include a plurality of machine learning devices. This will be described with reference to FIG. FIG. 21 is a block diagram showing a configuration of a machine learning system 1 according to an embodiment of the present technology.
- the machine learning system 1 can include, for example, a plurality of machine learning devices 10a to 10d.
- Each of the plurality of machine learning devices 10a to 10d can include, for example, state acquisition units 11a to 11d, evaluation units 12a to 12d, recording units 13a to 13d, machine learning classifiers 14a to 14d, and the like.
- an environment control device (not shown) may be connected to each of the plurality of machine learning devices 10a to 10d.
- the number of machine learning devices is not particularly limited.
- the machine learning system 1 can include the achievement difficulty calculation device 50.
- the achievement difficulty calculation device 50 may have a hardware configuration as shown in FIG.
- the achievement difficulty calculation device 50 is connected to each of the plurality of machine learning devices 10a to 10d via, for example, an information communication network 40, and aggregates the information obtained from each of the plurality of machine learning devices 10a to 10d.
- the tendency of the correlation between the state information and the environmental information can be obtained.
- the achievement difficulty calculation device 50 can calculate the achievement difficulty related to the target action. When defined as having achieved what prompted the target behavior, achievement difficulty indicates this difficulty in achievement. A detailed explanation of this achievement difficulty will be described later.
- the achievement difficulty calculation device 50 can include, for example, an information acquisition unit 51, a subject information recording unit 52, an action information recording unit 53, and an achievement difficulty calculation unit 54.
- the information acquisition unit 51 acquires the state information obtained by each of the plurality of machine learning devices 10a to 10d.
- the information acquisition unit 51 can be realized by using, for example, a communication interface 104 or the like.
- the subjects targeted by each of the plurality of machine learning devices 10a to 10d may be different.
- the subject information recording unit 52 holds information about the subject to be targeted by each of the plurality of machine learning devices 10a to 10d. This information includes, for example, the subject's identification number, gender, or age.
- the subject information recording unit 52 can be realized by using, for example, a storage 102 or the like.
- the behavior information recording unit 53 holds information on the behavior targeted by each of the plurality of machine learning devices 10a to 10d. This information includes, for example, information about the target behavior, state information, historical information about the state information, and the like.
- the action information recording unit 53 can be realized by using, for example, a storage 102 or the like.
- the achievement difficulty calculation unit 54 can calculate the achievement difficulty related to the target action based on the state information acquired by each of the plurality of state acquisition units 11a to 11d.
- the achievement difficulty calculation unit 54 can be realized by using, for example, a CPU 101 and a program.
- the achievement difficulty calculation unit 54 may be provided by the achievement difficulty calculation device 50, may be provided by each of the plurality of machine learning devices 10a to 10d, or may be provided by a plurality of environmental control devices (not shown). ) May be provided.
- the machine learning system 1 can be provided with a plurality of achievement difficulty calculation devices.
- the plurality of achievement difficulty calculation devices there may be an achievement difficulty calculation device for relay that aggregates information obtained from a specific machine learning device among the plurality of machine learning devices.
- the achievement difficulty indicates the difficulty when prompting the target action.
- the machine learning system 1 derives, for example, a subject who is easily or less likely to be prompted by the target behavior, or derives environmental information which is easily or less likely to be encouraged by the target behavior. Can be done.
- the group of subjects who are easily encouraged by the target behavior is defined as the adaptive group, and the group of subjects who are not easily encouraged by the target behavior is defined as the challenge group.
- the machine learning system 1 can derive a target group of products, for example, in product development or advertising activities.
- This target group includes, for example, age and gender.
- POS Point of sale
- a local event for example, an athletic meet or a fireworks display.
- the machine learning system 1 can derive a product that is easy to purchase at the time of holding this event, a target layer of this product, and the like.
- Adaptive groups can be used for the former development and advertising activities, and challenge groups can be used for the latter development and advertising activities.
- the target behavior can be classified into a basic basic target behavior and an applied target behavior associated with this basic target behavior.
- the basic target behavior is a rough classification of the types of behavior, such as going out, eating and drinking, or purchasing.
- Applied target behaviors are more specific representations of basic target behaviors, such as going to a specific store on a sale day, going on a trip to a specific location, participating in a local event activity, and so on. ..
- the machine learning system 1 first derives an adaptive group that is easily prompted by applied target behavior.
- the machine learning system 1 can derive an adaptive group for each of a plurality of applied target behaviors, and by appealing information about the adaptive group, it can derive an adaptive group for the basic target behavior. That is, the machine learning system 1 can obtain a tendency common to a plurality of adaptive groups. As a result, for example, in product development, a new target layer that has not been noticed until now can be derived.
- the achievement difficulty level may include, for example, the achievement rate r indicating the ratio of prompting the target action. Subjects with a high achievement rate r are classified into the adaptive group.
- the achievement rate r is determined by, for example, the following equation (3), using the number n of state information prompted by the target action and the number n all of all state information including the state information not prompted by the target action. Can be expressed.
- the achievement difficulty level may include, for example, a standard achievement time s indicating a standard time until the target action is prompted. Subjects with a short standard achievement time s are classified into the adaptive group.
- the standard achievement time s is expressed by, for example, the following equation (4) using the achievement time x indicating the time until the target action is prompted and the average achievement time p indicating the average time until the target action is prompted. can.
- the average achievement time p is the sum of the achievement time x, and the number of all state information n all. It can be calculated by dividing by.
- the standard achievement time s is calculated using the standard deviation so as not to be affected by the subject whose achievement time is extremely long, but the average achievement time p using the average instead of the standard deviation is included in the achievement difficulty level. May be.
- the achievement difficulty level may include, for example, the average number of environmental items q indicating the average number of items of environmental information when prompted to the target action.
- Items of this environmental information include, for example, scent, lighting, temperature, humidity, video, audio, and the like.
- Subjects with a small average number of environmental items q are classified into adaptive groups. For example, subjects who are only affected by scent are more likely to be motivated by target behavior than subjects who are not affected by both scent and temperature.
- the average number of environmental items q can be expressed by, for example, the following equation (5) using the number n of state information urged to the target action and the number e of the items of environmental information urged to the target action.
- the achievement difficulty calculation unit 54 may calculate the standard deviation as in the equation (4) instead of the average.
- the name of the item of the environmental information may be recorded together with the calculation of the average number of environmental items q.
- the action information recording unit 53 can record the name of the item of the environmental information.
- the machine learning system 1 can derive an adaptive group in which behavior change is likely to be promoted by specific environmental information.
- the machine learning system 1 can derive an adaptive group in which a scent is likely to promote behavior change.
- the achievement difficulty level may include at least one of the achievement rate r, the standard achievement time s, and the average number of environmental items q.
- the adaptive group can be derived more than when only the achievement rate r is included in the achievement difficulty level. It will be easier.
- FIG. 22 is a diagram illustrating the achievement difficulty level calculated by the achievement difficulty level calculation unit 54 according to the present embodiment. As shown in FIG. 22, the achievement rate (AR: Achievement rate), the standard achievement time (SAT: Standard achievement time), and the average number of environmental items (NKV: Number of key variables) included in the achievement difficulty level are shown. There is.
- FIG. 22A shows the degree of difficulty achieved when the target action of "exercising” is urged to the subject who does not exercise on a daily basis.
- the subjects encouraged by this target behavior are men and women aged 20 to 59 years.
- the achievement rate of all the subjects is 30%
- the standard achievement time is 54 hours
- the average number of environmental items is 2.
- the middle classification is a subdivision of the major classification. Here, as an example, it is subdivided based on gender.
- the achievement rate of male subjects is 31%
- the standard achievement time is 55 hours
- the average number of environmental items is 1.
- the achievement rate of female subjects is 29%
- the standard achievement time is 53 hours
- the average number of environmental items is 3. From this, it can be seen that the achievement rate is higher in male subjects than in female subjects. In other words, focusing on the achievement rate, it can be said that men fall under the adaptive group.
- the subdivision of the middle classification is the subdivision.
- it is subdivided based on age.
- the achievement rate of the male subject group aged 20 to 39 years is 34%
- the standard achievement time is 38 hours
- the average number of environmental items is 1.
- this group has the highest achievement rate, the shortest standard achievement time, and the lowest average number of environmental items.
- this group is an adaptive group.
- the machine learning system 1 can derive the adaptive group in this way. For this adaptive group, sales promotion activities related to products and services related to the target behavior of "exercising" can be carried out.
- FIG. 22B shows the difficulty level of achievement when urging a subject who has never been to an election in the past five years to perform a target action of "going to an election".
- the female subject group aged 50-79 years has the highest achievement rate, the shortest standard achievement time, and the lowest average number of environmental items. In other words, it can be said that this group is an adaptive group.
- the machine learning system 1 can derive an adaptive group by calculating the achievement rate, the standard achievement time, or the average number of environmental items. For example, the machine learning system 1 can derive an adaptive group having an achievement rate of 80% or more and a standard achievement time of 3 hours or less with respect to the target behavior of “purchasing beer”.
- the beer company can advertise the new product to the adaptive group at the start of sales of the new product.
- the machine learning system 1 derives an adaptive group having an achievement rate of 90% or more and an average number of environmental items of 2 or less with respect to the target behavior of "watching a video such as a television broadcast or a video distribution service". be able to.
- the video subscription service operator can carry out advertising activities related to the subscription of the video subscription service to this adaptive group.
- the business operator can carry out advertising activities for the adaptive group to encourage the continuation of the contract.
- FIG. 23 is a diagram illustrating the achievement difficulty level calculated by the achievement difficulty level calculation unit 54 according to the present embodiment.
- FIG. 23A shows the degree of difficulty achieved when encouraging the target action of "purchasing product S more than once".
- the achievement rate is 100% if the product S is purchased twice, and the achievement rate is 50% if the product S is purchased once.
- the subjects are classified into a plurality of groups based on the achievement difficulty level.
- the first group G1 the number of subjects is 396, the achievement rate is 86%, the standard achievement time is 67 hours, and the average number of environmental items is 2.
- the second group G2 the number of subjects was 283, the achievement rate was 62%, the standard achievement time was 120 hours, and the average number of environmental items was 3.
- the first group G1 and the second group G2 have a relatively high achievement rate, a short standard achievement time, and a small average number of environmental items. That is, it can be said that the first group G1 and the second group G2 are adaptive groups.
- the sales company of the product S can encourage the adaptive group to take the target action regarding the product S.
- the machine learning system 1 prompts the first group G1 and the second group G2 for the target action regarding the product S, and the third group G3 and the fourth group, which are relatively challenge groups.
- FIG. 23B shows the difficulty level of achievement when encouraging the target action of "purchasing product T twice or more".
- the achievement rate is 68%
- the standard achievement time is 258 hours
- the average number of environmental items is 3.
- the third group G3 has a relatively high achievement rate, a short standard achievement time, and a small average number of environmental items. That is, it can be said that this third group G3 is an adaptive group.
- the target layer of the product S as the first group G1 and the second group G2 and the target layer of the product T as the third group G3, for example, improvement of product sales or efficiency of sales promotion activities. And so on.
- the machine learning method according to the embodiment of the present technology is a method of machine learning the correlation between a person's behavior and the environment around the person by using a computer device.
- the machine learning method according to the present embodiment will be described with reference to FIG. 24.
- FIG. 24 is a flowchart showing the procedure of the machine learning method according to the present embodiment. As shown in FIG. 24, in the machine learning method according to the present embodiment, at least acquisition of state information relating to human behavior (step S1) and an environment relating to the environment surrounding the person when the state information is acquired are obtained.
- step S2 When the value function is obtained by evaluating the information and the state information (step S2), and the value function is strengthened and learned in order to promote the action to the target action, and the value function becomes the highest. At least including selecting the above-mentioned environmental information (step S3).
- the machine learning method according to the present embodiment may use the techniques according to the first to fourth embodiments. Therefore, the description of this technique will be omitted again.
- the present technology can also have the following configurations.
- a state acquisition unit that acquires at least state information related to human behavior
- An evaluation unit that evaluates the environmental information about the environment around the person when the state information is acquired and the state information to obtain a value function.
- a machine learning system including at least a machine learning classifier that reinforces and learns the value function and selects the environmental information when the value function becomes the highest in order to encourage the action to be a target action.
- the evaluation unit The reward is calculated based on the difference between the target state information related to the target action and the state information.
- the value function is calculated based on the reward, the environmental information, and the state information.
- the machine learning system according to [1].
- the target state-related information includes hourly target state information and / or staged target state information.
- the environmental information includes information on scent, lighting, temperature, humidity, video, or audio.
- the machine learning system according to any one of [1] to [4].
- It also has a scent control unit, The scent control unit controls the generated scent based on the environmental information selected by the machine learning classifier.
- the machine learning classifier determines which of the scent control unit and the scent adhesion unit generates the scent based on the environmental information.
- the machine learning system according to [6].
- It also has a lighting control unit, The lighting control unit controls the emitted light based on the environmental information selected by the machine learning classifier.
- the machine learning system according to any one of [1] to [7].
- It also has an air control unit, The air regulator controls temperature and / or humidity based on the environmental information selected by the machine learning classifier.
- the machine learning system according to any one of [1] to [8].
- the machine learning system according to any one of [1] to [9]. [11] It also has a voice control unit, The voice control unit controls the voice to be reproduced based on the environmental information selected by the machine learning classifier. The machine learning system according to any one of [1] to [10]. [12] The value function is divided into multiple value groups, The machine learning classifier uses a value function possessed by each of the plurality of value groups. The machine learning system according to any one of [1] to [11]. [13] With multiple status acquisition units It also has an achievement difficulty calculation unit. The achievement difficulty calculation unit calculates the achievement difficulty related to the target action based on the state information acquired by each of the plurality of state acquisition units. The machine learning system according to any one of [1] to [12].
- the achievement difficulty includes an achievement rate indicating the rate of prompting the target action.
- the machine learning system according to [13].
- the achievement difficulty includes a standard achievement time indicating a standard time until the target action is prompted.
- the machine learning system according to [13] or [14].
- the achievement difficulty includes an average number of environmental items indicating the average number of items of the environmental information when prompted to the target action.
- the machine learning system according to any one of [13] to [15].
- a state acquisition unit that acquires at least state information related to human behavior
- An evaluation unit that evaluates the environmental information about the environment around the person when the state information is acquired and the state information to obtain a value function.
- a machine learning device comprising at least a machine learning classifier that reinforces and learns the value function and selects the environmental information when the value function becomes the highest in order to encourage the action to be a target action.
- At least getting state information about human behavior To obtain a value function by evaluating the environmental information about the environment around the person when the state information is acquired and the state information.
- a machine learning method that includes, at least, reinforcement learning of the value function and selection of the environmental information when the value function is the highest in order to encourage the action to be a target action.
- Machine learning system 10 Machine learning device 11: State acquisition unit 12: Evaluation unit 13: Recording unit 14: Machine learning classifier 20: Environmental control device 23: Fragrance control unit 24: Lighting control unit 25: Air control unit 26 : Video control unit 27: Voice control unit 30: Fragrance adhesion unit 40: Information communication network 50: Achievement difficulty calculation device 51: Information acquisition unit 52: Subject information recording unit 53: Action information recording unit 54: Achievement difficulty calculation unit S1: Acquire at least the state information S2: Evaluate the environmental information and the state information to obtain a value function S3: Select the environmental information
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Anesthesiology (AREA)
- Business, Economics & Management (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Hematology (AREA)
- Heart & Thoracic Surgery (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Pulmonology (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Psychology (AREA)
- Human Computer Interaction (AREA)
- Economics (AREA)
- Molecular Biology (AREA)
Abstract
人の行動とその人の周囲の環境との相関関係を機械学習することにより、その人の行動をターゲット行動に促す機械学習システム、機械学習装置、及び機械学習方法を提供する。 本技術は、人の行動に関する状態情報を少なくとも取得する状態取得部と、前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る評価部と、前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する機械学習分類器と、を少なくとも備えている、機械学習システムを提供する。
Description
本技術は、機械学習システム、機械学習装置、及び機械学習方法に関する。
従来、人の行動に関する情報をコンピュータが機械学習することにより、前記行動をターゲット行動に促す技術が利用されている。
例えば、特許文献1では、「コンピュータネットワークを利用して消費を誘発して販売を促進させる販売促進情報を消費者に提供する販売促進システム」について開示されている。この特許文献1では、前記販売促進情報が提供された後の消費者の行動に基づいて機械学習を行うことについて説明されている。
例えば、特許文献1では、「コンピュータネットワークを利用して消費を誘発して販売を促進させる販売促進情報を消費者に提供する販売促進システム」について開示されている。この特許文献1では、前記販売促進情報が提供された後の消費者の行動に基づいて機械学習を行うことについて説明されている。
従来、人の行動をターゲット行動に促すために、例えば特許文献1において説明されている販売促進情報の提供のように、直接的な表現で情報を人に提供する技術が利用されている。
しかし、人の行動変容の中には、その人の周囲の環境の変化に応じて、無自覚になされる行動変容がありうる。
そこで本技術では、人の行動とその人の周囲の環境との相関関係を機械学習することにより、その人の行動をターゲット行動に促す機械学習システム、機械学習装置、及び機械学習方法を提供することを主目的とする。
本技術は、人の行動に関する状態情報を少なくとも取得する状態取得部と、前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る評価部と、前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する機械学習分類器と、を少なくとも備えている、機械学習システムを提供する。
前記評価部が、前記ターゲット行動に関するターゲット状態情報と、前記状態情報と、の差分に基づいて報酬を算出し、前記報酬と、前記環境情報と、前記状態情報と、に基づいて、前記価値関数を算出してよい。
前記機械学習システムが、複数のターゲット行動情報を含むターゲット状態関連情報を保有してよい。
前記ターゲット状態関連情報には、時間別ターゲット状態情報及び/又は段階別ターゲット状態情報が含まれていてよい。
前記環境情報には、香り、照明、温度、湿度、映像、又は音声に関する情報が含まれていてよい。
香り制御部をさらに備えており、前記香り制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、発生する香りを制御してよい。
香り付着部をさらに備えており、前記香り付着部が、前記機械学習分類器が選定した前記環境情報に基づいて、香りを物に付着し、前記機械学習分類器が、前記環境情報に基づいて、前記香り制御部及び前記香り付着部のいずれが香りを発生させるかを判定してよい。
照明制御部をさらに備えており、前記照明制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、照射する光を制御してよい。
空気調節部をさらに備えており、前記空気調節部が、前記機械学習分類器が選定した前記環境情報に基づいて、温度及び/又は湿度を制御してよい。
映像制御部をさらに備えており、前記映像制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、表示する映像を制御してよい。
音声制御部をさらに備えており、前記音声制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、再生する音声を制御してよい。
前記価値関数が複数の価値グループに区分けされており、前記機械学習分類器が、前記複数の価値グループのそれぞれが保有する前記価値関数を用いることができる。
複数の状態取得部と、達成難易度算出部と、をさらに備えており、前記達成難易度算出部が、複数の状態取得部のそれぞれが取得した状態情報に基づいて、前記ターゲット行動に関する達成難易度を算出してよい。
前記達成難易度には、前記ターゲット行動に促した割合を示す達成率が含まれてよい。
前記達成難易度には、前記ターゲット行動に促すまでの標準の時間を示す標準達成時間が含まれてよい。
前記達成難易度には、前記ターゲット行動に促したときの前記環境情報の項目の数の平均を示す平均環境項目数が含まれてよい。
また、本技術は、人の行動に関する状態情報を少なくとも取得する状態取得部と、前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る評価部と、前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する機械学習分類器と、を少なくとも備えている、機械学習装置を提供する。
また、本技術は、人の行動に関する状態情報を少なくとも取得することと、前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得ることと、前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定することと、を少なくとも含んでいる、機械学習方法を提供する。
前記評価部が、前記ターゲット行動に関するターゲット状態情報と、前記状態情報と、の差分に基づいて報酬を算出し、前記報酬と、前記環境情報と、前記状態情報と、に基づいて、前記価値関数を算出してよい。
前記機械学習システムが、複数のターゲット行動情報を含むターゲット状態関連情報を保有してよい。
前記ターゲット状態関連情報には、時間別ターゲット状態情報及び/又は段階別ターゲット状態情報が含まれていてよい。
前記環境情報には、香り、照明、温度、湿度、映像、又は音声に関する情報が含まれていてよい。
香り制御部をさらに備えており、前記香り制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、発生する香りを制御してよい。
香り付着部をさらに備えており、前記香り付着部が、前記機械学習分類器が選定した前記環境情報に基づいて、香りを物に付着し、前記機械学習分類器が、前記環境情報に基づいて、前記香り制御部及び前記香り付着部のいずれが香りを発生させるかを判定してよい。
照明制御部をさらに備えており、前記照明制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、照射する光を制御してよい。
空気調節部をさらに備えており、前記空気調節部が、前記機械学習分類器が選定した前記環境情報に基づいて、温度及び/又は湿度を制御してよい。
映像制御部をさらに備えており、前記映像制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、表示する映像を制御してよい。
音声制御部をさらに備えており、前記音声制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、再生する音声を制御してよい。
前記価値関数が複数の価値グループに区分けされており、前記機械学習分類器が、前記複数の価値グループのそれぞれが保有する前記価値関数を用いることができる。
複数の状態取得部と、達成難易度算出部と、をさらに備えており、前記達成難易度算出部が、複数の状態取得部のそれぞれが取得した状態情報に基づいて、前記ターゲット行動に関する達成難易度を算出してよい。
前記達成難易度には、前記ターゲット行動に促した割合を示す達成率が含まれてよい。
前記達成難易度には、前記ターゲット行動に促すまでの標準の時間を示す標準達成時間が含まれてよい。
前記達成難易度には、前記ターゲット行動に促したときの前記環境情報の項目の数の平均を示す平均環境項目数が含まれてよい。
また、本技術は、人の行動に関する状態情報を少なくとも取得する状態取得部と、前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る評価部と、前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する機械学習分類器と、を少なくとも備えている、機械学習装置を提供する。
また、本技術は、人の行動に関する状態情報を少なくとも取得することと、前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得ることと、前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定することと、を少なくとも含んでいる、機械学習方法を提供する。
以下、本技術を実施するための好適な形態について説明する。以下に説明する実施形態は、本技術の代表的な実施形態の一例を示したものであり、これにより本技術の範囲が狭く解釈されることはない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。
本技術の説明は以下の順序で行う。
1.本技術の第1の実施形態(機械学習システムの例1)
(1)概要
(2)評価部
(3)機械学習分類器
(4)行動変容のフロー
(5)複数のターゲット状態情報
(6)ハードウェア構成
2.本技術の第2の実施形態(機械学習システムの例2)
(1)概要
(2)香り制御部
(3)香り付着部
(4)照明制御部
(5)空気調節部
(6)映像制御部
(7)音声制御部
3.本技術の第3の実施形態(機械学習システムの例3)
4.本技術の第4の実施形態(機械学習システムの例4)
5.本技術の第5の実施形態(機械学習システムの例5)
(1)概要
(2)達成難易度
6.本技術の第6の実施形態(機械学習方法)
1.本技術の第1の実施形態(機械学習システムの例1)
(1)概要
(2)評価部
(3)機械学習分類器
(4)行動変容のフロー
(5)複数のターゲット状態情報
(6)ハードウェア構成
2.本技術の第2の実施形態(機械学習システムの例2)
(1)概要
(2)香り制御部
(3)香り付着部
(4)照明制御部
(5)空気調節部
(6)映像制御部
(7)音声制御部
3.本技術の第3の実施形態(機械学習システムの例3)
4.本技術の第4の実施形態(機械学習システムの例4)
5.本技術の第5の実施形態(機械学習システムの例5)
(1)概要
(2)達成難易度
6.本技術の第6の実施形態(機械学習方法)
[1.本技術の第1の実施形態(機械学習システムの例1)]
[(1)概要]
本技術の一実施形態に係る機械学習システムは、人の行動に関する情報と、その人の周囲の環境に関する情報と、を評価して機械学習することにより、行動と環境との相関関係を得ることができる。これにより、環境を制御することにより人の行動をターゲット行動に促すことができるようになる。
[(1)概要]
本技術の一実施形態に係る機械学習システムは、人の行動に関する情報と、その人の周囲の環境に関する情報と、を評価して機械学習することにより、行動と環境との相関関係を得ることができる。これにより、環境を制御することにより人の行動をターゲット行動に促すことができるようになる。
本技術の一実施形態に係る機械学習システムの構成について図1を参照しつつ説明する。図1は、本技術の一実施形態に係る機械学習システム1の構成を示すブロック図である。
図1に示されるとおり、機械学習システム1は、例えば機械学習装置10を含むことができる。機械学習装置10は、例えば、状態取得部11、評価部12、記録部13、及び機械学習分類器14などを備えることができる。
状態取得部11は、人の行動に関する状態情報を少なくとも取得する。これにより、機械学習システム1は、環境の変化に応じた人の行動変容を把握できる。
状態情報には、例えば、Webサイトの閲覧などに用いられるCookie、EC(Electronic Commerce)サイトなどにおける購入履歴、GPS(Global Positioning System)などを用いて得られる位置情報、チャットなどの会話履歴、その他センシング技術を用いて得られる情報などが含まれる。
さらに状態情報には、人が存在する地域の天気又は気温に関する情報が含まれていてもよい。これにより、機械学習システム1は、人が存在する地域の天気又は気温などに特有の行動変容を把握できる。
評価部12は、状態情報を取得したときの人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る。これにより、環境情報と状態情報との相関関係が得られる。具体的な評価手段については後述する。
環境情報には、例えば、香り、照明、温度、湿度、映像、又は音声に関する情報などが含まれている。環境情報の具体例については後述する。
記録部13は、状態情報や環境情報などを記録する。なお、機械学習システム1は、状態情報は取得するが、環境情報は取得せずに記録しているものを用いる。
機械学習分類器14は、人の行動をターゲット行動に促すために、価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する。これにより、行動と環境との相関関係が得られる。
機械学習の手法は特に限定されないが、例えば強化学習が用いられることができる。強化学習とは、ソフトウェアが現在の状態(本技術における状態情報)を観測して取るべき行動(本技術における環境情報の変更)を決定する問題を扱う機械学習の一種である。エージェント(本技術における機械学習分類器14)は、行動を試行錯誤して強化学習することにより、価値が最も高くなるときの行動を決定できる。
従来、強化学習を実現するための手法として、例えばモンテカルロ法、動的計画法、SARSA(state-action-reward-state-action)、あるいはQ学習(Q-learning)などが用いられている。本技術については、強化学習の一例であるQ学習を用いて説明する。なお、Q学習のほかの強化学習手法が本技術に用いられてもよい。
なお、図示を省略するが、機械学習装置10は、それぞれの構成要素を制御する制御部や、通信ネットワークを介して通信を行う通信インタフェースなどを有していてもよい。
[(2)評価部]
上述したように、評価部12は、状態情報を取得したときの人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る。
上述したように、評価部12は、状態情報を取得したときの人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る。
これを実現するための手段は特に限定されないが、例えば評価部12は、報酬算出部(図示省略)及び価値算出部(図示省略)を有することができる。
環境情報の変更に応じて、人の行動に関する状態情報が変化しうる。報酬算出部は、機械学習システム1が環境情報を変更したときの、ターゲット行動に関するターゲット状態情報と、状態情報との差分に基づいて報酬Rを算出する。報酬Rの値が大きいほど、ターゲット状態情報と状態情報との差分が小さいことを示す。つまり、報酬Rの値が大きいほど、人の行動がターゲット行動に近いことを示す。
報酬Rは、ターゲット状態情報に応じた得点Ptと、状態情報に応じた得点Pmと、を用いて、例えば下記の式(1)で表現できる。
具体例を用いて説明する。「ECサイトを利用して商品Aを購入する」という行動をターゲット行動に設定する。そして、環境情報の変更によって人がターゲット行動をしたとき、得点として5点が設定されるとする。
また、環境情報の変更によって、人がターゲット行動に近い行動である「商品Aが掲載されているWebサイトを閲覧する」という行動をしたとき、得点として2点が設定されるとする。
上記の式(1)に当てはめると、ターゲット状態情報に応じた得点Ptは「5」である。環境情報の変更によって人がターゲット行動をしたとき、状態情報に応じた得点Pmも「5」である。このとき、報酬Rは「1」となる。
環境情報の変更によって人がターゲット行動に近い行動をしたとき、状態情報に応じた得点Pmは「2」である。このとき、報酬Rは「0.4」となる。
環境情報の変更によって人がこの2つの行動ではない行動をしたとき、状態情報に応じた得点Pmは「0」とする。このとき、報酬Rも「0」となる。
このことから、環境情報の変更による人の行動がターゲット行動に近いほど、報酬Rの値が高くなることがわかる。報酬算出部は、報酬Rが最も高くなるときの環境情報の変更を行ったときの報酬Rを算出する。
価値算出部は、報酬Rと、環境情報と、状態情報と、に基づいて、価値関数Qを算出する。価値算出部は、報酬Rが最も高くなるときの環境情報の変更を行ったときの状態情報に基づいて、価値関数Qを算出する。例えば時刻tにおける状態情報stに対して環境情報の変更atが行われたときの価値関数はQ(st,at)と表現される。
この価値関数Qは、例えば記録部13が記録してもよい。より具体的には、記録部13は、状態情報又は環境情報ごとに価値関数Qをテーブル上に記録してもよい。
[(3)機械学習分類器]
上述したように、機械学習分類器14は、価値関数Qを強化学習して、価値関数Qが最も高くなるときの環境情報を選定する。
上述したように、機械学習分類器14は、価値関数Qを強化学習して、価値関数Qが最も高くなるときの環境情報を選定する。
この強化学習について説明する。機械学習分類器14は、価値関数Qが最も高くなるように試行錯誤と学習を自動的に行う。価値関数Qが高いほど、人の行動がターゲット行動に近いことになる。価値関数Qが最も高くなるように強化学習することによって、機械学習分類器14は、人の行動をターゲット行動に促すことができる。
価値関数Qが最も高くなるときの環境情報が決定したとき、機械学習分類器14は、価値関数Qを更新する。例えば時刻tにおける状態情報stに対して、環境情報の変更atが行われ、時刻t+1における状態情報st+1に遷移したとき、価値関数Q(st,at)は、下記の数式(2)を用いて更新される。
ここで、αは学習係数である。学習係数αは0より大きく1以下の値が設定されるが、0.1程度の値が用いられることが多い。
Rt+1は、この状態情報の遷移によって得られた報酬である。
γは割引率である。割引率γは0より大きく1以下の値が設定されるが、0.9~0.99程度の値が用いられることが多い。
maxQ(st+1,a)は、将来の理想の価値関数である。maxQ(st+1,a)は、時刻t+1における状態st+1において、価値関数Qが最も高くなるときの行動aを選択したときの価値関数である。この価値関数maxQ(st+1,a)に、割引率γが乗算される。
機械学習分類器14は、上記の数式(2)を用いて価値関数Qを更新し続け、価値関数Qが最も高くなるときの環境情報を選定する。これにより、機械学習分類器14は、ターゲット行動に促すことができる環境情報を選定できる。
[(4)行動変容のフロー]
ターゲット行動に至るまでに、複数の行動変容が行われることが想定される。このことについて図2を参照しつつ説明する。図2は、本実施形態に係る行動変容の一例を示す概念図である。図2に示されるとおり、ターゲット行動に「動画共有サイトで動画を閲覧する」という行動が設定されている。そして、このターゲット行動に促すための複数の行動変容のフローが設定されている。機械学習分類器14は、強化学習を繰り返すことにより、この行動変容のフローを構成することができる。機械学習分類器14は、このフローをたどることで、人の行動をターゲット行動に促すことができる。
ターゲット行動に至るまでに、複数の行動変容が行われることが想定される。このことについて図2を参照しつつ説明する。図2は、本実施形態に係る行動変容の一例を示す概念図である。図2に示されるとおり、ターゲット行動に「動画共有サイトで動画を閲覧する」という行動が設定されている。そして、このターゲット行動に促すための複数の行動変容のフローが設定されている。機械学習分類器14は、強化学習を繰り返すことにより、この行動変容のフローを構成することができる。機械学習分類器14は、このフローをたどることで、人の行動をターゲット行動に促すことができる。
また、ターゲット行動に対する近さに応じて、人の行動が複数のレベルに区分けされている。例えば第1のレベルに設定される行動は、ターゲット行動に最も近い行動であってよい。第2のレベルに設定される行動は、ターゲット行動にその次に近い行動であってよい。第1のレベルの行動に係る価値関数Qは、第2のレベルの行動に係る価値関数Qより高い。
この例では、第1のレベルに「トイレに行ってきた」及び「ソファに座った」という行動が設定されている。第2のレベルに「子供が寝た」「帰宅した」「テーブルから離れた」「飲酒した」という行動が設定されている。そして、複数の行動のそれぞれが接続されることにより、行動変容のフローが構成されている。例えば、この個人の行動変容の特性においては、「子供が寝た」という行動が行われたときは、「トイレに行く」という行動が行われる傾向にあることが示されている。
この行動変容のフローの他の例を図3~7に示す。図3~7は、本実施形態に係る行動変容の一例を示す概念図である。図3では、「ECサイトを利用する」というターゲット行動に促すための行動変容のフローの一例が示されている。図4では、「SNS(Social Networking Service)を閲覧する」というターゲット行動に促すための行動変容のフローの一例が示されている。図5では、「高額の買い物をする」というターゲット行動に促すための行動変容のフローの一例が示されている。図6では、「ビールを飲む」というターゲット行動に促すための行動変容のフローの一例が示されている。図7では、「就寝する」というターゲット行動に促すための行動変容のフローの一例が示されている。このように、ターゲット行動に応じて様々な行動変容のフローが構成される。
また、ターゲット行動が同じであっても、ターゲット行動に促すための行動変容のフローは、個人によって異なっていてよい。このことについて図8を参照しつつ説明する。図8は、本実施形態に係る行動変容の一例を示す概念図である。図8Aは、ある個人の行動変容の一例を示している。図8Aに示されるとおり、ターゲット行動として「衣類を購入する」という行動が設定されている。
一方で、図8Bは、図8Aに示される個人ではない個人の行動変容の一例を示している。図8Bに示されるとおり、ターゲット行動は図8Aと同じであるが、ターゲット行動に促すための行動変容のフローが異なっている。
[(5)複数のターゲット状態情報]
本技術の一実施形態に係る機械学習装置10は、1つのターゲット行動に関するターゲット状態情報を保有していてよいが、複数のターゲット行動に関する複数のターゲット状態情報を保有していてもよい。この複数のターゲット行動の一部又は全部は、例えば時間別及び/又は段階別に設定されることができる。
本技術の一実施形態に係る機械学習装置10は、1つのターゲット行動に関するターゲット状態情報を保有していてよいが、複数のターゲット行動に関する複数のターゲット状態情報を保有していてもよい。この複数のターゲット行動の一部又は全部は、例えば時間別及び/又は段階別に設定されることができる。
複数のターゲット行動の一部又は全部は、例えば時間別に設定されることができる。具体例を用いて説明すると、複数のターゲット行動の一部又は全部は、1日のうちの第1の時間帯(例えば午前0~6時台)におけるターゲット行動、第2の時間帯(例えば午前7~午後7時台)におけるターゲット行動、及び第3の時間帯(例えば午後8~11時台)におけるターゲット行動などに設定されることができる。
第1の時間帯(例えば午前0~6時台)におけるターゲット行動は、例えば「睡眠をとる」であってよい。第2の時間帯(例えば午前7~午後7時台)におけるターゲット行動は、例えば「食品Sを食べる」であってよい。第3の時間帯(例えば午後8~11時台)におけるターゲット行動は、例えば「飲料Tを飲む」であってよい。
複数のターゲット行動の一部又は全部が時間別に設定されることにより、例えば時間帯に応じてターゲット行動が柔軟に設定されることができる。例えば、機械学習装置10は、「午後3時に食品Sを食べる」というターゲット行動に促すことができる。
あるいは、複数のターゲット行動の一部又は全部は、例えば段階別に設定されることができる。具体例を用いて説明すると、複数のターゲット行動の一部又は全部は、第1の段階におけるターゲット行動及び第2の段階におけるターゲット行動に設定されることができる。第1の段階におけるターゲット行動は、例えば「店舗Uに行く」であってよい。第2の段階におけるターゲット行動は、例えば「食品Sを食べる」であってよい。
複数のターゲット行動の一部又は全部が段階別に設定されることにより、例えば一連の流れを有する複数のターゲット行動が設定されることができる。例えば、機械学習装置10は、「店舗Uに行ったときは食品Sを食べる」というターゲット行動に促すことができる。
あるいは、複数のターゲット行動の一部又は全部は、例えば時間別及び段階別に設定されることができる。具体例を用いて説明すると、前記第3の時間帯において、前記第1及び第2の段階におけるターゲット行動に設定されることができる。
複数のターゲット行動の一部又は全部が時間別及び段階別に設定されることにより、例えば一連の流れを有する複数のターゲット行動が、時間帯に応じて柔軟に設定されることができる。例えば、機械学習装置10は、「朝、店舗Uに行ったときは食品Sを食べる」というターゲット行動に促すことができる。
これを実現するために、本技術の一実施形態に係る機械学習装置10は、複数のターゲット状態情報を含むターゲット状態関連情報を保有してよい。
ターゲット状態関連情報について図9を参照しつつ説明する。図9は、本実施形態に係るターゲット状態関連情報の一例を示すデータベースである。図9では、時間帯とターゲット行動とが関連付けあれている。第1の時間帯(午前0~6時台)におけるターゲット行動は「就寝する」である。第2の時間帯(午前7~午後7時台)におけるターゲット行動は「食品Sを食べる」である。第3の時間帯(午後8~11時台)におけるターゲット行動は、例えば「飲料Tを飲む」である。なお、段階別に設定されているターゲット状態関連情報についても同様である。
ターゲット状態関連情報は、例えば機械学習装置10が備える記録部13などに記録されることができる。なお、ターゲット状態関連情報は、機械学習装置10のほかのコンピュータ装置が保有してよい。例えば、ターゲット状態関連情報は、クラウド上のサーバに保有されていてよい。このとき、機械学習装置10は、情報通信ネットワークを介して前記サーバからターゲット状態関連情報を受信してよい。
[(6)ハードウェア構成]
機械学習装置10のハードウェア構成について図10を参照しつつ説明する。図10は、本実施形態に係る機械学習装置10のハードウェア構成を示すブロック図である。図10に示されるとおり、機械学習装置10は、構成要素として、CPU101、ストレージ102、RAM(Random Access Memory)103、及び通信インタフェース104を備えることができる。それぞれの構成要素は、例えばデータの伝送路としてのバスで接続されている。
機械学習装置10のハードウェア構成について図10を参照しつつ説明する。図10は、本実施形態に係る機械学習装置10のハードウェア構成を示すブロック図である。図10に示されるとおり、機械学習装置10は、構成要素として、CPU101、ストレージ102、RAM(Random Access Memory)103、及び通信インタフェース104を備えることができる。それぞれの構成要素は、例えばデータの伝送路としてのバスで接続されている。
CPU101は、例えばマイクロコンピュータにより実現され、機械学習装置10のそれぞれの構成要素を制御する。CPU101は、例えば、評価部12や機械学習分類器14として機能しうる。この機械学習分類器14は、例えばプログラムにより実現されうる。このプログラムをCPU101が読み込むことによって機能しうる。
ストレージ102は、CPU101が使用するプログラムや演算パラメータ等の制御用データ等を記憶する。ストレージ102は、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)等を利用することにより実現されうる。ストレージ102は、例えば記録部13として機能しうる。
RAM103は、例えば、CPU101により実行されるプログラム等を一時的に記憶する。
通信インタフェース104は、例えばWi-Fi、Bluetooth(登録商標)、LTE(Long Term Evolution)等の通信技術を利用して、情報通信ネットワークを介して通信する機能を有する。
機械学習分類器14などを実現するプログラムは、機械学習システム1のほかのコンピュータ装置又はコンピュータシステムに格納されてもよい。この場合、機械学習システム1は、このプログラムが有する機能を提供するクラウドサービスを利用することができる。このクラウドサービスとして、例えばSaaS(Software as a Service)、IaaS(Infrastructure as a Service)、PaaS(Platform as a Service)等が挙げられる。
さらにこのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、Compact Disc Read Only Memory(CD-ROM)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、Programmable ROM(PROM)、Erasable PROM(EPROM)、フラッシュROM、Random Access Memory(RAM))を含む。また、上記プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、上記プログラムをコンピュータに供給できる。
[2.本技術の第2の実施形態(機械学習システムの例2)]
[(1)概要]
本技術の一実施形態に係る機械学習システム1は、人の周囲の環境を制御するための環境制御装置を備えていてよい。環境制御装置は、機械学習分類器14が選定した環境情報に基づいて、人の周囲の環境を制御する。これにより、機械学習システム1は、人の行動をターゲット行動に促すことができる。
[(1)概要]
本技術の一実施形態に係る機械学習システム1は、人の周囲の環境を制御するための環境制御装置を備えていてよい。環境制御装置は、機械学習分類器14が選定した環境情報に基づいて、人の周囲の環境を制御する。これにより、機械学習システム1は、人の行動をターゲット行動に促すことができる。
機械学習システム1は、人の行動をターゲット行動に促すことにより、例えば販売を促進できる。機械学習システム1は、顧客に商品を購入させるために店舗の内部又は外部の環境を制御できる。なお、機械学習システム1が利用されるのは実店舗に限られず、例えばECサイトであってもよい。あるいは、機械学習システム1は、ダウンロード又はストリーミングされるコンテンツや、Webサイトにも利用され、コンテンツやWebサイトの閲覧を促進できる。
あるいは、機械学習システム1は、人の行動をターゲット行動に促すことにより、例えば人の生活習慣を改善できる。具体的には、機械学習システム1は、禁煙や禁酒などを促すために環境を制御できる。さらに、例えば買い物依存、睡眠不足、運動不足などの改善に機械学習システム1が利用されてもよい。
あるいは、機械学習システム1は、人の行動をターゲット行動に促すことにより、例えば選挙において投票に行かせることができる。
あるいは、機械学習システム1は、人の行動をターゲット行動に促すことにより、例えば公衆衛生やモラルなどを向上させることができる。具体的には、ごみの分別、ごみのポイ捨てや駆け込み乗車などの抑制、咳エチケットや手洗いなどの順守、整列、暴力の抑制などに機械学習システム1が利用されてもよい。
あるいは、機械学習システム1は、人の行動をターゲット行動に促すことにより、例えば仕事の効率を向上させることができる。具体的には、集中力の向上、よそ見の抑制、オンオフの切り替えなどに機械学習システム1が利用されてもよい。
本実施形態に係る機械学習システム1の構成について図11を参照しつつ説明する。図11は、本実施形態に係る機械学習システム1の構成を示すブロック図である。なお、第1の実施形態と同様の構成要素については、同じ符号を付し、詳細な説明は省略する。
図11に示されるとおり、本実施形態に係る機械学習システム1は、環境制御装置20をさらに備えていてよい。環境制御装置20及び機械学習装置10は、情報通信ネットワーク40を介して接続されている。環境制御装置20は、機械学習分類器14が選定した環境情報に基づいて、例えば香り、照明、温度、湿度、映像、又は音声などの環境を制御する。
環境制御装置20は、例えば通信制御部21、メモリ22、香り制御部23、照明制御部24、空気調節部25、映像制御部26、及び音声制御部27などを有することができる。
なお、香り制御部23、照明制御部24、空気調節部25、映像制御部26、及び音声制御部27については、環境制御装置20は、これら全ての構成要素を有していなくてもよく、少なくともいずれか一つの構成要素を有していればよい。
また、機械学習システム1は、複数の環境制御装置20を備えていてよい。例えば機械学習システム1が2つの環境制御装置20を備えているとき、一方の環境制御装置20が香り制御部23を有しており、他方の環境制御装置20が照明制御部24を有していてもよい。
通信制御部21は、情報通信ネットワーク40を介して機械学習装置10との情報を通信できる。また、通信制御部21は、それぞれの構成要素を制御してもよい。
メモリ22は、環境制御装置20が用いる情報、例えば環境情報など記録できる。
なお、機械学習装置10が備える機械学習分類器14などは、例えば環境制御装置20に備えられていてもよいし、その他のコンピュータ装置に備えられていてもよい。
[(2)香り制御部]
人の周囲の香りを制御するために、環境制御装置20は、例えば香り制御部23を備えることができる。香り制御部23は、機械学習分類器14が選定した環境情報に基づいて、発生する香りを制御する。香り制御部23を備える環境制御装置20は、例えばアロマディフューザーなどが用いられることにより実現できる。
人の周囲の香りを制御するために、環境制御装置20は、例えば香り制御部23を備えることができる。香り制御部23は、機械学習分類器14が選定した環境情報に基づいて、発生する香りを制御する。香り制御部23を備える環境制御装置20は、例えばアロマディフューザーなどが用いられることにより実現できる。
なお、香りには、人が香りとして認知できるもののほか、人が香りとして認知できないが吸引されることにより人に対して何らかの作用を及ぼすものも含まれる。例えば、吸引される医療用鎮静剤、あるいは、酸素や二酸化炭素などに代表されるような、無臭であるが吸引されることにより人の体調に作用する気体なども香りに含まれる。
人は、香り制御部23が制御するその人に最適化された香りを吸引することにより、無自覚にターゲット行動に促される。
香り制御部23の構成について図12を参照しつつ説明する。図12は、本実施形態に係る香り制御部23の構成を示すブロック図である。図12に示されるとおり、香り制御部23は、例えば添加成分カートリッジ231、香り制御部232、及び香り出力部233などを有することができる。
添加成分カートリッジ231は、香りの添加成分を収容する部品である。添加成分カートリッジ231は、交換可能であってよい。添加成分カートリッジ231は、例えば添加成分を収容したボンベ、瓶、缶などの容器、添加成分を吸着した紙、不織布、又は石などの素材、あるいは添加成分を混合したワックスや石鹸などの固形物などであってよい。
添加成分は、例えば粉末やゲルなどを含む固体、液体、気体であってよいし、これらの混合物であってよい。添加成分は、例えば天然から抽出される天然香料、化学合成から得られる合成香料、又はこれらが調合される調合香料などであってよい。あるいは、添加成分は、香料を含んでいなくてもよい。
香り制御部232は、環境情報に基づいて、香りを生成するための添加成分を制御する。香り制御部232は、例えば添加成分が調合されるときの、それぞれの添加成分の比率などを決定できる。あるいは、香り制御部232は、希釈倍率を決定してもよい。前記比率又は前記希釈倍率は、機械学習分類器14が選定した環境情報に応じて決定される。
あるいは、香り制御部233は、香りの出力に関する例えば噴射圧や噴射回数などを制御してもよい。前記噴射圧又は前記噴射回数は、機械学習分類器14が選定した環境情報に応じて決定される。
香り出力部233は、香り制御部232により決定された情報に基づいて、香りを出力する。
香り制御部23を備える機械学習システム1は、特定の香りを人に吸引させることにより、人の行動をターゲット行動に促すことができる。例えば、生理的に特定の商品を購入したくなる香りを人に吸引させることにより、機械学習システム1は、その人に通信販売で特定の商品を購入させたり、又は店舗に向かわせたりすることができる。
あるいは、香り及びコンテンツが関連付けられていてもよい。これにより、機械学習システム1は、強化学習する前に、香り及びコンテンツの関連付けを人に無意識に学習させることができる。
例えば、機械学習システム1は、特定の香りを人に吸引させるとともに、特定の映像コンテンツを人に視聴させることができる。この映像コンテンツには、例えば特定の商品に関する広告が含まれている。これにより、機械学習システム1は、特定の香り及び特定の商品の関連付けを人に無意識に学習させることができる。この特定の香りを人に吸引させることにより、機械学習システム1は、その人に通信販売で特定の商品を購入させたり、又は店舗に向かわせたりすることができる。
あるいは、香り及び環境が関連付けられていてもよい。この環境は、人が現実に体験する場所又は物などに関する環境である。この場所には、例えば、店舗、公共交通機関、映画館、劇場、テーマパークなどが含まれる。これにより、機械学習システム1は、強化学習する前に、香り及び環境の関連付けを人に無意識に学習させることができる。
例えば、機械学習システム1は、特定の店舗に訪れた人に、特定の香りを吸引させることができる。これにより、機械学習システム1は、特定の香り及び特定の店舗の関連付けを人に無意識に学習させることができる。この特定の香りを店舗とは異なる場所で人に吸引させることにより、機械学習システム1は、その人を店舗に向かわせたり、店舗に陳列されている商品を通信販売で購入させたりすることができる。
例えば、機械学習システム1は、例えばコーヒーを飲むなどの体験によって、特定の商品から生じる香りを吸引させることができる。これにより、機械学習システム1は、特定の香り及び特定の商品の関連付けを人に無意識に学習させることができる。香り制御部23がこの特定の香りを発生することにより、機械学習システム1は、この特定の商品を通信販売で購入させたり、この特定の商品が陳列されている店舗に向かわせたりすることができる。
[(3)香り付着部]
香りは、物に付着されてもよい。物とは、例えばターゲット行動を促す人に配達される衣類、本、雑貨、販売促進物、梱包材などであってよい。人は、物に付着されその人に最適化された香りを吸引することにより、無自覚にターゲット行動に促される。
香りは、物に付着されてもよい。物とは、例えばターゲット行動を促す人に配達される衣類、本、雑貨、販売促進物、梱包材などであってよい。人は、物に付着されその人に最適化された香りを吸引することにより、無自覚にターゲット行動に促される。
これを実現するために、機械学習システム1は、香り付着部を備えることができる。このことについて図13を参照しつつ説明する。図13は、本実施形態に係る機械学習システム1の構成を示すブロック図である。なお、第1の実施形態と同様の構成要素については、同じ符号を付し、詳細な説明は省略する。図13に示されるとおり、機械学習システム1は、香り付着部30をさらに備えている。香り付着部30及び機械学習装置10は、情報通信ネットワーク40を介して接続されている。なお、香り付着部30は、香り制御部23と同様の構成であってよい。
上述した香り制御部23は、ターゲット行動に促される人の周囲に配される。一方香り付着部30で、香り付着部30は、例えば物を出荷する工場などに配される。香り付着部30は、機械学習分類器14が選定した環境情報に基づいて、香りを物に付着する。
機械学習分類器14は、前記環境情報に基づいて、香り制御部23及び香り付着部30のいずれが香りを発生させるかを判定する。
このときの機械学習システム1の手順について図14を参照しつつ説明する。図14は、本実施形態に係る機械学習システム1の手順を示すフローチャートである。
図14に示されるとおり、機械学習の初期段階においては、機械学習分類器14が香りと行動との相関関係を強化学習し(ステップS11)、機械学習分類器14が環境情報を選定し(ステップS12)、香り制御部23が香りを発生させることを機械学習分類器14が判定し(ステップS13)、香り制御部23が人の周囲の香りを制御する(ステップS14)。香りと行動との相関関係が十分に学習できるまで、ステップS11~S14が繰り返される(ステップS15:No)。
香りと行動との相関関係が十分に学習できた段階(ステップS15:Yes)で、香り付着部30が香りを発生させることを機械学習分類器14が判定し(ステップS16)、香り付着部30が香りを物に付着する(ステップS17)。
これにより、機械学習システム1は、人の周囲の香りをより柔軟に制御できる。例えば、機械学習の初期段階(例えば学習開始から1~3ヶ月程度)においては、人の周囲に配される香り制御部23が短期間で香りを変更しつつ、機械学習分類器14が香りと行動との相関関係を高効率で強化学習する。機械学習分類器14は、ターゲット行動に最適な香りを判定する。
その後、ターゲット行動に最適な香りが付着された物が配達などされることにより、継続してターゲット行動に促すことができる。香り付着部30が長期間で香りを変更しつつ、機械学習分類器14が香りと行動との相関関係を継続して強化学習する。
[(4)照明制御部]
図11の説明に戻る。人の周囲の照明を制御するために、環境制御装置20は、例えば照明制御部24を備えることができる。照明制御部24は、機械学習分類器14が選定した環境情報に基づいて、照射する光を制御する。照明制御部24を備える環境制御装置20は、例えば電球(いわゆるスマート電球を含む)などが用いられることにより実現できる。
図11の説明に戻る。人の周囲の照明を制御するために、環境制御装置20は、例えば照明制御部24を備えることができる。照明制御部24は、機械学習分類器14が選定した環境情報に基づいて、照射する光を制御する。照明制御部24を備える環境制御装置20は、例えば電球(いわゆるスマート電球を含む)などが用いられることにより実現できる。
人は、照明制御部24が照射するその人に最適化された光を視認することにより、無自覚にターゲット行動に促される。
照明制御部24の構成について図15を参照しつつ説明する。図15は、本実施形態に係る照明制御部24の構成を示すブロック図である。図15に示されるとおり、照明制御部24は、例えば光制御部241及び光出力部242などを有することができる。
光制御部241は、出力する光の表現を制御する。具体的に説明すると、光制御部241は、例えば光の色温度や輝度などを決定できる。前記色温度又は前記輝度は、機械学習分類器14が選定した環境情報に応じて決定される。例えば色温度は3500~3900Kなどと決定されてよいし、輝度は3000~4000lmなどと決定されてよい。なお、このように決定された値に範囲がある場合は、光制御部241は、この範囲の中からランダムに値を決定してよい。機械学習装置10は、強化学習を積み重ねながら、この範囲を狭めることができる。なお、以下に説明する他の構成要素についても同様である。
光出力部242は、光制御部241により決定された情報に基づいて、光を出力する。
[(5)空気調節部]
人の周囲の空気を調節するために、環境制御装置20は、例えば空気調節部25を備えることができる。空気調節部25は、機械学習分類器14が選定した環境情報に基づいて、温度及び/又は湿度を制御する。空気調節部25を備える環境制御装置20は、例えばエアコンなどが用いられることにより実現できる。
人の周囲の空気を調節するために、環境制御装置20は、例えば空気調節部25を備えることができる。空気調節部25は、機械学習分類器14が選定した環境情報に基づいて、温度及び/又は湿度を制御する。空気調節部25を備える環境制御装置20は、例えばエアコンなどが用いられることにより実現できる。
人は、空気調節部25により制御されるその人に最適化された温度及び/又は湿度により、無自覚にターゲット行動に促される。
空気調節部25の構成について図16を参照しつつ説明する。図16は、本実施形態に係る空気調節部25の構成を示すブロック図である。図16に示されるとおり、空気調節部25は、例えば空気制御部251及び空気出力部252などを有することができる。
空気制御部251は、空気の温度及び/又は湿度を決定できる。前記温度及び/又は前記湿度は、機械学習分類器14が選定した環境情報に応じて決定される。例えば温度は25.5~27.5度などと決定されてよいし、湿度は45~50%などと決定されてよい。
空気出力部252は、空気制御部251により決定された情報に基づいて、空気を出力する。
[(6)映像制御部]
人に対して表示される映像を制御するために、環境制御装置20は、例えば映像制御部26を備えることができる。映像制御部26は、機械学習分類器14が選定した環境情報に基づいて、表示する映像を制御する。映像制御部26を備える環境制御装置20は、例えばテレビジョン、携帯ゲーム機、PC、タブレット、スマートフォン、HMD(Head Mounted Display)、ウェアラブル装置、カーナビなどが用いられることにより実現できる。
人に対して表示される映像を制御するために、環境制御装置20は、例えば映像制御部26を備えることができる。映像制御部26は、機械学習分類器14が選定した環境情報に基づいて、表示する映像を制御する。映像制御部26を備える環境制御装置20は、例えばテレビジョン、携帯ゲーム機、PC、タブレット、スマートフォン、HMD(Head Mounted Display)、ウェアラブル装置、カーナビなどが用いられることにより実現できる。
なお、映像には動画のほか静止画も含まれる。また、映像には音声が含まれていてもよい。
人は、映像制御部26が表示するその人に最適化された映像を視認することにより、無自覚にターゲット行動に促される。
映像制御部26の構成について図17を参照しつつ説明する。図17は、本実施形態に係る映像制御部26の構成を示すブロック図である。図17に示されるとおり、映像制御部26は、例えば映像選択部261及び映像表示部262などを有することができる。
映像選択部261は、出力する映像を選択する。この選択する手段は特に限定されないが、例えば、映像選択部261は、映像ファイルが記録されているアドレスや、広告バナーのコードなどを用いて決定できる。前記アドレスやコードなどは、機械学習分類器14が選定した環境情報に応じて決定される。また、映像選択部261は、複数の映像ファイルを合成したり編集したりしてもよい。さらには、映像選択部261は、映像の色温度や輝度などを調整してもよい。
なお、映像ファイルは映像制御部26の内部に記録されていてもよいし、映像制御部26の外部に記録されていてもよい。
映像表示部262は、映像選択部261により決定された情報に基づいて、映像を出力する。
[(7)音声制御部]
人に対して再生される音声を制御するために、環境制御装置20は、例えば音声制御部27を備えることができる。音声制御部27は、機械学習分類器14が選定した環境情報に基づいて、再生する音声を制御する。音声制御部27を備える環境制御装置20は、例えばスピーカー(いわゆるスマートスピーカーやストリーミング機能付きスピーカーなどを含む)、タブレット、スマートフォン、ヘッドフォン、ウェアラブル装置、カーステレオなどが用いられることにより実現できる。
人に対して再生される音声を制御するために、環境制御装置20は、例えば音声制御部27を備えることができる。音声制御部27は、機械学習分類器14が選定した環境情報に基づいて、再生する音声を制御する。音声制御部27を備える環境制御装置20は、例えばスピーカー(いわゆるスマートスピーカーやストリーミング機能付きスピーカーなどを含む)、タブレット、スマートフォン、ヘッドフォン、ウェアラブル装置、カーステレオなどが用いられることにより実現できる。
人は、音声制御部27が再生するその人に最適化された音声を視聴することにより、無自覚にターゲット行動に促される。
音声制御部27の構成について図18を参照しつつ説明する。図18は、本実施形態に係る音声制御部27の構成を示すブロック図である。図18に示されるとおり、音声制御部27は、例えば音声選択部271及び音声出力部272などを有することができる。
音声選択部271は、再生する音声を選択する。この選択する手段は特に限定されないが、例えば、音声選択部271は、音声ファイルが記録されているアドレスや、広告バナーのコードなどを用いて決定できる。前記アドレスやコードなどは、機械学習分類器14が選定した環境情報に応じて決定される。また、音声選択部271は、複数の音声ファイルを合成したり編集したりしてもよい。さらには、音声選択部271は、音高や音量などを調整してもよい。
なお、音声ファイルは音声制御部27の内部に記録されていてもよいし、音声制御部27の外部に記録されていてもよい。
音声出力部272は、音声選択部271により決定された情報に基づいて、音声を出力する。
[3.本技術の第3の実施形態(機械学習システムの例3)]
本技術の一実施形態に係る機械学習装置10は、ターゲット行動ごとに価値関数Q、状態情報s、及び環境情報の変更aを記録できる。そして、機械学習装置10は、人の行動とその人の周囲の環境との相関関係を強化学習することにより、ターゲット行動に促すことができる環境情報を選定できる。
本技術の一実施形態に係る機械学習装置10は、ターゲット行動ごとに価値関数Q、状態情報s、及び環境情報の変更aを記録できる。そして、機械学習装置10は、人の行動とその人の周囲の環境との相関関係を強化学習することにより、ターゲット行動に促すことができる環境情報を選定できる。
このとき、行動と環境との相関関係が類似する複数の人は、一つの価値グループに設定されることができる。例えば、香りと温度変化を感じたときに特定のターゲット行動に促されやすい複数の人は、一つのグループとして設定されることができる。
このことについて図19を参照しつつ説明する。図19は、本実施形態に係る機械学習装置10が用いるデータベースの一例である。図19に示されるとおり、このデータベースは、ターゲット行動ごとの価値関数Q、状態情報s、及び環境情報の変更aを保有している。この価値関数Qは、状態情報s及び環境情報の変更aの相関関係の類似の度合いに従って、複数の価値グループQ1~8に区分けされている。複数の価値グループQ1~8のそれぞれに対して、その価値グループに所属する人h01~32が関連付けられている。それぞれの人に対して、その人の特徴を示す属性情報A~Cが関連付けられていてもよい。
強化学習の対象者が所属する価値グループがわかるとき、機械学習装置10は、この価値グループに係る価値関数Qなどの情報を用いることができる。既に強化学習済みの価値関数Qなどの情報を用いることにより、機械学習装置10は、例えば強化学習の過程の一部を省略でき、より短期間で強化学習できる。
具体例を用いて説明する。ある人に対するターゲット行動が「テレビゲームをする」と設定されているとする。強化学習により、この人は、香りと温度変化に影響を受けたときにテレビゲームをする傾向にあることがわかっているとする。
次に、ターゲット行動が「テレビゲームをする」から「ビールを飲む」に変更になったとする。しかし、これまでの強化学習により、この人は香りと温度変化に影響を受けやすいことがわかっている。このことから、香りと温度変化に影響を受けやすい価値グループの価値関数Q及び過去に高い報酬が得られた環境情報の変更aなどの情報が、新たなターゲット行動に促すための強化学習の初期値に用いられることができる。機械学習装置10は、既に強化学習された情報を初期値にして、強化学習を開始することができる。
また、既に強化学習済みの価値関数Qなどの情報は、同じ価値グループに所属する別の人の行動に関する強化学習に用いられてもよい。図19を参照しつつ説明すると、例えば価値グループQ4に所属する人h13の行動に関して強化学習済みの価値関数Qなどの情報は、同じ価値グループQ4に所属する人h14の行動に関する強化学習に用いられることができる。
本実施形態に係る機械学習装置10の手順について図20を参照しつつ説明する。図20は、本実施形態に係る機械学習装置10の手順の一例を示すフローチャートである。
図20に示されるとおり、機械学習装置10が備える状態取得部11が、状態情報を取得する(ステップS21)。
図20に示されるとおり、機械学習装置10が備える状態取得部11が、状態情報を取得する(ステップS21)。
次に、機械学習装置10が備える評価部12が、状態情報に基づいて報酬及び価値関数を算出する(ステップS22)。
次に、機械学習装置10が備える機械学習分類器14が、価値関数を更新する(ステップS23)。
次に、さらなる行動変容を学習するために、機械学習分類器14が、環境情報を選定する(ステップS24)。
次に、機械学習分類器14が、所定の条件を満たすか否かを判定する(ステップS25)。この判定条件は特に限定されないが、例えば価値関数の更新回数が所定の閾値を超過したか否かにより判定されてもよい。
所定の条件を満たすとき(ステップS25:Yes)、機械学習分類器14が、前記データベースを参照して、類似するグループの価値関数Qや過去に高い報酬が得られた環境情報の変更aなどの情報を取得する(ステップS26)。このデータベースは、機械学習装置10が備えていてもよいし、機械学習装置10のほかのコンピュータ装置が備えていてもよい。これにより、機械学習装置10は、既に強化学習された情報を用いて、強化学習をすることができる。
一方で、所定の条件を満たさないとき(ステップS25:No)、類似するグループの価値関数は取得されない。
次に、機械学習分類器14が、強化学習を終了するか否かを判定する(ステップS27)。この判定条件は特に限定されないが、例えば価値関数が所定の閾値より高いか否かにより判定されてもよい。
機械学習を終了しないと判定されたとき(ステップS27:No)、ステップS21~26の手順が繰り返される。
機械学習を終了すると判定されたとき(ステップS27:Yes)、機械学習分類器14が、環境情報を選定する(ステップS28)。
[4.本技術の第4の実施形態(機械学習システムの例4)]
ターゲット行動はランダムに設定されてもよい。特定のターゲット行動に固定されず、さまざまなターゲット行動に促すことにより、機械学習分類器14は、行動と環境との相関関係を強化学習できる。機械学習分類器14は、この強化学習により、例えば行動との関係性が低いと思われる環境の変化であっても、行動の兆しや連続性などの規則性を発見できる。
ターゲット行動はランダムに設定されてもよい。特定のターゲット行動に固定されず、さまざまなターゲット行動に促すことにより、機械学習分類器14は、行動と環境との相関関係を強化学習できる。機械学習分類器14は、この強化学習により、例えば行動との関係性が低いと思われる環境の変化であっても、行動の兆しや連続性などの規則性を発見できる。
図19を再び参照しつつ説明する。このデータベースに登録されている複数の人のそれぞれに対して、その人の特徴を示す属性情報が関連付けられている。例えば属性Aは「照明の色温度が3650Kであり、照明の輝度が3000lmであり、温度が26.5度であるときに、ビールを飲む傾向がある」という特徴を有する人であってよい。例えば属性Cは「温度が25度であり、湿度が48%であり、香りに添加成分Tが含まれているときに、ECサイトを閲覧する傾向がある」という特徴を有する人であってよい。
これを実現するために、図20に示されるフローチャートにおいて、例えば類似するグループの価値関数を取得する(ステップS26)のではなく、ランダムに選定したグループの価値関数を取得してもよい。
[5.本技術の第5の実施形態(機械学習システムの例5)]
[(1)概要]
本技術の一実施形態に係る機械学習システム1は、複数の機械学習装置を含んでいてよい。このことについて図21を参照しつつ説明する。図21は、本技術の一実施形態に係る機械学習システム1の構成を示すブロック図である。
[(1)概要]
本技術の一実施形態に係る機械学習システム1は、複数の機械学習装置を含んでいてよい。このことについて図21を参照しつつ説明する。図21は、本技術の一実施形態に係る機械学習システム1の構成を示すブロック図である。
図21に示されるとおり、機械学習システム1は、例えば複数の機械学習装置10a~10dを備えることができる。複数の機械学習装置10a~10dのそれぞれは、例えば、状態取得部11a~11d、評価部12a~12d、記録部13a~13d、及び機械学習分類器14a~14dなどを備えることができる。また、複数の機械学習装置10a~10dのそれぞれには、環境制御装置(図示省略)が接続されていてよい。なお、機械学習装置の数は特に限定されない。
さらに、機械学習システム1は、達成難易度算出装置50を含むことができる。達成難易度算出装置50は、図10に示されるようなハードウェア構成でありうる。達成難易度算出装置50は、例えば情報通信ネットワーク40などを介して複数の機械学習装置10a~10dのそれぞれと接続されており、複数の機械学習装置10a~10dのそれぞれから得られた情報を集計し、状態情報と環境情報との相関関係の傾向を得ることができる。より具体的に説明すると、達成難易度算出装置50は、ターゲット行動に関する達成難易度を算出することができる。ターゲット行動に促したことを達成したと定義するとき、達成難易度は、この達成の困難さを示す。この達成難易度についての詳細な説明は後述する。
達成難易度算出装置50は、例えば情報取得部51と、被験者情報記録部52と、行動情報記録部53と、達成難易度算出部54と、を備えることができる。
情報取得部51は、複数の機械学習装置10a~10dのそれぞれが得た状態情報を取得する。情報取得部51は、例えば通信インタフェース104などが用いられることにより実現できる。
複数の機械学習装置10a~10dのそれぞれが対象とする被験者は異なっていてよい。被験者情報記録部52は、複数の機械学習装置10a~10dのそれぞれが対象とする被験者に関する情報を保有する。この情報には、例えば被験者の識別番号、性別、又は年齢などが含まれる。被験者情報記録部52は、例えばストレージ102などが用いられることにより実現できる。
行動情報記録部53は、複数の機械学習装置10a~10dのそれぞれが対象とする行動に関する情報を保有する。この情報には、例えばターゲット行動に関する情報、状態情報、又は状態情報に関する履歴情報などが含まれる。行動情報記録部53は、例えばストレージ102などが用いられることにより実現できる。
達成難易度算出部54は、複数の状態取得部11a~11dのそれぞれが取得した状態情報に基づいて、ターゲット行動に関する達成難易度を算出することができる。達成難易度算出部54は、例えばCPU101及びプログラムなどが用いられることにより実現できる。
なお、達成難易度算出部54は、達成難易度算出装置50が備えていてもよいし、複数の機械学習装置10a~10dのそれぞれが備えていてもよいし、複数の環境制御装置(図示省略)のそれぞれが備えていてもよい。
また、図示を省略するが、機械学習システム1は、複数の達成難易度算出装置を備えることができる。複数の達成難易度算出装置の中には、複数の機械学習装置のうち特定の機械学習装置から得られた情報を集計する中継用の達成難易度算出装置があってもよい。
[(2)達成難易度]
上述したように、達成難易度は、ターゲット行動に促すときの困難さを示す。達成難易度を算出することにより、機械学習システム1は、例えばターゲット行動に促されやすい又は促されにくい被験者を導出したり、ターゲット行動に促されやすい又は促されにくい環境情報を導出したりすることができる。
上述したように、達成難易度は、ターゲット行動に促すときの困難さを示す。達成難易度を算出することにより、機械学習システム1は、例えばターゲット行動に促されやすい又は促されにくい被験者を導出したり、ターゲット行動に促されやすい又は促されにくい環境情報を導出したりすることができる。
ターゲット行動に促されやすい被験者の集団をアダプティブグループと定義し、ターゲット行動に促されにくい被験者の集団をチャレンジグループと定義する。機械学習システム1は、このアダプティブグループを導出することにより、例えば商品の開発や広告宣伝活動などにおいて、商品のターゲット層を導出できる。このターゲット層には、例えば年齢や性別などが含まれる。商品のターゲット層を導出することにより、商品の開発や広告宣伝活動などが効率化される。
例えばコンビニエンスストアなどに設けられているPOS(Point of sale)システムと、地域のイベント(例えば運動会や花火大会など)とが関連付けられることができる。これにより、機械学習システム1は、このイベントの開催時に購入されやすい商品や、この商品のターゲット層などが導出できる。
あるいは、商品には、爆発的にヒットする商品と、ロングセラー商品とがある。前者の開発や広告宣伝活動などについてはアダプティブグループが活用され、後者の開発や広告宣伝活動などについてはチャレンジグループが活用されることができる。
さらには、ターゲット行動は、基本となる基本ターゲット行動と、この基本ターゲット行動に関連付けられる応用ターゲット行動と、に分類されることができる。基本ターゲット行動は、行動の種類を大まかに分類したものであり、例えば、外出、飲食、又は購入などである。応用ターゲット行動は、基本ターゲット行動をより具体的に示したものであり、例えば、セールの日に特定の店舗に行く、特定の場所に旅行に行く、地域のイベント活動に参加する、などである。
機械学習システム1は、まず、応用ターゲット行動に促されやすいアダプティブグループを導出する。機械学習システム1は、複数の応用ターゲット行動のそれぞれに関するアダプティブグループを導出し、アダプティブグループに関する情報を訴求することにより、基本ターゲット行動に関するアダプティブグループを導出することができる。つまり、機械学習システム1は、複数のアダプティブグループに共通する傾向を得ることができる。これにより、例えば商品開発にあたり、今まで気づかなかった新たなターゲット層が導出されることができる。
なお、このアダプティブグループの導出は、第2の実施形態において説明したような生活習慣の改善などにも活用されてもよい。
達成難易度には、例えばターゲット行動に促した割合を示す達成率rが含まれていてよい。達成率rが高い被験者は、アダプティブグループに分類される。
達成率rは、ターゲット行動に促した状態情報の件数nと、ターゲット行動に促されなかった状態情報を含むすべての状態情報の件数nallと、を用いて、例えば下記の式(3)で表現できる。
または、達成難易度には、例えばターゲット行動に促すまでの標準の時間を示す標準達成時間sが含まれていてよい。標準達成時間sが短い被験者は、アダプティブグループに分類される。
標準達成時間sは、ターゲット行動に促すまでの時間を示す達成時間xと、ターゲット行動に促すまでの平均の時間を示す平均達成時間pと、を用いて、例えば下記の式(4)で表現できる。平均達成時間pは、達成時間xの合計を、すべての状態情報の件数nall
で除算することにより算出できる。
で除算することにより算出できる。
なお、極端に達成時間が長い被験者の影響を受けないように、標準偏差を用いて標準達成時間sを算出しているが、標準偏差ではなく平均を用いる平均達成時間pが達成難易度に含まれてもよい。
または、達成難易度には、例えばターゲット行動に促したときの環境情報の項目の数の平均を示す平均環境項目数qが含まれていてよい。この環境情報の項目には、例えば香り、照明、温度、湿度、映像、又は音声などが含まれる。平均環境項目数qが少ない被験者は、アダプティブグループに分類される。例えば、香りにのみ影響される被験者は、香りと温度の両方でなければ影響されない被験者に比べて、ターゲット行動に促されやすいといえる。
平均環境項目数qは、ターゲット行動に促した状態情報の件数nと、ターゲット行動に促したときの環境情報の項目の数eと、を用いて、例えば下記の式(5)で表現できる。なお、達成難易度算出部54は、平均ではなく式(4)のように標準偏差を算出してもよい。
平均環境項目数qの算出とあわせて、環境情報の項目の名称が記録されてもよい。例えば行動情報記録部53が、この環境情報の項目の名称を記録することができる。これにより、機械学習システム1は、特定の環境情報に行動変容を促されやすいアダプティブグループを導出することができる。例えば、機械学習システム1は、香りに行動変容を促されやすいアダプティブグループを導出することができる。
なお、達成難易度には、達成率r、標準達成時間s、及び平均環境項目数qのうち少なくとも1つが含まれていればよい。ただし、例えば達成率rのみが達成難易度に含まれている場合よりも、達成率r及び標準達成時間sの両者が達成難易度に含まれている場合の方が、アダプティブグループの導出がより容易になる。
達成難易度について図22を参照しつつ説明する。図22は、本実施形態に係る達成難易度算出部54が算出する達成難易度について説明する図である。図22に示されるとおり、達成難易度に含まれる達成率(AR:Achievement rate)、標準達成時間(SAT:Standard achievement time)、及び平均環境項目数(NKV:Number of key variables)が示されている。
図22Aは、日常的に運動をしていない被験者に対して、「運動をする」というターゲット行動を促したときの達成難易度を示している。大分類に示されるとおり、このターゲット行動に促される被験者は、年齢が20~59歳の男女である。この被験者全体の達成率は30%、標準達成時間は54時間、平均環境項目数は2となっている。
大分類を細分化したものが中分類である。ここでは例として性別に基づいて細分化されている。男性の被験者の達成率は31%、標準達成時間は55時間、平均環境項目数は1となっている。一方で、女性の被験者の達成率は29%、標準達成時間は53時間、平均環境項目数は3となっている。このことから、女性よりも男性の被験者の方が、達成率が高いことがわかる。つまり、達成率に着目すると、男性がアダプティブグループに該当するといえる。
中分類を細分化したものが小分類である。ここでは例として年齢に基づいて細分化されている。一例を挙げると、年齢が20~39歳である男性の被験者グループの達成率は34%、標準達成時間は38時間、平均環境項目数は1となっている。この小分類に示されている4つのグループのうち、このグループが、達成率が最も高く、標準達成時間が最も短く、平均環境項目数が最も少ない。つまり、このグループがアダプティブグループであるといえる。機械学習システム1は、このようにアダプティブグループを導出することができる。このアダプティブグループに対して、「運動をする」というターゲット行動に関連する商品やサービスなどに関する販売促進活動が行われることができる。
図22Bは、過去5年間のうち一度も選挙に行ったことがない被験者に対して、「選挙に行く」というターゲット行動を促したときの達成難易度を示している。小分類に示されている4つのグループのうち、年齢が50~79歳である女性の被験者グループが、達成率が最も高く、標準達成時間が最も短く、平均環境項目数が最も少ない。つまり、このグループがアダプティブグループであるといえる。
このように、機械学習システム1は、達成率、標準達成時間、又は平均環境項目数を算出することにより、アダプティブグループを導出することができる。例えば、機械学習システム1は、「ビールを購入する」というターゲット行動に関して、達成率が80%以上、標準達成時間が3時間以下のアダプティブグループを導出することができる。ビール会社は、このアダプティブグループに対して、新商品の販売開始時に、この新商品の広告宣伝活動を行うことができる。
または、例えば、機械学習システム1は、「テレビジョン放送や動画配信サービスなどの動画を視聴する」というターゲット行動に関して、達成率が90%以上、平均環境項目数が2以下のアダプティブグループを導出することができる。動画サブスクリプションサービスの事業者は、このアダプティブグループに対して、動画サブスクリプションサービスの加入に関する広告宣伝活動を行うことができる。さらには、動画サブスクリプションサービスの加入後も、事業者は、このアダプティブグループに対して、契約の継続を促す広告宣伝活動を行うことができる。
この達成難易度は、ターゲット行動に促すことを繰り返すうちに、その値が変化することがある。このことについて図23を参照しつつ説明する。図23は、本実施形態に係る達成難易度算出部54が算出する達成難易度について説明する図である。
図23Aは、「商品Sを2回以上購入する」というターゲット行動に促すときの達成難易度を示している。なお、このときの達成率については、商品Sを2回購入すれば達成率は100%、商品Sを1回購入すれば達成率は50%としている。
図23Aでは、達成難易度に基づいて被験者が複数のグループに分類されている。例えば第1のグループG1については、被験者の人数が396人、達成率が86%、標準達成時間が67時間、平均環境項目数が2となっている。また、第2のグループG2については、被験者の人数が283人、達成率が62%、標準達成時間が120時間、平均環境項目数が3となっている。この4つのグループのうち、この第1のグループG1及び第2のグループG2が、比較的に達成率が高く、標準達成時間が短く、平均環境項目数が少ない。つまり、この第1のグループG1及び第2のグループG2がアダプティブグループであるといえる。商品Sの販売会社は、このアダプティブグループに対して、商品Sに関するターゲット行動に促すことができる。
続いて、機械学習システム1は、この第1のグループG1及び第2のグループG2に対しては、商品Sに関するターゲット行動に促しつつ、比較的にチャレンジグループである第3のグループG3及び第4のグループG4に対して、別の商品である商品Tに関するターゲット行動に促す。
図23Bは、「商品Tを2回以上購入する」というターゲット行動に促すときの達成難易度を示している。図23Bに示されるとおり、第3のグループG3については、達成率が68%、標準達成時間が258時間、平均環境項目数が3となっている。この4つのグループのうち、この第3のグループG3が、比較的に達成率が高く、標準達成時間が短く、平均環境項目数が少ない。つまり、この第3のグループG3がアダプティブグループであるといえる。
つまり、商品Sのターゲット層を第1のグループG1及び第2のグループG2とし、商品Tのターゲット層を第3のグループG3とすることにより、例えば商品の売上げの向上、又は販売促進活動の効率化などが行われることができる。
[6.本技術の第6の実施形態(機械学習方法)]
本技術の一実施形態に係る機械学習方法は、コンピュータ装置を利用して人の行動とその人の周囲の環境との相関関係を機械学習する方法である。本実施形態に係る機械学習方法について図24を参照しつつ説明する。図24は、本実施形態に係る機械学習方法の手順を示すフローチャートである。図24に示されるとおり、本実施形態に係る機械学習方法は、人の行動に関する状態情報を少なくとも取得すること(ステップS1)と、前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得ること(ステップS2)と、前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定すること(ステップS3)と、を少なくとも含んでいる。
本技術の一実施形態に係る機械学習方法は、コンピュータ装置を利用して人の行動とその人の周囲の環境との相関関係を機械学習する方法である。本実施形態に係る機械学習方法について図24を参照しつつ説明する。図24は、本実施形態に係る機械学習方法の手順を示すフローチャートである。図24に示されるとおり、本実施形態に係る機械学習方法は、人の行動に関する状態情報を少なくとも取得すること(ステップS1)と、前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得ること(ステップS2)と、前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定すること(ステップS3)と、を少なくとも含んでいる。
本実施形態に係る機械学習方法は、第1~4の実施形態に係る技術を利用してもよい。よって、この技術についての再度の説明を省略する。
なお、本明細書中に記載した効果はあくまで例示であって限定されるものではなく、また他の効果があってもよい。
なお、本技術は、以下のような構成をとることもできる。
[1]
人の行動に関する状態情報を少なくとも取得する状態取得部と、
前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る評価部と、
前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する機械学習分類器と、を少なくとも備えている、機械学習システム。
[2]
前記評価部が、
前記ターゲット行動に関するターゲット状態情報と、前記状態情報と、の差分に基づいて報酬を算出し、
前記報酬と、前記環境情報と、前記状態情報と、に基づいて、前記価値関数を算出する、
[1]に記載の機械学習システム。
[3]
複数のターゲット行動情報を含むターゲット状態関連情報を保有する、
[1]又は[2]に記載の機械学習システム。
[4]
前記ターゲット状態関連情報には、時間別ターゲット状態情報及び/又は段階別ターゲット状態情報が含まれている、
[3]に記載の機械学習システム。
[5]
前記環境情報には、香り、照明、温度、湿度、映像、又は音声に関する情報が含まれている、
[1]~[4]のいずれか一つに記載の機械学習システム。
[6]
香り制御部をさらに備えており、
前記香り制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、発生する香りを制御する、
[1]~[5]のいずれか一つに記載の機械学習システム。
[7]
香り付着部をさらに備えており、
前記香り付着部が、前記機械学習分類器が選定した前記環境情報に基づいて、香りを物に付着し、
前記機械学習分類器が、前記環境情報に基づいて、前記香り制御部及び前記香り付着部のいずれが香りを発生させるかを判定する、
[6]に記載の機械学習システム。
[8]
照明制御部をさらに備えており、
前記照明制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、照射する光を制御する、
[1]~[7]のいずれか一つに記載の機械学習システム。
[9]
空気調節部をさらに備えており、
前記空気調節部が、前記機械学習分類器が選定した前記環境情報に基づいて、温度及び/又は湿度を制御する、
[1]~[8]のいずれか一つに記載の機械学習システム。
[10]
映像制御部をさらに備えており、
前記映像制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、表示する映像を制御する、
[1]~[9]のいずれか一つに記載の機械学習システム。
[11]
音声制御部をさらに備えており、
前記音声制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、再生する音声を制御する、
[1]~[10]のいずれか一つに記載の機械学習システム。
[12]
前記価値関数が複数の価値グループに区分けされており、
前記機械学習分類器が、前記複数の価値グループのそれぞれが保有する価値関数を用いる、
[1]~[11]のいずれか一つに記載の機械学習システム。
[13]
複数の状態取得部と、
達成難易度算出部と、をさらに備えており、
前記達成難易度算出部が、複数の状態取得部のそれぞれが取得した前記状態情報に基づいて、前記ターゲット行動に関する達成難易度を算出する、
[1]~[12]のいずれか一つに記載の機械学習システム。
[14]
前記達成難易度には、前記ターゲット行動に促した割合を示す達成率が含まれる、
[13]に記載の機械学習システム。
[15]
前記達成難易度には、前記ターゲット行動に促すまでの標準の時間を示す標準達成時間が含まれる、
[13]又は[14]に記載の機械学習システム。
[16]
前記達成難易度には、前記ターゲット行動に促したときの前記環境情報の項目の数の平均を示す平均環境項目数が含まれる、
[13]~[15]のいずれか一つに記載の機械学習システム。
[17]
人の行動に関する状態情報を少なくとも取得する状態取得部と、
前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る評価部と、
前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する機械学習分類器と、を少なくとも備えている、機械学習装置。
[18]
人の行動に関する状態情報を少なくとも取得することと、
前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得ることと、
前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定することと、を少なくとも含んでいる、機械学習方法。
[1]
人の行動に関する状態情報を少なくとも取得する状態取得部と、
前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る評価部と、
前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する機械学習分類器と、を少なくとも備えている、機械学習システム。
[2]
前記評価部が、
前記ターゲット行動に関するターゲット状態情報と、前記状態情報と、の差分に基づいて報酬を算出し、
前記報酬と、前記環境情報と、前記状態情報と、に基づいて、前記価値関数を算出する、
[1]に記載の機械学習システム。
[3]
複数のターゲット行動情報を含むターゲット状態関連情報を保有する、
[1]又は[2]に記載の機械学習システム。
[4]
前記ターゲット状態関連情報には、時間別ターゲット状態情報及び/又は段階別ターゲット状態情報が含まれている、
[3]に記載の機械学習システム。
[5]
前記環境情報には、香り、照明、温度、湿度、映像、又は音声に関する情報が含まれている、
[1]~[4]のいずれか一つに記載の機械学習システム。
[6]
香り制御部をさらに備えており、
前記香り制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、発生する香りを制御する、
[1]~[5]のいずれか一つに記載の機械学習システム。
[7]
香り付着部をさらに備えており、
前記香り付着部が、前記機械学習分類器が選定した前記環境情報に基づいて、香りを物に付着し、
前記機械学習分類器が、前記環境情報に基づいて、前記香り制御部及び前記香り付着部のいずれが香りを発生させるかを判定する、
[6]に記載の機械学習システム。
[8]
照明制御部をさらに備えており、
前記照明制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、照射する光を制御する、
[1]~[7]のいずれか一つに記載の機械学習システム。
[9]
空気調節部をさらに備えており、
前記空気調節部が、前記機械学習分類器が選定した前記環境情報に基づいて、温度及び/又は湿度を制御する、
[1]~[8]のいずれか一つに記載の機械学習システム。
[10]
映像制御部をさらに備えており、
前記映像制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、表示する映像を制御する、
[1]~[9]のいずれか一つに記載の機械学習システム。
[11]
音声制御部をさらに備えており、
前記音声制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、再生する音声を制御する、
[1]~[10]のいずれか一つに記載の機械学習システム。
[12]
前記価値関数が複数の価値グループに区分けされており、
前記機械学習分類器が、前記複数の価値グループのそれぞれが保有する価値関数を用いる、
[1]~[11]のいずれか一つに記載の機械学習システム。
[13]
複数の状態取得部と、
達成難易度算出部と、をさらに備えており、
前記達成難易度算出部が、複数の状態取得部のそれぞれが取得した前記状態情報に基づいて、前記ターゲット行動に関する達成難易度を算出する、
[1]~[12]のいずれか一つに記載の機械学習システム。
[14]
前記達成難易度には、前記ターゲット行動に促した割合を示す達成率が含まれる、
[13]に記載の機械学習システム。
[15]
前記達成難易度には、前記ターゲット行動に促すまでの標準の時間を示す標準達成時間が含まれる、
[13]又は[14]に記載の機械学習システム。
[16]
前記達成難易度には、前記ターゲット行動に促したときの前記環境情報の項目の数の平均を示す平均環境項目数が含まれる、
[13]~[15]のいずれか一つに記載の機械学習システム。
[17]
人の行動に関する状態情報を少なくとも取得する状態取得部と、
前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る評価部と、
前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する機械学習分類器と、を少なくとも備えている、機械学習装置。
[18]
人の行動に関する状態情報を少なくとも取得することと、
前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得ることと、
前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定することと、を少なくとも含んでいる、機械学習方法。
1:機械学習システム
10:機械学習装置
11:状態取得部
12:評価部
13:記録部
14:機械学習分類器
20:環境制御装置
23:香り制御部
24:照明制御部
25:空気調節部
26:映像制御部
27:音声制御部
30:香り付着部
40:情報通信ネットワーク
50:達成難易度算出装置
51:情報取得部
52:被験者情報記録部
53:行動情報記録部
54:達成難易度算出部
S1:状態情報を少なくとも取得すること
S2:環境情報と、前記状態情報と、を評価して価値関数を得ること
S3:環境情報を選定すること
10:機械学習装置
11:状態取得部
12:評価部
13:記録部
14:機械学習分類器
20:環境制御装置
23:香り制御部
24:照明制御部
25:空気調節部
26:映像制御部
27:音声制御部
30:香り付着部
40:情報通信ネットワーク
50:達成難易度算出装置
51:情報取得部
52:被験者情報記録部
53:行動情報記録部
54:達成難易度算出部
S1:状態情報を少なくとも取得すること
S2:環境情報と、前記状態情報と、を評価して価値関数を得ること
S3:環境情報を選定すること
Claims (18)
- 人の行動に関する状態情報を少なくとも取得する状態取得部と、
前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る評価部と、
前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する機械学習分類器と、を少なくとも備えている、機械学習システム。 - 前記評価部が、
前記ターゲット行動に関するターゲット状態情報と、前記状態情報と、の差分に基づいて報酬を算出し、
前記報酬と、前記環境情報と、前記状態情報と、に基づいて、前記価値関数を算出する、
請求項1に記載の機械学習システム。 - 複数のターゲット行動情報を含むターゲット状態関連情報を保有する、
請求項1に記載の機械学習システム。 - 前記ターゲット状態関連情報には、時間別ターゲット状態情報及び/又は段階別ターゲット状態情報が含まれている、
請求項3に記載の機械学習システム。 - 前記環境情報には、香り、照明、温度、湿度、映像、又は音声に関する情報が含まれている、
請求項1に記載の機械学習システム。 - 香り制御部をさらに備えており、
前記香り制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、発生する香りを制御する、
請求項1に記載の機械学習システム。 - 香り付着部をさらに備えており、
前記香り付着部が、前記機械学習分類器が選定した前記環境情報に基づいて、香りを物に付着し、
前記機械学習分類器が、前記環境情報に基づいて、前記香り制御部及び前記香り付着部のいずれが香りを発生させるかを判定する、
請求項6に記載の機械学習システム。 - 照明制御部をさらに備えており、
前記照明制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、照射する光を制御する、
請求項1に記載の機械学習システム。 - 空気調節部をさらに備えており、
前記空気調節部が、前記機械学習分類器が選定した前記環境情報に基づいて、温度及び/又は湿度を制御する、
請求項1に記載の機械学習システム。 - 映像制御部をさらに備えており、
前記映像制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、表示する映像を制御する、
請求項1に記載の機械学習システム。 - 音声制御部をさらに備えており、
前記音声制御部が、前記機械学習分類器が選定した前記環境情報に基づいて、再生する音声を制御する、
請求項1に記載の機械学習システム。 - 前記価値関数が複数の価値グループに区分けされており、
前記機械学習分類器が、前記複数の価値グループのそれぞれが保有する前記価値関数を用いる、
請求項1に記載の機械学習システム。 - 複数の状態取得部と、
達成難易度算出部と、をさらに備えており、
前記達成難易度算出部が、複数の状態取得部のそれぞれが取得した前記状態情報に基づいて、前記ターゲット行動に関する達成難易度を算出する、
請求項1に記載の機械学習システム。 - 前記達成難易度には、前記ターゲット行動に促した割合を示す達成率が含まれる、
請求項13に記載の機械学習システム。 - 前記達成難易度には、前記ターゲット行動に促すまでの標準の時間を示す標準達成時間が含まれる、
請求項13に記載の機械学習システム。 - 前記達成難易度には、前記ターゲット行動に促したときの前記環境情報の項目の数の平均を示す平均環境項目数が含まれる、
請求項13に記載の機械学習システム。 - 人の行動に関する状態情報を少なくとも取得する状態取得部と、
前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得る評価部と、
前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定する機械学習分類器と、を少なくとも備えている、機械学習装置。 - 人の行動に関する状態情報を少なくとも取得することと、
前記状態情報を取得したときの前記人の周囲の環境に関する環境情報と、前記状態情報と、を評価して価値関数を得ることと、
前記行動をターゲット行動に促すために、前記価値関数を強化学習して、該価値関数が最も高くなるときの前記環境情報を選定することと、を少なくとも含んでいる、機械学習方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/915,353 US20230144616A1 (en) | 2020-04-28 | 2021-01-15 | Machine learning system, machine learning device and machine learning method |
JP2022518600A JP7586174B2 (ja) | 2020-04-28 | 2021-01-15 | 機械学習システム、機械学習装置、及び機械学習方法 |
KR1020227035189A KR20230002390A (ko) | 2020-04-28 | 2021-01-15 | 기계 학습 시스템, 기계 학습 장치 및 기계 학습 방법 |
EP21796215.8A EP4145360A4 (en) | 2020-04-28 | 2021-01-15 | MACHINE LEARNING SYSTEM, MACHINE LEARNING APPARATUS AND MACHINE LEARNING METHOD |
CN202180029984.4A CN115461767A (zh) | 2020-04-28 | 2021-01-15 | 机器学习系统、机器学习设备和机器学习方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-078883 | 2020-04-28 | ||
JP2020078883 | 2020-04-28 | ||
JP2020-116497 | 2020-07-06 | ||
JP2020116497 | 2020-07-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021220556A1 true WO2021220556A1 (ja) | 2021-11-04 |
Family
ID=78331934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/001234 WO2021220556A1 (ja) | 2020-04-28 | 2021-01-15 | 機械学習システム、機械学習装置、及び機械学習方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230144616A1 (ja) |
EP (1) | EP4145360A4 (ja) |
KR (1) | KR20230002390A (ja) |
CN (1) | CN115461767A (ja) |
WO (1) | WO2021220556A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021143988A (ja) * | 2020-03-13 | 2021-09-24 | ソニーグループ株式会社 | 粒子解析システムおよび粒子解析方法 |
US20240281698A1 (en) * | 2023-02-22 | 2024-08-22 | Linda Lee Richter | Apparatus and method for generating tailored user specific encouragement prompts |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028899A (ja) | 2017-08-03 | 2019-02-21 | 株式会社アスコン | 販売促進システム、機械学習装置、機械学習用データ提供装置およびプログラム |
WO2019087854A1 (ja) * | 2017-11-06 | 2019-05-09 | パナソニックIpマネジメント株式会社 | 片付け支援システム、片付け支援方法およびプログラム |
WO2020027174A1 (ja) * | 2018-07-31 | 2020-02-06 | 大日本印刷株式会社 | 機械学習装置、出力装置、出力装置制御システム、出力システム、照明装置制御システム、壁および天井 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140365310A1 (en) * | 2013-06-05 | 2014-12-11 | Machine Perception Technologies, Inc. | Presentation of materials based on low level feature analysis |
WO2018105412A1 (ja) * | 2016-12-07 | 2018-06-14 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
-
2021
- 2021-01-15 WO PCT/JP2021/001234 patent/WO2021220556A1/ja unknown
- 2021-01-15 CN CN202180029984.4A patent/CN115461767A/zh active Pending
- 2021-01-15 US US17/915,353 patent/US20230144616A1/en active Pending
- 2021-01-15 EP EP21796215.8A patent/EP4145360A4/en active Pending
- 2021-01-15 KR KR1020227035189A patent/KR20230002390A/ko unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028899A (ja) | 2017-08-03 | 2019-02-21 | 株式会社アスコン | 販売促進システム、機械学習装置、機械学習用データ提供装置およびプログラム |
WO2019087854A1 (ja) * | 2017-11-06 | 2019-05-09 | パナソニックIpマネジメント株式会社 | 片付け支援システム、片付け支援方法およびプログラム |
WO2020027174A1 (ja) * | 2018-07-31 | 2020-02-06 | 大日本印刷株式会社 | 機械学習装置、出力装置、出力装置制御システム、出力システム、照明装置制御システム、壁および天井 |
Non-Patent Citations (1)
Title |
---|
YAMAZAKI, ATSUHIRO : "Complex- valued reinforcement learning in sequentially- partitioned problem space", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. J94-D, no. 5, 1 May 2011 (2011-05-01), JP, pages 872 - 880, XP009531936 * |
Also Published As
Publication number | Publication date |
---|---|
EP4145360A4 (en) | 2023-10-18 |
CN115461767A (zh) | 2022-12-09 |
US20230144616A1 (en) | 2023-05-11 |
KR20230002390A (ko) | 2023-01-05 |
EP4145360A1 (en) | 2023-03-08 |
JPWO2021220556A1 (ja) | 2021-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220261853A1 (en) | Providing targeted content based on a user's preferences | |
RU2646367C2 (ru) | Определение будущего участка представляемой в данный момент медийной программы | |
US11077860B2 (en) | Embedded in-vehicle platform for providing immersive user experiences | |
CN113271480A (zh) | 用于提供定制的娱乐内容的计算机处理方法和系统 | |
JPWO2015016094A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
US20190384746A1 (en) | Information processing device, information processing method, and program | |
WO2021220556A1 (ja) | 機械学習システム、機械学習装置、及び機械学習方法 | |
JP7424766B2 (ja) | サーバシステム、自動購入システム及び購入サービス提供方法 | |
Dalgic et al. | Utilizing consumer psychology in business strategy | |
US20220027929A1 (en) | System and method of identifying audience demographics and delivering relative content to audience | |
JP2009276377A (ja) | 広告提供方法、広告提供装置及び広告提供プログラム | |
JP2022551217A (ja) | 広告を提供するための方法とシステム | |
Babin et al. | Oh yeah, I remember that store! Memory, experience, and value | |
JP7586174B2 (ja) | 機械学習システム、機械学習装置、及び機械学習方法 | |
World Health Organization | Global youth tobacco survey (GYTS) Timor-Leste 2019 | |
VanDerslice | How female online businesses and brands are using Instagram stories | |
Ott | Time‐value economics: competing for customer time and attention | |
Yarimoglu | Online customer experience | |
Han | The Effects of Scarcity Message on Sales Promotions Based on Self-Monitoring Levels in T-Commerce. | |
Hartmoyer | Sound Priming in Marketing: The Influence of Sound on Consumer Behavior in a Retail Environment | |
Gupta | AN ANALYSIS OF NEW MEDIA AND OTHER IMC OPTIONS | |
Vaccaro | In-store music's influence on consumer responses: the development and test of a music-retail environment model | |
Sakhanenko | Modern Marketing Management Techniques for Generations X, Z, and Y in the Hospitality Industry: the case of the Rixos Hotels chain | |
Carazo Barbero | Business plan–entrepreneurship | |
Karlsson | How virtual reality can be used in the tourism industry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21796215 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022518600 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2021796215 Country of ref document: EP Effective date: 20221128 |