強化学習

このタグでブログを書く

言葉の解説

ネットで話題

強化学習

(サイエンス)

【きょうかがくしゅう】

(英) Reinforcement Learning の訳語。

試行錯誤に基づく教師なし機械学習の一種。心理学における条件付けと考えると分かりやすい。

学習するエージェントは、あるタスクを達成するために行動する。その中で、環境から随時、報酬（あめとむち）を受け取る。エージェントはこの報酬の合計を最も多くもらえるように行動の価値を更新していく。最終的に、エージェントは報酬の合計が最も多くもらえる、すなわちタスクを達成できる行動が何かを学習する。

状態の価値を表す状態価値関数、もしくは、状態と行動の組み合わせの価値を表す行動価値関数を学習し、関数の値が最大となる行動をグリーディーに選択していく。報酬自体は、ゴールに着いたときなど、ある特定のタイミングでしかもらえないが、状態価値関数や行動価値関数では、その時点以降、累計してどれくらいの報酬がもらえるかという期待値に基づいて関数の値を決める。そのため、状態価値関数や行動価値関数に基づいてグリーディーに行動しても、合計報酬を最大化した行動になる。

強化学習の学習アルゴリズムの一つであるTD学習は、古典的な人工知能での全解探査法である動的計画法とシミュレーション計算手法で有名なモンテカルロ法の特徴をあわせ持つ。

状態価値関数や行動価値関数は、全ての状態・行動の組み合わせを離散的に表で管理することもできるが、線形基底関数モデルや非線形モデル（ニューラルネットワークなど）に基づいて、連続関数として表現することもできる。

TD学習は、方策空間内の最急降下法と似た学習方法であり、最大解ではなく、収束しても、局所解に収束する。そのため、方策空間の最大解を直接探索し、最適化問題を解く方法もある。

代表的な強化学習の学習手法には

動的計画法
モンテカルロ法
TD学習（時間的差分学習）
- Sarsa
- Q学習
- アクター・クリティック手法
- R学習
- Profit Sharing
方策空間の直接探索

などがある。

応用例としては

ゲームAI（バックギャモン）
ロボットの行動制御（ロボサッカーや2足歩行制御など）
タスクスケジューリング
チャンネル割り当て

など。

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

フレクトのクラウドblog re:newal•1ヶ月前

フレクト研究開発室からIBIS2024に参加しました

こんにちは．研究開発室の牧野と北村です．研究開発室においてOperations Research (OR)のビジネス活用について研究を行っております．さて，先日の2024年11月4日~7日にかけて第27回情報論的学習理論ワークショップ (IBIS2024)が大宮にて開催されました．そこで行われたポスターセッションにおいてフレクト研究開発室から1件のポスター発表をさせていただきました．そこで，本稿では我々の発表内容，IBISの様子などについてお伝えできればと思います.

#オペレーションズ・リサーチ#組合せ最適化#強化学習#機械学習#IBIS2024

ネットで話題

525ブックマークゼロからDeepまで学ぶ強化学習 - Qiita

qiita.com

409ブックマーク機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS

s0sem0y.hatenablog.com

396ブックマーク深層強化学習アルゴリズムまとめ

qiita.com

384ブックマーク深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉

blog.takuya-andou.com

374ブックマークゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement Learning

www.slideshare.net

372ブックマーク誰でもわかる強化学習

speakerdeck.com

334ブックマーク ChatGPT�人間のフィードバックから強化学習した対話AI

speakerdeck.com

328ブックマーク分散深層強化学習でロボット制御 - Preferred Networks Research & Development

tech.preferred.jp

308ブックマークこれさえ読めばすぐに理解できる強化学習の導入と実践

deepage.net

関連ブログ

どこから見てもメンダコ•2ヶ月前

サンプル効率強化学習①：Bigger, Better, Fasterの実装

たった２時間のゲームプレイで人間相当性能に到達可能なサンプル効率の高い強化学習手法 ”Bigger, Better, Faster”を実装します。背景：強化学習実用の課題は劣悪なサンプル効率強化学習におけるサンプル効率向上アプローチ評価指標： Atari-100Kベンチマーク ①リセット法によるリプレイ率の増大 ②環境シミュレータ（世界モデル）のデータ駆動構築 Bigger Better Faster: BBF (2023) 手法解説 SPR(2020) SR-SPR (2022) Bigger, Better, Faster (2023) Tensorflow2による実装 A. リセ…

#強化学習

Django Girls and Boys 備忘録•3ヶ月前

【Unity】ML-Agentsにおけるエピソード完了

Unity ML-Agentsでは、エピソードの完了を定義することで、エージェントがどのタイミングで学習をリセットするかを制御できます。エピソードは次の2つの主な方法で完了します。１． EndEpisode関数でのエピソード完了 EndEpisode() 関数は、エージェントが特定の条件を満たした場合にエピソードを終了させたいときに使用します。例えば、エージェントが目標に到達したり、衝突した場合に呼び出されます。以下は、エージェントが特定の条件を満たした際にエピソードを終了するサンプルコードです。 public override void OnActionReceived(ActionB…

#EndEpisode#MaxStep#Max Step#エピソード完了#エピソード#強化学習#機械学習#Unity#ML-Agents

誰かの技術置き場•4ヶ月前

Pythonで三目並べ対戦GUIを作ってみた

お疲れ様です。「三目並べ」、いわゆる「〇×ゲーム」の対戦GUIをPythonで作ったので簡単に紹介します。 GUIのイメージ背景作成ソースコード所感背景元々は会社の技術系の勉強会で三目並べのAIを作ったことが始まりです。教化学習の手法の1つであるQ学習を適用して作成したAIとMiniMax法を使ったルールベースの方法の両方を作成していました。 Q学習の方は下記のサイトのソースコードを使用しました。 Q学習の仕組みについても下記のサイトは非常に参考になりました。 qiita.com なお、MiniMax法に関してはChatGPTに元となるソースコードを作ってもらったので参考サイト…

#Python#機械学習#強化学習#wxPython

魂の雑嚢•4ヶ月前

両利きの経営と強化学習の共通性

ビジネスの世界において、「両利きの経営」という概念が注目を集めている。一方で、人工知能の分野では「強化学習」が重要な技術として発展を続けている。一見すると無関係に思えるこの2つの概念だが、実は類似性が多いことに気づいた。 1. 両利きの経営とは両利きの経営（Ambidextrous Organization）とは、既存事業の効率化（活用：Exploitation）と新規事業の探索（探索：Exploration）を同時に追求する経営戦略のことを指す。この概念は、短期的な収益と長期的な成長のバランスを取ることの重要性を強調している。1990年代に経営学の分野で注目され始め、現在では多くの企業がそ…

#強化学習#両利きの経営#データサイエンス#人工知能

フレクトのクラウドblog re:newal•6ヶ月前

組合せ最適化問題の解法に強化学習を応用する

こんにちは. 研究開発室の牧野*1です. Operations Research (OR)のビジネス活用について研究を行なっています. 本稿ではORの文脈で現れる組合せ最適化問題 (Combinatorial Optimization, CO)の解法として強化学習(Reinforcement Learning, RL)を応用する研究分野(Neural Combinatorial Optimization, NCO)について紹介します. また, この分野の研究をまとめたライブラリであるRL4COを使用して簡単なデモを行います. 本稿の構成は次の通りです. *1:2022年度新卒入社. 学生時代は…

#オペレーションズ・リサーチ#強化学習#組合せ最適化#機械学習#深層学習

NezumiNoKuni’s blog•10ヶ月前

Imitationによる報酬関数の可視化

概要 Imitationを使って、報酬関数の可視化を行いました。 https://imitation.readthedocs.io/ Center for Human-Compatible AI, ver 1.0 背景 GAILは、生成的敵対ネットワーク（Generative Adversarial Networks, GANs）の概念を応用して、専門家のデモンストレーションから、専門家の振る舞い(policy)を模倣するGeneratorと、専門家の行動とエージェントの行動を区別するDiscriminatorとの間で敵対的な学習を行います。逆強化学習はこのDiscriminatorからは、…

#逆強化学習#強化学習

Ai-Japanの日記•1年前

AIの進化と社会への影響

1. AIの進化の歴史 AI（人工知能）の進化は、1950年代にアラン・チューリングやジョン・マッカーシーなどの研究者によって始まりました。初期のAIのアプローチは、シンボリックAIとして知られており、人間の論理的な推論や問題解決能力を模倣しようとしました。この時期の代表的なプログラミング言語としては、LISPやPrologがあります。しかし、シンボリックAIは計算能力の制約や知識表現の複雑さにより、限界がありました。その後、1980年代には専門家システムや知識ベースのアプローチが広く採用されましたが、実用的な成功例は限られていました。 2000年代に入り、機械学習の発展がAIの進化を大きく…

#AIの進化#人間とAIの共存#仕事の自動化#強化学習#スキルの再編成#教育の重要性#倫理的な問題#技術の未来#労働市場の変化#AI

Megurecaのブログ•1年前

『ストレスフリーな脳になるご機嫌脳活ルーティン』 by　茂木健一郎

ストレスフリーな脳になるご機嫌脳活ルーティン茂木健一郎Gakken 2021年4月27日第1刷発行図書館で茂木健一郎で検索していたら出てきた本。表紙では茂木さんが踊っている。。。。そしてピンクの文字。なんとも、、、軽い感じ。表紙の裏には、” 毎日の生活にルーティンを取り入れて「自粛ストレス」に負けない、プルンプルンの健康脳になりましょう！”とある。中表紙もピンク。。。長引く新型コロナウイルスで自粛が続く中、ストレスを解放しよう！ということで出版された一冊らしい。はじめに、の茂木さん説明によれば、”日々の生活の中にルーティンを取り入れ、毎日決まった動作を続…

#ストレスフリーな脳になる#ご機嫌脳活ルーティン#茂木健一郎#Gakken#読書#デフォルトモードネットワーク#ストレス#無意識#強化学習

AIとファイナンス•1年前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その5】

はじめに強化学習において、報酬設計はエージェントの学習プロセスと行動選択に大きな影響を与えます。今回の記事では、株価予測システムにおける報酬設計の戦略について詳しく見ていきます。実は当初は単純に日経225をロング、またはショートした日は単純にその日の値幅が報酬＝ペナルティとなるような設計にしていました。その結果常に「何もしない」を選択してしまうエージェントが出来てしまったので以下のように手を桑てみました。報酬設計の理由株価の動きに基づく報酬: ロングとショートの両方の行動に対して、株価の変動を基に報酬を与えます。これにより、エージェントは市場の動向を正確に予測することで報酬を最大化する…

#日経225#強化学習#Python

テヘラニのアウトプット•1日前

AIモデルとは？初心者にもわかる仕組みと未来図

AIモデルとはこんにちは、「生成AIについて日本一発信している人」（大嘘）テヘラニです。今回は「AIモデル」について書いていこうと思います。その前にすこし余談になってしまいますが、実は今私は“12週間チャレンジ”と題して、12週間で10本記事を書くという目標に取り組んでいます。これで2本目なのですが、すでに「進捗、大丈夫か？」と自問自答する日々です（笑）。とはいえ遅れをとっている場合ではないので、ここはAIの力も借りていきながら進めていこうと思います。さて、こんな風にAI（人工知能）がビジネスやクリエイティブの現場で活躍する時代。その基盤を支えているのがなにかご存じですか？それは『A…

ABEJA Tech Blog•1日前

Qwen2.5 Technical Reportの中に潜る

ABEJAでデータサイエンス部の部長をしながら色々やっている大谷です。今回は2024年12月19日に公開された待望のQwen2.5 Technical Reportについて日本語に翻訳しつつ、適宜コメントを入れていく記事を書いていこうと思います。コメントはですます口調で記述しています。先にネタバレですが、Qwen2.5は特別新しい技術を導入しているわけではなく、これまで積み重ねてきた知見を着実に活かして精度を向上させています。この記事では、新しい観点の発見というよりも、これまでの有効な知見を再確認するきっかけにしていただければ嬉しいです。ちなみにこちらの記事はABEJAアドベントカレンダ…

EfficiNet X Tech Blog•2日前

マルチエージェントAI特集② (1/N) Theory of Mind for Multi-Agent Collaboration via LLM

この記事ではLLMがマルチエージェントシステムでどのように応用されうるかを提案した論文を紹介します。心の理論（Theory of Minds）人間はチームワークをするとき、チームメートがどのような状況でどんな行動をどのような意図で行うかを推測します。例えば、サッカー選手は見方がどのような意図で走ったり、ドリブルをしているかを察知しているはずです。味方の意図に合わせて自分の行動（スペースに走ったり、ボールを要求したり）を決めます。逆にパスがつながらなかったときは互いの意図を推測するのに失敗したということです。「他者が何を考えているか」を研究するのは発達心理学などでも研究されてきたことであり（…

TadaoYamaokaの開発日記•2日前

【dlshogi】自動生成された定跡を強化学習に活用する

将棋AIの大会では、2年ほど前から定跡により勝敗が高い確率で決まるという状況になっている。相手の準備していない定跡で嵌めたり、相手が準備した定跡に嵌らないようにするという盤外の戦術が必要になっており、AIの技術的な要素とは別の戦いになっている。この状況に不満を感じているが、大会のルール上、定跡の対策なしには勝てなくなっているため、対策を強いられている。手動で定跡を作成しているチームが多い中、「手動で作成するのはAIの大会ではない」という考えを持っているので、dlshogiは定跡も自動生成で行っている。dlshogiの定跡作成の手法の概要は、第34回世界コンピュータ将棋選手権の詳細アピール文書…

SEが最近起こったことを書くブログ•3日前

2024年12月16日の週に気になった記事などまとめ

企業パワポテンプレを M365 Copilot in PowerPoint に最適化させる仮説のマップ・ループ・リープ読書習慣をサポートするWebサービス「Tsundoku」をリリースしました！！請求書から漫画まで！OCR+LLMで進化する文書データ構造化技術 LLMが複雑な指示に従うか、かつ回答が役に立つかを評価する ELYZA-tasks-100 から数件を Gemini 2.0 Flash に解かせる LLMを味方につけた文章執筆術 - 執筆から校正までの実践的アプローチ【Ignite 2024 最新】Azure AI Agent Service によるエージェントの高速開発メモ…

水たまり•3日前

VLAなど

最近いろいろ考えていると、結局、計算資源貧者としては、既存のものをFine-Tuningするということになるのだろうなぁと感じる。そうなるとVision-and-Languageモデルから派生して行動を取れるようにする、Vision-Language-Actionモデルとして使うのが一番実践的になるのだろう。そのあたりについていくらか論文を見てみた。論文1 : [2406.09246] OpenVLA: An Open-Source Vision-Language-Action Model 7Bパラメータのモデルでロボットマニピュレーションタスクに調整する。VLMの初期値としてはPris…

ITと哲学と•3日前

OpenAI「12 Days of OpenAI」で発表されたAIの進化：その全貌と未来への展望

Geminiで12 Days of OpenAIの内容をレポートしてもらいつつ、ちょっと補足を入れた。 OpenAI「12 Days of OpenAI」で発表されたAIの進化：その全貌と未来への展望 OpenAIは、2024年12月5日から12月16日までの12日間、「12 Days of OpenAI」と題したイベントを開催し、AI技術の進化を象徴するような新製品や機能を次々と発表しました。このイベントは、AI業界に大きな衝撃を与え、今後のAI開発の方向性を示唆するものとなりました。特に、OpenAIは「推論」に焦点を当て、oシリーズモデルでこの分野の限界を押し広げています。本レポートでは…

Rのぼやき•3日前

【わかりやすく解説！】機械学習とディープラーニングの違い

こんにちは！今回は機械学習とディープラーニングの違いについてお話ししますでは早速いってみましょう！機械学習とディープラーニングの違い機械学習とは？ディープラーニングとは？まとめ機械学習とディープラーニングの違い機械学習とディープラーニングの違いをお話しする前に、まず理解いただきたいことがありますそれは、機械学習とディープラーニングはそもそも並列関係ではなく、機械学習の学習方法の一つがディープラーニングであるということですおそらくこれが混同してしまう原因ではないかと思います上記を理解するために、まずは機械学習とディープラーニングについてそれぞれ説明します機械学習とは？…

memorandums•3日前

pipenvでgym[box2d]をインストールするとCouldn't install package: [1m{}[0mというエラーが出る件

明日、年内最後のゼミがあり、最後は私の担当としたので先日購入した本を少し説明しようかと準備しはじめた。 OpenAI Gym / Baselines 深層学習・強化学習人工知能プログラミング実践入門作者:布留川英一ボーンデジタルAmazon この書籍１・２章はセットアップとPythonの振り返りなのでほぼ読み飛ばしてよい感じ。本番は３章から。もう何度やったかわからない環境セットアップ手順。以下、Macで。pyenvとpipenvは導入済みであること。またMacでもM1以降であることを想定している。本書ではPython3.6推奨だけど、M1では動作しないので3.8を使う。嫌な予感しかし…

Engineer's Digest•3日前

2024/12/22 #46 - 今日の技術情報ダイジェスト

学校向けウェブサイトのセキュリティ対策：Cloudflare Turnstileの代替案 Mirage-ECSによるECS環境のブランチ別構築 UnityとDifyを用いたAIエージェント開発 ChatGPT o1 pro modeの性能評価と比較ユーザー名を含むURL設計におけるベストプラクティス Googleの反トラスト法訴訟とChrome標準搭載見直し OpenAIの新AIモデルo3およびo3-mini発表 EUによるAppleへの相互運用性向上要求 OpenAIのAIモデルo3とo3-miniの詳細 QualcommとArmのチップライセンス訴訟と判決 Netflixの推薦＆検索シス…

fenfenkunの日記•3日前

OpenAI o1の強化学習手法についての解説 — RLHFとPRMの融合による高精度推論

OpenAIが開発した「o1モデル」は、従来の大規模言語モデル（LLM）を超える高度な推論能力と安全性を備えた次世代モデルとして注目されています。本記事では、o1モデルの強化学習手法、特に人間のフィードバックを活用した強化学習（RLHF）とプロセス報酬モデル（PRM）の組み合わせについて詳しく解説いたします。 1. はじめに o1モデルは、内部で思考の連鎖（Chain-of-Thought, CoT）を活用し、回答の精度、一貫性、安全性を向上させています。この「考えてから答える」仕組みにより、複雑な質問への対応や安全ポリシーの厳密な遵守が可能となっています。 2. 強化学習の手法強化学習にお…

EfficiNet X Tech Blog•4日前

マルチエージェントAI特集① COMAアルゴリズム

MathJax.Hub.Config({ tex2jax: { inlineMath: [['$', '$'] ], displayMath: [ ['$$','$$'], ["\\[","\\]"] ] } }); この記事ではマルチエージェント深層学習の初期のアルゴリズムであるCOMAアルゴリズムを紹介します。元の論文はFoerster et al. Counterfactual Multi-Agent Policy Gradients. AAAI, 2018.です。導入 TD法と方策勾配法について復習します。 TD法強化学習で頻繁にマルコフ過程は仮定します。となれば, ある状態の…

EfficiNet X Tech Blog•4日前

マルチエージェント深層強化学習

ここではざっくりマルチエージェントAIについて紹介したいと思います。導入マルチエージェントシステムまずマルチエージェントシステムについて紹介します。マルチエージェントシステムとは複数のロボット（あるいは人）がそれぞれ自律的に意思決定し、相互に影響を及ぼし合うようなシステムのことです。ロボット（エージェント）が複数（multiple）いるからマルチエージェントという名前がついています。例えば、サッカーは11エージェントvs11エージェントのスポーツと言えます。人間はトレーニングを積んでいくと、チームメートの動きを見て自分がどう動けばいいかを自律的に判断できるようになります。例えば、どこら…

memorandums•6日前

Dゼミの現在地

数ヶ月前に今さらだけどDonkeyCarに興味を持ち出し、ゼミ生有志を募って勉強会を始めました。 Donkey Car 毎週、月曜日の２，３限のゼミのあと、４限（15:00〜16:30）の１時間だけ活動してきました。ちなみに最初に思い立ったときの成功イメージは、学術的なことは置いておいてみんなでDonkeyCarの実機でレースをして楽しんでいる、でした。しかし、現実はそう甘くなかったのでした。。。💦 memorandums.hatenablog.com まずやったのが、DonkeyCarの実行環境の整備とシミュレータの稼働でした。そもそもあまりPythonをまじめに使っていなかったのでpye…

赤帽エンジニアブログ•9日前

OpenShift AIでマルチノードのLLM推論を試す

こんにちは、Red Hatでソリューションアーキテクトをしている石川です。先日OpenShift AIのバージョン2.16がリリースされました。現在OpenShift AIは非常にハイペースでリリースが行われており、約1ヶ月に一度のペースで機能アップデートが行われています。12月にリリースされたバージョン2.16についても多くの機能が追加されており、その中の一つとしてマルチノードでLLMの推論を行う機能がTech Previewとして追加されました。 docs.redhat.com LLMの推論を行う上で大事な要素として、どれだけのGPUのVRAM（メモリ）を利用できるかがあります。例えば…

関連ブログ

フレクト研究開発室からIBIS2024に参加しました

ネットで話題

関連ブログ

サンプル効率強化学習①：Bigger, Better, Fasterの実装

【Unity】ML-Agentsにおけるエピソード完了

Pythonで三目並べ対戦GUIを作ってみた

両利きの経営と強化学習の共通性

組合せ最適化問題の解法に強化学習を応用する

Imitationによる報酬関数の可視化

AIの進化と社会への影響

『ストレスフリーな脳になる ご機嫌脳活ルーティン』 by 茂木健一郎

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その5】

AIモデルとは？初心者にもわかる仕組みと未来図

Qwen2.5 Technical Reportの中に潜る

マルチエージェントAI特集② (1/N) Theory of Mind for Multi-Agent Collaboration via LLM

【dlshogi】自動生成された定跡を強化学習に活用する

2024年12月16日の週に気になった記事などまとめ

VLAなど

OpenAI「12 Days of OpenAI」で発表されたAIの進化：その全貌と未来への展望

【わかりやすく解説！】機械学習とディープラーニングの違い

pipenvでgym[box2d]をインストールするとCouldn't install package: [1m{}[0mというエラーが出る件

2024/12/22 #46 - 今日の技術情報ダイジェスト

OpenAI o1の強化学習手法についての解説 — RLHFとPRMの融合による高精度推論

マルチエージェントAI特集① COMAアルゴリズム

マルチエージェント深層強化学習

Dゼミの現在地

OpenShift AIでマルチノードのLLM推論を試す

『ストレスフリーな脳になるご機嫌脳活ルーティン』 by　茂木健一郎

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その5】