[B! LLM] oinumeのブックマーク

GitHub - langgenius/dify: Dify is an open-source LLM app development platform. Dify's intuitive interface combines AI workflow, RAG pipeline, agent capabilities, model management, observability features and more, letting you quickly go from prototype to p

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

oinume 2024/05/10

リンク

https://pypi.org/project/llm/

oinume 2024/02/14

リンク

LLM 大規模言語モデル講座 2023コンテンツ - 東京大学松尾・岩澤研究室（松尾研）- Matsuo Lab

2023年度のLLM大規模言語モデル講座のコンテンツ公開は終了しました。現在2024年度の受講生を募集しておりますので、LLM講座の受講をご検討下さい。最終更新: 2024年8月7日 LLM 大規模言語モデル講座 2024 開講のお知らせ昨年2,000名が受講した松尾研LLM講座を今年も開講します！［講座詳細］https://weblab.t.u-tokyo.ac.jp/education/large-language-model/ 松尾研究室からのお知らせ 2024年度大規模言語モデル講座詳細はこちらをご覧ください。メンバー募集のお知らせ松尾研究室では複数のLLMに関する開発プロジェクトを推進しており、一緒に働いてくれる仲間を募集しています!! LLM研究者（特任研究員・特任助教・特任講師） [1] 効率的なLLMの学習方法に関する研究 [2] LLMの動作原理の理解 [

oinume 2023/12/28

LLM
learning

リンク

AWS 内で大規模言語モデルを利用できる Amazon Bedrock を使って作る RAG アプリケーション - クックパッド開発者ブログ

こんにちは。機械学習グループの深澤(@fukkaa1225)です。先日、Amazon Bedrock が一般利用できるよう(GA)になりました。本記事ではこちらを用いて RAG(Retrieval-augmented generation) アプリケーションを作成してみた様子と、他 LLM モデルとの比較結果についてご紹介します。 Amazon Bedrock とは aws.amazon.com 公式サイトより文言を引用します。 Amazon Bedrock は、Amazon や主要な AI スタートアップ企業が提供する基盤モデル (FM) を API を通じて利用できるようにする完全マネージド型サービスです。そのため、さまざまな FM から選択して、ユースケースに最も適したモデルを見つけることができます。Amazon Bedrock のサーバーレスエクスペリエンスにより、すぐに FM

oinume 2023/10/21

AWS
LLM

リンク

エンジニアはLLMとどう付き合うか / How engineer get along with LLM

2023/7/24のDevelopersIO 2023 福岡での登壇資料です。 https://classmethod.connpass.com/event/286634/

oinume 2023/07/24

LLM

リンク

これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)｜shi3z

導入　本当に革命的な技術なのか? 「君たちはどう生きるか」で驚いている間にすごい論文が世界の話題を掻っ攫っていた。その名も「ReLORA」簡単に言えば、「事前学習にLoRAを使う」というものである。これは本当に革命的な発見かもしれないので、僕の仮説も含めて丁寧に説明する。まず、大前提として、「LoRA」という技術について LoRAは、「Low Rank Adaptation(日本語で言うとすれば低階適応)」という技術で、これまでは主にファインチューニングに使われてきた。ファインチューニングとは、あらかじめ学習されたニューラルネットワークに対して追加で学習させ、概念を強調させたり新しく覚えさせたりする。たとえば、僕の顔でStableDiffusionをファインチューニングすれば、僕みたいな顔の絵がどんどん出てくる。言語モデルにおけるLoRAも同様で、新しい概念や「こういうやりとり

oinume 2023/07/15

LLM

リンク

CyberAgent社の日本語LLM OpenCALMの対話モデル用途のfinetune検証 - ACES エンジニアブログ

こんにちは、ACESでアルゴリズムエンジニアとして働いている檜口です。最近はChatGPTを始めとする言語モデルの研究開発やプロダクト改善に取り組んでいます。昨年末のChatGPTのリリース以降、大規模言語モデル（large language model, LLM）の社会実装が急速に進んできています。弊社でも商談解析AIツールACES MeetにLLMを組み込むなど、LLMの活用を広げています。こちらに関してはLLMを活用したAIまとめ機能リリースの裏側について過去記事を書いてありますのでご興味ある方はぜひご覧ください。 tech.acesinc.co.jp LLMはOpenAIのChatGPTが最も有名ですが、最近はオープンソースでモデルを開発する流れも活発になっています。特に、英語で学習したオープンソースモデルはMeta社のリリースしたLlamaを始めとして非常に強力なものがリリース

oinume 2023/05/20

LLM

リンク

GitHub - nomic-ai/gpt4all: GPT4All: Run Local LLMs on Any Device. Open-source and available for commercial use.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

oinume 2023/05/06

LLM
OSS

リンク

無料・商用利用可なオープンソースの大規模言語モデル Dolly 2.0(dolly-v2-12b) を試してみた - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

oinume 2023/04/15

めちゃくちゃ返答遅い。２分ぐらいかかってる？

LLM

リンク

日本語Alpacaデータを用いてJapanese-Alpaca-LoRAを作ったので公開します【期間限定デモページあり】｜kun1emon

⚠️注意今回公開するのはLoRAを用いて作成したLLaMAの日本語化Adapterでありモデル自体ではありません。 LoRAをマージするベースのLLaMAは商用不可であり、今回公開するAdapterで日本語化したモデルも商用利用はできません。 OpneAIの利用規約で、OpenAIサービス、ChatGPTの出力結果を競合モデル開発用途に利用することはできませんコンテンツ生成者はできません。詳細は記事後半で述べていますが利用規約が適用されるのはコンテンツ生成者までです。概要2022年の11月末にOpenAIからChatGPTが発表されてから、それに追随するようにGoogleからBard、MetaからLLaMAなど大規模言語モデル（LLM）が発表されました。さらにLLaMA 7Bを「text-davinci-003」を用いて「Self-Instruct」で作成された52Kのデータセット（

oinume 2023/04/02

LLM

リンク

完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す｜shi3z

Transf ormerは分散できる代償として計算量が爆発的に多いという不利がある。一度みんなが忘れていたリカレントニューラルネットワーク(RNN)もボケーっとしている場合ではなかった。なんと、GPT3並の性能を持つ、しかも完全にオープンな大規模言語モデルが公開されていた。そのなもRWKV(RuwaKuvと発音しろと書いてある。ルワクフ?) RWKVはRNNなのでGPUメモリをそれほど大量に必要としない。 3GBのVRAMでも動くという。時間がない方はビデオをご覧ください僕の失敗は、何も考えずにgit lfs installでディレクトリごとコピーしようとしたこと。このディレクトリには過去のモデルデータが全部あるので、ひとつ30GBのモデルデータを何十個もダウンロードしようとしていて終わらなかったのだ。モデルデータは一とつあれば十分なのでひとつだけにする。次に、chatのリポ

oinume 2023/04/01

LLM
model

リンク

Stanford Alpaca, and the acceleration of on-device large language model development

Stanford Alpaca, and the acceleration of on-device large language model development 13th March 2023 On Saturday 11th March I wrote about how Large language models are having their Stable Diffusion moment. Today is Monday. Let’s look at what’s happened in the past three days. Later on Saturday: Artem Andreenko reports that llama.cpp can run the 4-bit quantized 7B LLaMA language model model on a 4GB

oinume 2023/03/21

LLM

リンク

最近話題になった大規模言語モデルまとめ｜npaka

最近話題になった大規模言語モデルをまとめました。 1. クラウドサービス1-1. GPT-4「GPT-4」は、「OpenAI」によって開発された大規模言語モデルです。マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。現在、「ChatGPT Plus」(有料版)で制限付きで利用できる他、ウェイトリストの登録者を対象に「OpenAI API」での利用も開始しています。

oinume 2023/03/16

LLM

リンク

Running LLaMA 7B and 13B on a 64GB M2 MacBook Pro with llama.cpp

Running LLaMA 7B and 13B on a 64GB M2 MacBook Pro with llama.cpp See also: Large language models are having their Stable Diffusion moment right now. Facebook's LLaMA is a "collection of foundation language models ranging from 7B to 65B parameters", released on February 24th 2023. It claims to be small enough to run on consumer hardware. I just ran the 7B and 13B models on my 64GB M2 MacBook Pro! I

oinume 2023/03/16

モデルのダウンロード方法含めて手順が丁寧に書いてある。

リンク

LLMがなぜ大事なのか?経営者の視点で考える波の待ち受け方｜福島良典 | LayerX

はじめにLayerXの代表をしています福島と申します。本日はLLM(Large Language Model, 大規模言語モデル)について、なぜ大事なのか?経営者の視点でどうこの波を考えればいいのかについてです。 LLMが今非常に話題になっています。ChatGPTの裏側もこのLLMからできていると言えばわかりやすいでしょうか。私は現在、LayerXという会社を経営しております。LayerXでも多分に漏れず、LLMに対するものすごいワクワクと、この波に対応しないと会社が消えてなくなるという強い危機感を抱いています。私自身が元機械学習エンジニア、現在現役の経営者というキャリアを歩んできました。その立場から、なるべくわかりやすく、LLMの波というものを経営者がどう捉えるべきか、どう波を乗りこなすべきかの一助となればと思い筆を取っています。(機械学習のプロの方からすると、おいおいそれは単純化し

oinume 2023/03/10

とても分かりやすいまとめだった

リンク

世界で開発が進む大規模言語モデルとは（前編） | NTTデータ先端技術株式会社

1. 概要近年、自然言語処理分野において、汎用的な大規模言語モデルの開発が世界中で活発に行われています。「汎用的な大規模言語モデル」とは、大規模なテキストデータを事前に学習し、わずか数例のタスクを与えただけでさまざまな言語処理タスク(文章生成、穴埋め問題、機械翻訳、質問応答など)を解くことができる言語モデルのことです。 (文章生成の汎用的な大規模言語モデルとしては、「GPT-3」が有名ですが、そちらの紹介は以下のコラムで行っておりますので、よろしければご参照ください。) コラム：自然言語処理モデル「GPT-3」の紹介：https://www.intellilink.co.jp/column/ai/2021/031700.aspx こうした中、2022年3月28日に、東京大学松尾研究所発のAI(人工知能)スタートアップである株式会社ELYZA(イライザ)は、キーワードから日本語の文章を生成