macro1597のブックマーク - はてなブックマーク

GPUで高速なモデル推論を実現するために考えること -FlashAttentionはなぜ高速か- - エムスリーテックブログ

こちらはエムスリー Advent Calendar 2024 17日目の記事です。 AI・機械学習チームの髙橋です。チームでは先週からNeurIPS読み会が開催されており、"Deep Learning Architecture, Infrastructure"という深層学習のアーキテクチャに関するセッションを担当しました。その中でも興味深い一本として"You Only Cache Once: Decoder-Decoder Architectures for Language Models"という論文を勉強会まとめブログで紹介してます。 www.m3tech.blog この論文ではLLMの推論時に用いられるKey Value Cacheという仕組みに着目してGPUメモリの占有量やスループットを大幅に向上させるアーキテクチャを提案していました。非常にモデルが大規模化した昨今、この論文のように

macro1597 2024/12/18

リンク

Ilya Sutskever: "Sequence to sequence learning with neural networks: what a decade"

Ilya Sutskever full talk "Sequence to sequence learning with neural networks: what a decade" at NeurIPS 2024 in Vancouver, Canada. "Pre-training as we know it will end" and what comes next is superintelligence: agentic, reasons, understands and is self aware. NeurIPS 2024 — 2024 Conference on Neural Information Processing Systems.

macro1597 2024/12/15

リンク

Gemini 2.0 の 3D Spatial Understanding を試す｜npaka

「Gemini 2.0」の「3D Spatial Understanding」を試したのでまとめました。・Pointing and 3D Spatial Understanding with Gemini 2.0 (Experimental) 1. 3D Spatial Understanding「3D Spatial Understanding」(3次元空間認識) は、2D画像や動画から、現実世界の3次元空間を理解する能力や技術のことです。【注意】3Dバウンディングボックスは実験段階です。精度を高めるには 2Dバウンディングボックスを使用してください。 2. Gemini API の準備「Google Colab」で Gemini API を準備する手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -U -q goo

macro1597 2024/12/15

リンク

LLMには"Super Weights"があるという話と、現実のヒトの脳との関連性を考えてみる - 渋谷駅前で働くデータサイエンティストのブログ

X (Twitter)を眺めていたら、面白そうな論文が流れてきました。それがこちらです。実際に流れてきたのはこちらの紹介記事なんですが、その要約を読んだ限りでもなかなかに興味深い現象であるように思われます。ということで、何番煎じかもはや分かりませんがこのブログでも備忘録的に取り上げてみようと思います。が、ただそれだけでは面白くないので、この論文を読んで僕が個人的に考えた「現実のヒトの脳との関連性」についても論じてみることにします。論文の概要 LLMの"Super Weights"の役割 "Super Weights"はデータ入力をせずとも特定できる "Super Weights"がLLMの量子化に果たす意義現実のヒトの脳との比較マクロに見れば「似ている」知覚・認知機能に絞って見れば「異なる」コメントなど論文の概要基本的には冒頭にリンクしたまとめ記事でも紹介されている通りで

macro1597 2024/12/14

リンク

GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog

この記事はenechain Advent Calendar 2024の14日目の記事です。はじめにこんにちは。enechainで統計・機械学習モデルの構築やLLM（大規模言語モデル）の活用推進を担当している@udon_tempuraです。私達のチームでは、以前紹介した会議動画要約のノウハウを活用し、社内用の動画・音声文字起こしツールを構築・運用しています。本記事では、その精度向上の仕組みについて紹介します。実装も比較的少なく実現できたため、セキュリティなどの関係により内製で文字起こしを構築している方々の参考になれば幸いです。はじめに背景と課題システム要件システム実装アーキテクチャ入力データ形式ドメイン固有用語の管理処理フロー Cloud Speech-to-Textによる文字起こし Gemini 1.5 Flashによる認識処理 Gemini 1.5 Proによ

macro1597 2024/12/14

リンク

型安全かつシンプルなAgentフレームワーク「PydanticAI」の実装を解剖する - ABEJA Tech Blog

はじめにこちらはABEJAアドベントカレンダー2024 12日目の記事です。こんにちは、ABEJAでデータサイエンティストをしている坂元です。最近はLLMでアプローチしようとしていたことがよくよく検証してみるとLLMでは難しいことが分かり急遽CVのあらゆるモデルとレガシーな画像処理をこれでもかというくらい詰め込んだパイプラインを実装することになった案件を経験して、LLMでは難しそうなことをLLM以外のアプローチでこなせるだけの引き出しとスキルはDSとしてやはり身に付けておくべきだなと思うなどしています（LLMにやらせようとしていることは大抵難しいことなので切り替えはそこそこ大変）。とはいうものの、Agentの普及によってより複雑かつ高度な推論も出来るようになってきています。弊社の社内外のプロジェクト状況を見ていても最近では単純なRAG案件は減りつつあり、計画からアクションの実行、結果

macro1597 2024/12/13

リンク

Reinforcement Learning: An Overview

This manuscript gives a big-picture, up-to-date overview of the field of (deep) reinforcement learning and sequential decision making, covering value-based RL, policy-gradient methods, model-based methods, and various other topics (including a very brief discussion of RL+LLMs).

macro1597 2024/12/12

リンク

Google怒涛の新作AI発表。1位獲得の言語AI「Gemini-Exp-1206」、画像1枚からプレイ可能な3Dゲーム生成AI「Genie 2」、動画生成AI「Veo」、高性能天気予報AI「GenCast」など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

OpenAIは、ChatGPTの新しい有料プラン「ChatGPT Pro」を発表しました。価格は月額200ドルで、最高レベルの「OpenAI o1」を含むすべてのモデルを無制限で使用することができます。

macro1597 2024/12/11

Geminiは扱えるトークン数が200万トークンにまた戻ったね

リンク

AIモデルに「不要な知識」を忘れさせる新技術。より効率的なAIが作れるかも

macro1597 2024/12/10

リンク

AI、人間超えた説　OpenAIの従業員が「AGIを達成した」との見方示す

sponsored JAPANNEXTの「JN-IB375C144UQR-H」をレビュー 144Hzで21：9の3840×1600ドット37.5型ウルトラワイドディスプレー、ゲームの没入感や仕事の効率アップがスゴイ sponsored ポータブルゲーミングスピーカー「TQ-PG300」パイオニアの小型ゲーミングスピーカー、想像を超える没入感でめちゃくちゃ驚きなんですけど！ sponsored 今回も医療機器認証取得で、かつ前モデルよりも薄く軽いサイズを実現！スマートウォッチのようでこれは血圧計でもある!? 「HUAWEI WATCH D2 ウェアラブル血圧計」レビュー sponsored 1本のサウンドバーで360立体音響が実現！自宅で映画を見るならソニー「HT-A9000」が最高の選択だ sponsored 「QuTS hero」はランサムウェア対策、安価なSSD／大容量HDDの導

macro1597 2024/12/10

AGIを達成したかどうかの記事なのに、脅威論の話に逸れてしまうブコメの気持ちが自分にはすごくよく分かる

リンク

イーロン・マスクのAI企業「xAI」がデータセンターの拡大を計画中、高性能チップの数は100万台へ

イーロン・マスク氏が保有するAI企業・xAIはアメリカ・テネシー州メンフィスに独自のデータセンターを保有しています。地元のグレーター・メンフィス商工会議所は2024年12月4日に、xAIがデータセンターを拡張することを計画中であることを明らかにしました。 xAI Memphis Announces Expansion Of Supercomputer with Addition Of Tech Companies In Digital Delta - Greater Memphis Chamber https://memphischamber.com/blog/general/xai-memphis-announces-expansion-of-supercomputer-with-addition-of-tech-companies-in-digital-delta/ Musk's xA

macro1597 2024/12/08

計算機資源をどれだけ増やしても学習元がXだとGIGOだし、Grok2にしても特に計算問題が酷い

リンク

Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表

Google DeepMindが、単一の入力画像からプレイ可能な3D環境を生成できる基盤的世界モデル「Genie 2」を2024年12月4日に発表しました。Genie 2で生成した世界は、人間やAIエージェントがキーボードとマウスを使った操作で移動することが可能です。 Genie 2: A large-scale foundation world model - Google DeepMind https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/ Genie 2は大規模な動画データセットで訓練された自己回帰潜在拡散モデルで、物理演算、キャラクターアニメーション、オブジェクトの相互作用など、様々な創発的能力を示します。画像生成AI「Imagen 3」で生成した画像を入力としてプレ

macro1597 2024/12/06

これ自体がゲームになりそうだし、我々のいるこの世界も生成された世界だったら面白いなと思った。複数のプレイヤーの入力に対して一貫性と整合性を保つのは大変そうだけれども

リンク

AIを使いこなせるかどうかは「能力次第」、AIが上位10％のエリート科学者の成果を81％増やしたとの研究結果

AIの発展により、学術研究の分野ではAIを用いた実験データの捏造や生成画像の使用といった問題が懸念されるようになっている一方、AIは研究の能率の向上や創薬、新しい物質の構造の発見などで大きな成果を上げています。アメリカ・マサチューセッツ工科大学の博士課程の学生であるエイダン・トナー・ロジャース氏が、AIの支援を受けた優秀な科学者がイノベーションを促進させたとの研究結果を報告しました。 Artificial Intelligence, Scientific Discovery, and Innovation (PDFファイル)https://aidantr.github.io/files/AI_innovation.pdf Recent AI paper cites evidence that AI positively impacts scientific R&D | Techno logy

macro1597 2024/12/04

調査対象の科学者の82%は全体的な職務満足度が低下していて、何とも皮肉な結果ですね

リンク

夫がGoogleのGemini APIコンペで受賞してた - デザイナー脂肪

夫と会社の人たちがGoogleのGemini APIを使ったコンペで受賞しました！優勝するとバック・トゥ・ザ・フューチャーのデロリアンがもらえるってやつだったんですがそれは逃して、でも約3000個応募あったうちの9個に選ばれたそうです。すごい物体を認識して、被写体に顔が出てきておしゃべりしてくれるアプリです。動画が可愛いのでどうぞ。ロゴとキャラクターが超いい！嫌いな人がいない見た目。技術的な話とかは夫のブログで！近い内にリリースするらしいです。彼は前別のGoogleの他のコンペでも受賞経験があって、なにか面白い技術系コンペがあると確実に仕留めていっているので、個人的にインターネット賞金稼ぎと呼んでます。そういうのだけで食べてる人も今の時代いるかもしれないですね。そういえば、保育園落ちた時Googleに転職するしかないって話書いてたの思い出した。 ☆ そんな夫の妻も今度生成AI

macro1597 2024/12/02

リンク

Rustでマルチスレッドプログラミング！リアルタイム通信ではどのようにスレッドを立てるのか

Rust.Tokyo 2024 https://rust.tokyo/lineup/4 で登壇した際に利用した発表資料です。

macro1597 2024/12/01

リンク

TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

macro1597 2024/11/26

リンク

GoogleのTransformer特許を解説する：生成AIの基本特許（栗原潔） - エキスパート - Yahoo!ニュース

OpenAIの特許解説シリーズは一休みして、生成AI関連の基本特許中の基本特許、GoogleのTransfomer特許について簡単に解説することにします（先に断わっておきますが結構ややこしいです）。当該特許は、US10452978B2、発明の名称は"Attention-based sequence transduction neural networks"（アテンションベースのシーケンス変換ニューラルネットワーク）、実効出願日は2017年8月4日、特許登録日は2019年10月22日です。重要性の高い特許にふさわしく世界各国（カナダ、欧州、韓国、中国、オーストラリア等）で出願され、権利化されています。日本でも特許6884871号としてほぼ同等の特許が権利化されています。実効出願日は2017年8月4日、特許登録日は2021年5月14日です。また、日米共に、様々な構成の分割出願が特許化されて

macro1597 2024/11/23

バッチ正規化やドロップアウトもGoogleの特許で、それ以外もほとんど米国企業の特許だったんですね。まるで当たり前のように使わせていただき、本当にありがとうございます。

リンク

LearnLM の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・How generative AI expands curiosity and understanding with LearnLM 1. LearnLM「LearnLM」は、Gemini をベースに人間の学習用にファインチューニングされたモデルです。技術レポートでは、教育向けの生成AIを改善するためのアプローチを紹介しています。教育者やその他の学習専門家と協力し、次のような学習科学の原則をモデルとそれが支える製品に取り入れています。・能動的な学習を促すタイムリーなフィードバックで練習と健全な努力を促す。・認知負荷を管理関連性のある、構造化された情報を複数の方法で提示。・学習者に適応関連する教材を基に、目標やニーズに合わせて動的に調整。・好奇心を刺激学習の過程を通じて意欲を高めるために、関心を喚起。・メタ認知を深める

macro1597 2024/11/22

リンク

中国のAI企業DeepSeekがOpenAI o1に匹敵する推論AIモデル「DeepSeek-R1-Lite-Preview」公開、オープンソース化する計画も

中国のAI企業であるDeepSeekが、与えられた新しい情報から結論を導く「推論」に特化した大規模言語モデル「DeepSeek-R1-Lite-Preview」を発表しました。OpenAIの推論モデル「o1-preview」に匹敵し、場合によっては上回る能力を発揮するとされています。 🚀 DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power! 🔍 o1-preview-level performance on AIME & MATH benchmarks. 💡 Transparent thought process in real-time. 🛠️ Open-source models & API coming soon! 🌐 Try it now at https://t.co

macro1597 2024/11/21

リンク

RAGのハルシネーションを尤度で防ぐ

導入こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。今回は、文章の尤度とドキュメントの配置位置、そして回答の精度の関係性を調査した論文について紹介します。サマリー RAGにおいて、正解ドキュメントの文章の配置と、回答精度の関連性は以前から注目されていました。この関係性の原因が文章の尤度(文字同士のつながりをLLMがどの程度自然と捉えているかの指標)にあるとしたのが、この論文の大まかな趣旨です。質問ないしは回答の尤度を用いることで以下のような機能が実現できます。１つ目は、回答の精度をLLMによる出力の前に事前に推測すること。２つ目は、生成された回答がどの程度正しいか推測すること。これらを検証した実験結果について紹介していきます。問題意識 RAGの精度は

macro1597 2024/11/21

リンク

はてなブックマーク

タグ

macro1597のブックマーク (1,359)

お知らせ

今週のはてなブックマーク数ランキング（2024年12月第2週）

今週のはてなブックマーク数ランキング（2024年12月第1週）

月間はてなブックマーク数ランキング（2024年11月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス