SAM is a new segmentation model that can segment objects in images using natural language prompts. It was trained on over 1,100 datasets totaling over 10,000 images using a model-in-the-loop approach. SAM uses a transformer-based architecture with encoders for images, text, bounding boxes and masks. It achieves state-of-the-art zero-shot segmentation performance without any fine-tuning on target datasets.
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
This document summarizes a research paper on modeling long-range dependencies in sequence data using structured state space models and deep learning. The proposed S4 model (1) derives recurrent and convolutional representations of state space models, (2) improves long-term memory using HiPPO matrices, and (3) efficiently computes state space model convolution kernels. Experiments show S4 outperforms existing methods on various long-range dependency tasks, achieves fast and memory-efficient computation comparable to efficient Transformers, and performs competitively as a general sequence model.
This document summarizes a research paper on scaling laws for neural language models. Some key findings of the paper include:
- Language model performance depends strongly on model scale and weakly on model shape. With enough compute and data, performance scales as a power law of parameters, compute, and data.
- Overfitting is universal, with penalties depending on the ratio of parameters to data.
- Large models have higher sample efficiency and can reach the same performance levels with less optimization steps and data points.
- The paper motivated subsequent work by OpenAI on applying scaling laws to other domains like computer vision and developing increasingly large language models like GPT-3.
This document summarizes recent research on applying self-attention mechanisms from Transformers to domains other than language, such as computer vision. It discusses models that use self-attention for images, including ViT, DeiT, and T2T, which apply Transformers to divided image patches. It also covers more general attention modules like the Perceiver that aims to be domain-agnostic. Finally, it discusses work on transferring pretrained language Transformers to other modalities through frozen weights, showing they can function as universal computation engines.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
This document discusses generative adversarial networks (GANs) and their relationship to reinforcement learning. It begins with an introduction to GANs, explaining how they can generate images without explicitly defining a probability distribution by using an adversarial training process. The second half discusses how GANs are related to actor-critic models and inverse reinforcement learning in reinforcement learning. It explains how GANs can be viewed as training a generator to fool a discriminator, similar to how policies are trained in reinforcement learning.
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
This document summarizes a research paper on scaling laws for neural language models. Some key findings of the paper include:
- Language model performance depends strongly on model scale and weakly on model shape. With enough compute and data, performance scales as a power law of parameters, compute, and data.
- Overfitting is universal, with penalties depending on the ratio of parameters to data.
- Large models have higher sample efficiency and can reach the same performance levels with less optimization steps and data points.
- The paper motivated subsequent work by OpenAI on applying scaling laws to other domains like computer vision and developing increasingly large language models like GPT-3.
This document summarizes recent research on applying self-attention mechanisms from Transformers to domains other than language, such as computer vision. It discusses models that use self-attention for images, including ViT, DeiT, and T2T, which apply Transformers to divided image patches. It also covers more general attention modules like the Perceiver that aims to be domain-agnostic. Finally, it discusses work on transferring pretrained language Transformers to other modalities through frozen weights, showing they can function as universal computation engines.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
This document discusses generative adversarial networks (GANs) and their relationship to reinforcement learning. It begins with an introduction to GANs, explaining how they can generate images without explicitly defining a probability distribution by using an adversarial training process. The second half discusses how GANs are related to actor-critic models and inverse reinforcement learning in reinforcement learning. It explains how GANs can be viewed as training a generator to fool a discriminator, similar to how policies are trained in reinforcement learning.
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
(Japanese) This is some tips on how to organize artificial intelligence or machine learning projects. This is presented in the engineering community event, NTT Engineer Festa#3, in Japan.
6. 基盤モデル | Foundation models
6
Foundation models @ On the Opportunities and Risks of Foundation Models
— any model that is trained on broad data at scale and can be adapted
(e.g., fine-tuned) to a wide range of downstream tasks...
— 広範なデータにより学習された,広い範囲の下流タスクに(追加学習等によって)適用可能なモデル
基盤モデル
Photo from Stanford HAI
7. Foundation modelsが目指す先とは?
7
AGI: Artificial General Intelligence*(汎用人工知能)
— 汎用的にタスクを解く人工知能に対する挑戦
Robotics
Vision
Language
Audio
Foundation
Model
Philosophy
Interaction
・・・まだまだ広がりを見せようとしている
*: AGIは人工知能の究極の目標のひとつと言われますが,Foundation Modelsの目的は種々あります
35. Zero-Shot Text-to-Image Generation (DALL·E論文)
35
著者 : Aditya Ramesh, et al.
VQ-VAE(dVAE) + Transformer(120億パラメータ)の構成で
約2.5億のテキスト-画像ペアで事前学習させ,
テキストから完成度の高い画像を自動生成
● VQ-VAEによって256×256のRGB画像を32×32(=1024)の画像トークンに変換(encode)
● BPE圧縮によってキャプションを256のテキストトークンに変換(encode)
● 上記のトークンをconcatしてembedding,Sparse Transformerを用いて各潜在変数を学習
● 画像生成時はTransformerで潜在変数を予測し,VQ-VAEによって画像を復元(decode)
○ CLIPによって入力テキストとの類似度でランキングして出力
● MS-COCOにおいて,zero-shotで既存手法に匹敵するFIDスコア達成
● 人間による評価実験において,
既存手法(DF-GAN)と比較してよりリアルで入力テキスト通りの画像を生成
ICML 2021 OpenAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
36. VQGAN-CLIP: Open Domain Image Generation and Editing with
Natural Language Guidance
36
著者 : Katherine Crowson et al.
● 複雑な文章をもとにした画像生成システム
● CLIPを用いてテキスト・画像ペアの類似性を評価する損失関数を定義し、画像生成の潜在空間を更新すること
で画像を生成
● 実行時間はやや遅い(イテレーション回数が多い)が学習コストが不要
GitHub
https://github.com/eleutherai/vqgan-clip
Kaggle
https://www.kaggle.com/code/basu369vi
ctor/playing-with-vqgan-clip/notebook
arXiv 2022 EleutherAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
37. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
37
著者 : Alex Nichol, et al.
テキストからの画像生成タスクにおいて
DALL-Eよりリアルであると評価された“GLIDE”
● パラメータ数35億+15億の誘導拡散モデルGLIDEを提案
● GLIDEを2種類の誘導方法からテキスト条件付き画像生成を行い比較
○ CLIP guidance:CLIP(ViT-L)の潜在空間の類似度を利用(classifierの知識を活用)
○ classifier-free guidance:確率的に条件付けを除外し分類も同時学習(
classifier不要)
● 比較の結果classifier-free guidanceの方が本物らしさとキャプション類似性について優位
● 独自フィルタによって生成画像の悪用を防止
● サンプリングがGANよりも大幅に遅いのがネック
ACL 2022 OpenAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
38. Hierarchical Text-Conditional Image Generation with CLIP Latents (DALL·E 2 論文)
38
著者 : Aditya Ramesh, et al.
DDPM + CLIPで
約6.4億のテキスト-画像ペアで事前学習し,
GLIDEと比較してより多様性のある画像を生成
● 事前分布(prior)として拡散モデルを用いる
○ テキストからCLIP画像埋め込みを生成.自己回帰モデルも試したが拡散モデルの方が良い結果に
● デコーダとしてGLIDEとほぼ同じ35億パラメータの拡散確率モデルを用いる
○ CLIP画像埋め込みから画像を生成. GLIDEと同様にclassifier-free guidanceを使用
→unCLIPと総称
arXiv (2022) OpenAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
39. Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding (Imagen 論文)
39
著者 : Chitwan Saharia, et al.
● テキストのみを事前学習し凍結させた大規模言語モデル(T5-XLL)が画像生成に有効
● DDPMをスケーリングするよりも,大規模言語モデルを拡張する方が効く
● DDPMは計約8.6億のテキスト-画像ペアで事前学習
● Efficient U-Netを導入し,計算効率・メモリ効率を向上させ,学習時間を短縮
COCOのFID指標においてDALLE•2を超える性能
arXiv (2022) Google 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
40. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation
(Parti 論文)
40
arXiv (2022) Google 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
著者 : Jiahui Yu, et al.
● Image Generator として ViTとVQGANを組み合わせたViT-VQGANを採用
○ モデルサイズを20Bまで大規模化したところ,DDPMを超える精度に
COCOのFID指標においてImagenを超える性能 !
42. NU¨ WA: Visual Synthesis Pre-training for Neural visUal World creAtion
42
著者 : Chenfei Wu, et al.
画像・動画・テキストを同時に学習することで
様々な視覚的生成/補完タスクにおいてSOTAを達成
● 3D Transformer encoder-decoder Frameworkにより画像・動画・テキストを同時に学習
3D Nearby
Attentionによって,空間軸と時間軸の双方の局所性を考慮しつつ計算量を削減
● 290万の画像-テキストペア,24万の動画-テキストペア,72万の動画データで事前学習
○ A-100 GPU × 64台 × 2週間
● 8つの視覚的な合成タスクにおいて高水準な精度,特に
TtoI/TtoV/VtoVでSOTAを達成
arXiv (2021) Microsoft
(with Peking University)
Foundation Model テキスト/画像/動画 言語/画像/動画
zero/few-shot
生成タスクが主
pre-train
43. Florence: A New Foundation Model for Computer Vision
43
著者 : Lu Yuan, et al.
Visionタスクを粒度/時間/形式の3軸方向に拡張して,
多種多様なVisionタスクを処理可能な基盤モデル“Florence”
● 粒度:粗いもの(シーンレベルの分類など)から細かいもの(物体検出など)
時間:静的なもの(画像など)から動的なもの(動画など),
形式:キャプション,深度など
● 9億の画像-テキストペアを用いて対照事前学習
(like CLIP),モデルバラメータは約893M
○ A-100 GPU × 512台 × 10日
● zero/few-shotで分類,検索,物体検出,VQA,画像キャプション,動画検索,行動認識など
様々なVisionタスクに適用可能
arXiv (2021) Microsoft Foundation Model 言語/画像/動画
テキスト-画像
pre-train zero/few-shot
44. Flamingo: a Visual Language Model for Few-Shot Learning
44
著者 : Jean-Baptiste Alayrac, et al.
画像とテキストを入力してテキストを生成するタスク全般
をfew-shotで高精度に実現し,6/16タスクでSoTA
● 70B(PT済みchinchilla)+10Bのtext encoderとCLIPベースのimage encoderが土台
● PerceiverをベースとしたResamplerで,動画などのマルチモーダルにも対応
● ベースラインのわずか1/1000程度のみのサンプル提示で,
VQAなどの6/16のtext-imageマルチモーダルタスクでSoTA達成
○ FIne-Tuningを行うと,更に5つのベンチマークでSoTA達成
arXiv (2022) DeepMind Foundation Model 言語(from 動画像)
テキスト-画像
pre-train zero/few-shot
58. Center for Research on Foundation Models (CRFM)
58
Percy Liang率いるStanford
● HAIから分岐してStanford大学内に2021年に発足
● Foundation Model開発に特化した研究機関
● CSだけでなく10種以上の専門領域から研究者が集結
● 不用意な大規模化でなく、効率性・堅牢性・
解釈可能性・倫理的健全性の実現を目指す理論研究
https://crfm.stanford.edu/