cvpaper.challenge の メタサーベイ発表スライドです。 cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。 http://xpaperchallenge.org/cv/ Read less
自己紹介 ● あるふ (Twitter: @alfredplpl) ○ ○ もともとロボットやコンピュータビジョンの研究者 ■ Stable Diffusion が出る数ヶ月前に、画像生成 AIがヤバくなり始めていることに発見し、対策 のために、いろいろ活動し始めた 主な活動 ■ 画像生成AIの研究開発 ■ 画像生成AIのアウトリーチ活動 https://prtimes.jp/main/html/rd/p/000000002.000113219.html https://youtu.be/GwNm-3SXFD0 https://youtu.be/GwNm-3SXFD0 https://prtimes.jp/main/html/rd/p/000000002.000113219.html
We learn to generate specific concepts, like personal objects or artistic styles, by describing them using new "words" in the embedding space of pre-trained text-to-image models. These can be used in new sentences, just like any other word. Our work builds on the publicly available Latent Diffusion Models Text-to-image models offer unprecedented freedom to guide creation through natural language.
本記事ではFacebook AI Researchの研究者らによって提案されたDINOという,画像モデルにおける自己教師あり学習の解説を行います. Caron, Mathilde, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. 2021. “Emerging Properties in Self-Supervised Vision Transformers.” arXiv [cs.CV]. http://arxiv.org/abs/2104.14294. (cf.) Facebook ブログ, GitHub, Yannic Kilcher氏の解説動画 要点:画像モデル (e.g. ResNet, Vision transformers)における,ラベル無
1 LMU Munich, 2 NVIDIA, 3 Vector Institute, 4 University of Toronto, 5 University of Waterloo Latent Diffusion Models (LDMs) enable high-quality image synthesis while avoiding excessive compute demands by training a diffusion model in a compressed lower-dimensional latent space. Here, we apply the LDM paradigm to high-resolution video generation, a particularly resource-intensive task. We first pr
Transformer, an attention-based encoder-decoder model, has already revolutionized the field of natural language processing (NLP). Inspired by such significant achievements, some pioneering works have recently been done on employing Transformer-liked architectures in the computer vision (CV) field, which have demonstrated their effectiveness on three fundamental CV tasks (classification, detection,
こんにちは。ML・データ部データサイエンス1ブロックの尾崎です。データサイエンス1ブロックでは機械学習モデルや、データ分析によって得られたルールベースのモデルの開発をしています。特に、ZOZOTOWNやWEARの画像データを扱っています。 本記事では、教師データがないPoC特有の「モデルの評価をどうするか」という課題への対策を商品画像の色抽出の事例とともに紹介します。教師データが無いという同じ境遇に置かれた方々の一助となれば幸いです。 目次 目次 事業上の課題 どのようなモデルを作ったか モデルの評価をどうしたか 何を正解ラベルとするか アノテーションを外注するか、内製するか 評価指標の設計をどうしたか まとめ 参考 事業上の課題 アパレル商品の検索において、カラーは重要な要素の1つです。ZOZOTOWNでは15色のカラー(図1)を指定して検索できますが、より細かな粒度で商品を検索したいユ
TL;DR OpenAIは2024年10月1日に公開した新しいAPIの1つがVision Fine-tuningです。これはGPT-4oの画像認識能力を追加学習(ファインチューニング)できる新機能です。Vision Fine-tuning APIは、最低10枚の画像と期待する返答の学習データを準備するだけで、Web上で手軽に実行と検証が可能です。 今回、実験として美雲このはの画像を使ってキャラクターを認識させたり、問題のあるグラフの可視化を指摘させるなどの学習をさせて、期待通りの回答を得ることができました。なお、人物や顔、CAPTCHAなど利用規約に違反する画像は学習できない点に注意が必要です。 はじめに こんにちは、グループ研究開発本部・AI研究室のT.I.です。OpenAIでは、2024年10月1日に、いくつかの新しいAPIをリリースしました。今回のBlogでは、その1つであるvisi
2. 趣旨 ● CV分野のトップ会議はパフォーマンス向上のコンペ? →数値を競いた いだけならkaggleでいいのでは? ● 問題設定は面白いが数値に繋がらない研究は評価されない? ● 以前行ったCHIサーベイ2018において,CV分野とCHI分野の違いを調査 →CV分 野:特にパフォーマンスの有無を(絶対的に)問う, HCI:それは必須ではない ● CVにおいても「パフォーマンスの有無が評価に決定的でない論文があるのではな いか?」 本勉強会では,トップ会議採択論文の「パフォーマンスの有無」に着目し, 上手な論文執筆や問題発見の方法論を見出すことを目的とする. 3. 問題点 - 理想 CVPR2020の査読ガイドライン http://cvpr2020.thecvf.com/submission/main-conference/reviewer-guidelines
確率ロボティクス (Mynavi Advanced Library) 作者:Sebastian Thrun,Wolfram Burgard,Dieter Foxマイナビ出版Amazon 目次 目次 目的 各動画の基本的な視聴方法 視聴し続けて得られた効果 Autonomous Navigation Sensor Fusion Kalman Filter Vehicle Dynamics Path Planning Path Tracking Model Predictive Control SLAM Safety Mathematical Model 目的 仕事で海外出張に行ったり、海外の協力企業と英語で会議をする 機会が多いので、英語の勉強(特にスピーキングとリスニング)は 日頃から継続的にやっているのですが、それと同時にエンジニア でもあるので技術に関する勉強もしないといけません。 そ
We propose a method that can generate highly detailed high-resolution depth estimations from a single image. Our method is based on optimizing the performance of a pre-trained network by merging estimations in different resolutions and different patches to generate a high-resolution estimate. Abstract Neural networks have shown great abilities in estimating depth from a single image. However, the
はじめに 例によって暇だったため,FOTS(Fast Oriented Text Spotting with a Unified Network)をPytorchで実装してみました.実装はこちら→https://github.com/jjjkkkjjj/pytorch.dlで,FOTS意外にも気まぐれでいろんなアルゴリズムを実装しています.今回の実装では,学ぶことも多かったので,アウトプットも含めてFOTSを1から解説してみたいと思います.また,FOTSはEAST(An Efficient and Accurate Scene Text Detector)から踏襲した部分も多いので,EASTの解説も含んでいると思います. ちなみに,以下が実装したFOTSの出力結果です.ところどころおかしいですが,いい感じですね〜. 入力画像 出力画像 FOTSとは FOTSとは,その名(Fast Orie
3つの要点 ✔️ 画像分類タスクに必要不可欠なData Augmentationの体系をまとめた ✔️ 基本的なData Augmentationについて手法と利点/欠点をまとめた ✔️ 基本的なDAは実装が簡単な上に絶大な効果を発揮する A survey on Image Data Augmentation for Deep Learning written by Connor Shorten, Taghi M. Khoshgoftaar (Submitted on 06 July 2019) Comments: Published by Journal of Big Data Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Image and Video Proc
図1 QMNISTに含まれる「手書き数字」の例 ※データセットの配布元: 「facebookresearch/qmnist: The QMNIST dataset」。BSDライセンス。 ※出典: Cold Case: The Lost MNIST Digits. Chhavi Yadav, Léon Bottou. arXiv:1905.10498 QMNISTは、MNISTの改良版/再構築版として、NIST Special Database 19から抽出&加工して作られたサブセットである。MNISTの代わりとして、主に画像認識を目的としたディープラーニング/機械学習の研究や初心者向けチュートリアルで使われることが想定される。 中身の画像データやラベルはMNISTデータセット(以下、MNIST)とほぼ同じであるが、 が異なる。 まず6万件に増やした理由については、論文「Cold Case:
前回 cake-by-the-river.hatenablog.jp 今回は、拡散モデルの最も重要な論文である Denoising Diffusion Probablistic Models (DDPM)を解説します。 arxiv.org 前回の潜在変数モデルとしての側面(AutoEncoder)も持ちつつ、スコアベースモデルによる画像生成であるNCSNと数学的に等価で、より学習の効率が良いアルゴリズムであるDDPMは、Stable Diffusion(Latent Diffusion Model)の中枢を担っているため、ここが理解できればStable Diffusionをはじめとした拡散モデルの概略を抑えることが出来ると言えます。今回も、最近発売された拡散モデルの本も参考にしています。なお、今回は数式が(大量にあった前回をさらに超えるほど)沢山出ますが、出来るだけ"お気持ち"を重視して解
色々な分野で応用され始めているTransformerの簡単な解説と実際に衛星画像を利用した雲判定機械学習モデルを作成していきます。 宙畑の2020年Kagglerのアンケート記事でも触れましたが、最近は自然言語処理で使われていたTransformerという技術が、自然言語処理以外の分野でも利用されるようになり、精度の高い結果を出すようになりました。 Kaggleランカーの9人に聞いた、2020年面白かったコンペ9選と論文9選 今回の記事では、Transformer や画像を扱うための Vision Transformer(ViT) についての簡単な解説をおこない、実際に ViT を利用して衛星画像の分類タスクを行います。コードはGoogle Colaboratory(GPU) 上で動かすことを想定していますので、すぐに実行できるようになっています。 Transformer Transfor
今回、主に点群に対してSemantic Segmentationを行うためにTansformerを適用した研究についてサーベイしてみたので、資料を公開します。 元々は、前回開催したコンピュータビジョン勉強会@関東「深層学習+3D論文読み会」で発表するために準備していたのですが、発表者が十分に集まったことと、ハイブリッド開催のため運営が大変になりそうだったので、発表は断念しました。 最初は画像と点群でのTransformerの適用方法の違いが気になって調べだしたので、PointTransformerとPointMixerあたりまでを発表するつもりだったのですが、発表を取りやめて調べる時間もできたので、色々と追加で調べているうちに分量が増えてしまいました。 調べてみて、果たしてTransformerは畳み込みと比べて点群処理に最適か?というのはよくわかりませんでした。ただ、PointBERTの
金谷著「3次元回転―パラメータ計算とリー代数による最適化―」(https://www.kyoritsu-pub.co.jp/bookdetail/9784320113824) を読んで三次元回転の推定の実装を行いました. 概要 回転の推定ということで以下の内容を扱います. 第4章 回転の推定I:等方性誤差 第5章 回転の推定II:異方性誤差 第6章 微分による最適化:リー代数の方法 〜6.6 基本的に,直接式を書き下さずに式番号で示すので,本を参照しないとよくわからない内容かもしれませんが,その点はご了承ください(引用の範疇を超えると思っているので意図的に書いていません.実際面倒なのもありますが). (主要な)環境 Ubuntu 18.04 Python: 3.6.9 Jupyter Notebook: 1.0.0 NumPy: 1.17.4 SciPy: 1.3.3 リポジトリ 以下のコ
東芝は、一般的な可視光カメラで撮影した画像から、不規則に積み重なった物体の個々の領域を高精度に推定するAI技術を開発したと発表した。公開されているピッキングロボット向けデータセットを用いた実証実験では、物体領域の推定における計測誤差で、既存のAI技術と3Dセンサーの組み合わせを上回る「世界トップの性能」(同社)を達成した。 東芝は2020年11月30日、一般的な可視光カメラで撮影した画像から、不規則に積み重なった物体の個々の領域を高精度に推定するAI(人工知能)技術を開発したと発表した。公開されているピッキングロボット向けデータセットを用いた実証実験では、物体領域の推定における計測誤差で、既存のAI技術と3Dセンサーの組み合わせを上回る「世界トップの性能」(同社)を達成したという。2021年度には、このAI技術を組み込んだ物流倉庫など向けの荷降ろしロボットを市場投入する計画である。
このモデルをこのページからダウンロードするためにはHugging Faceに登録された情報を提供する必要があります。この提供された情報は画像生成AIを活用する情報を案内するために使われます。 To download this model from this page, you need to provide information registered with Hugging Face. The information provided will be used to guide you on how to utilize the image-generation AI. \n","classNames":"hf-sanitized hf-sanitized-66X6StOOYP2NMKx7-rXRn"},"gated":"auto","isLoggedIn":false,"repoId
最近、Arxiv Sanity Preserverで上位にランクインしていた、Facebookから20/5/27に公開のObject Detection論文 DETRについて解説する。 概要 NMSやRPN等のごちゃごちゃした仕組み無しで、CNN+Transformerの極めてシンプルな構成で真にEnd to Endな物体検出を実現する。 その上で、最近の最前線クラスの物体検出器に匹敵する性能を達成している。 (テクニカルに色々してるが、新規性は従来のRNNをTransformerに置き換えている所) このシンプルな構成のおかげで拡張が容易で、この論文ではDETR物体検出器をSegmentationタスクにも拡張し、SOTA級のアーキテクチャを上回る性能を叩き出している。 NMSをなくして、Transformer化に至るまでの背景 現在よく使われてる物体検出器では、処理の途中過程にあるNM
1. webdatasetとは webdatasetとは,データセットをtarアーカイブで読み書きするためのライブラリです. WebDataset reads dataset that are stored as tar files, with the simple convention that files that belong together and make up a training sample share the same basename. つまり,tarファイルの中に n01440764/ILSVRC2012_val_00000293.cls n01440764/ILSVRC2012_val_00000293.jpg n01440764/ILSVRC2012_val_00002138.cls n01440764/ILSVRC2012_val_00002138.jpg n
1 Carnegie Mellon University 2 Adobe Research SIGGRAPH 2023 We propose pix2pix-zero, a diffusion-based image-to-image approach that allows users to specify the edit direction on-the-fly (e.g., cat to dog). Our method can directly use pre-trained text-to-image diffusion models, such as Stable Diffusion, for editing real and synthetic images while preserving the input image's structure. Our method i
The concept of year-end tax adjustments is the same across the world; however, the processes may vary. As a foreigner working in Japan, it’s crucial to understand the Japanese tax rules, including the year-end tax adjustment (Nenmatsu Chosei). What is Nenmatsu Chosei? Nenmatsu Chosei (年末調整 or ねんまつちょうせい) is the annual tax adjustment process in Japan. This tax adjustment for the Is Japan a country I
こんにちは、メルカリのAI/LLMチームで機械学習エンジニアをしているarr0wとshoです! 本テックブログでは、Vision-Language Modelの一つであるSigLIP [1]を、メルカリの商品データ(Image-Text Pairs)でファインチューニングし、メルカリの商品画像Embeddingの性能を大幅に改善したプロジェクトについて紹介します。 今回作成したSigLIPの性能を評価するために、商品詳細ページの「見た目が近い商品」のレコメンド機能でA/Bテストを実施しました。 この「見た目が近い商品」のレコメンド機能は、社内ではSimilar Looksと呼ばれています。作成したモデルをSimilar Looksの類似画像検索に適用し、既存モデルとの比較のためのA/Bテストを行いました。 そして、その結果として、主要なKPIにおいて以下のような顕著な改善が確認できました。
【論文読解】NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo CollectionsDeepLearning 概要 画像集合をもとに新しい視点からの画像を合成する技術であるNeRF in the Wild(NeRF-W)について紹介します。 例えば、Photo Tourism Datasetには、ある特定のランドマークを様々な位置から撮影した写真が多数含まれています。そのような画像集合から、ランドマークの3次元的な形状を把握し、写真集合には含まれない新しい視点から見たときの合成画像を作成することができる、というのが目的となります。新しい視点からの合成結果をつなぎ合わせると、公式のプロジェクトページ内にあるような動画も生成することができます。 先行手法として、もともと提案されていたNeRF1という手法がありました
うどん県出身・Webディレクターのセイタです。身体がなまり過ぎて、最近ジムに入会しました。健全な精神は健全な肉に宿る。みなさんも定期的な運動をしていきましょう。 さて、前回基礎編としてGoogle analyticsによる分析方法をご紹介いたしました(まだ読んでない方は先に読んでちょ)。 今回は一歩踏み込んで、GoogleアナリティクスにおけるCV(コンバージョン)の測定方法を紹介します。 コンバージョン Webサイトの分析サイトにおいてコンバージョンと呼ばれる概念への理解が重要です。 コンバージョン コンバージョン(Conversion、CV)とは、転換、転化、転向、といった意味を持つ英単語。Webサイトに訪れた人がお問い合わせや資料請求などユーザーに、起こしてほしい行動として定めている特定の行為のことを示す。 コーポレートサイトではサービスに関するお問い合わせや資料請求を、採用サイトで
2022年2月から4月にかけてkaggle competition Happywhale – Whale and Dolphin Identification が開催され、Preferred Networksのメンバー2名:山口(@charmq)、阿部( @knshnb)からなるチーム Preferred Dolphinが優勝しました。また、山川(@Yiemon773)が10位でソロ金メダルを獲得しました。 今回のコンペは1,588チームが参加し、kaggle世界ランクtop10のうち過半数が参加しているなど、非常に競争が激しいものとなりました。 本記事ではこのコンペの概要と我々のソリューションについて紹介します。 コンペの概要について 本コンペでは、クジラやイルカの写真から各個体を識別するモデルの精度を競いました。 従来人手で莫大な時間をかけて行われていた個体識別を自動化することにより、
[2024/05/10] 🔥 LLaVA-NeXT (Stronger) models are released, stronger LMM with support of LLama-3 (8B) and Qwen-1.5 (72B/110B). [Blog] [Checkpoints] [Demo] [Code] [2024/05/10] 🔥 LLaVA-NeXT (Video) is released. The image-only-trained LLaVA-NeXT model is surprisingly strong on video tasks with zero-shot modality transfer. DPO training with AI feedback on videos can yield significant improvement. [Blo
Signals and Systems 6.003 (MIT), Prof. Dennis Freeman [Course] Signals and Systems 6.003 covers the fundamentals of signal and system analysis, focusing on representations of discrete-time and continuous-time signals (singularity functions, complex exponentials and geometrics, Fourier representations, Laplace and Z transforms, sampling) and representations of linear, time-invariant systems (differ
はじめにcivitaiには日々あらゆるLoRAがアップロードされています。 好奇心からcivitaiの新着を日々チェックしている私が、 面白いと思ったものを集めました。 変わり種ばかりなので、 有用なリンク集ではないことを前置きしておきます。 役に立つリンクをお探しの場合はこちらを参照ください。 大ボリュームでまとめられていて、大変すばらしいNoteです。 ご注意・権利的にグレーなものについて、 使用を推奨するものではありません。 「こんなものもあるのか」ぐらいの視点でご覧ください。 ・キャラクターものは基本取り上げません。 ・R-18を含みますが、一般的な性癖に類するものは取り上げていません。 (私じゃない人がまとめると思うので) ・乗り物(車・電車・バイク等)、銃器は、 かなり細分化されていて数が多いため、取り上げていません。 ・分類は適当です。 ・全て動作確認しているわけではありませ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く