[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 45件

新着順 人気順

corpusの検索結果1 - 40 件 / 45件

corpusに関するエントリは45件あります。 機械学習自然言語処理日本語 などが関連タグです。 人気エントリには 『超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開』などがあります。
  • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

    株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

      超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
    • LINEヤフー株式会社

      「LINEヤフーDesign 公式note」 LINEヤフー株式会社のデザインに関連するさまざまな情報を発信するLINEヤフーDesign 公式noteです。

        LINEヤフー株式会社
      • PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった

        NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。 原ノ味フォントの作成者 細田真道氏(以下、細田):細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。 簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という

          PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった
        • 「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る

          ビデオゲームの文化で「クソゲー」という極めて暴力的な単語が一般化してからどれくらいが経っただろうか。みうらじゅん氏が『いっき』に対して使ったなど起源には諸説あるが、ともかくその言葉は死滅せずに現代まで生きながらえてきた。 制作者が心血を注いで創りあげた一個のゲームという作品。それをたった一言で簡単に断罪できてしまうその言葉は、無残なほどにネガティブなパワーを持っており、ゲームメディアでは忌避すべきワードのひとつである。 しかし口をつぐんだところで、いままでプレイヤー間で何年にもわたり続いてきた「クソゲーを語る」という文化が、無かったものになるわけでもない。たった4文字でゲームを語ることができるこの魔法の言葉は、その時代や個々人の認識によって極めて定義が曖昧で、いまも万華鏡のように変化し続けている。 (画像はニコニコ動画「クソゲーオブザイヤー2008」より) そんな歴史の中、その年度で一番の

            「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る
          • AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai

            アマゾン ウェブ サービス ジャパン株式会社(Amazon Web Services、AWS)は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙(ごい)データに加えた、と公式ブログで明らかにした。 多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。 日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ

              AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
            • 自然言語系AIサービスと著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

              第1 はじめに 自然言語処理技術の発展に伴い、自然言語AIを利用したサービスが大変盛り上がっています。 たとえば、検索、要約、翻訳、チャットボット、文章の自動生成、入力補完などのサービスで、近いところで有名なのは、2020年にOpenAIが発表した「GPT-3」ですかね。これは約45TBにおよぶ大規模なテキストデータを学習し、あたかも人間が書いたような文章を自動で生成することが可能な自然言語モデルです。 【参考リンク】 自然言語処理モデル「GPT-3」の紹介 進化が止まらない自然言語処理技術ですが、事業者が自然言語AIを利用したサービス(*ここでは、データの処理がクラウド上で自動的に行われるサービスを前提とします)を提供する際に検討しなければならないことは、大きく分けると、学習済みモデルの構築フェーズの問題と、モデルを利用したサービス提供フェーズに関する問題に分かれます。 このうち、モデル

                自然言語系AIサービスと著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
              • 自然言語ライブラリ「wordfreq」がAIで汚染され更新不可能になったと作者が報告

                さまざまなデータベースをもとに、自然言語の使用頻度を調べるためのPythonライブラリが「wordfreq」です。そんなwordfreqが、「AIで汚染され更新不可能となってしまった」と開発者のRobyn Speer氏が報告しています。 wordfreq/SUNSET.md at master · rspeer/wordfreq · GitHub https://github.com/rspeer/wordfreq/blob/master/SUNSET.md wordfreqがデータベースとして利用しているのは、2021年までにオンライン上で公開されていた自然言語のスナップショットです。しかし、「2021年以降、人間の使用言語に関する信頼できる情報を持っている人がいなくなった」ことを理由にwordfreqを更新することができなくなったとSpeer氏が報告しました。 記事作成時点で、インター

                  自然言語ライブラリ「wordfreq」がAIで汚染され更新不可能になったと作者が報告
                • AIのべりすと (AI Novelist)

                  Write Stories, with the Largest Public Japanese AI ever! AIで小説を書こう! AI Novelist is the largest public Japanese storywriting AI, trained from scratch by more than 2TB corpus. You may start from one of the example prompts or start with your own text! Tips: You may want to enter at the least 5-6 lines worth of a seed text to make sure the AI understands the context/genre.

                    AIのべりすと (AI Novelist)
                  • コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ

                    はじめに コーパスとは?今回は英語学習無料ツールであるコーパスの使い方をわかりやすく解説します。コーパスとは膨大の言語データベースで言語学の研究のために使用されています。まず始めに、コーパスの意味や活用方法、無料で利用できるcoca corpusを紹介します。英語学習への効果やコロケーションについても解説します。実際にSKELLというサービスを使って、頻出動詞のコロケーションも完全整理したので、ぜひチェックしてみてください。コーパスを活用すれば、頻出の動詞やコロケーションを知ることができます。英語話者が実際に使用している語句を網羅すれば、効率よく英語学習を進めることができます。 ↓↓こちらの動画でも解説してます www.youtube.com 英単語の覚え方はこちら↓↓ www.sunafuki.com 英語脳についてはこちらで解説↓↓ www.sunafuki.com 主な参考文献 「英

                      コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ
                    • SKELL

                      v1.11.5

                      • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

                        無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                          無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
                        • NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」

                          国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。 計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。 NIIが主宰するLLM勉強会(LLM-jp)で7月

                            NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
                          • BERTで英検を解く - Qiita

                            英検の大問1は、短文穴埋め問題になっています。例えば、こういう問題です。 My sister usually plays tennis (   ) Saturdays. 1. by  2. on  3. with  4. at Bob (   ) five friends to his party. 1. made  2. visited  3. invited  4. spoke 文の中の隠された部分に入るものを、選択肢の中から答える問題です。文法的な判断もあれば、文脈から意味の通りが良い単語を選ぶ問題もあります。5級から1級まですべての難易度で出題される形式です。 この問題形式は、BERT (Bidirectional Encoder Representations from Transformers)の学習アルゴリズム(のうちの1つ)とよく似ています。ということは、事前学習済みのBE

                              BERTで英検を解く - Qiita
                            • ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita

                              ざっくり理解する分散表現, Attention, Self Attention, Transformer機械学習DeepLearningAttentionbertTransformer はじめに 自己紹介 : Pythonでデータ分析とかNLPしてます。 Attention, Self Attention, Transformerを簡単にまとめます。 間違いがあったらぜひコメントお願いします。 モチベーション BERT(Google翻訳で使われてる言語モデル)を理解したい。 BERT : 双方向Transformerを用いた言語モデル。分散表現を獲得でき、様々なタスクに応用可能。 Transformer : Self Attentionを用いたモデル。CNNとRNNの進化系みたいなもの。 Self Attention : Attentionの一種。 Attention : 複数個の入力の内

                                ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita
                              • 言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita

                                はじめに 自然言語処理の基礎を楽しく学べる問題集として長らく親しまれてた言語処理100本ノック、その2020年版が4/6に公開されました!これは5年振りの改訂です。 2015年版をやったけど興味ある人、15年版のQiita記事が役立たなくなって残念に思ってる人、15年版を途中までやってたけど20年版が出て心が折れそう、という人のために、どこが変わったのかをまとめていきます。もちろん非公式なので変更箇所の見逃し等はあるかもしれません。 改訂の概要 4/7現在、公式の更新履歴によると、次の3点が大きく変わったようです。 深層ニューラルネットワークに関する問題を追加 第8, 9, 10章が全て新規に作成された問題になっている 英語版の公開(39番まで) 40番以降も順次公開予定とのこと(著者Twitter) 旧第6章(英語テキストの処理)が英語版に移動 該当する英語版は未公開。作成中のようだ(G

                                  言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita
                                • 中俣尚己の日本語チャンネル

                                  日本語学の研究者、中俣尚己によるチャンネルです。しばらくは、拙著『「中納言」を活用したコーパス日本語研究入門』をベースにしたコーパスの解説動画をアップする予定です。

                                    中俣尚己の日本語チャンネル
                                  • テーブルデータ向けの自然言語特徴抽出術

                                    例としてあげるデータは全て、atmaCup#10のものです。また、この記事の内容はこちらのノートブックで実験を行っています。 データの例。'title'、'description'など自然言語を含むカラムが存在する。 参考: 自然言語処理におけるEmbeddingの方法一覧とサンプルコード Bag of Wordsベースの手法 文書をトークンの集合として扱う手法です。トークンとしてはよく単語が選ばれますが、自分でtokenizerを設定して文章を単語以外のtokenの集合として扱うこともできます。また、日本語などの言語においてはトークン化が自明でないため、MeCabなどを用いてトークン化することがかなり多いです。 コラム MeCabを用いたトークン化

                                      テーブルデータ向けの自然言語特徴抽出術
                                    • Large Movie Review:IMDb映画レビューコメントの「肯定的/否定的」感情分析用データセット

                                      Large Movie Review:IMDb映画レビューコメントの「肯定的/否定的」感情分析用データセット:AI・機械学習のデータセット辞典 データセット「Large Movie Review」について説明。IMDbサイト上での5万件の「テキスト(映画レビューコメント)」+「ラベル(ポジティブ/ネガティブの感情)」が無料でダウンロードでき、二値分類問題などのディープラーニングや機械学習に利用できる。元データの内容や、TensorFlow、Keras、PyTorchなどにおける利用コードも紹介。

                                        Large Movie Review:IMDb映画レビューコメントの「肯定的/否定的」感情分析用データセット
                                      • 現代日本語書き言葉均衡コーパス検索システム (BCCWJ):Version 1.1

                                        • 日本語対話コーパス一覧

                                          日本語対話コーパス一覧 これは日本語を対象とした、対話システムの構築に利用できる言語資源のリストです。 本リストは、理化学研究所 吉野 幸一郎さん発案のもと、C4A研究所 中野 幹生さん、東北大学 赤間 怜奈さん、大阪大学 駒谷 和範さん、JAIST 吉川 禎洋さん、リクルート 林部 祐太さん、京都大学 児玉 貴志さん、愛知工業大学 徳久 良子さん、名古屋大学 山下 紗苗さんにご協力をいただき、水上 雅博が作成いたしました(所属はリスト作成または更新時のものです)。 もしこのリストに載っていないものや、リストのまちがいに気づかれた場合、新たにコーパスをリリースした際には是非、issueやメールで教えてください。 対話コーパス 主に人同士または人とシステム間(2名以上の場合を含む)で、対話(模擬対話等を含む)を行ったコーパスです。 名前 データ量 形式 研究利用 商用利用 概要

                                          • CC-100: Monolingual Datasets from Web Crawl Data

                                            This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b

                                            • じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例 - Megagon Labs | リクルート AI研究機関

                                              より良い顧客体験を生み出すには、カスタマーに好評を博したサービスや製品の特徴や要因を知る必要があります。Megagon Labs Tokyo は旅行情報サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け(アノテーション)を行ったJapanese Realistic Textual Entailment Corpus (以下JRTEコーパス)を開発し、日本語自然言語処理における学術コミュニティ向けに公開しました。本記事ではJRTEコーパスと、利用例として簡単な機械学習を紹介します。 オンラインサービスにおけるクチコミは、サービスや製品の利用を検討しているユーザには不可欠な存在です。土地勘のない地域がどのような特徴をもっているか、初めて利用する施設のどのような点が他者から好評を博しているかといった知識があれば、私たちは納得して選べるように

                                                じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例 - Megagon Labs | リクルート AI研究機関
                                              • Automate Data Cleaning with Unsupervised Learning

                                                I like working with textual data. As for Computer Vision, in NLP nowadays there are a lot of ready accessible resources and opensource projects, which we can directly download or consume. Some of them are cool and permit us to speed up and bring to another level our…

                                                  Automate Data Cleaning with Unsupervised Learning
                                                • 例文買取センター

                                                  買取成立した例文(基本的に平日の買取業務は朝の9時台です) (買取成立日:7月23日)【すなわち】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:7月23日)【つまり】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:7月23日)【コンスタント】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:7月23日)【コンスタンス】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:7月22日)【小説家】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:7月22日)【作家】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:7月22日)【ありがたいお言葉】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:7月22日)【身に余るお言葉】の赤枠例文を1例文25円で買い取らせて頂きました! (買取

                                                  • ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita

                                                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                                                      ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita
                                                    • NINJAL-LWP for BCCWJ (NLB)

                                                      ■NINJAL-LWP for BCCWJ とは NINJAL-LWP for BCCWJ(以下、NLB)は、国立国語研究所(以下、国語研)が構築した『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです。国語研の共同研究プロジェクト「日本語学習者用基本動詞用法ハンドブックの作成」(リーダー:プラシャント・パルデシ)、「日本語レキシコンの文法的・意味的・形態的特性」(リーダー:影山太郎)、「述語構造の意味範疇の普遍性と多様性」(リーダー:プラシャント・パルデシ)による研究成果の一部です。 国語研からはBCCWJ用のオンラインコンコーダンサとして中納言が公開されていますが、NLBはコンコーダンサとは異なるレキシカルプ

                                                      • 【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた|半蔵門と調布あたりで働く、編集者のおはなし

                                                        みなさんこんにちは!FOLIOアドベントカレンダーの8日目の記事です! 昨日は弊社の顧客基盤部でバックエンドエンジニアをされているmsawadyさんによる記事でした! 8日目の本記事は、FOLIO金融戦略部でコンテンツの編集&執筆をおこなっています設楽がお届けします。 この記事の目的・初心者向けに、Pythonを使ったデータ分析(自然言語処理)の初歩の初歩を伝える記事。 読者対象・Python初心者。データ分析初心者 ・アンケートとか顧客の声を分析してみたいと考えている人 私ですが、普段は弊社サービスを使って頂いているユーザー様向けに、投資や資産運用に関するいろいろな記事を執筆、編集しているという、データ分析とかプログラミングとは全然関係ない業務をおこなっています。 今回は、お客様から回答頂いているアンケートを使い、サービスがもっと良くなるためのヒントや、お客様がどういう点に困っていたり悩

                                                          【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた|半蔵門と調布あたりで働く、編集者のおはなし
                                                        • OSCAR

                                                          Open Source Project on Multilingual Resources for Machine Learning The OSCAR project (Open Super-large Crawled Aggregated coRpus) is an Open Source project aiming to provide web-based multilingual resources and datasets for Machine Learning (ML) and Artificial Intelligence (AI) applications. The project focuses specifically in providing large quantities of unannotated raw data that is commonly use

                                                            OSCAR
                                                          • 「Go Toトラベル」という英語では使われない表現が日本で使われるのはなぜですか - ことばの疑問 - ことば研究館

                                                            2020年の流行語のひとつに「Go Toトラベル」があります。これは英語では使われない表現だと聞いたのですが、そうなのでしょうか。そうだとすれば、どうしてそのような言い方が日本語として使われるのでしょうか。 「Go Toトラベルキャンペーン」が話題になっています。ここではどうして、「英語では使われないのでは」という質問の出るような表現が生まれ、また受け入れられているのか、その背景を、日英語対照研究の観点から考えてみたいと思います。 「Go To トラベルキャンペーン」は、「Go To キャンペーン」の1つで、ほかに「Go To イートキャンペーン」、「Go To イベントキャンペーン」などがあります。これを英語の表現として考えた場合、go to eat  ならto は不定詞のto、go to  events なら前置詞のto です。用法は違いますが、同じto だからということで、まとめてG

                                                              「Go Toトラベル」という英語では使われない表現が日本で使われるのはなぜですか - ことばの疑問 - ことば研究館
                                                            • 株式会社レトリバ

                                                              2021.3.15 レトリバと国立国語研究所の共同研究成果 「日本語話し言葉コーパス(CSJ)を用いた日本語話し言葉BERT」を公開 コールセンターの音声認識結果を使用した対話要約などの精度向上に貢献 株式会社レトリバ(本社:東京都新宿区、代表取締役 河原一哉、以下レトリバ)は、このたび大学共同利用機関法人人間文化研究機構国立国語研究所(以下国語研)との共同研究成果の「日本語話し言葉コーパス(Corpus of Spontaneous Japanese、以下CSJ) ※1 を用いた 日本語話し言葉BERT」※2を新たに公開します。 近年、自然言語処理の分野ではBERT(Bidirectional Encoder Representations from Transformers)と呼ばれる事前学習モデルが盛んに研究されています。 日本語では、WikipediaデータやSNSデータを事前学習

                                                                株式会社レトリバ
                                                              • ねこでもわかるWord2Vec入門 - Qiita

                                                                モチベーション 初めまして、pyaNottyと申します。初投稿です。 最近、MeCabやらkerasやらに触れる機会があり、せっかくなので何か自然言語処理にチャレンジしたいなと思いました。自然言語処理、とくにLSTMなどを用いた文章生成なんかでは、Word2Vecによる分散表現が利用されることが多いと聞きます。今回は、LSTMモデルに食わせることができる単語の分散表現を、Word2Vecで作ってみようと思います。 ねこ並みの知能しか持ち合わせていない筆者でも、なんとかできるくらい簡単です。 Word2Vecとは 単語をベクトルに変換するためのモデルのことです。 何か文章を使ってLSTMモデルとかを訓練する場合、生の文字列をモデルに食わせることはできません。ですので、文章を何らかの数値表現に変換する必要があります。例えば、「これはペンです」という文章の場合、['これは', 'ペン', 'です

                                                                  ねこでもわかるWord2Vec入門 - Qiita
                                                                • データベース | 中俣尚己Webサイト

                                                                  『文法コロケーションハンドブックE』 これは何ですか? 2014年の『日本語教育のための文法コロケーションハンドブック』と同じスタイルで、様々な中上級の文法項目をコーパスのデータをもとに記述していくスタイルです。最大の特徴は、中俣の執筆した教材を使ってコーパスの使い方を学んだ大学院生の手によって記述されているということです。(全項目、中俣が監修しています。)まずはPDF版にて公開。今後、他の形態での拡大も視野に入れています。 利用方法 以下より最新版のPDFをダウンロードしてください。 文法コロケーションハンドブックE Ver.2024.8 日本語話題別会話コーパス: J-TOCC 『日本語話題別会話コーパス:J-TOCC』の概要 『日本語話題別会話コーパス:J-TOCC』は話題を固定し、各話題について等しい時間の、親しい大学生どうしの1対1会話を録音、文字化したコーパスです。15話題につ

                                                                  • デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催

                                                                    デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催AIのビジネス活用・企業におけるDX/UX・LINEの最新AI技術など、全12セッションをオンラインで配信 LINE株式会社 AIカンパニー(本社:東京都新宿区、カンパニーCEO:砂金 信一郎)は、LINEのAI事業「LINE CLOVA」に関するカンファレンス『LINE AI DAY 2021』を7月15日(木)に開催しましたので、お知らせいたします。 イベント公式ページ:https://clova.line.me/lineaiday2021/ 「LINE AI DAY 2021」は、「これからのあたりまえ」となるデジタル化社会の未来を描くカンファレンスです。 本カンファレンスでは、各業界の最前線で「これからのあたりまえ」の実現に向けて取り組むキーパーソンが多数登壇し、AIのビジネス活用

                                                                      デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催
                                                                    • The NLP Index

                                                                      CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based Mental Health Question Answering The recent advancements in artificial intelligence highlight the potential of language models in psychological health support. While models trained on data from mental health service platform have achieved preliminary success, challenges persist in areas such as data scarcity, quality, a

                                                                        The NLP Index
                                                                      • Experiments_on_RCQA

                                                                        東北大 乾・鈴木研究室が公開している解答可能性付き読解データセットを利用し、既に公開されている利用可能な日本語BERTモデルとNICTが公開する2つの日本語BERTモデルの比較実験を行いました。解答可能性付き読解データセットに含まれる56,651件の質問・解答・文書の組に対して付与された「文書の読解によって質問に答えることができるかどうか」のスコアが2以上の事例から正解を抽出し、それ以外の事例は正解無しとして、与えられた質問に対して文書中から回答となる単語列の特定を行い、参考文献と同様に正解との完全一致の割合(EM)と正解の単語列に対する再現率と精度から求められるF1スコアの平均(F1)の2つの評価尺度で結果を比較しました。(ただし、訓練・開発・テストの分割等、実験設定の詳細は必ずしも参考文献とは一致していません) NICTが公開するモデルとの比較に利用したBERT事前学習モデルは下記の6

                                                                        • 【日本初】日本語を買い取ってくれる「例文買取センター」を正式リリース

                                                                          株式会社セラーバンク(本社:神奈川県川崎市、代表取締役社長:但見雄)は、日本語を学びながら日本語を売ることが出来るサービス「例文買取センター」(URL:https://reibuncnt.jp)の提供を開始しました。 例文買取センターの概要 例文買取センターは、みんなで考えた例文を日本語の勉強をしている多くの人に役立つものにするサービスです。 「例文を考える」→「メールで送る」→「Amazonギフト券が届く」という非常にシンプルな流れとなっています。 日本語を学びながら、日本語を売ることが出来ます。 例文買取センターの買い取り基準 「他の例文の内容と重複していない」「ちゃんとした文章になっている」という2つの条件を満たしていれば基本的には買い取るようにしています。 複数の方から上限を超える買取依頼があった場合は「長めの例文」「読者の役に立ちそうな例文」を優先しています。 また、買取依頼前に

                                                                            【日本初】日本語を買い取ってくれる「例文買取センター」を正式リリース
                                                                          • 自然言語処理の必須知識!Word2Vec とは?

                                                                            この記事では、Word2Vec に親しむことを目標にしています。 まずは概要を掴み、その後に Python 上で動かしてみましょう。この記事はあくまで入門を目指しているので、具体的なモデリング手法の解説は省略しています。より詳しい内容については別の機会に譲ることにします。 Word2Vec とは Word2Vec は自然言語を数ベクトルで表現する手法の一つです。中でも、Word2Vec は単語をベクトルで表現する手法です。下図はそのイメージです。 テキストにベクトル表現を対応づける より正確には、Word2Vec は Mikolov らが 2013 年の論文 (Efficient Estimation of Word Representations in Vector Space, ベクトル空間における単語の表現の効率的推定, https://arxiv.org/abs/1301.3781

                                                                            • テキストマイニングのサンプルデータを自力で準備する - Qiita

                                                                              ※実際に試した方から「Yahoo!ショッピングの商品レビューが全て取得できているわけではないらしい」「期待したよりも取得できるデータが少ない」といった感想をもらっています。きちんと確認できていませんが、APIの仕様なのかもしれません。(2020/10/24追記) 概要 最近テキストマイニングの勉強を始めたのだが、いい感じのサンプルデータが手に入らず苦労した。自分と同じ悩みを抱えている人もいるかもしれないので、自力でサンプルデータを準備するまでの試行錯誤を記事にする。 なお、私は職場でアンケートの自由記述(感想とか要望とか)を分析することが多いので、なるべく似た形式のデータを手に入れるのが目標。 手段の検討 青空文庫 テキストマイニングの本でもよく見かける青空文庫は、著作権の消滅した文学作品などを掲載したWebサイト。ただ、アンケートデータには似ていないので今回は見送り。 メリット 簡単にか

                                                                                テキストマイニングのサンプルデータを自力で準備する - Qiita
                                                                              • GitHub - megagonlabs/ebe-dataset: Evidence-based Explanation Dataset (AACL-IJCNLP 2020)

                                                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                  GitHub - megagonlabs/ebe-dataset: Evidence-based Explanation Dataset (AACL-IJCNLP 2020)
                                                                                • 研究者向け マルチモーダルデータベース ログインページ

                                                                                  マルチモーダルデータベース配布についてのQ&A Q:どんなデータが配布されているの? 東北イタコ、ずんだもん、四国めたん、九州そら、中国うさぎがITAコーパスおよびROHAN4600を読み上げたデータになります。 口の動きの画像データ、口の動きの座標をまとめたデータ、音声データ、音声の境界などが入ったラベルデータがあります。 Q:利用用途は? 研究目的、著作権法30条の4の利用範囲でお願いします。 読唇の研究、音声合成の研究、音声認識の研究、リップシンクの研究、その他の研究にお役立てください。 観賞用としてダウンロードするのはNGとなります。 研究の範囲内で機械学習などでできあがった音声などを公開する分には問題ありません。 依拠性・類似性がある形でソフトウェアとして配布したい場合はSSS合同会社にお問い合わせください。(各所に調整が必要になりますので) Q:注意点は? 話者の画像の掲載は絶

                                                                                  新着記事