2022年7月23日に行われた、第100回R勉強会@東京(#TokyoR)での発表資料です。 https://tokyor.connpass.com/event/253867/ 資料で使っているRコードはこちらになります。 https://github.com/dropout009/TokyoR100
サイバーエージェントは7月12日、メタバース空間の建築物や空間デザインの研究・企画・制作を行う専門組織「Metaverse Architecture Lab」(メタバースアーキテクチャラボ)を設立し、建築家の隈研吾氏を顧問に迎えたと発表した。空間デザイナーやCGアーティストなど、クリエイター・デザイナー職の採用も強化する。 ラボでは、簡易テンプレートで構築できるバーチャル店舗や、実在する街並み・実店舗などを再現したデジタルツインの空間・建築物をなどを制作。アパレル企業などのブランディングや小売り企業の販促に生かせるバーチャルな商業空間を研究する。 また、メタバース空間だからこそ実現できる建築のコンセプト設計、コンテンツ企画やユーザー体験の設計などにも取り組む。 同社は、バーチャル店舗開発に特化した事業会社CyberMetaverse Productionsを2月に設立し、メタバース空間で企
今や大人気のスクリプト言語「Python」は、PC内の処理はもちろんインターネットやクラウドとの親和性も高いという特徴を持つ。Pythonを使ってExcelファイルの変換などPC内で完結する処理から、クラウドを活用した各種自動化処理まで便利なスクリプトの数々を紹介する。 最近は監視カメラの低価格化が進んでいますが、そうした市販製品よりも細かく自分の思い通りにカメラを制御したい人もいるでしょう。市販の監視カメラでは専用のアプリからしか使えない場合が多いのも不便です。Pythonのライブラリを使えば、自由にカメラを制御できるため、自作の監視カメラを作るのも難しくありません。そこで、Webカメラの画像を定期的に撮影してLINEで通知するスクリプト「camera_line.py」を作ってみました(図1)。安価に機材をそろえられるRaspberry Pi(ラズパイ)とUSB接続のWebカメラを組み合
These days, if you want to work in sports analytics, you need to know how to code. There's really no way around it. And while that can be scary for someone who's never written a line of code before, it's not as daunting as it seems. The reality is that there are a variety of excellent (often free!) resources for learning how to code. Some of them are very general, some are focused on a specific pr
Chapter 1 はじめに この文書は、卒業論文を書くためのRの使い方をできるだけコンパクトにまとめたものです。 読者は立命館大学総合心理学部森ゼミの学生をピンポイントに想定しています。 Rを用いた演習として「心理学データ解析法」の履修を推奨していますが、履修していなくてもわかるように構成しています。 卒業論文自体はWordで作成する想定で、Rで得られた結果をWordに貼り付ける(簡便な)方法を説明します。 一般的なRの入門文書としても参照できます。 説明の都合上、厳密さよりわかりやすさを重視した記述が多々あります。ご了承ください。 1.1 この文書で学ぶこと 具体的には、以下の項目を学習します。 R, RStudioをインストールし、基本的な操作ができるようになる データをRStudioにインポートする インポートしたデータを分析可能な形に前処理する 記述統計を整理する データを可視化
この記事の前段として、まず事前に昨年書いた機械学習モデルの解釈性についての記事をご覧ください。 僕が知る限り、機械学習実践のデファクトスタンダードたるPython側ではLIMEやSHAPといった解釈手法については既に良く知られたOSS実装が出回っており、相応に実際に使ってみたというレポートも見かける状況です。一方、R側ではそこまでメインに機械学習を回す人が多くないせいか、あまりこれまで実践例を見かけないなぁと思っていました。 そんなことを考えながら先日ふと思い立ってググってみたら、意外にも幾つかの解釈手法については既にOSS実装があり、中にはCRANに上がっているものもあるのだと今更ながら知ったのでした。 ということで、二番煎じなのか何番煎じなのか分かりませんが、これらのRによる機械学習モデルの解釈法実装を今更ながら僕も試してみることにします。検証に使うデータセットは統一してUCI ML
学生時代からデータ解析にはRをメインで使ってきました。Pythonについてはデータ構造やクラス/インスタンスなど最低限知っておくべきPythonの知識は学んだものの,細かい文法・テクニックなどについて詳しくなく,困ったときにはRのノリ + ググった付け焼き刃で乗り越えてきました。最近仕事でPythonを使う機会が段々多くなり体系的に学ぶ必要があると感じ,『Python 実践入門』と『Python言語によるプログラミングイントロダクション』*1など読み進めています。 Python実践入門 ── 言語の力を引き出し、開発効率を高める (WEB+DB PRESS plusシリーズ) 作者:陶山 嶺発売日: 2020/01/24メディア: 単行本(ソフトカバー) Python言語によるプログラミングイントロダクション:世界標準MIT教科書 作者:John V. Guttag発売日: 2016/05
「.LIVE」アイドル部1期生が卒業を発表/画像は「【VTuber格付けチェック】2020年 お正月スペシャル!!」より POPなポイントを3行で VTuber事務所「.LIVE」アイドル部1期生が卒業 花京院ちえり、神楽すず、カルロ・ピノ、もこ田めめめ、ヤマト イオリが活動継続 牛巻りこ、木曽あずき、北上双葉、金剛いろは、八重沢なとりは「.LIVE」も卒業 アップランドが運営するバーチャルYouTuber(VTuber)プロダクション「.LIVE」は、同事務所内ユニット・アイドル部の1期生メンバーが4月30日をもって卒業すると発表した。 卒業する1期生メンバーのうち、花京院ちえりさん、神楽すずさん、カルロ・ピノさん、もこ田めめめさん、ヤマト イオリさんの5名は、引き続き「.LIVE」所属として活動を継続。 牛巻りこさん、木曽あずきさん、北上双葉さん、金剛いろはさん、八重沢なとりさんの5名
はじめに 使い方 parse_*_dohunbyo(): DMS表記を十進数表記に変換 日本測地系2011における平面直角座標系の特定 move_jpn_rs(): 南西諸島の一部・小笠原諸島を移動した日本地図の描画 地理院タイルをleafletで簡単に利用できるように 国土地理に関するデータセット はじめに kuniezuパッケージ (v0.1.0) をCRANにリリースしました。 github.com このパッケージは、私が業務や趣味で日本国内の地理空間データを扱う時に作っていた関数を一つのパッケージに整理したものです。 空間的に世界規模のデータを扱うのではなく、日本国内に限った話であれば、日本に即した仕様や座標参照系を利用した方が良いことがあります。 そうした日本の地理空間データを処理する際に利用することがある機能や、あると便利なデータセットを提供できるように努めています。 ゆるゆる
100+ Best Free Data Science Books For Beginners And Experts (Updated For 2024) In the previous post, we’ve covered 100+ Free Machine Learning and Artificial Intelligence Books. If you haven’t checked make sure you spend 2 minutes after checking this post. In this post, You’ll see 100+ free data science books for beginners, intermediate, and experts. The eBooks are updated in 2024 and available in
First Visualizations: Frequencies Let us first visualize word frequencies. We can get these frequencies with the quanteda package, which implies transforming the column of lemmas (text.lemmas$lemma) into a quanteda tokens object, then to a document-feature matrix. Doing so, we only retain significant parts of phrases (nous, proper nouns, verbs and adjectives). This only partially spares us the tas
はじめに 本記事では、Rによる一般化線型モデル解析を紹介する。線型回帰、ロジスティック回帰、ポアソン回帰を行う。入門的な記事で記されている内容に加え、係数ベクトルによる算出、対比検定、offset項を用いたポアソン回帰による率比推定を記載した。 【参考文献】 一般化線形モデル入門 原著第2版 Modern Epidemiology 4th edition 目次 一般線型モデルと一般化線型モデル Package 一般線型モデル(LM) Cervical Dystonia longitudinal dataset Variables データの読み込み 線型回帰分析 係数ベクトルによる算出 例1: treat_c2群の16週目のtwstrs 例2: treat_c2群の治療効果 対比検定 一般化線型モデル(GLM) Byar & Greene prostate cancer data Varia
Version 1.92 is now available! Read about the new features and fixes from July. The R programming language is a dynamic language built for statistical computing and graphics. R is commonly used in statistical analysis, scientific computing, machine learning, and data visualization. The R extension for Visual Studio Code supports extended syntax highlighting, code completion, linting, formatting, i
米Kentucky Fried Chicken(KFC)は1月5日(現地時間)、植物由来の代替肉メーカー米Beyond MeatがKFC用に開発した「Beyond Fried Chicken」を10日から全米で発売すると発表した。期間限定ではあるが、売り切れることはないとしている。 植物由来のBeyond Fried Chickenは「KFCのフライドチキンに期待される風味とジューシーな満足感が詰まっている」という。 両社は2019年8月にアトランタのKFCでBeond Fried Chickenのテスト販売を行い、5時間で完売した。その後もテストと改良を続けてきた。 価格は6ピースで6.99ドルと、オリジナルチキンと同価格だ。 関連記事 コオロギ入りクッキーを3Dプリント 山形大学が開発 昆虫食の見た目に対する抵抗感を軽減するための手法。 KFC、3Dバイオプリンティング製代替肉ナゲット
2018年3月に上場を果たしたドロップボックス、中央左に共同創業者のドリュー・ハウストン最高経営責任者(CEO)。 REUTERS/Lucas Jackson Twitter(ツイッター)やShopify(ショッピファイ)に続き、Dropbox(ドロップボックス)も「永久リモートワーク」を導入する考えを明らかにした。 ただし、リモートワーク一本槍の働き方とは異なる模様だ。Dropboxが10月13日に更新した同社ブログには、こんなことが書かれている(一部抜粋)。 僕らは世界のみんながどこでも働けるようにソフトウェアを開発しているのに、当の僕らは毎日同じオフィスに通勤している。 事実上、あらゆる仕事はデジタル化して、チーム全員がひとつの場所に集まることは必ずしも大事なことではなくなっている。 僕らの社内調査でも、自宅でも生産性を十分維持できると答えた社員が約9割。ほとんどの社員が、平日5日間
紹介 『私たちのR』は宋財泫(SONG Jaehyun)と 矢内勇生が共同で執筆するRプログラミングの「入門書」である。統計学の本ではない。 また、本書はデータ分析の手法の解説書でもない。Rを用いたデータ分析については他の本を参照されたい。私たちが専門とする政治学におけるデータ分析については、以下の本を勧める。 浅野正彦, 矢内勇生. 2018. 『Rによる計量政治学』オーム社. 飯田健. 2013.『計量政治分析』共立出版. 今井耕介(粕谷裕子, 原田勝孝, 久保浩樹 訳)2018.『社会科学のためのデータ分析入門(上)(下)』岩波書店. 本書が想定するのは、次のような希望をもつ読者である。 分析に入るまでの段階、つまりデータの入手やクリーニング方法が知りたい 分析結果を自分の思いどおりに可視化したい 複数のモデルを効率的に分析したい Rでシミュレーションがしたい Rと友達になりたい 本
2022年はデータサイエンスという言葉が色々な場所で聞かれる1年だったと思います。今回は、2023年にもっと多くの人が興味を持つであろうデータサイエンスを無料で学べる教材6選を紹介したいと思います。これらの教材は、アメリカの大学で統計学や機械学習などを勉強している筆者が実際に利用したり、利用しようと思っているものです。Pythonや統計学、機械学習を学んでみたいと思っている方はぜひ活用してみてください。また、この記事の最後にはレッジAIが今までに紹介してきた学習コンテンツ紹介の記事へのリンクもあるのでぜひそちらもチェックしてみてください。 筑波大教授が著した無料の初心者向けPython教材筑波大学の三谷純教授によって著されたスライド教材で、2021年5月に初公開され、2022年2月に大幅に内容が更新された新たな改訂版が公開された。同スライドは三谷教授の著書である「Python ゼロからはじ
「月刊ComicREX」(一迅社刊)にて連載中、原作者・ねことうふ先生による人気コミック『お兄ちゃんはおしまい!』がTVアニメ化。2023年1月5日(木)より、AT-X、TOKYO MX、BS11にて放送開始となります。 アニメイトタイムズでは、放送に際してスタッフインタビュー連載を実施! 毎週、アニメイトタイムズ公式Twitterと連動して、各話の制作秘話や裏話をお届けします。ぜひ、放送に合わせてご覧ください! 引きこもりのダメニートな緒山まひろは、ある日目覚めると“女の子”になっていた!?鏡に映る美少女が自分だと分からず混乱するまひろのもとに、飛び級で大学に入学した天才科学者である妹・緒山みはりが現れ、飲み物に怪しげな薬を盛られていたことが判明する…!もう2年も外に出ないでいかがわしいゲーム三昧…たまには働いてもらわなきゃ!みはりによる“女の子になる薬”の経過観察として、突如女の子とし
この記事は、以前『統計学のセンス』を読んだ時から気になっていたことを思い出したので、単にRで試してみたという備忘録です。 非劣性検定(等価検定)の話題は、本書の最後にある8.3節「非劣性の検証とは?」であくまでも付録扱いとして登場します。ここでは、 統計学的検定は通常「有意差検定」といわれるが、 1) 標本数を大きくすることによって「医学的に有意でない差」を「統計学的に有意」とすることができる 2) 標本数を小さくすることによって「医学的に有意な差」を「統計学的に有意でない」とすることができる という欠点があることは意外と知られていない。(同書p.143) という有意差検定の問題点を指摘した上で、1980年代後半ごろから新薬審査に当たって「標準薬と同等程度の有効性」が検証できれば認可されるという流れが出てきたことで、積極的に同等性を検証するというニーズが出てきたという話題が紹介されています
本webサイトは,技術書典12にて頒布したがんばらないデータ加工 Rによるくり返し作業入門 前編のオンラインバージョン こちらは随時updateされていく予定 概要 本書の目的 データ加工での面倒な作業をRとRStudioで手軽に実行できるようになるための基礎知識を紹介 本書の内容 Rのモダンな方法を使い,データ加工の過程(例:前処理、データクリーニング、データクレンジング、データラングリングなど)で用いる基本関数の紹介 実際は核心の部分に入る前の準備段階までにとどまる。タイトルに「前編」とあるのはその理由による 基本的にデータフレーム(1.6参照)の形になったきれいな構造を想定しているが,ここで解説した技術に熟達することで,その他のデータ形式や汚いデータ構造にも立ち向かえるようになる 執筆動機 本書を書こうと思ったのは拙既刊書『Rで読むExcelファイル』と同じく,「RとRStudioを
はじめに 先日以下の記事が話題となり、とてもワクワクしたので自分も実装して色々実験してみました。 実装するうちに理解が深まったので一度、 誤差拡散法の元ネタ紹介から 数式の解説、 ED法の弱点、 行列計算を使用した実装と簡単なテスト結果、 実装上の工夫 までまとめてみたいと思います。 誤差拡散(Error Diffusion)法 もともとは画像の2値化において失われる情報を周囲のピクセルで補うことで、遠目に元の画像の濃淡が残っているように見せる技術(ハーフトーン処理の一種)です。 Error diffusion -Wikipedia(英語版) 左の画像をちょうど半分の明るさをしきい値として2値化すると中央の画像のようになりますが、誤差拡散法を適用すると2値化後も右の画像のようにある程度濃淡を保存・表現できます。 誤差拡散法(画像処理)のサンプルコード コメントアウト箇所はFloyd, St
この記事はR言語 Advent Calendar 2023の8日目の記事です。 qiita.com 本当に9割が知らないかどうかは知らないです。 「R言語は遅い」と言われがちですよね。 個人的には困るほど遅いと感じたことは無いのですが、まあ速いに越したことはありません。 高速化のテクニックも色々あります。 予算がある場合はメモリとCPUを強化するのが手っ取り早いです。 qiita.com データの読み書きならreadrパッケージでも十分早いし、arrowパッケージという手もあります。 heavywatal.github.io qiita.com 追記:for文をlapply()やReduce()で高速化する方法もあります! qiita.com 各種処理ではとにかくベクトル化することが高速化のコツになります。 ベクトル化してください。 ベクトル化しろっつってんだろ。 また、並列化が有効なケー
2022年に書いたRで論文を書く実践的なテクニック集のテーブル編をtinytable版で書き直したものです. Quartoで書かれた英語版もありますので, そちらも参考にしてください. kableExtra, gt から tinytable の時代へ 近年, Rで表を作成するためのパッケージとして kableExtra と gt が人気を集めてきました. 私は kableExtra を使って論文(\LaTeX)で表を作成し, gt を使ってスライド (revealjs) で表を作成しており, 以前行ったRワークショップやZennでの解説記事でもkableExtraを念頭においておりました. しかし, 2024年4月現在, tinytableが従来のパッケージと比べ軽くて使いやすく, 今後のスタンダードになっていくと確信しており, 以前書いた記事を更新する必要があると考えました. この記事で
COVID-19が世界中に感染拡大し、日本含め多くの国で外出や集会の制限(自粛)措置が取られて久しい昨今ですが、これに伴って多くのところでCOVID-19に関連したオープンデータが公開されるようになっており、データ分析を生業とする人間が実データを扱う良い機会ともなっているように見受けられます。 ということで、今回の記事では東京都が公開している日次のCOVID-19感染者(PCR検査陽性者)報告数のデータを題材として、時系列モデリングのおさらいをしてみようと思います。なお、この記事における時系列モデリング結果は今後のCOVID-19の感染拡大状況について何かしらの解釈や予測をするためのものでは全くありません*1ので、悪しからずご了承ください。 また、この記事で公開しているコードは以前書いたクソコードをそのまま転用しているので、端的に言ってただのクソコードです。皆さん自身がお試しになる際は是非
はじめに その昔(2000年代初頭)、Rを初めて学ぶときには、CRANのホームページから英語のマニュアルを入手し、読むしかありませんでした。いくつかのRの教科書がすでに出版されていましたが、多くの教科書はプログラミングの入門については取り扱っておらず、統計手法の使い方、高度な統計について、あるいはパッケージのマニュアルなどについての説明が記載されていました。2000年代初頭に大学生であった私にはRはとても難しく、英語のマニュアルも読めず、インターネットに落ちているコードをコピペしては自分のデータを入力し、使い方もよくわからずに統計の計算をしていたものでした。簡単な統計はExcelや、怪しげなフリーソフトを用いて行っていました。どのソフトにも手法がないような統計の手法にだけ、Rを用いたのです。 時は流れ、2010年代、私は再びRと向き合うことになりました。その当時、研究で得たデータに対して、
これまで、RとPythonは両方使える人が少なくないながらも開発陣やコミュニティの思想が違うせいもあってか、「Rは統計学向け」「Pythonは機械学習向け」的な住み分けが年々進み、特に機械学習関連の重要なフレームワーク・ライブラリ類はPython向けのみがリリースされることが多く、R向けにはリリースされないということが常態化している印象がありました。 そんな中、この9月にPythonの機械学習OSSを代表する2つのライブラリが相次いでR版パッケージを発表したので、個人的にはなかなか驚きました。中には「この2つがRに来たからにはもうPythonは触らない」と豪語する過激派の方もいらっしゃるようですが(笑)、それはさておき個人的な備忘録としてこの2つのR版パッケージを試してみた記録を記事として残しておこうと思います。 なお、以下のモデリングはほぼ何もチューニングを行っておりません。あくまでも「
はじめに このページでは R を用いた統計分析の基本を解説しています。 目次 RとRStudioの導入 Google ColaboratoryでR言語を使う Rのデータ構造 データセットの作成と加工 その他のRの概念 図の作成 基本的な統計分析 回帰分析 因子分析 テスト課題 画面上部の左端のアイコンを押すか、キーボードの S キーを押すとメニューの表示・非表示を切り替えることができます。
これはただの備忘録です。既知の話題ばかりが並べられているので、特に新鮮味のない内容である点予めご容赦ください。 クラスタリング手法として広く知られるK-meansは、その簡便さから非常に広汎に使われていますが、一方で「クラスタ数を恣意的に決め打ちせざるを得ない」という難点があり、「最適なクラスタ数をどうやって決めるか」という課題が長年に渡ってあります。この課題の解決策についてちょっと調べてみたので、以下にまとめてみました。 K-meansにおける「最適なクラスタ数の決め方」として、こちらの記事では伝統的な手法ということで エルボー法 シルエット分析 X-means(K-meansに情報量規準を適用して再帰的に最適クラスタ数を決める) の3種類が紹介されています。これらは僕も以前から聞いたことがあるもので、実際K-meansの実装の中には最初からエルボー法などを含んでいるものもあったりします
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く