[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

Rに関するnobusueのブックマーク (105)

  • 統計言語 「R」の神はなぜ無償で貢献したのか

    統計データを分析する際に使う「R」というプログラミング言語がある。無料のオープンソース・ソフトウェアで、Rを使えば、データの加工や操作、線形回帰、ランダムフォレストのような機械学習の分析、解析したデータの可視化が可能になる。「Python(パイソン)」と並び、統計分析を手がける人々に人気の言語だ。 Rはオープンソースのため世界中のエンジニアが修正や機能追加を進めている。その中で、データフレームの操作に特化した「dplyr(ディープライヤー)」やデータ可視化の「ggplot2(ジージープロット2)」など、人気のパッケージ開発で貢献した人物がいる。ソースコードの入力からコンパイルやデバッグまでが可能なRの総合開発環境を提供するRStudioのチーフ・サイエンティスト、ハドリー・ウィッカム氏だ。 ウィッカム氏が独力で作り上げたパッケージは今では大学の研究者からジャーナリストまで、数多くの人間が使

    統計言語 「R」の神はなぜ無償で貢献したのか
    nobusue
    nobusue 2019/01/11
  • tabulizerパッケージによるPDF表データからのデータ取得

    tabulizerパッケージによるPDF表データからのデータ取得 👤 Shinya Uryu 📆 2016年8月24日(水曜日) ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。 {tabulizer} というものだ。このパッケージは Tabula というオープンソースツールの機能を利用して、PDF中に含まれる表から、値を取り出すというもの。 政府や企業の報告書はPDFであることが多く(二次利用を想定していないのだろうが)、表としてデータが収められていることがしばしばある。PDFからのデータ取得方法として、Rでは {tm} を 使う方法 や {pdftools} を 利用する方法 がそれぞれあるが、 {pdftools} ではテキストベースでの抽出となるため、表データの抽出からRの特徴とも言えるデータフレーム形式への変換が困難であ

  • 「2016年版このRパッケージがすごい」暫定第一位、tabulizerパッケージを使って、日本で話題のCookpadの有価証券PDFから超簡単にデータを取得してビジュアライズまでしてみた - Qiita

    「2016年版このRパッケージがすごい」暫定第一位、tabulizerパッケージを使って、日で話題のCookpadの有価証券PDFから超簡単にデータを取得してビジュアライズまでしてみたRデータ分析DataVisualizationデータ可視化Exploratory 今年の3月ごろから何やらCookpadが騒がしいですね。IT業界に足を置いていれば、このような噂を聞いたりするのは、1度や2度ではないのではないのでしょうか?一部報道には、幹部社員が大量離脱したためサービス運営が困難、という報道もありました。Cookpadの有価証券から、実際に決算がどうなっているのかを見てみると、噂が当なのかや事件の影響について検証できそうです。事件の前と後で業績に変化はあったのか、1株あたりの利益はどれくらい増加しているのかって質問に答えることができそうです。ところが、ほとんどの有価証券はPDFデータにな

    「2016年版このRパッケージがすごい」暫定第一位、tabulizerパッケージを使って、日本で話題のCookpadの有価証券PDFから超簡単にデータを取得してビジュアライズまでしてみた - Qiita
  • 普通のSQLよりも150倍速いと謳ってるPeriscope Dataのさらに150倍の速さでサクッとRで分析してみた。 - Qiita

    この記事はRは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 SQLデータ分析をしていて、煩わしいと感じたことはありませんか? これは、SQLは、リレーショナルなデータベースから、クエリしてデータを抽出するために作られているので、ある意味当たり前のことなんです。しかし、データ分析において、Rをオススメしたい理由は、実はRは、データデータの加工、分析のために作られているからなんです。Rでなら、SQLを書くだけでは考えられなかったより高度なことや効果的な方法で素早くデータを分析していくことができるのです。 普通のSQLよりも150倍速いと謳ってるPeriscope Dataという会社のブログをご存知でしょうか? Periscope Data社が、ブログで、ぼくの留学先であるサンフランシスコの街の2003年から2015年までの犯罪データをSQLを使っ

    普通のSQLよりも150倍速いと謳ってるPeriscope Dataのさらに150倍の速さでサクッとRで分析してみた。 - Qiita
    nobusue
    nobusue 2016/09/07
    釣りっぽいけど納得のエントリ
  • なぜデータ分析においては、SQLではなくRを使うべきか? データ分析ツールExploratoryを使って、dplyrを使いこなす第2弾 データ集計編 - Qiita

    これから、Rのフロントエンドと呼ばれているデータ分析ツールExploratoryを使いながら、dplyrについて簡単に説明していきます。第1弾はこちらから見ることができます。データはこちらからダウンロードできます。 データをインポートする まず、ここからプロジェクトを作ることができます。 次に、ここからデータをインポートできます。 データをインポートすると、データのサマリー画面を見ることができます。 summarize関数を使う フライト全体の平均遅延到着時間を見たくありませんか? そういうときは、summarize関数の、summarizeコマンドを使うと見ることができます。 ARR_DELAY列のヘッダーをクリックしてfilterコマンドを選びます。 すると、自動的にsummarize(ARR_DELAY_mean = mean(ARR_DELAY, na.rm = TRUE))が入力

    なぜデータ分析においては、SQLではなくRを使うべきか? データ分析ツールExploratoryを使って、dplyrを使いこなす第2弾 データ集計編 - Qiita
  • Rで欠損値の有無を判定する函数 anyNA()|Colorless Green Ideas

    Rの函数 anyNA() は引数のオブジェクトに欠損値が含まれているかどうかを高速に返す函数であり、欠損値が含まれていれば TRUE を返す。 anyNA() で欠損値の有無を調べる データを集める際に、何らかの理由で一部のデータが得られないことがある。例えば、アンケートを行う際に、ある回答者が年齢について回答してくれなかったために、その回答者の年齢のデータが得られないということがある。あるいは温度計の故障で、ある地点の温度のデータが得られないということもある。こうして得られなかった値のことを欠損値と呼ぶ。データの処理を始める際には、その中に欠損値があるかどうかを確認することが重要である。もし欠損値を含むようであったら、それなりの対応を取らなくてはならない。 統計解析用の言語である R には、anyNA()という有用な函数があり、これで欠損値の有無を調べることができる。この函数は、ベクトル

    Rで欠損値の有無を判定する函数 anyNA()|Colorless Green Ideas
    nobusue
    nobusue 2016/07/07
  • Rメモ:read.csv/write.csvで読み込んだり書き出したりするときの注意点 - StatsBeginner: 初学者の統計学習ノート

    Rで、CSVのデータを読み込んだり書き出したりするときに、引数をちゃんと設定してなくてミスることがありますね。 いやべつに大したことではなくて、私のような初心者レベルですら「当たり前」なことではあるんですが、今日あるデータを分析してて一部ミスってたものがあったので改めて注意しなきゃなと思いました。 # データxをCSVでファイルを出力する write.csv(x, "x.csv", quote=FALSE, row.names=FALSE) quote=FALSEにすると、データに引用符の""がつかないCSVが出力されます。TRUEにすると、因子型とか文字列型のデータは1個1個の値が""で囲まれます。いずれにしてもちゃんと指定しておかないと、ミスるときありそうですね。デフォルトではTRUEになってるようです。 あと、row.names=FALSEってしておかないと、行列の行番号がそのままC

    Rメモ:read.csv/write.csvで読み込んだり書き出したりするときの注意点 - StatsBeginner: 初学者の統計学習ノート
    nobusue
    nobusue 2016/07/06
  • Rでデータ読み込みから前処理までのTips - Qiita

    Rでテキストファイルの読み込みからデータ加工の流れ(前処理)で覚えておくとかなり便利、あるいはよくハマるポイントを中心に。 細かい知識が多いのだがまとまったものがなかったのでまとめてみた。 ありがちなハマりを回避して作業効率を上げるために。 データの読み込み データファイルの読み込み プロジェクトごとにワーキングディレクトリをセットするといい CSVファイルの読み込み read.csv()はヘッダありが前提。 文字コード fileEncoding="文字コード名"で指定できる。Windowsで作ったCSVを読み込む際、BOMが付いていることがあるのでfileEncoding="UTF-8-BOM"とする 文字列の扱い 文字列が自動的にfactor型になるので、不都合な場合はstringsAsFactors=Fを指定する 欠損値の扱い 欠損値が空欄であったり、データベースからエクスポートした

    Rでデータ読み込みから前処理までのTips - Qiita
    nobusue
    nobusue 2016/07/06
  • readr: 高速で柔軟なテーブル読み込み

    タブ区切りテキストやCSVファイルを読み込んでdata.frameにするツール。 .gz や .xz などの圧縮ファイルも透過的に読み書き可能。 標準でも read.table() や read.csv() があるけど、それらと比べて 場合により数倍高速・省メモリ 列の名前や型を指定しやすい 指定した列だけ読み込むこともできる 生data.frameより安全な tibble として返してくれる 空白行を勝手にスキップする (1.2から skip_empty_rows = TRUE) 勝手に列名を変更しない する (2.0から name_repair = "unique") stringsAsFactors = FALSE とイチイチ書かなくて文字列を読める R 4.0 から標準関数もこの挙動。 tidyverse に含まれているので、 install.packages("tidyverse

    readr: 高速で柔軟なテーブル読み込み
  • SSSSLIDE

    SSSSLIDE
  • stringr: Rの文字列をまともな方法で処理する

    R標準のbaseパッケージが提供する関数でも文字列処理は可能だが、 stringrのほうが統一的なインターフェイスに合理的な挙動で使いやすい。 factor と character を同じように扱う 引数オブジェクトの各要素の名前や位置を保持する 長さゼロのオブジェクトを引数として与えた場合には長さゼロの結果を返す 引数オブジェクトに NA が含まれる場合はその部分の結果を NA とする 対象文字列が一貫して第一引数で、パターンが二番目 何をやる関数なのか名前から分かりやすい (標準が覚えにくすぎ: grep, grepl, regexpr, gregexpr, regexec) ICU4C (via stringi) を使って動くため高速 ICU正規表現 の仕様が明確 今や stringr は stringi のラッパーだし、 どちらもほぼ同じインターフェイスなので、 もし前者に不足があ

    stringr: Rの文字列をまともな方法で処理する
    nobusue
    nobusue 2016/06/21
  • An API Generator for R

    Plumber allows you to create a web API by merely decorating your existing R source code with roxygen2-like comments. Take a look at an example. # plumber.R #* Echo back the input #* @param msg The message to echo #* @get /echo function(msg="") { list(msg = paste0("The message is: '", msg, "'")) } #* Plot a histogram #* @serializer png #* @get /plot function() { rand <- rnorm(100) hist(rand) } #* R

  • 🔧RでREST APIを作る(plumber編) - cucumber flesh

    様々なAPIを利用していると、次第に自分でもAPIを作りたくなりませんか? Rの関数を利用してHTTP経由でデータの受け渡しができると嬉しいですよね。加えて、Rの作図機能を使って、APIを叩くだけで作図してくれると超ハッピーですよね。 前置きも何もなく唐突ですが、{plumber}パッケージを使ってお手軽にRでAPIサーバーを構築できるヨ、という話です。{plumber}はまだCRANに登録されていないので、利用する際にはGitHubから開発版をインストールしてきてください。 🤔RでAPIサーバー? 「RでAPIサーバーを作る」という話自体は昨年末のJapan.Rでゴミ箱さんが話されていたのですが、運営側だったこともあってしっかりと聞けていませんでした(この記事を書こうとして、そういえばゴミ箱さんがRでAPIを作る、みたいな話していたよなというのを思い出した)。ゴミ箱さんの話の中でも{p

    🔧RでREST APIを作る(plumber編) - cucumber flesh
  • ⭐️手を動かしながら学ぶモダンなデータ操作とtidyなデータ(2015年版) - cucumber flesh

    R Advent Calendar 2015の第一日目です。 今日はタイトルの通り、{dplyr}と{tidyr}パッケージを使ったデータの整形と集計処理について、実際のデータを交えながら紹介したいと思います(タイトルは流行りのからとってきました。オマージュです)。 {dplyr}と{tidyr}パッケージ、関数の使い方を紹介した記事はあっても、実際のデータを扱った記事を検索しても、日語の記事がほとんど見つからなかったので、tidyなデータ形式について普及させるために記事を書こうというところです。 一応、自分が集められたtidyデータについての記事へのリンクを貼っておきます。 R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments メモ:dplyr::mutate()の中でstr_split()したいと思ったとき、使うのはtidyr::s

    ⭐️手を動かしながら学ぶモダンなデータ操作とtidyなデータ(2015年版) - cucumber flesh
  • ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh

    RStudioのチーフサイエンティスト、Hadley Wickham(ハドリー)が2月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S

    ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh
  • dplyrを使いこなす!基礎編 - Qiita

    はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、 超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす!シリーズ 基礎編以外も書きましたので、↓からどうぞ。 dplyrを使いこなす!Window関数編 dplyrを使いこなす!JOIN編 dplyrとは データフレームの操作に特化したパッケージです。 Rは基的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。 ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。 処理可能なデータサイズの目安 あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデータサイ

    dplyrを使いこなす!基礎編 - Qiita
  • Introducing Exploratory Desktop — UI for R

    dplyr is amazing. I immediately fell in love with it when I encountered for the first time because each command interface was simple and beautiful, its use of ‘pipe’ made the data analysis pipeline readable for anybody, and the functionality it provided was already comprehensive and practical for real use cases especially when combined with tidyr. On top of that, the performance was blazing fast.

    Introducing Exploratory Desktop — UI for R
    nobusue
    nobusue 2016/05/20
    これはすごいプロダクト。Tableauキラーですね。
  • テキスト・データを簡単にクリーン・アップしながらExploratoryのベータ版に世界中から登録してくれたユーザーの普段使っているデータ分析ツール上位ランキングを出してみた - Qiita

    おかげさまで現在、世界中からたくさんの人たちにExploratory Desktopのベータ・トライアルの方にサインアップしていただいています。もしまだサイン・アップしてなくて興味のある方はぜひこちらからどうぞ。 ところで、サインアップしていただく時に、皆さんの普段使っているデータ分析ツールが何か、聞かせてもらっています。そのデータがこちらにあるので、それを元にどういったツールが今世界中で人気があるか出してみたいと思いますが、実はいくつか面倒くさい問題があります。 カンマ区切りなので、単純にツールごとに集計できない フリーフォームなので、スペースがいろんなとこに入ってたり、英語の大文字、小文字が混じってて、実は同じ名前であるのに同じ名前としてカウントできない。 こういったデータって結構データ分析をやっていると普通だったりするのですが、Exploratoryを使うと簡単にクリーン・アップする

    テキスト・データを簡単にクリーン・アップしながらExploratoryのベータ版に世界中から登録してくれたユーザーの普段使っているデータ分析ツール上位ランキングを出してみた - Qiita
  • Rのフロントエンドということで話題になっている、Exploratoryの対話的なデータ分析環境で「ヨーロッパはほんとに女性が活躍しやすい社会か」どうか分析してみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ぱっと見て、このデータがなんのデータかとかってわかりますか? これだけ見ただけだとなんのデータかわからないですよね〜。 これは実は、フォーブズ誌からダウンロードしてきた世界の億万長者についてのデータなんですね。 そもそも億万長者ってどの国に多いんですかね。また、億万長者ってどうやってなってるんですかね。はたまた、億万長者って男性と女性どちらのほうが多いのでしょうか? また、最近読んだ記事↓によると、ヨーロッパは女性が活躍しやすい社会だったりするそうです。だとすると、今、ヨーロッパには、女性の億万長者も多かったりするのでしょうか? こんな

    Rのフロントエンドということで話題になっている、Exploratoryの対話的なデータ分析環境で「ヨーロッパはほんとに女性が活躍しやすい社会か」どうか分析してみた - Qiita
  • AICを使った変数選択 - hnami.net_Pukiwiki

    2014-06-19 SandBox 2014-04-15 microexam 2013-05-11 DCIO 2013-03-15 game2013 2013-03-08 MCmicro 2012-09-18 game2010 2012-02-17 microexamold microexam2010 2011-04-19 appmicro 2011-01-04 semielemental2 2010-04-01 kihonmicro 2009-06-01 radvance 2009-05-17 AICを使った変数選択 step02 step01 stepaiccsv FrontPage 2009-05-13 ロジット分析とプロビット分析 2009-05-10 赤池の情報量基準 2009-05-05 時系列データ分析(2) パッケージMASSとVR † 以下ではstepの使い方について解