[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

Rとdplyrに関するabrahamcowのブックマーク (32)

  • Row-wise operations

    dplyr, and R in general, are particularly well suited to performing operations over columns, and performing operations over rows is much harder. In this vignette, you’ll learn dplyr’s approach centred around the row-wise data frame created by rowwise(). There are three common use cases that we discuss in this vignette: Row-wise aggregates (e.g. compute the mean of x, y, z). Calling a function mult

    Row-wise operations
  • 都道府県の市区町村を人口で2分割するやつ: 全国版

    前回、都道府県の市区町村を人口で2分割するやつのコードを書いたので、関数化して全国版の地図を作ってみる。 あらかじめ人口データだけは用意しておく必要があるので、前回同様{estatapi}でデータをダウンロードして加工しておく。 gg_pref_split()という関数がそれ。pref_codeで対象の都道府県(コード)を指定する。プロットおよびラベルの描画は引数で変更可能。フォントも適当に変えられる。 gg_pref_split <- function(pref_code = 33, plot = TRUE, label = TRUE, label_font = "IPAexGothic") { p.code <- sprintf("%02d", pref_code) data.result <- d.pops %>% dplyr::filter(pref_code == p.code)

    都道府県の市区町村を人口で2分割するやつ: 全国版
  • diff operation within a group, after a dplyr::group_by()

    abrahamcow
    abrahamcow 2017/05/27
    grou_by diff
  • 【R】転職ドラフトのデータをスクレイピングして分析(集計)する - 歩いたら休め

    お久しぶりです。 最近上司と「機械学習とかその辺の技術が発展したら、真っ先に自動化されて仕事なくなるのはハンパなエンジニアと中間管理職だよね〜」という話をして危機感を募らせている @takeshi0406 です。 WEBエンジニアにはご存じの方も多いと思いますが、転職ドラフトというWEBサービスがあります。 job-draft.jp このサービスは、次のような理念や問題感から始まった作られたものだそうです。素晴らしいです。 企業による公開競争入札。 これなら、自由競争でのリアルな相対価値がわかるようになる。 エンジニアだからこそ、より明確に。 誰が評価され、誰が評価されないのか。 自分の価値向上には、これから何をすべきなのか。 私も「友達を紹介してオライリー・ジャパンのをGETしよう!」の文言につられて、友だちを3人紹介した上で登録したのですが、レジュメを丁寧に読んでダメ出ししてもらえ(

    【R】転職ドラフトのデータをスクレイピングして分析(集計)する - 歩いたら休め
  • 「Rによるスクレイピング入門」を執筆しました - cucumber flesh

    タイトルの通り、執筆に関わった書籍が出版されたので内容紹介と宣伝です。 Rによるスクレイピング入門 作者: 石田基広,市川太祐,瓜生真也,湯谷啓明出版社/メーカー: シーアンドアール研究所発売日: 2017/03/27メディア: 単行(ソフトカバー)この商品を含むブログ (2件) を見る 「Rによるスクレイピング入門」、このは書名やカバーから想像するに、 Rを使ってウェブ上のデータを取得し、実践テクニックを豊富に示す 、ことが伺えます。ただし書で扱う内容はそれだけではありません。以下に述べるように、R言語の解説書、モダンなR言語の操作方法、データ処理・可視化について一通り学べるR言語の、ウェブ技術書としての側面があります。 書の多様性 書の書名を見て、「え?Rでスクレイピング?」といった感想を持たれる方がいるかと思います。Rって、統計解析や可視化が得意な言語だったのでは?… も

    「Rによるスクレイピング入門」を執筆しました - cucumber flesh
  • dplyrのmutate_if()とかについて - Technically, technophobic.

    1か月前にキターとつぶやいたものがついにCRANにきたのでそれについて書きます。 Colwise update https://t.co/AotXyUjYmv キター!— Hiroaki Yutani (@yutannihilation) 2016年5月31日 これは何なのか 複数のカラムに対して同じ処理をするとき、これまではmutate_each()、summarise_each()という関数がありました。 たとえば、Sepalから始まるカラムすべてにmin()とmax()を適用したいときはこんな感じです。 library(dplyr) iris %>% group_by(Species) %>% summarise_each(funs(min, max), starts_with("Sepal")) #> Source: local data frame [3 x 5] #> #> S

    dplyrのmutate_if()とかについて - Technically, technophobic.
  • dplyr でグループごとに複数カラムを追加したい #rstatsj - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    dplyr でグループごとに複数カラムを追加したい #rstatsj - Qiita
  • RPubs - dplyrでgroup_byした後にquantilesする関数

  • ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh

    RStudioのチーフサイエンティスト、Hadley Wickham(ハドリー)が2月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S

    ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh
  • ggplot2のバージョンを上げたら棒グラフの書き方が変わっていた - ぷる日記

    はじめに Rによるデータマイニング入門 作者: 山義郎,藤野友和,久保田貴文出版社/メーカー: オーム社発売日: 2015/11/21メディア: 単行(ソフトカバー)この商品を含むブログを見る最近読んでいるこの、そんなに厚くはないんですが基的な分析手法が一通り網羅されています。 また、dplyrやggplot2など比較的新しいけど最近のRには必須とも言うべきパッケージが使われており、サンプルコードを動かしながらRでどんなことができるのかを知るには良いなんじゃないかな、と思っています。 ggplot2パッケージのバージョンを上げたらサンプルコードの一部が動かなくなった ggplot2パッケージは2015/12/15にver2.0.0がリリースされましたが、それを使ってサンプルコードを実行すると、棒グラフ描画の部分がエラーになるようになってしまいました。 具体的にはchapter15

    ggplot2のバージョンを上げたら棒グラフの書き方が変わっていた - ぷる日記
  • dplyrでdoして楽をする - Qiita

    熱狂的なHadley Wickhamファンな私ですが、最近、Hadleyのあゆみについていけていない感があります。 **{purrr}だの、{multidplyr}**だの次々と新しいパッケージが登場したり、やっとの事で1.0.0メジャーバージョンになった **{ggplot2}**の次期マイナーバージョンである1.1.0の開発がGitHubで始まったりと、ちょっと待ってくれよ、と戸惑いを感じる今日この頃です。というわけで新しい(わけでもないけど)関数の使い方を覚えようという心構えです。 今日はみんな大好き **{dplyr}から、便利なdo()関数の使い方を紹介します。do()関数は、はじめは意味がわからなすぎて辛いですが、{ggplot2}**のように使い方がわかれば大変便利な関数です。 まずは必要なパッケージを読み込みます。{dplyr}が今回の主ですが、後半に{broom}、**{

    dplyrでdoして楽をする - Qiita
  • dplyrを使いこなす!Window関数編 - Qiita

    はじめに dplyrの使い方にちょっと慣れてくると、「あー、これもうちょっと簡単にできないの?」みたいな事が出てきたりします。 今回は、そんな悩みをほんのちょっと解決できるかもしれない、Window関数について解説したいと思います。 SQLに詳しい人はすぐイメージできると思いますが、私の周りにもWindow関数の存在自体を知らない人が結構居たのでいい機会なので、ざっくりまとめます。 dplyrってなんぞやという方は、基礎編の記事を見ていただければと。 Window関数を使うと簡単にできることの例 とは言っても、具体的に何ができるのか、分からなかったら読むのもメンドクサイので、まずは簡単にできることを紹介します。 ランキング(タイ順位考慮あり、なし等含む) 前日比、前週比(前後のレコードとの比較等) 累積(累積和等) 移動平均(Windowサイズの指定、Windowの位置、重み等) どれも自

    dplyrを使いこなす!Window関数編 - Qiita
  • dplyrのjoinがmergeに比べて3倍速い - 盆栽日記

    私、集計はplyrでやろうぜええええええええええとか言ってる割に、データマージはmerge()でやっておりました。 もうそろそろ冬休み終わるし沢山の集計作業が待っているが俺は早く帰りたい。 ということでdplyrの*_join()のうち、inner_join()を試してみました。 3倍速い。 これからはinner_join使います。 なお、当はplyrのjoinとも比較したかったんだけど、なぜかRが落ちるのでやめました。 追記 ヘルプを読むと、outputのrenameとか変数名が異なるものをbyに指定した結合とかはできないとのことなので注意。 Unlike merge, preserves the order of x no matter what join type is used. If needed, rows from y will be added to the bottom

    dplyrのjoinがmergeに比べて3倍速い - 盆栽日記
  • The complete catalog of argument variations of select() in dplyr

  • 大規模データの高速処理 ーdata.table、dplyrー

    Rは便利な統計解析ツールですが、処理の遅さや大規模データの扱いにくさが弱点と言われています。 このような状況に対処すべく、現在ではパフォーマンスの向上に役立つパッケージが数多く開発されています。 そこで今回は「Rとウェブの融合」をお休みして、data.tableとdplyrによる大規模データの高速処理について紹介します。 この記事では2014年7月現在の最新バージョン(data.table 1.9.2及びdplyr 0.2)を利用しています。 必要に応じてインストールして下さい。また紙面の都合で実行結果の掲載は省略しているので、手元の環境で試して実行結果を確認してみることをお勧めします。 > # パッケージのインストールと読み込み > install.packages(c("data.table", "dplyr")) > library(data.table) > library(dpl

  • dplyrを使いこなす!基礎編 - Qiita

    はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、 超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす!シリーズ 基礎編以外も書きましたので、↓からどうぞ。 dplyrを使いこなす!Window関数編 dplyrを使いこなす!JOIN編 dplyrとは データフレームの操作に特化したパッケージです。 Rは基的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。 ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。 処理可能なデータサイズの目安 あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデータサイ

    dplyrを使いこなす!基礎編 - Qiita
  • 統計を始めたい人に僕がPythonよりRを勧める理由 - 蛍光ペンの交差点

    今回は「ほぼRしか使ったことがない」人間*1が、できる限り二者の優劣をくっきり述べる。 僕はほとんどRしか使ったことがない。Pythonはtfidfやクイックソートをライブラリ無しで実装した程度。 前半の主張は以下である。 「過去のRでの10回程度の解析において、Rで不十分さを感じてPythonを使った経験は1度だけ、しかも部分的にしかなかった。Rの使いにくさを感じることも最近はだいぶ無くなった。だから初学者には「事足りる」Rを勧める。」 前半の主張 今までにRでやった解析の内容は大体以下である。 (未発表)は途中で頓挫した、もしくは現在進行中/契約により詳細&解析結果の公開不可能のプロジェクトである。 [ビジネス・製造業] 米国新車価格の線形重回帰分析(授業の期末課題) [ビジネス・不動産不動産賃貸価格の線形重回帰分析(発表スライド) [ビジネス・IT] EコマースサイトのARIMA

    統計を始めたい人に僕がPythonよりRを勧める理由 - 蛍光ペンの交差点
  • dplyr でデータベースを扱うときの情報をそろそろまとめておく #rstatsj - Qiita

    みんな大好き dplyr では、データソースとしてデータベースを扱うことができます。 この機能は非常に便利なんですが、私以外に使っている人を見たことないです。 みんな知らないだけかもしれないので、Web上で読める情報をここにまとめておきます。 まず使い始めたい人は家 Hadley の書いた Vignette Databases この Vignette を日語で解説してくれる @dichika さんの記事 dplyrとデータベース あたりを読むといいと思います。 Vignette にはなぜか CASE 式の書き方が載っていないので次の記事も読むといいです。 dplyr で DB にクエリを投げる時に CASE 式を使いたい これで基的なやり方はわかったはずです。 あとは DB が PostgreSQL なら環境変数を使って文字化けを防いだり接続を楽にしたりできます。 dplyr、Pos

    dplyr でデータベースを扱うときの情報をそろそろまとめておく #rstatsj - Qiita
  • A/B テストで施策の効果を検証!エンジニアのための R 入門 - クックパッド開発者ブログ

    こんにちは、買物情報事業部でサーバサイドの開発を担当している荒引 (@a_bicky) です。 今回のエントリでは R で A/B テストの結果検証を行う方法の一例について紹介します。 エンジニアでも自分の関わった施策の効果検証のために簡単な分析をすることがあるかと思いますが、そんな時にこのエントリが役立てば幸いです。 なお、次のような方は対象外です。 A/B テストや KPI の設計に興味のある方 この辺には全く触れません プログラミング初心者 わからない単語が大量に出てくるでしょう R で統計学や機械学習の手法をバリバリ使いたい方 世の中の “分析” の多くは集計処理がメインです Python, Julia など既に分析する上で使い慣れた言語・ツールがある方 今回のエントリ程度の内容であればわざわざ乗り換える必要もないでしょう OS は Mac を前提として説明するので、Windows

    A/B テストで施策の効果を検証!エンジニアのための R 入門 - クックパッド開発者ブログ
  • RPubs - 邪智暴虐なエクセル王を倒そう readxl版