[B! r] muddydixonのブックマーク

The Algorithms

What is an Algorithm?An algorithm is a set of rules that takes in one or more inputs, then performs inner calculations and data manipulations and returns an output or a set of outputs. In short, algorithms make life easy. From complex data manipulations and hashes, to simple arithmetic, algorithms follow a set of steps to produce a useful result. One example of an algorithm would be a simple funct

muddydixon 2022/09/26

リンク

[R] 計量経済学と機械学習の違い - ill-identified diary

ユリウス暦2020/1/6更新: その後のこの分野の急速な発展のため, 情報を更新した ill-identified.hatena blog.com 概要機械学習か経済学 (計量経済学) そのいずれかに関してある程度の知識がある人間向けもうすでにこのネタでブログその他がいくつも書かれたと思うがさらにダメ押し実質的には, Mullainathan and Spiess (2017) のレビューと, 多クラス分類を例にしたデモンストレーション. 前半のレビューと後半のデモンストレーションは実はつながりがあまりないので独立して読むこともできる. エビデンスが弱いものの, 多クラス分類を利用する際に注意すべき点が示唆された. 今回も時間がないので若干手抜き気味 vs 計量経済学はモデルの説明を, 機械学習は予測の精度を求めるということは以前,[異種試合] ディープラーニングVSディープパラメー

muddydixon 2017/08/13

リンク

Rで異常検知(2): 正規分布に従うデータからの異常検知（ホテリング理論・MT法） - 渋谷駅前で働くデータサイエンティストのブログ

さて、気紛れから始まったこのシリーズですが。今回は第2章を取り上げます。入門機械学習による異常検知―Rによる実践ガイド作者: 井手剛出版社/メーカー: コロナ社発売日: 2015/02/19メディア: 単行本この商品を含むブログ (4件) を見る多変量かつ非正規データの異常検知は少し後の方になるので、例のwater treatment plantのデータセットを持ち出すのは後回しにして、今回は適当に生成したデータセットを使うことにしました。ちなみに、今回のシリーズではあまりあれこれ引用しまくると引用の範囲を超えてしまいそうな気がしたので（笑）、要点をちろっとまとめてRスクリプトを並べるだけに留めておきます。故に、皆さんご自身がお手元で試される場合には必ず井手先生のテキストをご用意下さい、ということで。ホテリングの（1次元）これはオーソドックスに正規分布する1次元のデータの中か

muddydixon 2017/02/09

リンク

整然データとは何か｜Colorless Green Ideas

整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。はじめにデータ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

muddydixon 2017/01/10

リンク

機械学習モデルフォーマットの話：さようならPMML、こんにちはPFA

2. ⾃⼰紹介 l  ⽐⼾将平（HIDO Shohei） l  Twitter ID: @sla l  専⾨：データマイニング、機械学習 l  経歴： l  2006-2012: IBM東京基礎研究所データ解析グループ l  機械学習のアルゴリズム研究開発（主に異常検知） l  2012-2014: 株式会社Preferred Infrastructure l  ⼤規模オンライン分散機械学習基盤Jubatusチームリーダー l  2014-: 株式会社Preferred Networks l  2015-: Preferred Networks America, Inc. @ シリコンバレー l  Chief Research Officer 2

muddydixon 2016/10/23

リンク

Exploratory

Exploratory Desktop provides a Simple and Easy-to-Use UI experience to access various data sources, clean and transf orm data, visualize and analyze data to gain deeper insights, communicate your discoveries with Notes, and monitor your business metrics with Dashboards. You can quickly extract data from various built-in data sources such as Redshift, BigQuery, PostgreSQL, MySQL, Oracle, SQL Server,

muddydixon 2016/08/03

リンク

転職して一週間がたちました - amacbee's blog

転職して1週間がたち，新しい生活サイクルにも慣れてきましたので近況報告をします． 3月1日から DATUM STUDIO 株式会社で働き始めました！ DATUM STUDIO株式会社は，データ分析のスペシャリストを集め，解析コンサルから分析基盤構築まで，データ活用に関する様々なことを一手に請け負う会社です．（会社説明がこれで良いのか自信がない）会社名を出すと，データ界隈の方からは「てっきりPythonの会社に行くかと思ってたんですがRの会社に行ったんですね！」と驚かれることが多かったので，その辺の話を含めて入ってからの所感をまとめたいと思います． Rの会社なのか？私も入るまでみんなRを使っている会社だと思っていたのですが，実際はPythonとR半々くらいで使われています．（若干R勢の方が多いかも？）折角なのでPythonの布教活動に勤しみたいと思っています．（ご指摘を受けたのですが）こ

muddydixon 2016/03/09

里さんがそもそも酒好きだしなぁｗ

リンク

Deep Learning の次は、TDA 「トポロジカル・データ・アナリシス」 (Topological data analysis) が来る ? ～その概要と、R言語 / Python言語実装ライブラリをちらっと調べてみた - Qiita

人工知能やデータ解析の領域で、膨大な量のデータから、物体概念（物体識別）や音声・体の運動スキーマ概念を自動的・自律的に獲得できる可能性をもった手法として、Deep Learning（ディープ・ラーニング、「深層学習」）と総称される手法が注目を集めています。こうした中、一部の研究者やベンチャー企業の経営者・エンジニアの中には、このDeep Learningのさらに先をいくデータ解析手法として、TDA：トポロジカル・データ・アナリシス (Topological data analysis) と呼ばれる手法に着目している方たちがいるようです。 Deep Learningと同じく、人間が脳を使って、五感で得た周囲や自分の体についての感覚情報から、どのようにして周囲の環境空間に対する認識イメージや、物体概念、みずからの身体概念を得ているのか？という「問い」に対して、統計学や確率論のアプローチではな

muddydixon 2016/01/04

リンク

SparkRをEC2上で動かして分散処理してみる

こんにちは！美味しいコーヒーを飲むために、毎朝早くにデスクでコーヒーミル回してます、アナリティクスチームの高柳です。アナリティクスチームでは、じゃらんnetやホットペッパービューティーをはじめとしたリクルートライフスタイルのサービスに対して、基礎集計やレポーティング、また、データマイニング（データ分析）を活用し、高速にサービスを改善していくというミッションを担っています。本記事では、データ分析環境としてのApache Spark、特にver 1.4から利用可能になったSparkRを、当チームのAWS上の分析環境に導入検討していたので、その辺について書きたいと思います。 SparkRは、まだリリースから日が浅いことから、日本語の記事が相当に少ないので、この記事がみなさんの"Happy SparkR ライフ"のお役に立つことを願っております。 Apache Spark導入の背景サービスを

muddydixon 2015/08/20

リンク

因果フェスでGranger因果について話してきたら、色々いじれば非線形でもやれるんじゃないかという気がしてきた - 渋谷駅前で働くデータサイエンティストのブログ

本日8月6日に駒場で開かれた日本生態学会関東地区会公開シンポジウム「非ガウス性／非線形性／非対称性からの因果推論手法：その使いどころ・原理・実装を学ぶ」通称因果フェスにて、Granger因果について話してきました。ちなみに事前に林岳彦(id:takehiko-i-hayashi)先生からご紹介下さった記事がこちら。林先生、この度はお招き下さいまして有難うございました＆業務対応のため遅れて会場入り＆直後に退出という慌ただしいスケジュールになってしまい大変失礼いたしました。。。また色々お話させていただければ幸いです。ということで、既にslideshareに資料をupしてあります。まぁいつも通りというか2年前に何度か計量時系列分析について話した時のスライドを下敷きにしてますが、当時より学術的な集会での講演ということで幾つか理論的基礎についても触れてあります。 Granger因果による時系列

muddydixon 2015/08/09

リンク

Stanで統計モデリングを学ぶ(7): 時系列の「トレンド」を目視ではなくきちんと統計的に推定する - 渋谷駅前で働くデータサイエンティストのブログ

何かこのシリーズめちゃくちゃ久しぶりなんですが（汗）、ちょっと最近問題意識を抱いている話題があるのでそれに関連した形でStanでやってみようと思います。それは時系列の「トレンド」の扱い。ビジネスの現場では、時系列を意識しなくても良い*1クロスセクションデータでは普通に線形*2モデルを組んだりしますが、ことパネルなど時系列データとなると途端にモデルを組んだりせずに「手なり」で適当に近似曲線を引いてしまったり、みたいなことが少なくない印象があります。特に見た目にそれっぽい「トレンド」がある場合は尚更。ところがどっこい、最近このブログでも取り上げている動的線形モデルのように、時系列データであってもある程度はモデリングできるわけで、ならばいつまでも「見た目」でトレンドを憶測し「手なり」に近似曲線を引く、なんてことはせずにモデリングでズバリ推定するべきだと僕は思うわけです。とは言え、内容として

muddydixon 2015/08/09

リンク

何も考えずに線形回帰すると怖いので、計量時系列分析でダメ押ししてみる - 渋谷駅前で働くデータサイエンティストのブログ

何気なく読んでいて、途中で「？」と思った記事がありました。 IT エンジニアのためのデータサイエンティスト養成講座（5）：「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある？――データ分析方法についての検討 (1/5) 何をやっているのかなー、と思って読み進めていったら一つ引っ掛かるところが。まず、この特集で扱っているのは「気温」と「電力消費（の日次最大値）」という時系列データなんですよね。なのに、4ページ目で普通に線形単回帰してます。時系列をプロットしたのを眺めれば、どう見たって互いに相関しているのは丸分かりなのでどう計算しても構わないなんていうのは一目瞭然なんですが、それでも手法の説明のところで「時系列分析(ARMA / ARIMA)」とか言っているので、もうちょっと色々その辺を踏まえた何かがあっても良いのかなと思ったのでした。ということで、いつもながらRで見てみよ

muddydixon 2015/08/09

リンク

R と SQL を対応付けてみた〜data.table 編〜 - あらびき日記

この記事は abicky.net の R と SQL を対応付けてみた〜data.table 編〜に移行しました

muddydixon 2015/01/23

r
sql

リンク

Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014

9. まずは元となったパーセプトロンや3層NN… 2014/12/6 8 参考：http://www.slideshare.net/nlab_utokyo/deep-learning-40959442 f x1 x2 x3 単純パーセプトロン単層＆線形識別関数 3層ニューラルネットワークフィードフォワードバックプロパゲーション

muddydixon 2014/12/25

リンク

ドリコムを支えるデータ分析基盤 - かにぱんのなく頃に

はじめにこれはドリコムAdventCalendar の4日目です３日目は、@arihh さんによる 3年くらいお菓子神社運営してきたです自己紹介 @ka_nipan ドリコムに新卒で入社し、Android開発、BtoBtoC のwebサービス開発を経て、現在は弊社アプリのログ収集から集計、可視化、その他周辺ツールといった分析基盤の面倒を見ています本日はそのデータ基盤の話を書きますデータ分析基盤全体図弊社では Hadoop をオンプレで運用していて、そこにログや分析用のデータを置いていますメリット運用コストが安い Treasure Data、Big Query、Amazon Redshift 等の外部サービスを使うよりは安く済みます自由度が高い各サービスには容量をはじめ色々と制限があったり、こちらの要求仕様にマッチしない部分が少なからずありますが、自前の場合その辺は融

muddydixon 2014/12/04

リンク

ドキュメント・プレゼンテーション生成 - 共立出版

本書ではデータ解析環境R を使って「素早く、簡単に、間違いのない」レポートを作成する方法を紹介します。結果を可視化したグラフや表、数値データ等に適切な注釈を加え、場合によってはそのデータ解析の背景や結論などを記述して、読む人が理解できる「レポート」を完成させることが不可欠です。データ解析という仕事の評価は、内容もさることながらレポートの出来栄えによって大きく左右されるといっても過言ではありません。ビッグデータブームやデータサイエンティストブームの中、データ解析の需要が高まっていることには疑問の余地はないでしょう。そして現在ではR はデータ解析ツールの中心的な存在となっています。R では動的レポート生成を支援するツールが急速に整ってきているので、この手法を習得するのも利用するのも非常に簡単です。本書の後半では、派手なという意味ではなくレポートとして洗練されたという意味で「インパクトのある

muddydixon 2014/05/20

高橋先生の書かれたRでの可視化の本。ぽちっておく

リンク

R-Source

データフレームとはデータフレームとは data.frame クラスを持つリストのことであり，数値ベクトルや文字ベクトル，因子ベクトル（文字型ベクトル）などの異なる型のデータをまとめて1 つの変数として持っている．外見は行列と同じ 2 次元配列であるが，データフレームの各行・列はラベルを必ず持ち，ラベルによる操作が可能である点が普通の行列と異なる．しかも各列の要素の型はバラバラでも構わないので，ベクトルやリストで持っているデータをデータフレームに変換することで統計解析がやりやすくなる．数値ベクトルと因子はそのままの状態で含まれ，非数値ベクトルは因子に強制変換される．データフレームに変数として現れるベクトル構造は全て同じ「長さ」を，行列構造は同じ「行サイズ」を持たなければならない．データフレームの作成例データフレームを作成する方法は以下のような方法がある．ベクトル（や行列，リストなど

muddydixon 2014/03/24

r
dataframe

リンク

データフレームTips大全 - RjpWiki

RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですデータフレーム Tips 大全 R の多くの関数はデータフレームと呼ばれるオブジェクトを対象とする．データフレームは、同じ長さの複数の数値ベクトル，文字ベクトル等を成分とする、data.frame クラス属性を持つオブジェクト(実体はリスト)であるが，そのものとしては行列のような外見を持つ．各行・列はラベルを必ず持ち，それを用いた添字操作が可能である．データフレームの各行は一組の観測値(case)を表現する。データフレームの各列は一つの変数（項目）を表現する。データフレームの成分をその成分名で参照できるようにする attach と with (2004.2.5) † attach 関数はデータフレームの成分を現在の環境中に登録する。dettach は逆に抹消する。 > data(swiss

muddydixon 2014/03/24

r
dataframe

リンク

Rのデータフレーム(data.frame)について - Qiita

データフレームとは？ Rで最も使われるデータ構造の一つ同じ長さを持つ名前付けされた複数のベクトルからなるリスト（スプレッドシート、データベーステーブルに似ている）スプレッドシート、データベーステーブルとの違いは、行ではなく列から構成されること（行ではなく、列が1レコードになる）データフレームの作成 data.frame() 関数を使う $ R > name <- c('suzuki','sato','yamada') > height <- c('172','165','184') > weight <- c('60','58','75') > users_table <- data.frame(name,height,weight) > users_table name height weight 1 suzuki 172 60 2 sato 165 58 3 yamada 184

muddydixon 2014/03/24

r
dataframe

リンク

Rと多次元尺度法

多次元尺度法(MDS: multi-dimensional scaling)は、個体間の親近性データを、2次元あるいは3次元空間に類似したものを近く、そうでないものを遠くに配置する方法で、データの構造を考察する方法である。多次元尺度法は計量多次元尺度法と非計量多次元尺度法に大別される。計量多次元尺度法とは距離データを低次元に配置する方法で、非計量多次元尺度法は、順序尺度のデータの類似度あるいは距離に変換可能な親近性データを低次元に配置する方法である。 MDSにも多くのアルゴリズムが提案されているが、古典的多次元尺度法としては1950年代Torgersonの貢献が大きい[4]。多次元尺度法をイメージ的に説明のため、近畿地方の地図を図1に示す。図1では兵庫から和歌山、大阪、奈良、滋賀、京都の距離を点線で示している。このような任意の2点間の距離を表1に示す。計量多次元の尺度法では、

muddydixon 2014/03/04

clustering
r

リンク

はてなブックマーク

タグ

関連タグで絞り込む (89)

rに関するmuddydixonのブックマーク (84)

お知らせ

今週のはてなブックマーク数ランキング（2025年3月第2週）

月間はてなブックマーク数ランキング（2025年2月）

旧バージョンのChrome拡張機能についてのお知らせと新バージョンご利用のお願い

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス