先日行われた BUGS/stan勉強会 #3 で発表させていただきました。 タイトルは「Stan で欠測データの相関係数を推定してみた」です。 欠測データに対して相関係数を求めるとき、普通のやり方では実際の値より小さい値になってしまいます。そこで、片側だけしか観測できていない不完全データを用いて推定精度を上げる方法を紹介しています。 スライドは下記にアップしています。 Stan で欠測データの相関係数を推定してみた from hoxo_m 最終的なコード全体はこちらに載せています。 Stan の勉強にあたっては、ごみ箱さん、beroberoさん、伊東さんにアドバイスを頂きました。ありがとうございます。 hoxo_mさんのバイアスの掛かったデータの相関係数の問題、よく使われる統計手法からの発展としてすごくいい例だし、片方しか観測されていないデータを使ってもあれほど改善するとは驚いた。#Tok
EVENT | 2018/06/12 「天皇杯・Jリーグチーム撃破」を支えた、日本有数の学生データ分析集団|アトム・スコット(筑波大学蹴球部) 元日本代表の中山雅史、井原正巳、平山相太、阿部敏之など、数多くの一流選手を輩出し、120年の歴史を誇る大学サッカー界の名... 元日本代表の中山雅史、井原正巳、平山相太、阿部敏之など、数多くの一流選手を輩出し、120年の歴史を誇る大学サッカー界の名門、筑波大学蹴球部。2017年の天皇杯では、大学勢で唯一勝ち抜き、格上のJ1チームを破って3連勝したほか、関東大学リーグ1部では13年ぶりに優勝する快挙を果たした。 彼らの実力の源泉となっているのは、実はレギュラーチームの選手たちだけではない。“パフォーマンス局”の存在も大きかった。パフォーマンス局は、対戦相手の動きを解析する“アナライズ班”や試合データの解析をする“データ班”など9つの班で構成。しかも、
2. 自己紹介 1 / 392013/8/31 • Twitter ID: @horihorio • お仕事: 分析コンサルタント • 興味: 統計色々/DB/R/Finance/金融業/会計 • 過去の発表: ここ • 最近の出来事 • 金融業以外の分析にも進出 • だが何故か証券アナリストを取った • 優秀な人のマネジメントっぽい事を • 息子が1歳になった ロジスティック回帰の考え方・使い方 3. 今回の想定ケース 2 / 392013/8/31 ロジスティック回帰の考え方・使い方 • 旅行代理店勤務 マーケティング部所属3年目 • 「Rによるやさしい統計学」で Rの操作、線形回帰に慣れた • 上司(超文系)に 「いつもツアーの案内DM送っているけど、 もっと上手い送り方って考えてくれない?」 と言われた。どうしよう… 4. 紹介すること 3 / 392013/8/31 ロジスティッ
スマートニュース株式会社の小田秀匡(おだひでまさ)です。 この会社では 4 年間ほどサーバーサイドの開発とデータの分析に携わっています。 2018年 3月12日(月)~ 3月16日(金)の 5 日間にわたり岡山市の岡山コンベンションセンターで 言語処理学会第24回年次大会 (NLP2018) が開催されました。 SmartNews は言語処理学会にはゴールドスポンサーとして参加し、弊社に関心を持ってもらうため、 企業展示で「特定の話題に対するユーザーの感度」というテーマで発表させていただきました。 SmartNews と言語処理 SmartNews は、小さな画面でも快適にニュース記事が閲覧できるよう、記事の解析からタイトルの改行位置の決定まで、サービスの様々な箇所で自然言語処理や機械学習を駆使しています。 例えば、国内外の主要新聞社を含む多くの媒体社から提供されている記事の内容を分析・理
こんにちは、シバタアキラです。気づけばいつもご無沙汰しておりますが、DataRobotのお客様先などで「ブログ読んでます」などと言われる様になると、古いネタだけのブログも忍びなくなってきました。今回のお話も実は構想し始めたのは5月に招待されたオラクル社のイベントでの公演がきっかけでしたが、以来少しづつ温まってきました。 「うちにはこんなに沢山データが有るんです。 AIと組み合わせたらすごいことにななります」 今回のテーマを起案した頃の5月に出た英エコノミストのテーマは「世界で最も価値のある資源はもはやオイルではなく、データだ」という内容でした。 データに対して洞察のある方であれば引っかかるコンセプトですが、実際にはこういうお話を日々耳にします。おそらくHadoopを始めとするビッグデータ系のベンダーなどがそのようなことを吹聴し、「とにかくデータは取っておけば価値になる」とか、「全部取ってお
こういうメタ分析系の記事を書く時というのは大抵ネタ切れの時なんですが(汗)、最近になってこの辺のポイントでつまずいて困っているビジネスデータ分析の現場の話を聞くことがまた増えてきたので自分向けの備忘録も兼ねて記事としてまとめておきます。 そうそう、時系列分析の話って厳密にやり始めるとキリがないので、例えば単位根過程まわり(特に共和分のあたりを含めた複数時系列間の関係性の話とか)は「トレンドに注意せよ」という大きなくくりにまとめて、厳密な議論は割愛して出来る限り実務面で押さえるべきポイントに絞ろうと思います*1。悪しからずご了承あれ。 周期性のあるデータには真っ先に季節調整を ビジネス時系列データは例えば毎日毎時の売上高とか契約数とかコンバージョン数とか、どこからどう見ても曜日変動とか24時間変動などの周期性が乗っているデータであることが多いです。にもかかわらず、その手の周期性に何の処理もせ
PyConJP2017の資料 Python Spark PySpark PyConJP 2017 Apache Spark
データ分析の会社に転職してから3ヶ月。 最初の1ヶ月はPandasの扱いに本当に困ったので、 昔メモしてたことを簡単にブログに記録しておく(o ・ω・)ノ 【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型 テストデータについて 余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロード データのサイズ データのカラム 行列から必要な列(カラム)を取り出す 条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す 追記(2017/12/14) 行列から必要な行番号を指定してを取り出す グループ分けと集計 新たな列を追加する 固有値を追加する 他の列を加工して新たな列を作る 他の複数列を加工して新
これは実は既に元ネタのあるテーマです。 Cross-validation for time series | Rob J Hyndman 個人的にはトレンド・季節調整付き時系列データの回帰モデルをやる場合はほぼ例外なくベイジアンモデリングで回すんですが、一般にベイズ系のモデルは例えばWAICやWBICのような情報量基準でモデルの汎化性能を推定することでモデル選択することができます。ところが、トレンド・季節調整付き時系列データのように回帰部分の尤度だけでは表せない、強い自己相関のある部分が大きいデータの場合は、モデル全体のWAICやWBICを算出する方法が(まだ?)ありません。 ということで交差検証(CV: cross validation)大好き人間の僕としては、普段は適当に「学習データ:古い方から80% / 検証データ:新しい側の残り20%」みたいなholdout CVしかやっていないん
多様体学習の必要性 クラスタリングという観点 次元削減という観点 多様体とは 多様体学習の狙い 多様体学習の例 Locally Linear Embedding(LLE) 他の多様体学習の紹介 Modified Locally Linear Embedding t-distributed Stochastic Neighbor Embedding 多様体学習の発展版 最後に 多様体学習の必要性 クラスタリングという観点 データがD次元空間にプロットされる際には、データに意味があれば、似たようなデータは近い位置に現れることが期待できます。そのような考えに基づいて、K平均法などによってデータをクラスタリングすることが可能になります。 s0sem0y.hatenablog.com しかし、実際には似たようなデータが必ずしもD次元空間上で近い位置に現れるとは限りません。例えば以下のようなデータがあ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く