ETL処理のユースケースや、ETL処理のセオリーを解説します。 2018/05/23(水)開催の「PLAZMA Data Engineer Day: TD Tech Talk 2018」にてお話ししたスライドです。 https://techplay.jp/event/669346Read less
2017 年 12 月に東京リージョンでサービス提供が開始され、日本のお客様による検討、導入が進み始めました。
こんにちは、インフラ部データ基盤グループの小玉です。 データ基盤グループでは、Amazon Redshift(以下、Redshift)へ継続的にデータをロードする仕組みを、約半年に渡り構築・運用してきました。この記事では、その中で学んだことを共有させて頂きます。 弊社では情報系システムの一部に、AWSが提供するRedshiftという分散データベースを利用しています。情報系システムとは、データ分析を主な用途とするシステムのことです。なかでもRedshiftはSQLを使った大量データの高速な分析に最適化されているため、DWH(データウェアハウス)としての利用に適しています。 DWHの構築に必要なタスクとしては、データソースの特定、モデリング、データの抽出・変換・ロード(ETL)、クエリツールやBIツール導入、パフォーマンス・チューニング、メタデータの管理、バックアップ・リストアなど、があります
こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi
The National Democratic Alliance (NDA) has emerged victorious in India’s 2024 general election, but with a smaller majority compared to 2019. According to post-election analysis by Goldman Sachs, JP Morgan,… The tech layoff wave is still going strong in 2024. Following significant workforce reductions in 2022 and 2023, this year has already seen 60,000 job cuts across 254 companies, according to i
リクルートライフスタイルのビッグデータ 300本のバッチが流れ、300人の分析者がクエリを投げるビッグデータ基盤 こんにちは、データ基盤チームの平本です。 我々、データ基盤チームのミッションは2つあります。 リクルートライフスタイル各サービスの分析担当者に対して、そのサービス、もしくは複数のサービスにまたがったユーザの行動を分析できる環境を提供する 各サービスのデータを使ったOne to One、Cross-use施策のバッチを開発・運用し、各サービスに価値を提供する 今回は第1回目ということで、我々が構築・運用しているビッグデータ環境の全体像について紹介します。 基盤の全体像 我々の基盤は、リクルートライフスタイル全サービスのデータを収集しています。 収集したデータを基に、分析に使うマートやレコメンドに使うデータを作成しており、レコメンドのデータをサービス側のDBへエクスポートしたり、レ
AWS Summit Tokyo 2015のTA-03: Tech Deep Dive by Amazon:「Amazon Redshift Integration Deep Dive」のレポートです。 スピーカーはAmazon Data Services Japanの八木橋 徹平氏。 レポート このセッションの目的 このセッションはRedshiftの使い方がある程度わかっている人に自社システムやAWSの他サービスとの連携方法のコツを知ってもらうことにある。Redshift固有のクセや設定があるため、端的にいうとRedshiftにいかに効率よくデータを入れるためにETL(Extract + Transform + Load) + Uploadを行うか、というセッションである。 Redshiftおさらい Redshiftの特徴 →MPP(超並列演算)、論理的なリソースの括り「ノードスライス」
スマートニュースは昨年の 10/1 に米国版をローンチするにあたり、ログ解析基盤のリニューアルを行いました。日本に加えて米国やその他の国が入ってくることにより、単なるユーザ数の増加に加え、OS x 国 x タイムゾーン x 多種多様なメトリクスのような集計軸が増えることで、ログの前処理、集計、可視化に様…
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く