[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

bigqueryに関するmapk0yのブックマーク (45)

  • BigQueryの導入理由から新機能Analytics Hubによるコスト削減まで。プレイドのCore Platformチームが活用法を解説する - Findy Tools

    公開日 2024/08/26更新日 2024/08/26BigQueryの導入理由から新機能Analytics Hubによるコスト削減まで。プレイドのCore Platformチームが活用法を解説する はじめに株式会社プレイドのCore Platformチームに所属しているBrownです。このたびはプレイドでコアに使用しているBigQueryについて、なぜBigQueryをコアのアーキテクチャに置いているのかから、BigQueryの新しい機能であるAnalytics Hubを用いたストレージや管理コストの削減に関して記事を寄稿させていただきます。 記事では、BigQueryを使う際に、近年よく耳にするようになった「データのサイロ化」をデータ分析の具体例として取り上げ、そのようなデータに対してどうやってBigQueryを活用するのかについて紹介します。 このブログの想定する読者の方 データ

    BigQueryの導入理由から新機能Analytics Hubによるコスト削減まで。プレイドのCore Platformチームが活用法を解説する - Findy Tools
  • ログ調査基盤を構築してみた

    こんにちは。 株式会社ココナラのインフラ・SREチーム所属の かず です。 システム運用において、有事の際に迅速かつ適切なシステム稼働状況の確認は欠かせません。 その手段の1つとして、ログの調査や分析の効率化は切っても切れない関係です。 システムが成長するにあわせ、ログの種類や量が多くなり、結果としてログの調査や分析が難しくなるのはよくある話かと思います。 弊社でもサービスのグロースに伴って、ログの種類や量が多くなり、結果としてログの調査や分析で課題を抱えていました。具体的には以下の2点です。 ログから原因調査を行うには、複数ログを横断・突き合わせが必要 ログの追跡に必要な情報がログに出力されない場合がある そこで、課題への対応としてログ調査基盤の構築を行いました。 記事では背景や苦労したこと、効果についてご紹介します。 複数ログの横断調査実現に向けて ログ調査基盤の構築 苦労したこと

    ログ調査基盤を構築してみた
  • Looker Studioで組織内に魔境を作らないための裏技的Tips集 - Qiita

    はじめに Looker StudioはGoogleが無料で提供しているBIツールです。無料でもかなりの機能が揃っており、BIの活用にあたっては大変重宝する存在になっています。ただし、以前「後回しにするとどうしようもなくなる(かもしれない)Looker Studioの権限を理解する」で整理したように、組織管理という観点で難があるのは事実です。 それは例えば、レポートを組織的に管理する機能がなかったり、Google CloudのIAMを利用した権限管理ができなかったりすることが挙げられます。Looker Studio Proという有償版のサービスでは、こうした組織管理を円滑にするような機能拡充がされています。 とはいえ、実は様々なデータをフル活用すると無料版でもできることは多くあります。今回は、そんな裏技的Tipsを5つ紹介しようと思います。 こんな方におすすめ Looker Studioの組

    Looker Studioで組織内に魔境を作らないための裏技的Tips集 - Qiita
  • 全社データ活用基盤をTreasureDataからBigQueryへ移行しました - Leverages データ戦略ブログ

    はじめに こんにちは。データエンジニアリンググループの森下です。今回は、私がプロジェクトマネージャーとして約3年間かけて実施した、TreasureDataからBigQueryへの全社データ活用基盤移行プロジェクトについてお話します。このプロジェクトは、全社で1日あたり数千件のクエリが実行されるデータ基盤を移行するという大規模なもので、関係者の数は200〜300人に上りました。プロジェクト期間中は、データ活用基盤の技術調査から始まり、関係者への説明や調整、データ移行、クエリ移行、ETLやReverse ETLに使用する各種ツールの導入など、当に多くのタスクがありました。 プロジェクト背景: TreasureData導入とその課題 TreasureData導入の背景 2024年時点ではGoogle BigQueryを使用していますが、その前の環境が導入された背景を説明します。 2018年12

    全社データ活用基盤をTreasureDataからBigQueryへ移行しました - Leverages データ戦略ブログ
  • 分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ

    はじめに こんにちは!Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。 分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。 このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。 切替前のデータ連携処理 先述した通り、BAS

    分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
    mapk0y
    mapk0y 2024/03/27
    Aurora でここにあるような問題になる遅延って発生するのかな?
  • 統計ダッシュボード機能を BigQuery と BI Engine で実装する

    先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。 稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ(BigQuery)と記事データ(Cloud SQL)をどうJOINさせるかが課題 外部接続でBigQueryからCloud SQLつなぐことにした 統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにした スケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめる チャートは Chart.js

    統計ダッシュボード機能を BigQuery と BI Engine で実装する
  • 【速報】 BigQuery の料金体系が変更されます | DevelopersIO

    ウィスキー、シガー、パイプをこよなく愛する大栗です。 先程開催されたGoogle Data Cloud & AI Summitにて、BigQuery の料金体系の変更が発表されましたので、レポートします。 Introduction to BigQuery editions Dataset storage billing models BigQuery editions BigQuery で Standard、Enterprise、Enterprise Plus という3種類の料金階層が発表されました。これらのエディションは個々のワークロードの必要性に基づいて適切な価格性能比を組み合わせられます。 BigQuery editions は、コンピュート キャパシティのオートスケーリングと、compressed storage(Preview 時には physical storage と呼ばれて

    【速報】 BigQuery の料金体系が変更されます | DevelopersIO
  • なぜETLではなくELTが流行ってきたのか - Qiita

    概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます!(みんなも参加してね) データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか? 一方、「ETLではなくELT(音楽グループではない)が主流になりつつある」といったような論調も増えてきました。 この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか(予想)について、私なりの見解を書いてみようと思います。 一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう

    なぜETLではなくELTが流行ってきたのか - Qiita
  • BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみる - Qiita

    BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみるPythonBigQueryemulatorGoogleCloud はじめに みなさん、BigQueryが絡む処理のローカル開発やテストどうしてますか?BigQueryは公式のエミュレーターが提供されていないのでけっこう困ること多いんじゃないでしょうか? 私はとりあえず、ローカルではなく専用の環境を用意してそこに接続する形にしていましたが、業務委託の方などに入っていただくことが増えると権限周りで少々悩ましいことも多いです。 ただ数ヶ月前に、goccyさんという方が開発されたGo製のOSSbigquery-emulatorが公開され、こうした問題に解消の兆しが見えてきました。(開発者の方にはリスペクトしかありません!) 少し前までは提供されていない機能も多かったのですが、開発

    BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみる - Qiita
  • [速報]BigQueryが非構造化データのサポートを発表。これで構造化データ(RDB)、半構造化データ(JSON)、非構造化データをサポート。Google Cloud Next '22

    Google Cloudは、開催中のイベント「Google Cloud Next '22」において、大規模データ分析サービスのBigQueryで非構造化データのサポートを発表しました。 BigQueryは今年1月にJSON型データへのネイティブ対応をパブリックプレビューとして公開しています。 参考:BigQueryがJSONにネイティブ対応。SQLでJSONに対するクエリが可能に これでBigQueryは今回の非構造化データのサポートにより、RDBのテーブルに格納された構造化データと、JSONなどによる半構造化データそして非構造化データの3つをすべてサポートする柔軟な大規模データ分析基盤になるわけです。 Google Cloud Storageバケットのテーブル形表現 BigQueryの非構造化データサポートはObjectテーブルによって実現され、画像や動画、音声、テキストなどのデータが扱

    [速報]BigQueryが非構造化データのサポートを発表。これで構造化データ(RDB)、半構造化データ(JSON)、非構造化データをサポート。Google Cloud Next '22
  • 問い合わせ対応の生産性を計測・可視化する - Pepabo Tech Portal

    はじめに こんにちは。CS 室で Customer Ops をやっています @morimai です。 わたしが所属する Customer Ops チームは、CS 室の業務に必要なデータ基盤の構築・運用や業務の自動化、データ活用の促進などをメインに活動しています。 今回は、CS(カスタマーサポート、カスタマーサクセス)の大前提である「問い合わせ対応の安定運営」を実現し、顧客体験向上に寄与するために、「問い合わせ対応の生産性」を計測・可視化したことについてご紹介します。 はじめに なぜ問い合わせ対応の生産性を計測・可視化するのか どのように計測・可視化するか 問い合わせ対応をするパートナーごとの「問い合わせ対応件数」の収集 問い合わせ対応をするパートナーごとの「問い合わせ対応時間」の収集 収集したデータをもとに 1 時間あたりの対応件数を自動で毎日計算・可視化 Google Sheets と

    問い合わせ対応の生産性を計測・可視化する - Pepabo Tech Portal
  • 複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ

    こんにちは、インフラの天津です。今日は 複数アカウントの AWS Security Hub 検出結果の可視化についてお話したいと思います。 前提 モチベーション AWS Security Hub とは 構想 ツール・サービスの選定 検出結果データのエクスポートについて 可視化用データベース(またはクエリサービス)と可視化ツールについて 構築 全体像 検出結果データエクスポート 検出結果データの S3 -> GCS への転送と BigQuery へのインポート Security Hub からエクスポートしたデータには BigQuery のカラム名に使用できない文字(以下禁則文字)が使用されている件 自動判別で生成されたスキーマでインポートした際に INTEGER 型のカラムに STRING 型のデータが入ってくることがありインポートエラーが発生する件 AWS アカウントデータの S3 ->

    複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ
  • スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka

    2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、橘高の講演資料になります

    スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka
  • BigQuery Runner for VSCode の紹介

    モチベーション BigQueryのWebエディタのように、VSCodeでクエリを書いて実行結果を見たい。 やること 責務範囲は、クエリの検証から実行結果の出力までとしている。 クエリの実行体験の向上 この拡張はgoogle/vscode-bigqueryのフォークだ。 フォーク元の実装は、荒削りだが欲しいものがミニマルに詰まった拡張という印象だった。 ただし、フォーク元の実装には大きく2つの問題があった。 1つ目は、実行結果のArray型やStruct型の表示をサポートしておらず、一部のフィールドの値が表示されなかった。 この問題の解決のために、深いObjectをフラットなObjectの配列に変形するminodisk/tenderizerというパッケージを開発した。その後、高速化のためテーブルのスキーマを使って同様の処理を行うよう、実装を変更[1]した。 このパッケージを組み込み、実行結果

    BigQuery Runner for VSCode の紹介
  • BigQuery Runner - Visual Studio Marketplace

    Launch VS Code Quick Open (Ctrl+P), paste the following command, and press enter. BigQuery Runner An extension to query BigQuery directly and view the results in VSCode. Features Mark errors in queries. If the query error can be corrected automatically, suggest a candidate for a quick fix. Run queries: from files. from selected text. with query parameters. Display the results in viewers: Rows Fast

    BigQuery Runner - Visual Studio Marketplace
  • https://zenn.dev/ohsawa0515/articles/support-bigquery-native-json

    https://zenn.dev/ohsawa0515/articles/support-bigquery-native-json
  • Working with JSON data in GoogleSQL  |  BigQuery  |  Google Cloud

    Send feedback Stay organized with collections Save and categorize content based on your preferences. Working with JSON data in GoogleSQL This document describes how to create a table with a JSON column, insert JSON data into a BigQuery table, and query JSON data. BigQuery natively supports JSON data using the JSON data type. JSON is a widely used format that allows for semi-structured data, becaus

    Working with JSON data in GoogleSQL  |  BigQuery  |  Google Cloud
  • ZOZOTOWNを支えるリアルタイムデータ連携基盤 - ZOZO TECH BLOG

    こんにちは、SRE部MA基盤チームの谷口(case-k)です。私達のチームでは、データ連携基盤の開発・運用をしています。 データ基盤には大きく分けて2種類あり、日次でデータ連携してるものとリアルタイムにデータ連携しているものがあります。記事ではリアルタイムデータ連携基盤についてご紹介します。 既存のデータ連携基盤の紹介 リアルタイムデータ連携基盤の紹介 なぜ必要なのか 活用事例の紹介 データ連携の仕組みと課題 リプレイス後のリアルタイムデータ連携基盤 SQL Serverの差分データの取り方を検討 アーキテクチャ概要と処理の流れ Fluentdのプラグインを使った差分データの取得 Dataflowでメッセージの重複を排除 Dataflowで動的にBigQueryの各テーブルに出力 Pub/Subのメッセージ管理 イベントログ収集基盤 個人情報の取り扱い ビルド・デプロイ戦略 監視 データ

    ZOZOTOWNを支えるリアルタイムデータ連携基盤 - ZOZO TECH BLOG
  • 分析者や予算承認者の視点に立ちつつ、BigQuery Flex Slotsの適切なスロット数を定量的に決定する方法を紹介します - MonotaRO Tech Blog

    こんにちは、データ基盤グループの吉と吉田(id:syou6162)です。モノタロウでは基的にはBigQueryを定額料金で利用していますが、利用者の多い時間帯はFlex Slotsも併用しています。エントリでは、Flex Slotsの適切なスロット数を定量的に決めるために行なった試行錯誤について紹介します。 モノタロウでのBigQueryの利用状況 課題感 課題感1: 適切なFlex Slotsのスロット数をどう決めるか 課題感2: 過去の期間との実行時間は単純には比較できない 解決策 解決策1: 同一のクエリを定期的に動かし、実行時間をCloud Monitoringで計測 解決策2: 計測用オンデマンドのGCPプロジェクトでもクエリを実行し、理想状態との相対実行時間を知る まとめ モノタロウでのBigQueryの利用状況 モノタロウでは様々な意思決定の場面でデータ活用が行なわれて

    分析者や予算承認者の視点に立ちつつ、BigQuery Flex Slotsの適切なスロット数を定量的に決定する方法を紹介します - MonotaRO Tech Blog
  • heyの統合データ基盤と今後の展望 - STORES Product Blog

    はじめに はじめまして、4/1からデータチームでデータエンジニアとして働いている @shoso です。 突然ですが、みなさんデータ基盤って開発したことありますか? 私はheyに来るまでなかったのですが、チームの経験あるメンバーと毎日話しながら(助けてもらいながら)開発する中でようやく少し分かって来たような気がします。 (覚えることが大量にあり大変とても楽しいです!) 今回は、データ基盤開発経験のある方はもちろん、普段サービス開発など他の開発をメインでされている方にも伝わる形で、heyの統合データ基盤と今後やっていきたいことについてご紹介できればと思います。 これまでにも、統合データ基盤のいくつかのトピックについて記事を公開していますが、この記事では統合データ基盤そのものについてより詳細が伝われば幸いです。 統合データ基盤ってなに 一言でいうと、社内に蓄積するあらゆるデータをスムーズ・横断的

    heyの統合データ基盤と今後の展望 - STORES Product Blog