[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

bigqueryに関するkazuya030のブックマーク (16)

  • BigQueryの便利な機能&コンソールのショートカット集

    前の記事では、BigQueryのざっくり概要を書きました。 今回はBigQueryを使う上でこれ知っておくと便利ですよ!という機能やTipsを書きたいと思います。 知っておくと便利な機能 メタデータを取得する ある程度データベースを触る人なら、スキーマやテーブルの情報を持っているメタデータがだいたい存在していて活用している人も多いと思います。 BigQueryでももちろん存在するので私がよく使うものを紹介していきます。 -- testdatasetデータセットのテーブル一覧を取得する SELECT * FROM testdataset.INFORMATION_SCHEMA.TABLES; -- testdataset.testのテーブルのカラム一覧を取得する SELECT * FROM testdataset.INFORMATION_SCHEMA.COLUMNS WHERE table_n

    BigQueryの便利な機能&コンソールのショートカット集
  • Tableau×BigQueryをコスパ良く使う方法

    マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください!ご要望の内容を記事に起こします!メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、エクスチュア渡部です。 TableauでBigQueryに繋いで分析したりダッシュボードを作ることは、 BigQueryの強力な集計基盤とTableauの自由な分析・可視化体験がコラボする夢のような仕組みです。 ただ、BigQueryはご存知の通りクエリの都度課金なので、インスタンス課金のRedshiftのような感覚で使用していると、 知らない間にクエリが大量発行されて課金が嵩んでしまうケースもあります。 そこで、今回はそんなTableau×BigQueryのメリットを存分に享受できるよう、 事前に知っておくと役に立つ課金対策を紹介しようと思います。

    Tableau×BigQueryをコスパ良く使う方法
  • Google Analytics(GA4)のデータを、Gemini in BigQueryで分析するためのプロンプト・サンプル(1)

    高速なクエリ処理 BigQueryは、Googleが持つ世界クラスのデータ処理インフラストラクチャを活用し、数秒から数分で巨大なデータセットに対するクエリ処理を高速に行えます。 スケーラビリティ BigQueryは自動的にリソースをスケールアップ・ダウンするため、データ量やクエリ処理の負荷に柔軟に対応できます。 サーバーレス BigQueryはサーバー管理が不要なため、運用コストを削減できます。 安全で信頼性が高い BigQueryは、Googleセキュリティと信頼性のあるインフラストラクチャで保護されています。 多様なデータソースとの連携 BigQueryは、Google Cloud Storage、Cloud SQL、Cloud Spannerなど、様々なデータソースと連携できます。

    Google Analytics(GA4)のデータを、Gemini in BigQueryで分析するためのプロンプト・サンプル(1)
  • GTM × GA4 × BigQuery|サーバーサイドCookie単位でUB集計してみた | DataCurrent

    2022.07.11 コラム BigQueryGA4GTMSQLデータ分析 GTM × GA4 × BigQuery|サーバーサイドCookie単位でUB集計してみた ● はじめに 記事は、マーケティング業務に従事している方であれば一度は聞いた事や 触れた事のあるGoogleAnalytics(GA)とGoogleBigQueryを活用した データ分析事例についてご紹介しております。 DataCurrentでは、クッキーレス対策のひとつとして、Googleソリューションを活用したマーケティング基盤の構築支援を提供しています。クッキーレスに対応したデータ取得方法のみならず、そのデータを活用した機械学習、ダッシュボード開発、分析支援などをサポートします。 ● 従来とGA4の違い ① BigQueryの連携が可能 BigQueryとはGoogle Cloud Platform 内で提供されるサ

    GTM × GA4 × BigQuery|サーバーサイドCookie単位でUB集計してみた | DataCurrent
  • BigQueryのARRAYとSTRUCTを理解して使いこなす - G-gen Tech Blog

    G-gen の杉村です。BigQuery は通常の RDBMS と異なり分析用データベースであることから、非正規化したテーブルを扱うことが多くなります。そのための独特のデータ型として、ARRAY (配列) と STRUCT (構造体) があります。これらについて解説します。 概要 ARRAY (配列) ARRAY とは サンプルテーブル SELECT SELECT 〜 WHERE SELECT 〜 CROSS JOIN SELECT (SELECT ~ UNNEST) CREATE TABLE / INSERT 制限 STRUCT (構造体) STRUCT とは サンプルテーブル SELECT SELECT 〜 WHERE CREATE TABLE / INSERT 制限 ARRAY<STRUCT> (ネストされた繰り返し列) ARRAY<STRUCT> とは サンプルテーブル SELEC

    BigQueryのARRAYとSTRUCTを理解して使いこなす - G-gen Tech Blog
  • BigQueryのオンデマンドクエリの利用量にフタをする (上限を設ける) - G-gen Tech Blog

    G-gen の杉村です。BigQuery のオンデマンドクエリの利用量にフタをする、つまりスキャンデータ量に上限を設けて突発課金を防止する工夫について紹介します。 はじめに 割り当て (Quota) の設定 Query usage per day 設定手順 割り当て画面へ遷移 対象の割り当てをフィルタ 編集ボタンをクリック 割り当てを設定 新しい割り当ての確認 動作確認 クエリのサイズ上限設定 クエリ単位での上限設定 設定手順 (コンソール) クエリ設定を開く 詳細オプションの設定 動作確認 設定手順 (bq コマンドライン) 課金が想定を超えてしまった場合の検知 はじめに BigQuery の課金体系にはオンデマンドと Editions の2つから選択できます。前者はスキャンしたデータ量に応じた従量課金です。後者は確保するコンピュートリソースの量に応じた課金で、オートスケールの幅 (上限

    BigQueryのオンデマンドクエリの利用量にフタをする (上限を設ける) - G-gen Tech Blog
  • 慣れてきたらチャレンジしてみよう!BigQueryのパフォーマンス最適化 - ABEJA Tech Blog

    自己紹介 I/Oや通信的観点 分割されたクエリを取り除く 過剰なワイルドカード テーブルを避ける テーブルを日付別にシャーディングすることを避ける & テーブルの過度な分割を回避する JOIN を使用する前にデータを削減する コンピューティング的観点 結合パターンを最適化する 結合で INT64 データ型を使用して費用を削減し、比較パフォーマンスを向上させる 同じ共通テーブル式(CTE)を複数回評価するのを避ける クエリのアンチパターン 自己結合 データスキュー 公式にはない項目ですが個人的に気になったので 単一行を更新または挿入する DML ステートメント 非正規化の検討 ネストされて繰り返されているフィールドを使用する 採用情報 自己紹介 こんにちは、真壁(@Takayoshi_ma)です。先日読んだGoogle Cloudの公式ドキュメントが個人的に勉強になったので内容についてまとめ

    慣れてきたらチャレンジしてみよう!BigQueryのパフォーマンス最適化 - ABEJA Tech Blog
  • INFORMATION_SCHEMAでBigQueryの利用状況を確認|テクニカルブログ|日本情報通信株式会社

    BigQueryを利用していく上でユーザの利用状況は非常に重要な要素です。 今回はBigQueryのINFORMATION_SCHEMAを用いて私が便利だと思ったものを紹介したいと思います。 INFORMATION_SCHEMAとは INFORMATION_SCHEMAとはBigQueryの様々なメタデータへアクセスするためのビューとなります。 ビューを通して過去180日のデータへアクセスが可能です。 またこれらのビューは通常のクエリと同様クエリ処理量により課金が発生します。キャッシュは効かないためクエリの実行ごとに課金が発生するので注意が必要です。 INFORMATION_SCHEMAは実装後何度も改善されて来ています。 最近いろいろなビューが追加されています。 2020年9月現在以下のビューが提供されています。 今回はジョブのメタデータを中心にご紹介します。 dataset metad

    INFORMATION_SCHEMAでBigQueryの利用状況を確認|テクニカルブログ|日本情報通信株式会社
  • BigQuery向けクエリの社内ライブラリのCIを整えて料金を抑える - エムスリーテックブログ

    AI機械学習チームで2021年新卒の北川(@kitagry)です。 最近Zigが流行っている感じがしますね。僕もちょっとずつ勉強し始めています。 今日はZigではなく、BigQueryとPythonのお話をします。 散歩中に日陰で涼んでいたカモ ライブラリについて 問題1: BigQueryでフルスキャンが走って料金が高くなる bqvalidでフルスキャンを検知する reviewdogでCIが落ちたときに見やすくする 問題2: SQLのテストができない まとめ We are hiring!! ライブラリについて 弊チームで使っているBigQuery向けクエリのPythonライブラリについて説明します。 弊チームではバッチ処理など多くの用途でBigQueryを使用しています。 多くの場合は弊社謹製のライブラリであるgokartと組み合わせて使うことによって、結果をキャッシュして使えます。

    BigQuery向けクエリの社内ライブラリのCIを整えて料金を抑える - エムスリーテックブログ
  • dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ

    はじめに こんにちは。株式会社High Linkのデータユニットマネージャーの芦川 (@assy) です。 私たちのチームでは、データを強みとした事業価値創出を促進するために、データ基盤の整備やデータマネジメント、全社的なデータ利活用レベルの引き上げに取り組んでいます。 データマネジメントをしていると、「誰が作ったかわからない野良のテーブルが乱立している」ことや「BigQueryコンソール上でviewを定義してしまってコードレビューができない」さらには、「テーブル間の依存関係がわからず削除できない」といった課題にぶつかる方は多いんじゃないでしょうか。 私たちもまさにこのような問題に直面し、導入したのがdbtです。 今回は、dbtの導入に至る経緯や選定の理由、dbtをどう活用しているのかといった話を共有させて頂こうと思います。 私たちのようにデータマネジメントにがっつり人的リソースを割けない

    dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ
  • migrating-from-legacy-sql?hl=JA

    For more information about the GoogleSQL type system, see the GoogleSQL data types reference. For more information about data types in BigQuery, see the BigQuery data types reference. TIMESTAMP differences GoogleSQL has a stricter range of valid TIMESTAMP values than legacy SQL does. In GoogleSQL, valid TIMESTAMP values are in the range of 0001-01-01 00:00:00.000000 to 9999-12-31 23:59:59.999999.

    migrating-from-legacy-sql?hl=JA
  • EmbulkのGCS/BigQuery周りのプラグインについて

    5. 5Various Plugins DB Oracle MySQL PostgreSQL Redshift Elasticsearch 検索エンジン クラウドサービス Salesforce Amazon S3 GCS、BigQuery ファイルフォーマット CSV、TSV、JSON、XML pcap packet capture files gzip、bzip2、zip、tar、cpio http://www.embulk.org/plugins/ List of Embulk Plugins Embulk on Hadoop embulk-executor-mapreduce NoSQL Redis 6. in: type: file path_prefix: "/root/try1/csv/sample_" out: type: stdout 6入力データ正規化支援 guess prev

    EmbulkのGCS/BigQuery周りのプラグインについて
  • 誰でも簡単に超高速なクエリができるBigQueryとは?

    この2つの技術は、グーグル独自の技術というわけではない。しかし、ハードウェアから構築している、既存のグーグルのクラウド技術を活用し、パブリックなクラウドサービスとして提供可能なレベルの実装になっている点がGoogle BigQueryの強みとなっている。 BigQueryの特徴 他の類似サービスとの比較 巨大データを処理する技術としては、同じグーグルが使ってきたMapReduceというものがある。MapReduceとBigQueryを比べると、MapReduceが巨大なデータを安定的に処理できるプログラミングモデルであることに対し、BigQueryはアドホックにトライ&エラーしながらクエリを実行するサービスであることが異なっている。 MapReduceは、非構造化データを、プログラミングモデルを通して扱うことができ、巨大なテーブルの結合や巨大な出力結果のエクスポートも可能である半面、処理時

  • Google BigQuery の話 #yapcasia // Speaker Deck

    フロントエンドのパラダイムを参考にバックエンド開発を再考する / TypeScript による GraphQL バックエンド開発

    Google BigQuery の話 #yapcasia // Speaker Deck
  • BigQueryにTwitterのタイムラインを入れる [Ruby]

    Twitter のタイムラインを保存しておくとなにかと便利なので、色々と保存形式を変えながら 4 年くらい記録し続けている。ツイートの保存が便利すぎるので、ツイセーブというサービス化までした。かつてはテキストで、MongoDBMySQL とか Groonga とかいろいろやってきた。どれも問題ないんだけど、増え続けるログデータを保存する場所として考えると BigQuery が現代にマッチしてるようなのでそちらに移行した。 BigQuery に TL を保存するとできること TL の全てのデータをフルスキャンできる。これはかなり便利で、今回このブログ記事を書くにあたっても ‘BigQuery’ を TL から検索すれば、信頼できるフォローイングの人々の声を見ることができた。これにより「某 CA 社では 5000 台の MongoDB クラスタで BigQuery に対抗している」という

    BigQueryにTwitterのタイムラインを入れる [Ruby]
  • FluentdでGoogle BigQueryにログを挿入してクエリを実行する - Qiita

    Googleの虎の子BigQueryをFluentdユーザーが使わない理由はなくなったとのこと。 Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita よし、Google BigQueryを使って超高速ログ解析だ!!!!と思っているとそこまでの道のりは長かった。 Google BigQueryの環境を構築する Google BigQueryはGoogle Cloud Platformのサービスの1つである。Google Cloud Platformには様々なサービスがあり、統合されているような、されていないような作りになっている。AWSのWebインターフェースも難しいけど、Google Cloud Platformもよくわからないので覚悟してかかろう。公式のドキュメントも記述が古いときもあるので疑ってかかろう。 プロジ

    FluentdでGoogle BigQueryにログを挿入してクエリを実行する - Qiita
  • 1