[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 41件

新着順 人気順

Dataflowの検索結果1 - 40 件 / 41件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

Dataflowに関するエントリは41件あります。 techfeedpythondataflow などが関連タグです。 人気エントリには 『JavaScriptを大きく変えうる Dataflow Proposals の概要と論点(Call-this, Pipe Operator)』などがあります。
  • JavaScriptを大きく変えうる Dataflow Proposals の概要と論点(Call-this, Pipe Operator)

    Dataflow Proposals とは 以下の5つのプロポーザルをまとめて Dataflow Proposals と呼んでいる。 Stage 2: Pipe operator Stage 1: Call-this operator Stage 1: Partial application(PFA) Stage 1: Extensions Stage 0: Function.pipe and flow 例えば Pipe operator, Call-this operator, Partial application を組み合わせると、以下のように書けるようになる。(提案段階なので変わる可能性アリ) import { getAuth, getIdToken } from "firebase/auth"; function isPublic(article) { return articl

      JavaScriptを大きく変えうる Dataflow Proposals の概要と論点(Call-this, Pipe Operator)
    • Dataflow Indexer データ整合性担保と性能改善 - LegalOn Technologies Engineering Blog

      はじめに こんにちは。LegalOn Technologies 検索・推薦チームの臼井(jusui)です。 私たちのチームは、LegalOn Technologies が提供する主要サービス—「LegalOn Cloud」、「LegalForce」、「LegalForceキャビネ」—の検索・推薦システムの開発と運用を担当しています。 2024年7月に当チームから「Dataflow 実践開発セットアップ」を公開しました。 tech.legalforce.co.jp 今回は、2024年4月から提供開始した弊社の新サービス「LegalOn Cloud」の初回リリースに向けて開発した Indexing pipeline とその後の改善についてご紹介します。具体的には、Cloud Pub/Sub と Cloud Dataflow を活用した Indexing pipeline の開発により、Elas

        Dataflow Indexer データ整合性担保と性能改善 - LegalOn Technologies Engineering Blog
      • Dataflow(batch)でZONE_RESOURCE_POOL_EXHAUSTEDが発生した話

        こんにちは。 GMO NIKKOのT.Cです。 今回は、Dataflowで、特定のゾーンにあるリソースが一時的な不足(= ZONE_RESOURCE_POOL_EXHAUSTED)により、間欠的にJobが失敗した内容について話したいと思います。 ※ 本ブログで発信される情報は、個人の見解でドキュメントで直接言及されてない内容も含まれているため、実際とは異なる可能性もあるので、参考までにしてください 1日何回も、Cloud FunctionでDataflow(batch・dataflow shuffle)を動かしてGCSにあるログを処理していますが、ゾーンのリソース不足により、Jobが失敗する現象が数日にわたって間欠的に発生していました。 Startup of the worker pool in zone us-central1-a failed to bring up any of th

          Dataflow(batch)でZONE_RESOURCE_POOL_EXHAUSTEDが発生した話
        • Dataflow の Day 2 Operation ベタープラクティス

          Google Cloud Japan の RyuSA です。👋 最近「 Pub/Sub からイベントとデータを引っ張って BigQuery に投げ込みたい」「 Cloud Spanner の変更ストリームを BigQuery に配置し、データを分析に使いたい」など、様々な用途で大量なデータの処理のために Dataflow を利用いただいているのを観測しています。👀 さて、巨大な分散処理をマネージドで実行してくれる便利な Dataflow ですが、運用する上でいくつか気を付けないといけないことがあります。そしてそれらの多くは「問題が発生してから」発覚することが多いです。この記事では「 Dataflowジョブの運用に関しての FAQ やよくある問題」に対する回答をまとめておきました。 監視 / 可観測性 Q: ジョブのログベースの監視のベストプラクティスをおしえて! A. ログベース監視を

            Dataflow の Day 2 Operation ベタープラクティス
          • Designing a Dataflow Editor With TypeScript and React | Protocol Labs Research

            This is a design report – a story about the tradeoffs and challenges that we encountered while building a medium-complexity React component in TypeScript. These include state modeling (“making illegal states unrepresentable”) basic type-level programming in TypeScript DX patterns for generically typed React components DX patterns for reusable controlled components using a Redux-like action/dispatc

              Designing a Dataflow Editor With TypeScript and React | Protocol Labs Research
            • Apache Beam (Dataflow) 実践入門【Python】 - Qiita

              はじめに この記事は、Apache Beam Documentation の内容をベースとしています。 Apache Beam Python SDK でバッチ処理が可能なプログラムを実装し、Cloud Dataflow で実行する手順や方法をまとめています。また、Apache Beam の基本概念、テストや設計などについても少し触れています。 Apache Beam SDK 入門 Apache Beam SDK は、Java, Python, Go の中から選択することができ、以下のような分散処理の仕組みを単純化する機能を提供しています。 Pipeline:処理タスク全体(パイプライン)をカプセル化します。処理タスクには、入力データの読み取り、変換処理、および出力データの書き込み等が含まれます。 PCollection:分散処理対象のデータセットを表すオブジェクトです。通常は、外部のデータ

                Apache Beam (Dataflow) 実践入門【Python】 - Qiita
              • 社内データパイプラインツールを Mercari Dataflow Template としてOSS化しました | メルカリエンジニアリング

                Merpay Advent Calendar 2020 の10日目の記事です。 こんにちは。Merpay Solutions Teamの @orfeon です。 3ヶ月ほど前のブログ記事でメルペイでのFlexTemplateの活用例を紹介しましたが、ここで使われていたソフトウェアを先日、OSSとして公開しました。 この記事ではこのOSSとして公開したMercari Dataflow Templateについて紹介します。 BigQueryから取得したデータを別のDatabaseサービスに保存したり、異なるデータソースからのデータをSQLで結合・加工したり、AWSのS3にデータを出力したりなどなど、GCP上での何らかのデータの処理に関わられている方は役立つケースがあるかもしれないのでぜひご一読頂ければ幸いです。 Mercari Dataflow Templateとは何か Mercari Dat

                  社内データパイプラインツールを Mercari Dataflow Template としてOSS化しました | メルカリエンジニアリング
                • Dataflow with Python practical setup guide - LegalOn Technologies Engineering Blog

                  こんにちは、LegalOn Technologies検索・推薦チームの志水です。 私たちのチームでは Elasticsearch へのデータのインデキシングをCloud PubSub を queue として挟んで非同期にしており、その処理にDataflowを活用しています。Dataflow(=Google managed Apache Beam) はサーバーレスでスケーラブルなデータ処理を得意としています。 Python を用いたDataflowの活用については、例えばこちらの記事が網羅的です。 この記事では似たような観点に加え、Docker上で動かす工夫やintegration testの工夫も合わせて書いていければと思います。 全体像 パッケージ構成 pyproject.toml (Poetry) Pipeline Integration test DoFnのテスト DirectRun

                    Dataflow with Python practical setup guide - LegalOn Technologies Engineering Blog
                  • Cloud Dataflow と Apache Beam に入門した - public note

                    BigQuery にストリーミングインサートしたい気持ちが高まってきて Cloud Dataflow と Apache Beam に入門しました。Cloud Pub/Sub -> Cloud Dataflow -> BigQuery のルートで取り込むにあたり、事前知識を得ることが目的です。 Apache Beam 特徴 Tour of Beam Transform Map FlatMap Filter Partition ParDo setup() start_bundle() process() finish_bundle() teardown() Custom Transform Windowing Fixed windows Sliding windows Session windows Beam パイプラインの設計 Cloud Dataflow 特徴 Pub/Sub to Big

                      Cloud Dataflow と Apache Beam に入門した - public note
                    • apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita

                      概要 BigQueryに保存されたtweetを形態素解析したい。BigQuery単体では形態素解析出来ないし、mecabの新語辞書を使ったりも出来ないのでdataflowを利用することで形態素解析を行う。 twitterでは、常に最新の言葉が使われる。そのためmecabの辞書は neologd を利用して最新の状態の言葉で形態素解析ができるようにする。 通常のdataflowのサンプルと異なるのはmecabで使う辞書ファイルをどのように配布するかという問題だ。今回は、パッケージ等は作らなず、インスタンスが生成された後、GCSにおいたmecabの辞書ファイルを読んでいる。 今回はtwitterで使われる人名は誰が多いのかをサンプルとして調べることにする。 shibacow@xxxx~$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ip

                        apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita
                      • Dataflow の仕組み: 誕生秘話 | Google Cloud 公式ブログ

                        ※この投稿は米国時間 2020 年 8 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。 編集者注: 本記事は Dataflow の開発に至った Google 内部の歴史と、Google Cloud サービスとしての Dataflow の機能、市場における他社製品との比較対照について掘り下げる 3 回シリーズのブログの第 1 回です。 Google のスマート分析プラットフォームの一部である Google Cloud の Dataflow は、ストリーム データとバッチデータの処理を統合するストリーミング分析サービスです。Dataflow に対する理解を深めるために、MillWheel から始まるその歴史も理解しておくとよいでしょう。 Dataflow の歴史Google の多くのプロジェクトと同様、MillWheel は 2008 年に小さなチームが考案し

                          Dataflow の仕組み: 誕生秘話 | Google Cloud 公式ブログ
                        • BigQueryを補完する技術: DuckDBとDataflowでのデータ処理入門 - yasuhisa's blog

                          背景 & Disclaimer DuckDB 概念や代表的なユースケース 使ってみる 1週間〜一ヶ月などある程度の期間、分析で使いたい場合 便利なCLIツールとして使う 所感 参考 Dataflow 代表的なユースケース 具体例 参考 背景 & Disclaimer BigQueryは非常に便利で、BigQueryにさえ上がってしまえばSQLで巨大なデータを簡単に相手にできます とはいえ、BigQueryに行きつくまでが大変な場合もありえます 例: 個人情報を含むsensitiveなデータで、BigQueryに気軽に上げられないケース 一時的であっても、相談なしにその手のデータを気軽にアップロードするのはやめてください... 数万件程度であれば手元のエクセルで開いて、問題ない行/列だけに絞る、ということもできるが、もっと量が多いデータだとそういうわけにもいかない。そもそも分析はSQLでやり

                            BigQueryを補完する技術: DuckDBとDataflowでのデータ処理入門 - yasuhisa's blog
                          • Google提供のDataflowテンプレートとJavaScriptの話 - Qiita

                            tl;dr GoogleはDataflowのテンプレートを提供しているよ コードはGitHubで見られるよ いくつかのテンプレートはJavaScriptで変換の処理を書けるよ JavaScriptの処理はNashornを使っているよ Google提供のDataflowテンプレートとは 名前の通り、Googleが提供していてるDataflowのテンプレートです。 これを使うことで、コードを(あまり)書かずに一定の処理が行えます。 提供されているテンプレートは、GCPのストレージ(GCS・Pub/Sub・Datastore・BigQuery・Spanner)間の移動を行うものが多く、例えば、 Pub/SubからBigQuery(ストリーミング) GCSからBigQuery(バッチ・ストリーミング両方) などがあります。 ちなみに、GCPのストレージ間移動以外のテンプレートとしては、Datast

                              Google提供のDataflowテンプレートとJavaScriptの話 - Qiita
                            • Dataflowのテンプレートを作ってみる

                              GMOアドマーケティングのT.Kです。 既存のバッチ処理をDataprocからDataflowへ移植する際にDataflowのテンプレートが気になったので、 入門ガイドのクラシック テンプレートの作成を参考にして、WordCountのコードを改修してテンプレートを作ってみます。 テンプレート作成コマンド gradle clean execute -DmainClass=org.apache.beam.examples.WordCount \ -Dexec.args="--project=<YOUR_PROJECT_ID> \ --runner=DataflowRunner \ --region=us-central1 --stagingLocation=gs://<YOUR_BUCKET_NAME>/staging \ --templateLocation=gs://<YOUR_BUCKE

                                Dataflowのテンプレートを作ってみる
                              • Cloud Dataflow で実現する柔軟なデータパイプライン - スタディサプリ Product Team Blog

                                はじめに こんにちは、@shase です。 スタディサプリでは、データパイプラインのツールとして、従来 AWS Kinesis Stream や、Embulk や、AWS Lambda などがよく使われてきました。 ただ、現在開発中のプロジェクトでは、システム間の連携の為、Cloud Pub/Sub が多用されているということもあり、データパイプライン Cloud Pub/Subとの親和性が高いCloud Dataflowを一部取り入れています。 本記事では Cloud Dataflow 自体は詳述しませんが、簡単に説明させていただくと、Cloud Dataflowとは、GCP が提供するマネージドな Apache Beam の実行環境になります。 Cloud Dataflow のメリット Cloud Dataflow(Apache Beam)には、以下のようなメリットを感じています。 ス

                                  Cloud Dataflow で実現する柔軟なデータパイプライン - スタディサプリ Product Team Blog
                                • 株式会社ヤプリ:データ パイプラインを Pub/Sub や Dataflow で構築しBigQuery へリアルタイムにデータを蓄積、Looker により顧客のデータ活用を促進 | Google Cloud 公式ブログ

                                  株式会社ヤプリ:データ パイプラインを Pub/Sub や Dataflow で構築しBigQuery へリアルタイムにデータを蓄積、Looker により顧客のデータ活用を促進 ノーコードで大企業向けモバイルアプリを開発・運用・分析できるプラットフォームを展開する株式会社ヤプリ(以下、ヤプリ)。分析機能と可視化の強化を目的に Google Cloud を活用したデータ パイプラインを構築しています。このプロジェクトに携わったメンバーの皆さんに話を伺いました。 (利用している Google Cloud ソリューション) ストリーム分析 (利用している Google Cloud サービス) BigQuery、Cloud Run、Pub/Sub、Dataflow、Cloud Functions、Cloud Storage、Looker など データ ウェアハウスとしての BigQuery のコス

                                    株式会社ヤプリ:データ パイプラインを Pub/Sub や Dataflow で構築しBigQuery へリアルタイムにデータを蓄積、Looker により顧客のデータ活用を促進 | Google Cloud 公式ブログ
                                  • Cloud DataflowでGCS→BQのパイプラインをPythonで試してみる | DevelopersIO

                                    はじめに データアナリティクス事業本部のkobayashiです。 GoogleCloudのETLサービスのDataflowを調査する機会があり、Google Cloud Storage(以降GCS)にあるCSVファイルをBigQueryにロードする処理をPythonスクリプトで試してみましたのでまとめます。 Dataflow  |  Google Cloud Cloud Storage Text to BigQuery DataflowはマネージドなApache Beam Runnerでプログラミング言語としてはJava,Python,Goを使うことができます。今回やろうとしている「Cloud Storage Text to BigQuery」に関してはGoogle提供のバッチテンプレートがありますが、このテンプレートはJavaで記述されているため使用せずPythonで実装してみます。 B

                                      Cloud DataflowでGCS→BQのパイプラインをPythonで試してみる | DevelopersIO
                                    • 新しい高速アーキテクチャにより、多言語 Dataflow パイプラインが利用可能に | Google Cloud 公式ブログ

                                      ※この投稿は米国時間 2020 年 8 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。 開発チームとデータ サイエンス チームが異なる言語の SDK で作業している場合や、好みのプログラミング言語では利用できない機能がある場合はどうしていますか?従来は、さまざまな言語をブリッジする回避策を講じなければならず、それができない場合はコーディングし直すしかありませんでした。これは時間や費用がかかるだけでなく、チームのコラボレーション能力にとって大きな足かせになります。 Dataflow Runner v2 の概要この問題を克服するために、Runner v2(パイプラインを構築するすべてのユーザーが利用可能)という新しいサービスベースのアーキテクチャが Dataflow に追加されました。この機能には、すべての言語 SDK をサポートする多言語対応が含まれています

                                        新しい高速アーキテクチャにより、多言語 Dataflow パイプラインが利用可能に | Google Cloud 公式ブログ
                                      • GitHub - asg017/dataflow: An experimental self-hosted Observable notebook editor, with support for FileAttachments, Secrets, custom standard libraries, and more!

                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                          GitHub - asg017/dataflow: An experimental self-hosted Observable notebook editor, with support for FileAttachments, Secrets, custom standard libraries, and more!
                                        • Dataflow と Pub/Sub を使用して、ストリーミング パイプラインの重複データを処理する | Google Cloud 公式ブログ

                                          ※この投稿は米国時間 2021 年 8 月 24 日に、Google Cloud blog に投稿されたものの抄訳です。 目的ストリーミング データを処理して分析情報を抽出し、リアルタイム アプリケーションを強化することはますます重要になっています。Google Cloud Dataflow と Pub/Sub には、ミッション クリティカルなパイプラインを実行するための、スケーラビリティと信頼性に優れた、完成されたストリーミング分析プラットフォームが用意されています。このようなパイプラインの設計に際して、デベロッパーは、重複データの処理をどのように行うかという課題に頻繁に直面します。 このブログでは、ストリーミング パイプラインで重複データがよく発生する場所や、その処理に利用できるいくつかの方法について説明します。また、同じトピックについて説明しているこちらの技術解説もぜひご覧ください。

                                            Dataflow と Pub/Sub を使用して、ストリーミング パイプラインの重複データを処理する | Google Cloud 公式ブログ
                                          • DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ

                                            はじめに 本記事はエムスリー Advent Calendar 2020の12日目の記事です。 エンジニアリンググループの西名(@mikesorae)です。 私のチームでは医療に関する様々なデータを集計して分析レポートの作成を行っています。 クライアントの要望に応じて条件や分析軸を変更するために、これまではRubyで動的にSQLを組み立てて集計を行っていましたが、条件が複雑なため出力されるSQLが3000行近くになり、デバッグやテストも困難なためメンテナンス工数が多くかかっていました。 また、データ数の増加に伴ってSQLの実行時間も次第に長くなり、このまま行くと継続的なサービス提供ができなくなるリスクがあったため、BigQuery + Google Cloud Dataflow + Scioによる作り直しを決断しました。 Google Cloud Dataflowの導入にあたって公式ドキュメ

                                              DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ
                                            • Mercari Dataflow Templateの紹介

                                              テラーノベルで機械学習を担当している川尻です。テラーノベルで定期実行タスクの管理には、Google CloudのマネージドサービスであるCloud Composerを活用しています。以前にもテラーノベルのテックブログで他のサービスと比較して紹介しています。 定期実行タスクの中で典型的な処理の一つとして、BigQueryで処理した結果をGoogle Cloud StorageやCloud Spannerに書き出すというものが挙げられます。そういった処理のとき、Mercari Dataflow Templateが便利なので紹介します。また、最後にComposerから使うときのTipsをまとめました。 Dataflowのつらいところ Dataflow[1] というのは、Google Cloudのフルマネージドでサーバーレスなデータ処理サービスです。処理のパイプラインは、Apache Beam[2

                                                Mercari Dataflow Templateの紹介
                                              • Google Dataflow を使ってコーディング無しでテキストファイル内に出現する単語をカウントしてみた | DevelopersIO

                                                こんにちは、みかみです。 データアナリティクス事業本部に所属しています。 GCP のデータ分析基盤関連でよく聞く Google Dataflow。 設定などの手間が必要なく、オートスケーリングな並列分散処理をしてくれるデータパイプラインが簡単に構築できるらしいとのことですが、実際に使ったことがなかったので、触ってみました。 やりたいこと Google Dataflowをさわってみたい Dataflowを使うにはどうすればよいのか知りたい 前提 本エントリでは、Dataflow を実際に動かしてみるために、Python を使用したクイックスタートを実行して、指定したテキストファイル内に出現する単語の数をカウントしてみます。 動作確認には Cloud Shell を使用します。 Cloud Shell には Google Cloud SDK などの基本的な環境はインストール済みのため、Pyth

                                                  Google Dataflow を使ってコーディング無しでテキストファイル内に出現する単語をカウントしてみた | DevelopersIO
                                                • DataflowとBigQueryで始める大規模データ分析基盤実装入門 - TECH PLAY Magazine

                                                  大量に蓄積されたデータを活用するためには、データ分析基盤の構築が必要になる。だが、専門知識を持つ人材やデータ分析にかける予算確保は容易くはない。そこで、電通国際情報サービス(ISID)の全社横断的な研究開発部門である、X(クロス)イノベーション本部ソフトウェアデザインセンターの佐藤太一氏が、自らの経験をもとにDataflowとBigQueryで大規模データ分析基盤を実装する方法を紹介。その際に重要となるコスト観も合わせて解説した。 データ分析基盤構築における考え方とシステムアーキテクチャ 佐藤 太一氏 株式会社電通国際情報サービス(ISID) Xイノベーション本部 ソフトウェアデザインセンター 今回登壇した佐藤太一氏が所属する電通国際情報サービス(以下、ISID)のXイノベーション本部は、全社横断的な研究開発部門。佐藤氏はGitHubやJIRAなどの現代的な構成管理ツールの利用促進や部門横

                                                    DataflowとBigQueryで始める大規模データ分析基盤実装入門 - TECH PLAY Magazine
                                                  • ストリーミング パイプライン  |  Cloud Dataflow  |  Google Cloud

                                                    フィードバックを送信 ストリーミング パイプライン コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 制限なし PCollection、または制限なしコレクションにより、ストリーミング パイプラインにおけるデータが表現されます。制限なしコレクションには、Pub/Sub など、継続的に更新されるデータソースのデータが含まれます。 鍵のみを使用して、制限なしコレクション内の要素をグループ化することはできません。データソースには常に新しい要素が追加されるため、ストリーミング データのキーは無限に多くなる可能性があります。ウィンドウ、ウォーターマーク、トリガーを使用して制限なしコレクションの要素を集約できます。 ウィンドウの概念は、バッチ パイプライン内のデータを表す制限付き PCollection にも適用されます。バッチ パイプラインでのウィンドウ処理について詳

                                                      ストリーミング パイプライン  |  Cloud Dataflow  |  Google Cloud
                                                    • BigQuery の日本語データを Dataflow と Vertex AI でトピックモデリング / Topic modeling of Japanese data in BigQuery with Dataflow and Vertex AI

                                                      2022.04.20 Data Engineering Meetup 【ZOZO × GMOペパボ】 https://pepabo.connpass.com/event/242688/

                                                        BigQuery の日本語データを Dataflow と Vertex AI でトピックモデリング / Topic modeling of Japanese data in BigQuery with Dataflow and Vertex AI
                                                      • Dataflow の仕組み: Dataflow の手法について | Google Cloud 公式ブログ

                                                        ※この投稿は米国時間 2020 年 8 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。 編集者注: 本記事は Dataflow の開発に至った Google 内部の歴史と、Google Cloud サービスとしての Dataflow の機能、市場における他社製品との比較対照について掘り下げる 3 回シリーズのブログの第 2 回です。第 1 回の記事をご参照ください。Dataflow の仕組み: 誕生秘話 本シリーズの第 1 回では、Google 内での Dataflow 開発の背景について取り上げ、ラムダ アーキテクチャとの比較について解説しました。今回は Dataflow を動かす主要なシステムのいくつかについて、もう少し詳しく見ていきましょう。第 1 回で述べたように、Dataflow にはそれまでのシステムのために構築した数多くのテクノロジーが活用さ

                                                          Dataflow の仕組み: Dataflow の手法について | Google Cloud 公式ブログ
                                                        • BigQueryユーザのためのCloud Dataflow入門

                                                          BigQueryユーザのための Cloud Dataflow入門 bq_sushi 2021-04-16

                                                            BigQueryユーザのためのCloud Dataflow入門
                                                          • GitHub - hydro-project/hydroflow: Hydro's low-level dataflow runtime

                                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                              GitHub - hydro-project/hydroflow: Hydro's low-level dataflow runtime
                                                            • 【GCP】GCSにあるZipfilesをBigqueryに~Dataflowによる実装 - Qiita

                                                              一、背景 背景:AdobeAnalyticsのデータをBigqueryに蓄積して活用しようということで、1時間分のCSVデータをZipfiles形式で1時間ごとGoogleCloudStorageに転送されていて、その後Bigqueryにテーブルとして集約します。 元々はDataproc上のSparkJobで処理しているですが、コスパを考えてDataflowへの移行を決まりました。 実行するための権限周りについてはGoogleの公式ドキュメントまでご参照いただければ幸いです。 二、アーキテクチャ 今回のアーキテクチャは下記のようになります。 GCS上に格納されるZIPファイルをトリガーとして、CloudFuntionsを起動し、その後Dataflowに送信してflexTemplatesのJobを実行し、CSVデータをBigqueryのテーブルにアウトプットします。 三、ApacheBeam

                                                                【GCP】GCSにあるZipfilesをBigqueryに~Dataflowによる実装 - Qiita
                                                              • Dataflow Prime: ビッグデータ処理で優れた効率と抜本的な簡素化を実現 | Google Cloud 公式ブログ

                                                                ※この投稿は米国時間 2021 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。 企業が変化に対応できるスピードは、成功と混乱の差となって現れます。「生じたこと」に対処するだけでは不十分です。企業は「現在生じていること」と「生じる可能性のあること」を把握し、それに応じてプロアクティブな行動を取る必要があります。こうしたビジネス上の課題にリアルタイムで対処することで、チームは変化するビジネスニーズに迅速に対応し、タイムリーかつ適切で快適なユーザーエクスペリエンスを提供できます。 このような課題などに対処するデータ プラットフォームを構築できるように、Dataflow をご用意しました。Dataflow は NoOps のサーバーレス データ処理プラットフォームで、アプリケーションとユーザーが生成する膨大な量のデータを収集して強化できます。 Datafl

                                                                  Dataflow Prime: ビッグデータ処理で優れた効率と抜本的な簡素化を実現 | Google Cloud 公式ブログ
                                                                • GitHub - mercari/DataflowTemplate: Mercari Dataflow Template

                                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                    GitHub - mercari/DataflowTemplate: Mercari Dataflow Template
                                                                  • あらゆる Dataflow パイプラインを再利用可能なテンプレートに変換 | Google Cloud 公式ブログ

                                                                    ※この投稿は米国時間 2020 年 10 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。 組織内におけるデータ分析の増大にともない、ビジネスチームには、バッチジョブとストリーミング ジョブを実行し、エンジニアが作成したコードを活用できる機能が必要となります。しかし、既存のコードを再実行するには、多くの場合、開発環境を設定してコードを少し変更する必要がありますが、これはプログラミングのバックグラウンドがない人にとっては大きな課題となります。 この課題を念頭に置き、Google はこのほど、 Dataflow フレックス テンプレートを導入しました。これにより、あらゆる Dataflow パイプラインを、誰でも実行できる再利用可能なテンプレートにより簡単に変換できるようになります。 既存のクラシックテンプレートでも、デベロッパーはテンプレートを介してバッチおよび

                                                                      あらゆる Dataflow パイプラインを再利用可能なテンプレートに変換 | Google Cloud 公式ブログ
                                                                    • Dataflow で Python の外部パッケージをインストールする - Qiita

                                                                      背景 Vertex AI Model Registry でバージョン管理しているモデルを使用して並列に予測を行う Dataflow のジョブを作成したくなったが、 Vertex AI の SDK である google-cloud-aiplatform が Dataflow ワーカーにインストールされていなかった。 やりたいこと Dataflow + Python でバッチジョブを作るときに任意のパッケージをインストールしたい。 ちなみにデフォルトでインストールされるパッケージはジョブの記述に使用している Python と Apache Beam SDK のバージョンによって異なっており、以下からパッケージのリストを参照できる。 google-cloud-* 系のパッケージや numpy, pandas などメジャーなパッケージは元からインストールされているものの、上記にないパッケージは自分

                                                                        Dataflow で Python の外部パッケージをインストールする - Qiita
                                                                      • Dataflowが得意なこと、苦手なこと - case-kの備忘録

                                                                        Dataflowが得意なこと、苦手なことを考えてみました。 得意なこと バッチ/ストリーミング処理(特にストリーミング処理) サイズの大きいデータを扱うこと サーバ費用を抑えること 苦手なこと 逐次処理 複雑なパイプライン制御(役割が異なる) 得意なこと バッチ/ストリーミング処理(特にストリーミング処理) Dataflowはストリーミングとバッチ処理を同じように扱えます。ストリーミング処理はPub/Subからバッチ処理はGCSからデータを読み込むことになりますが入力先を変えるだけで行うことができます。ストリーミングとバッチの両方を対象としたプログラミングモデルは大きな差別化要素となっているようです。 p = beam.Pipeline(options=options) # READ FROM Pub/Sub p | 'Read PubSub Messages' >> beam.io.Re

                                                                          Dataflowが得意なこと、苦手なこと - case-kの備忘録
                                                                        • ルノーはいかにして BigQuery と Dataflow を活用した産業データ プラットフォームでスケーリングと費用面の課題を解決したか | Google Cloud 公式ブログ

                                                                          ルノーはいかにして BigQuery と Dataflow を活用した産業データ プラットフォームでスケーリングと費用面の課題を解決したか ※この投稿は米国時間 2021 年 8 月 27 日に、Google Cloud blog に投稿されたものの抄訳です。 当初はトレーサビリティやオペレーション効率の改善といったユースケースに対応する目的で、初めてデータ管理を工場に導入したところ、大規模な機械やオペレーションから産業データを収集するために適したソリューションを手にしたと確信しました。このソリューションのデプロイを開始した結果、収集した全データのコンテキスト化、処理、ホスティングを行うために、最先端のデータ プラットフォームが必要となりました。このプラットフォームはルノーのフットプリント全体にデプロイするためにスケーラブルでなければならず、かつ業務におけるデータ利用促進のために手頃な価格

                                                                            ルノーはいかにして BigQuery と Dataflow を活用した産業データ プラットフォームでスケーリングと費用面の課題を解決したか | Google Cloud 公式ブログ
                                                                          • 【書き起こし】Dataflow Templateを活用した宣言的なデータパイプライン &#8211; 永井 洋一【Merpay Tech Fest 2021】 | メルカリエンジニアリング

                                                                            【書き起こし】Dataflow Templateを活用した宣言的なデータパイプライン – 永井 洋一【Merpay Tech Fest 2021】 Merpay Tech Fest 2021は、事業との関わりから技術への興味を深め、プロダクトやサービスを支えるエンジニアリングを知れるお祭りで、2021年7月26日(月)からの5日間、開催しました。セッションでは、事業を支える組織・技術・課題などへの試行錯誤やアプローチを紹介していきました。 この記事は、「Dataflow Templateを利用した宣言的なデータパイプライン」の書き起こしです。 永井洋一氏:それでは「Merpay Tech Fest 2021」ということで「Dataflow Templateを利用した宣言的なデータパイプライン」という題で、永井から発表させていただきます。 まず、簡単に自己紹介をさせていただきますと、私はメル

                                                                              【書き起こし】Dataflow Templateを活用した宣言的なデータパイプライン &#8211; 永井 洋一【Merpay Tech Fest 2021】 | メルカリエンジニアリング
                                                                            • Dataflow Auto Sharding for BigQuery delivers 3x performance | Google Cloud Blog

                                                                              Shanmugam (Shan) KulandaivelProduct Manager, Streaming Analytics, Google Cloud Many of you rely on Dataflow to build and operate mission critical streaming analytics pipelines. A key goal for us, the Dataflow team, is to make the technology work for users rather than the other way around. Autotuning, as a fundamental value proposition Dataflow offers, is a key part of making that goal a reality -

                                                                                Dataflow Auto Sharding for BigQuery delivers 3x performance | Google Cloud Blog
                                                                              • Dataflow前編(Dataflowの概要からApache Beamの使い方まで) | フューチャー技術ブログ

                                                                                はじめにはじめまして、フューチャーのインターン”Engineer Camp”に参加した平野と申します。 今回のインターンでは、Google Cloud Platform (GCP)のサービスとして提供されているDataflowについて調査し、その仕組みや使い方についてこの技術ブログにまとめることに取り組みました。 フューチャーのインターンについてはこちらをご覧ください! 今回の記事は前編・後編に分かれており 前編: Dataflowの概要 Apache Beamの概要・内部的な仕組み Apache Beamのコードの書き方 後編: Dataflowを使う上での事前準備と基本的な使い方 GPUを使う上での事前準備と基本的な使い方 Pub/Sub・BigQueryとの連携例 という構成になっています。後編も公開しています。 DataflowとはDataflowは様々なデータの分散処理を簡単に実

                                                                                  Dataflow前編(Dataflowの概要からApache Beamの使い方まで) | フューチャー技術ブログ
                                                                                • GitHub - GoogleCloudPlatform/bigquery-data-lineage: Reference implementation for real-time Data Lineage tracking for BigQuery using Audit Logs, ZetaSQL and Dataflow.

                                                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                    GitHub - GoogleCloudPlatform/bigquery-data-lineage: Reference implementation for real-time Data Lineage tracking for BigQuery using Audit Logs, ZetaSQL and Dataflow.

                                                                                  新着記事