ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。寺田晃太朗 (@kotarotrd) です。 2018年4月に新卒でヤフーに入社し、データエンジニアとして働いています。 2019年10月に Apache NiFi Committer になりました。 私は昨年のAdvent Calendarで、注目するデータソリューション技術として「量子アニーリングがチョットワカルようになる記事」を書きました。 今年のAdvent Calendarの記事では、例えばそんなデータサイエンスを最大限に活用するために、データプラットフォームとしてデータ連携をどのように効率化できるかというテーマについて記事を書きます。 この記事では、Yahoo! JAPANのデータフロープラットフォームの役
This document discusses using Apache NiFi, TensorFlow, and Hadoop together for big data AI applications. It provides an overview of each technology and how they can be combined. Specifically, it describes how NiFi can be used to ingest and transport data to Hadoop, TensorFlow can be used to build and deploy machine learning models for real-time insights, and both can leverage Hadoop for storage an
Introduction Hortonworks Dataflow (HDF) powered by Apache NiFi, kafka and Storm, collects, curates, analyzes and delivers real-time data from the IoAT to data stores both on-premises and in the cloud. Apache NiFi automates and manages the flow of information between systems. NiFi data flows are made of series of processors each with specific task. NiFi provides hundreds of general purpose processo
一度NiFiで基本のデータフローを通すことが出来たので、そもそもNiFiは何ぞや、というのをOvewviewのページを読むことで確認してみます。 尚、全訳ではなく、流れや意味が大体わかればいい、というレベルの荒い訳になります。 下記のページのOverviewから確認しました。 参照: http://nifi.apache.org/docs.html Apache NiFiとは? NiFiはシステム間のデータフロー自動化を行うために構築された。 データフローは様々なコンテキストで使用されるが、NiFiでは自動化され管理されたシステム間の情報やり取りフローを指す。 この問題領域はある企業でシステム間でデータの出力/入力が発生する場合には常時おこる。 解決方法は今まで継続して議論されてきており、そのながれはEnterprise Integration Patterns(EIP)にもみられる。 N
Apache NiFiでRDBにSQLを投げて、結果をテキスト出力してみました。 インストール 本番サイトから、tar.gzかzipファイルをダウンロードして解凍します。 起動 binディレクトリ内のシェルを実行します。 Macな人の例 $ nifi-0.4.1/bin/nifi.sh start 詳しくは他の方が書かれているこのページが参考になります。 データフローオーケストレーションツールApache NiFiとは? JDBCコネクションを設定 画面左上のController SettingsアイコンからNiFi Flow Settingsダイアログを開いて、DBCPConnecitonPoolを追加します。 Controller Settingsアイコン NiFi Flow Settingsダイアログ DBCPConnecitonPoolダイアログ DBCPConnecitonPoo
最近データフローオーケストレーションツールであるApache NiFiが面白いため、実際どういうものなのか、の概要をまとめてみます。 Apache NiFiとは? 一言で言うと、データフローオーケストレーションツール、となります。 元々は米国家安全保障局(NSA)が開発していた「Niagrafiles」というプロダクトで、2014年11月にオープンソースとして寄贈されました。 下記の画像のように、画面上でストリーム処理を行うデータフローを定義し、動作させることが出来ます。 参照:https://nifi.apache.org/ 2015年7月にApacheのTopレベルプロジェクトになり、開発が進められています。 また、2015年8月下旬には、NiFiを手がける企業Onyaraが、Hortonworksによって買収され、HortonWorksからNiFiの独自ディストリビューションである「
This is part 2 of the Dataflow Optimization tutorial. Part 1 can be found here: NiFi/HDF Dataflow Optimization part 1 ----------------------------------------------------------------------------------------------------------------------------------------- How do I prevent my system/processors from becoming overwhelmed?Another aspect of optimization is preventing the dataflows from overwhelming the
HDF or CFM best practices guide to configuring your system and NiFi for high performance dataflows. Note: The recommendation outlined in this article are for the NiFi service and apply whether the NiFi service is being deployed/managed via Ambari, Cloudera Manager, or neither. NiFi is pre-configured to run with very minimal configuration needed out of the box. Simply edit the nifi.properties file
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く