[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 53件

新着順 人気順

Athenaの検索結果1 - 40 件 / 53件

Athenaに関するエントリは53件あります。 awsathenaAWS などが関連タグです。 人気エントリには 『AWSに集まったログをどう分析するか NTTドコモのエンジニアが教えるサーバーレスなログ分析基盤』などがあります。
  • AWSに集まったログをどう分析するか NTTドコモのエンジニアが教えるサーバーレスなログ分析基盤

    ログ分析勉強会では、「ログ分析」に関わるすべての技術、事例、知見を共有し、日々の業務に役立てられる情報交換ができる場所を目的として活動。初のオンライン開催となった今回、NTTドコモサービスイノベーション部の千田拓矢氏が、AWS純正サーバーレスなログ分析基盤を構築する方法を解説しました。関連資料はこちら。 AWSのサーバーレスサービスでセキュリティのログ分析 千田拓矢氏:それでは始めたいと思います。AWSのサーバーレスサービスでセキュリティのログ分析をしようという話です。 簡単に自己紹介します。千田と申します。NTTドコモのサービスイノベーション部というR&Dの部署に所属していて、5年目社員です。 基本的に普段の業務では、クラウド、AWS、GCP、Azureのセキュリティに関わる仕事をしています。機械学習もちょっとわかるくらいに勉強していて、その関連でFPGAとかGPUみたいなハードウェアの

      AWSに集まったログをどう分析するか NTTドコモのエンジニアが教えるサーバーレスなログ分析基盤
    • S3にあるALBログの調査はAthenaよりDuckDBのほうが簡単 - road288の日記

      AWSのALB(Application Load Balancer)のログはS3に置かれるが、この中身をサクッと調べたいとき、Athenaを使う方法が標準的で、下記で案内されているようにパーティション射影(Partition Projection)でテーブルを作ってAthenaからクエリする。 パーティション射影を使用して Athena で ALB アクセスログ用テーブルを作成する - Amazon Athena 私も従来はその方法を使っていたが、Athenaはブラウザから使うと動作がもっさりしているし、決まったクエリを1回きり実行して結果を取得したいだけのときならまだしも、探索的にクエリを何発も実行したいときには使い勝手が悪い。 最近他のプロジェクトでDuckDBを使うようになって、使い勝手の良さに感動していたが、DuckDBはALBのログを探索的に調べたいときにもめっちゃ使えると思った

        S3にあるALBログの調査はAthenaよりDuckDBのほうが簡単 - road288の日記
      • AWS Athenaの安価な代替手段:Lambda x DuckDB - Qiita

        Athena Amazon Athenaは、標準SQLを使用してAmazon S3に保存されたデータを分析することができる、強力でサーバーレス、インタラクティブなクエリサービスです。複雑なETLパイプラインやデータウェアハウスを設定して管理する必要がなく、大量のデータを処理する組織にとって魅力的なオプションです。ただし、Athenaの価格設定は、予算が厳しい場合など、すべてのユーザーに適しているわけではありません。このブログ投稿では、Athenaの代替となる、低コストで同等の機能を提供できるアルティメットを紹介します。 利点: Athenaの主な利点の1つは、Amazon S3のデータを、複雑なETLプロセスや専用のデータウェアハウスなしに、標準SQLクエリを使用して分析できることです。 Athenaはサーバーレスでもあり、データ量やクエリの複雑さに基づいて自動的にスケールされるため、事前

          AWS Athenaの安価な代替手段:Lambda x DuckDB - Qiita
        • Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築

          はじめにこんにちは、Finatextで証券プラットフォーム(Brokerage as a Service、以下BaaS)の開発に携わっている石橋(@bashi0501)です。過去のFinatextテックブログではTerraform、CDKとIaCをテーマにした記事しか書いたことがなかったのですが、今回はログの分析活用をテーマとします。 概要弊社の証券事業ではECSによるワークロードを組んでいます。本テーマのアプリケーションログについては標準出力したものをawslogsログドライバーが回収してCloudWatch Logsに送信しています。 ログの検索という観点ではCloudWatch Logs Insightsというサービスでかなりリッチにフィルターや集計を行うことができるのですが、ログデータを元にしたユーザーのファネル分析や業務改善(後述します)に活かしていきたいという意図があるため、マ

            Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築
          • 「Athenaで170万円請求」「EC2が復旧できない」 AWSしくじり先生 part.1

            Cloud Operator Days Tokyo は、クラウドの運用者に焦点を当てた技術者向けの新しいテックイベントです。AWS環境の運用を手がけるアイレット株式会社のインフラエンジニア古屋氏が、実際にやってしまったしくじりを紹介。原因と対策を語ります。まずは「Athenaで170万円請求」「EC2が復旧できない」 というしくじりから。(全2回) しくじり先生 on AWS 古屋啓介氏(以下、古屋):では「しくじり先生 on AWS」ということで、始めたいと思います。よろしくお願いします。今日は、AWS環境を使って日々運用していく中で発生した、しくじり、失敗事例。そしてそのしくじりの原因と、そこから得られた教訓についてお伝えしようと思います。 今日このお話を聞いたみなさんの中で「あ、うちの環境どうっだったかな?」と、思われる方もいらっしゃるかもしれません。今日お伝えすることの中で、ちょっ

              「Athenaで170万円請求」「EC2が復旧できない」 AWSしくじり先生 part.1
            • S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO

              本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない!AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。 「データはとりあえずS3に溜めておけ!」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか?本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。 概要 データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか?データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ

                S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
              • [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 | DevelopersIO

                [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 Partition Projection(パーティション射影)は、テーブル定義で指定したパーティションキーのルールやフォーマットからパーティションを計算し、パーティションプルーニングを自動化します。パフォーマンスの向上やパーティション管理の自動化などインパクトがある新機能なので、実際の動作を確認しつつ、ユースケースについて解説します。 用語の補足:パーティションプルーニングとは、一定の期間(年、月、日)やキー情報に基づき、データを分割管理したデータをクエリする際に、範囲外のデータスキャンを避ける仕組みを表します。 Glueパーティションの課題 従来のGlueパーティションは、メタデータストアがパーティション情報を保持しているので、データストア(S

                  [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 | DevelopersIO
                • 重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ

                  こんにちは、昨年末に新しくノートPCを注文したら年明けに新モデルが発表されてしまったショックを未だ引きずっているエンジニアの回路(@qazx7412)です。 今回は昨年末に取り組んだAthenaを利用した集計バッチの高速化についての話をしようと思います。 あらすじ さて、私が普段関わっている配信システムには「売上集計」と呼ばれている夜間バッチがあります。 これがなにかといえば名前のとおり売上を集計する夜間バッチなのですが、配信システムにはユーザーが購入を行ったときに発行した購入キーとコンテンツIDおよびユーザーIDを紐付けて購入履歴として管理するテーブルがあり、ここから毎晩その日の購入の集計を行います。 実際のものとは異なりますがたとえばこんな感じです。 (purchase_records) key content_id user_id price unixtime - AAAAbbbb

                    重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ 
                  • Amazon Athena を使った セキュリティログ検索基盤の構築 /seclog-athena

                    ログ分析勉強会 vol.2 https://loganalytics.connpass.com/event/157354/ の資料です

                      Amazon Athena を使った セキュリティログ検索基盤の構築 /seclog-athena
                    • AWS Config の料金がなぜこんなに高い? Amazon Athena でどのリソースが Config の記録対象になっているか調べてみた | DevelopersIO

                      わたしの検証環境で試していきます。 Config の設定確認 AWS Config 配信チャネルで、出力先の S3 バケットがどこであるか確認しましょう。 普段独立したリソースとして意識する機会は少ないと思いますが、マネジメントコンソールで以下から確認できる部分は配信チャネルの設定を表しています。 S3 バケットに格納されたオブジェクトの URI の例は以下です。 s3://バケット名/AWSLogs/アカウント番号/Config/ap-northeast-1/2021/9/24/ConfigSnapshot/ファイル名.json.gz ちょっとした気づきですが、yyyy/mm/dd形式になっていません。2021/09/24のように月や日を 2 桁に揃えてくれるわけでなく、元の数字が 1 桁のままであればそのまま 1 桁です。 Athena のクエリ結果の出力先 S3 バケットの作成 今回

                        AWS Config の料金がなぜこんなに高い? Amazon Athena でどのリソースが Config の記録対象になっているか調べてみた | DevelopersIO
                      • AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ

                        こんにちは、 id:sora_h です。これは KMC Advent Calendar 2023 12 日目の記事です (大遅刻)。 KMC ではインターネット接続手段の 1 つとして AS59128 を 2017 年頃より運用して、部室内のサーバーや一部の部員が利用しています。これまでフロー情報の収集は行ってきませんでしたが、今年、フロー情報の統計を収集して分析を可能にしたため、その実装を軽く紹介します。地味に pmacctd のドキュメントが難解だったので…。 経緯 AS59128 は運用初期から複数のトランジットやピア、東西に跨った複数拠点が存在していますが、外部の経路由来の障害や性能劣化についての調査はフロー情報なしで実施していて、特に変化前のトラフィックを確認することがそれなしでは難しくエスパーを繰り返してました。 このままでは障害時の対応が手探りで安定運用に支障がある、また (

                          AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ
                        • GitHub - multiprocessio/dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.

                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                            GitHub - multiprocessio/dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.
                          • 日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG

                            3行まとめ 背景 データの流れ そのままコピーするだけのLambda 外部テーブルを使おう ゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む 定期的に外部テーブルにクエリして結果を保存する まとめ 3行まとめ BigQueryはいいぞ 外部テーブルはすごいぞ Scheduled Queryも便利だぞ こんにちは。ひむ(@himu)です。 株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。 イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。 今回は、そんな

                              日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG
                            • センサーデータを分析するデータ基盤候補として、Data Firehose + S3 Tables + Athenaを試してみた | DevelopersIO

                              はじめに この記事はクラスメソッド発 製造業 Advent Calendar 2024の6日目の記事です。 製造現場では、様々なセンサーから大量のデータが生成されます。これらのデータは、装置の稼働状況の監視、製品品質の向上、故障予測など、様々な用途に活用できます。しかし、これらのデータを効率的に収集・分析するためには、適切なデータ基盤が必要となります。今回は、そういったセンサーデータを分析するためのデータ基盤の候補として、Data Firehose + S3 Tables + Athenaの構成を試してみます。 S3 Tablesとは S3 Tablesは、re:Invent 2024で発表された新しいストレージソリューションで、次のような特徴を持ちます。 分析に特化したストレージ設計: 高いトランザクション性能とクエリスループット 汎用のS3バケットに比べて3倍のクエリパフォーマンスと1

                                センサーデータを分析するデータ基盤候補として、Data Firehose + S3 Tables + Athenaを試してみた | DevelopersIO
                              • mikanのデータ分析基盤の歴史 - mikan Developers' Blog

                                こんにちは、株式会社mikanでデータ分析を担当している @ij_spitz です。 データ分析チームのブログも2本目になりますが、今回は前回の記事で少しだけ頭出しをしていたデータ分析基盤の歴史について書いていきます。 ↓前回の記事はこちら mikan-tech.hatenablog.jp 英単語アプリmikanは2014年10月にリリースされたプロダクトでデータ分析基盤も年月を経て変わってきました。 その頃と比べると現在はAWSやGCPで分析系のサービスが充実しており、知見も豊富になってきているので、現行の基盤以外は正直参考になりません。 また自分たちでもそんなことをしてたのかと疑いたくなるような運用をしていたので、ツッコミを入れつつ、温かい目で見ていただけると幸いです。笑 第1世代: Redshift(2014年末 ~ 2019年始め) HTMLでのビジュアライズ(2014年末 ~ 2

                                  mikanのデータ分析基盤の歴史 - mikan Developers' Blog
                                • Athenaのクエリ課金額をSlack通知する - Gunosy Tech Blog

                                  はじめに こんにちは!DR&MLOps グループの阿部です。 Gunosyには社内警察と呼ばれる人がおり、たとえばデータ可視化の際に円グラフを使うと正しい使い方を教えてくれる、母数という言葉の使い方を正してくれる、方々がいます。 今回はAthenaで課金額の高いクエリを投げるとSlackで警告してくれる、Athena課金警察というボットを紹介します。 そういえばこんな記事もありました。 data.gunosy.io さあ、高額課金者を晒し上げにしてやりましょう! 目次 はじめに 目次 どうやってやるか Lambdaの中身 結果 悩み まとめ どうやってやるか 最近 CloudWatch Events で Athenaの Query State 監視に対応したようです。 aws.amazon.com 今回はその機能を使い、Query State に変化があったときに Lambda を呼び出し

                                    Athenaのクエリ課金額をSlack通知する - Gunosy Tech Blog
                                  • Athena で S3 と MySQL を JOIN する | DevelopersIO

                                    目的 クラスメソッドタイランドの清水です。 本記事では Amazon Athena を使って、S3 と MySQL を JOIN するクエリを発行します。 大まかに以下のような構成になります。 前提条件・知識 AWS アカウントを作成済み IAM Role, Policy, Cloud9 の環境を作成できる権限がある 使いたいAWS アカウントのリージョンで cdk bootstrap コマンドを実行済み aws cli の使い方 手順 環境構築 Cloud9 を使って CDK をデプロイしたり、必要なコマンドを実行するための環境を構築します。 もし手元に環境があればこの工程はスキップしても問題ありません。 まずは Cloud9 の環境が使う EC2 インスタンスにアタッチするロールを作成します。 ロールには以下のポリシーを関連付けます。 ⚠️ 最小権限ではありません。実際のプロジェクトで

                                      Athena で S3 と MySQL を JOIN する | DevelopersIO
                                    • Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG

                                      こんにちは。UZOUのプロダクト開発をしているエンジニアの@kanga333です。 UZOUでは広告データの集計の一部にAmazon Athenaを採用しています。 この記事ではUZOUにおけるAthenaを使ったデータ処理基盤の設計について紹介したいと思います。 全体構成 データ処理基盤の全体構成は次のようになっています。 以後はそれぞれのコンポーネントについて順次紹介していきます。 FleuntdによるS3への集約 UZOUでは特にFluentdアグリゲータのような中継サーバは設けていません。広告配信サーバに常駐するFluentdがログを直接S3にプットしています。 以下はFluentdのS3 output部分の設定の一部抜粋です。 <buffer time> @type file timekey 60m </buffer> path example_table/dt=%Y%m%d/h

                                        Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG
                                      • 知らなかったのは私だけでしょうか・・・。東京リージョンでも Amazon Athena フェデレーテッド・クエリが GA されていました | DevelopersIO

                                        え・・・いつからそこに居たの。 ずっと待ってたんだよ・・・ ということで、ひっそりと東京リージョンでも Amazon Athena の Federated Query が GA されていました。 いつから? 2020年12月16日にドキュメント更新されていたようです。 こんな待望のアップデートを 1 ヶ月も見落としていたなんて。。私、アップデート職人だと自負していましたが、これはアップデート職人引退が迫られる事案だと重く受け止めています。。 Amazon Athena Federated Query Amazon Athena のフェデレーテッド・クエリはリレーショナル、非リレーショナル、オブジェクト、およびカスタムのデータソースに格納されているデータに対して SQL クエリを実行できるようになる機能です。フェデレーテッド・クエリについては以下のブログを参照ください。 これまで Athen

                                          知らなかったのは私だけでしょうか・・・。東京リージョンでも Amazon Athena フェデレーテッド・クエリが GA されていました | DevelopersIO
                                        • Amazon AthenaでIPレンジを使ってアクセスログを集計したい - hitode909の日記

                                          運用しているウェブアプリケーションへの、Cloudflare経由のリクエスト数はどれくらいあるかな、と調べたくなった。 そのさい、ちょっと試行錯誤することになったので記しておく。 CloudflareのIPレンジはこのあたりに記されているので、これと合致するかを調べていけばよさそう。 IP Ranges | Cloudflare https://www.cloudflare.com/ips-v4 以降、アクセスログはS3に置いていて、hostカラムにリクエスト元IPが格納されていて、Amazon AthenaからSELECTできるものとする。 また、実際には日付での絞り込みをおこなわないと、全範囲の探索になってしまうので注意。 is_subnet_of Prestoの0.233以降だと、is_subnet_ofという関数が用意されていて、IPレンジ内にIPがあるかを判定できるようだった。

                                            Amazon AthenaでIPレンジを使ってアクセスログを集計したい - hitode909の日記
                                          • Amazon AthenaのPartition Projectionを使ったALBのアクセスログ解析環境をTerraformで構築する | Recruit Tech Blog

                                            こんにちは。スタディサプリ ENGLISH SREグループの木村です。 はじめに 障害調査などでALBのアクセスログを解析したいというときが皆あると思います。 私はあります。 今回はAthenaを使ってALBのログを解析する方法と新機能で発表されたPartition Projectionを利用するとどのようなメリットがあるのか説明したいと思います。 ALBのアクセスログ ALBには標準でアクセスログを出力する機能があり、有効化することで自動でS3にアクセスログを保存することができます。 しかし、標準でアクセスログはgz形式で出力されており、通常解析するにはS3からダウンロードをしてきて、その後にgzを解凍してから、別途ツールを使って分析するなどの面倒な作業が発生してしまいます。 また、アクセスログはデータが大量になることも多く、DLして利用する場合でも一度に多くの範囲を分析するのは困難です

                                              Amazon AthenaのPartition Projectionを使ったALBのアクセスログ解析環境をTerraformで構築する | Recruit Tech Blog
                                            • Athenaで気軽にS3のデータを集計する - Qiita

                                              S3のJSONを気軽にAthenaで集計したいと思い、安く済ます方法を調べた。 事前の印象では結構なお値段かかってしまうものだと思っていたが、小さいデータを最低コストで集計する分にはかなり安く済みそうだった。 ということで、ここでやりたいのは、 S3の小さいデータを 気軽に 安く SQLで集計する ということで、RDSなど立てるのはもってのほかである。 前提知識 パーティション データをパーティション分割することで、各クエリでスキャンするデータの量を制限し、パフォーマンスの向上とコストの削減を達成できます。Athena では、データのパーティション分割に Hive を使用します。すべてのキーでデータをパーティション化できます。一般的な方法では、時間に基づいてデータをパーティション分割します。これにより、通常、複数レベルのパーティション構成となります。たとえば、1 時間ごとに配信されるデータ

                                                Athenaで気軽にS3のデータを集計する - Qiita
                                              • 「このパラメータストア、誰が使ってるん?」の疑問を解消するための CloudTrail とAthena の使い方 | DevelopersIO

                                                「あれ。。このパラメータストア、誰が使ってるんだっけ。」 (なんか最近読んだような入り方ですが…) 今回、SSM パラメータストアを整理する機会がありましたが、使ってるのか、使ってないのか判断に迷うところがあったので、CloudTrail と Athena を使って調査した方法をまとめます。 まず CloudTrail だけでやってみる CloudTrail のイベント履歴を開き、[イベント名] [GetParameters] で検索してやると、パラメータストアを取得した履歴が表示されます。 ただ、これだとどのパラメータを GetParameters したのか判りません。ここから [イベントの表示] をクリックすると、以下のような詳細が表示され、はじめてパラメータストアの名前が判別できます。 正直、これを1件、1件やっていくのは無理ですよね。そうなると、Athena でサクッと検索したくな

                                                  「このパラメータストア、誰が使ってるん?」の疑問を解消するための CloudTrail とAthena の使い方 | DevelopersIO
                                                • Docker のログを columnify で Athena (Presto) に特化した Parquet にする

                                                  先日 columnify という、入力データを Parquet フォーマットに変換するツールがリリースされました。 cf. 軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog また、fluent-plugin-s3 で compressor として columnify をサポートする話が出ています。1 cf. Add parquet compressor using columnify by okkez · Pull Request #338 · fluent/fluent-plugin-s3 個人的に前々から Docker のログを Parquet フォーマットで S3 に put して Athena で検索できると素敵だなと思っていたので喜ばしいことですね!そんなわけで、Docker のログを fluentd log dr

                                                    Docker のログを columnify で Athena (Presto) に特化した Parquet にする
                                                  • Amazon Athena Federated Query経由でAmazon DynamoDBのデータをAmazon QuickSightで可視化するハンズオンの公開 | Amazon Web Services

                                                    Amazon Web Services ブログ Amazon Athena Federated Query経由でAmazon DynamoDBのデータをAmazon QuickSightで可視化するハンズオンの公開 Amazon AthenaはS3上に置かれたファイルにクエリ(SQL)を実行できるサーバレスのサービスです。先日GAしたFederated Query機能を利用すると、クエリの範囲をS3に加えて多数のデータソース(例えば他のRDBやAmazon DynamoDB等)に広げ、複数のデータソースにまたがってSQL処理することが可能になります。(Federated Queryの機能説明はこちらにあります) 先日(4/17)、「AWSの基礎を学ぼう」というオンライン勉強会に講師として呼んでいただく機会があったので、このFederated Queryを使ったハンズオンキットを作成しました

                                                      Amazon Athena Federated Query経由でAmazon DynamoDBのデータをAmazon QuickSightで可視化するハンズオンの公開 | Amazon Web Services
                                                    • Amazon S3 Tablesにデータを投入してAthenaとRedshiftからクエリしてみた - Qiita

                                                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事はBeeX Advent Calendar 2024の5日目の記事です。 遅刻しました。(12/5投稿予定だった) ※本記事には一部AWSのプレビュー機能も含まれており、一般公開された際には記事の内容から変更される可能性がありますので、認識の上ご覧ください。 はじめに 先日アメリカのラスベガスで開催された AWS re:Invent 2024では多くのAWSアップデートが発表されました。 本記事ではその中でもAmazon S3 Tablesにフォーカスして検証してみましたので、記録として書いていきます。 ざっくりどんなことをする

                                                      • 【全リージョン対応】CloudTrailのログをAthenaのPartition Projectionなテーブルで作る | DevelopersIO

                                                        CloudTrailのログを分析するためのAthenaテーブルを作る機会がありましたので、AthenaのPartition Projectionという機能を用いてリージョンごと・時系列ごとでパーティションを分割するように設定してみました。 今回はPartition Projectionについてざっくりおさらいして、CloudTrailのPartition ProjectionのサンプルDDLをご紹介します。 これまで CloudTrail画面から作成されるデフォルトのDDLを用いてAthenaでテーブルを作成して、 us-east-1 の結果を返すクエリを投げてみます。 デフォルトのDDL(クリックで展開) CREATE EXTERNAL TABLE cloudtrail_logs ( eventVersion STRING, userIdentity STRUCT< type: STRI

                                                          【全リージョン対応】CloudTrailのログをAthenaのPartition Projectionなテーブルで作る | DevelopersIO
                                                        • Partition Projection を使って AWS WAF のログを分析してみた | DevelopersIO

                                                          Amazon Athena(以降、Athena)の利用料金とパフォーマンスは、スキャン対象のデータ量に比例します。 Athena では、パーティションを追加することによって、スキャン対象のデータ量を絞り、コストを減らしスキャン速度を向上できます。 パーティションを追加するには、 ALTER TABLE ADD PARTITION を実行 Glue のクローラで Glue Data Catalog にパーティションを登録 といった方法がございますが、これらはクエリを実行する度に実行しなくてはなりません。 また、多くのパーティションが存在するケースでは Glue Data Catalog からパーティションを取得する API の呼び出しがクエリパフォーマンスのボトルネックとなる可能性がございました。 これらの課題を解決するために Partition Projection を使うことで、パーティ

                                                            Partition Projection を使って AWS WAF のログを分析してみた | DevelopersIO
                                                          • [Amazon Athena]一見json配列に見えるvarcharのデータをパースして集計できる形式に変換する | DevelopersIO

                                                            データアナリティクス事業本部の貞松です。最近は少々データレイクに想いを馳せています。 今回は業務で発生したAmazon Athenaのクエリ集計について、実現したい内容とその実現方法を解説します。 集計対象データと実現したい内容 集計対象データの中身 集計対象のテーブルデータは以下のようなものです。 [{"item_id":"1","score":"0.8351"},{"item_id":"2","score":"0.8026"},{"item_id":"3","score":"0.7885"},{"item_id":"4","score":"0.7789"},{"item_id":"5","score":"0.7699"}] [{"item_id":"3","score":"0.8701"},{"item_id":"5","score":"0.8219"},{"item_id":"7",

                                                              [Amazon Athena]一見json配列に見えるvarcharのデータをパースして集計できる形式に変換する | DevelopersIO
                                                            • [動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析! #ちょっぴりDD | DevelopersIO

                                                              データアナリティクス事業本部のコンサルティングチームの石川です。AWS主催のオンラインカンファレンス、ちょっぴり DiveDeep する AWS の時間にて「Amazon Athena (Iceberg) x dbt ではじめるデータ分析!」というテーマにて登壇しました。セッション動画と資料が公開されました。 セッション概要 コンサルティングチームでは、Amazon RedshiftやSnowflakeと「dbt」を用いたサーバレスなデータプラットフォームである「dbt-template」ソリューションと、コンサルティングサービスをご提供しております。今回は、「dbt-template」のAmazon Athena対応で得られた技術調査の結果と、テーブルフォーマット「Iceberg」と「dbt」対応について、ちょっぴりDiveDeepしました。 前半は、2023/04にGAになった現在イチ

                                                                [動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析! #ちょっぴりDD | DevelopersIO
                                                              • 列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録

                                                                列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた by souichirou · 公開済み 2020年8月3日 · 更新済み 2021年7月13日 Apache ParquetCSVとの違い以前のAWS Athenaの記事でCSVとParquetとのファイル形式の違いでSQL実行時のRun Timeとスキャンデータ量にどの程度違いが出るのかを検証した。 CSVで8MByte程のファイルサイズで特定の1列だけを取り出すようなSQLの場合、スキャンデータ量はParquetの方が明らかに少なかった。 AWS Athenaはスキャン量に応じて課金されるのでParquet形式のほうが有利という事になるので、もう少しParquetについて調べてみることにした。 Apache ParquetとはTwitter社とCloudera社(米国のソフトウェア会社)で

                                                                  列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録
                                                                • Athenaのパーティションを事前に一括作成する方法 | DevelopersIO

                                                                  AthenaでHive互換のパーティションに対応していないログに一括でパーティションを作成します。ALTER TABLEを都度適用する運用負荷が軽減できます。 Hive互換になっていないログなどでは ALTER TABLE ADD PARTITIONを実行する必要があります。新しくデータが保存されたタイミングで作成するのは、運用の中で行うのは面倒です。実はデータがなくでもパーティションを事前に作成しておくことができるので、今回は一括でパーティションを作成するスクリプトを作成してみました。これを使って一年先までのパーティションを作成してみたいと思います。 今回はVPCフローログをサンプルデータとして使用します。 テーブルを作成 VPCフローログは下記の形式で出力されますので、year/month/day を利用してパーティション分割したいと思います。 bucket_ARN/optional_

                                                                    Athenaのパーティションを事前に一括作成する方法 | DevelopersIO
                                                                  • 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH

                                                                    本書の概要「データレイク」は、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。 本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS(Amazon Web Services)で実現する方法を解説します。 従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMak

                                                                      【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH
                                                                    • AWS Athenaでのタイムスタンプの扱い方 まとめ - Qiita

                                                                      はじめに AWS AthenaはPresto SQLに準拠しているため数々の時刻関数を使用することができます。 今回は私がよく使うものを紹介していきたいと思います。 参照元 タイムゾーンの設定

                                                                        AWS Athenaでのタイムスタンプの扱い方 まとめ - Qiita
                                                                      • Athenaでデータ抽出するときによく使う関数まとめ - Qiita

                                                                        はじめに CloudFrontログなどのアクセスログからデータ抽出してちょっと加工して渡すみたいなことをするときに いい感じに加工するのによく使う関数をピックアップしておく。 データソース 基本は以下のリンクの中に関数があります。 Prestoの情報はあまり調べても出ないことも多いので、 ここを見ながら情報を探していくのが確実です。 SQL クエリ、関数、および演算子 CSVデータの読み込み Athenaのクエリ結果を一旦ローカルに落としたあとに、 CSVデータを読み込むと""も値として読み込まれてしまう。 例えば以下のようなデータを読み込む場合

                                                                          Athenaでデータ抽出するときによく使う関数まとめ - Qiita
                                                                        • Athena view と Terraform による宣言的データモデリングとレイクハウスへの道標 - Gunosyデータ分析ブログ

                                                                          はじめに こんにちは、DR&MLOps*1 チームの楠です! こちらの記事は Gunosy Advent Calendar 2021 の 13 日目の記事です。 昨日の記事は大曽根さんの『Gunosyの施策運用におけるインスティチューショナルメモリ』でした。 本日は、データ分析の民主化を促進するためのデータレイク上での分析用データマートとしての Athena view の利用方法と、IaC のための Terraform による宣言的な Athena view の定義方法をご紹介します! はじめに 背景 前提知識: Athena における view Athena view の利点 利点1. SQL と view カタログ定義のみからなるので、データ転送ワークフローを組まなくてよい 利点2. テーブルのスキーマを容易に変更できる 利点3. よく利用する共通テーブル式をきちんとテーブルとして定義

                                                                            Athena view と Terraform による宣言的データモデリングとレイクハウスへの道標 - Gunosyデータ分析ブログ
                                                                          • Introducing Athenadriver: An Open Source Amazon Athena Database Driver For Go

                                                                            You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more Data analytics play a critical part in Uber’s decision making, driving and shaping all aspects of the company, from improving our products to generating insights that inform our business. To ensure timely and accurate analytics, the aggregated, anonymous data that power

                                                                              Introducing Athenadriver: An Open Source Amazon Athena Database Driver For Go
                                                                            • Amazon AthenaのPartition Projectionを使ったALB Access Logの実例 (w/ terraform & glue catalog) - Gunosy Tech Blog

                                                                              こんにちは、グノシー広告技術部、Adnwチームでマネージャーをやっているサンドバーグです! この記事は Gunosy Advent Calendar 2020 18日目の物となります。 昨日はsyouitさんの変更に強いリスト面とUICollectionViewの話でした。 内容としては弊社のiOSアプリでUITableViewの代わりにUICollectionViewを使っている理由と利点でした。 自分はiOSの開発やアプリ開発自体には関わることがほぼないのですが、わかりやすい説明だったので、まだ読まれていない方は是非読んでください! はじめに 使ったツール・サービス・機能 Terraform Amazon Athena Link Partition Projection Link ALB Access logs Link 実装 Terraform - バケット・バケットポリシーの作成

                                                                                Amazon AthenaのPartition Projectionを使ったALB Access Logの実例 (w/ terraform & glue catalog) - Gunosy Tech Blog
                                                                              • 【レポート】Architecting and Building – ログデータ用のデータレイク&分析環境をクイックに構築するには? #AWSSummit | DevelopersIO

                                                                                はじめに 皆さんこんにちは。石橋です。 2020年9月8日から9月30日までオンラインで視聴可能なクラウドカンファレンス、AWS Summit Online 2020が開催中です!! 本エントリではライブセッション「AAB-03:Architecting and Building - ログデータ用のデータレイク&分析環境をクイックに構築するには?」のレポートをお届けします。 概要 スピーカー アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 下佐粉 昭 アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 野間 愛一郎 セッション概要 ログやデータベースに色々なデータが溜まっている。できればデータを集めて分析したいんだけど、どのようにすれば良いか分からない、という方も多いのではないでしょうか。本セッションでは、架空のお

                                                                                  【レポート】Architecting and Building – ログデータ用のデータレイク&分析環境をクイックに構築するには? #AWSSummit | DevelopersIO
                                                                                • データポータルを使用してAWS Athena,S3のデータを可視化する - RHYTHM TECH BLOG

                                                                                  こんにちは。香田です。 今回はAWS Athena,S3で参照しているデータに対して、データポータルのコミュニティコネクタを利用して可視化する方法を紹介していきます。 はじめに 今回利用するコミュニティコネクタとは、誰でも構築可能なコネクタとして提供されており、Google Apps Scriptを使用して開発さています。 コミュニティコネクタの作成方法等の詳細についてはこちらを参考にしてみてください。 今回コミュニティコネクタとして公開されている下記のGitHubリポジトリを利用して作成していきます。 AWS Athena Connector for Data Studio プロジェクト作成 はじめにGoogle Apps Scriptページへアクセスしプロジェクトを作成します。 [新しいプロジェクト]をクリックします。 プロジェクト名を無題のプロジェクトからAWS Athenaへ変更し

                                                                                    データポータルを使用してAWS Athena,S3のデータを可視化する - RHYTHM TECH BLOG

                                                                                  新着記事