[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

Hadoopとhiveに関するpivo17のブックマーク (3)

  • HiveのSequenceFileとかパーティションとか - wyukawa's diary

    Hiveに関するまとまった情報源として書籍なら徹底入門があります。 とはいえそんなに突っ込んだことは書かれていないので、家のWikiを参照することになると思います。 https://cwiki.apache.org/confluence/display/Hive/Home 最近Confluenceに変わりましたね。 ここではSequenceFileとかパーティションとかその辺について書いてみたいと思います。 が、まずはテキストファイル形式から。なお動作環境はMac上のVirtualBox上のCentOS5.6です。yumでCDH3を疑似分散でいれてます。 下記は家のサンプルにもあるテーブルです。dtとcountryがパーティション用のカラムです。 CREATE TABLE page_view ( viewTime INT, userid BIGINT, page_url STRING,

    HiveのSequenceFileとかパーティションとか - wyukawa's diary
  • Apache Hive による開発 (Frozen) - Ayutaya.com

    ディレクトリ。辞書順。partition はさらにサブディレクトリ。このへん、どこかにドキュメントはありませんか? Hadoop Hive - Hadoop Hive- Data Manipulation Statements EMR は、最初の入力と最後の出力にだけは、外部のストレージ(普通は S3)を利用せざるを得ないため、HDFS のローカリティが生きません。なるべく Hive の中間データを使わないようにしたいので、以下のようにすれば良いのだと思われます。 サンプルとして、下記の 3 つの入力ファイルを用意します。ここでは、カラムの区切りにはタブを使っています。 input/employees/foo.tsv10 NAKA Kiichiro 100 20 LUCAS Geroge 200 30 KANAME Madoka 100input/employees/bar.tsv40 J

  • Hadoopをより便利に使う!HiveでのMapReduceまとめ - Y's note

    目次 Hiveとは Hiveの設定 HiveQL構文(DDL) DataBase/SCHEMAの作成 Database/SCHEMAの削除 Tableの作成 Tableの削除 Table名変更 Partition作成 Partitionの削除 Columnの変更 Columnの追加/置き換え TableのProperty変更 SerDe Propertyの追加 HiveQL構文(SQL) テーブル一覧表示 テーブルの内容を表示 基的なSELECT文 WHERE句(条件指定) DISTINCT(重複削除) ORDER BY / SORT BY句(ソート) GROUP BY句(グループ化) HAVING句(グループ化後の条件) LIMITJOIN(テーブル結合) 抽出カラムを正規表現で指定 UNION(結果の結合) SUBQUERY LOAD(データの読み込み) Hiveを使う 事前準備

    Hadoopをより便利に使う!HiveでのMapReduceまとめ - Y's note
  • 1