[B! Hadoop][hive] pivo17のブックマーク

More Web Proxy on the site http://driver.im/

pivo17 id:pivo17

タグ

Hadoopとhiveに関するpivo17のブックマーク (3)

HiveのSequenceFileとかパーティションとか - wyukawa's diary
Hiveに関するまとまった情報源として書籍なら徹底入門があります。とはいえそんなに突っ込んだことは書かれていないので、本家のWikiを参照することになると思います。 https://cwiki.apache.org/confluence/display/Hive/Home 最近Confluenceに変わりましたね。ここではSequenceFileとかパーティションとかその辺について書いてみたいと思います。が、まずはテキストファイル形式から。なお動作環境はMac上のVirtualBox上のCentOS5.6です。yumでCDH3を疑似分散でいれてます。下記は本家のサンプルにもあるテーブルです。dtとcountryがパーティション用のカラムです。 CREATE TABLE page_view ( viewTime INT, userid BIGINT, page_url STRING,
pivo17 2014/08/29
hive

hadoop

partition
リンク
Apache Hive による開発 (Frozen) - Ayutaya.com
ディレクトリ。辞書順。partition はさらにサブディレクトリ。このへん、どこかにドキュメントはありませんか？ Hadoop Hive - Hadoop Hive- Data Manipulation Statements EMR は、最初の入力と最後の出力にだけは、外部のストレージ（普通は S3）を利用せざるを得ないため、HDFS のローカリティが生きません。なるべく Hive の中間データを使わないようにしたいので、以下のようにすれば良いのだと思われます。サンプルとして、下記の 3 つの入力ファイルを用意します。ここでは、カラムの区切りにはタブを使っています。 input/employees/foo.tsv10 NAKA Kiichiro 100 20 LUCAS Geroge 200 30 KANAME Madoka 100input/employees/bar.tsv40 J
pivo17 2014/08/29
hive

Hadoop

partition
リンク
Hadoopをより便利に使う！HiveでのMapReduceまとめ - Y's note
目次 Hiveとは Hiveの設定 HiveQL構文(DDL) DataBase/SCHEMAの作成 Database/SCHEMAの削除 Tableの作成 Tableの削除 Table名変更 Partition作成 Partitionの削除 Columnの変更 Columnの追加/置き換え TableのProperty変更 SerDe Propertyの追加 HiveQL構文(SQL) テーブル一覧表示テーブルの内容を表示基本的なSELECT文 WHERE句(条件指定) DISTINCT(重複削除) ORDER BY / SORT BY句(ソート) GROUP BY句(グループ化) HAVING句(グループ化後の条件) LIMIT句 JOIN(テーブル結合) 抽出カラムを正規表現で指定 UNION(結果の結合) SUBQUERY LOAD(データの読み込み) Hiveを使う事前準備
pivo17 2013/12/10
Hadoop

hive

sql
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx