富婆做爰一区二区免费看视频,欧美亚洲日韩二区中文字幕的,在线视频国产欧美另类,日韩国产亚洲欧美蜜臀一三五区

<pre id="0fqje"></pre>
  • <cite id="0fqje"></cite>
        您現(xiàn)在所在的位置:首頁 >學(xué)習(xí)資源 > JAVA入門教材 > 大數(shù)據(jù)入門:循序漸進,了解Hive是什么!

        大數(shù)據(jù)入門:循序漸進,了解Hive是什么!

        來源:奇酷教育 發(fā)表于:

        Hive基于類似SQL的語言完成對hdfs數(shù)據(jù)的查詢分析。那么它到底做了什么呢?1 它支持各種命令,比如dfs的命令、腳本的執(zhí)行2 如果你輸入的是

        Hive基于類似SQL的語言完成對hdfs數(shù)據(jù)的查詢分析。

        那么它到底做了什么呢?

        • 1 它支持各種命令,比如dfs的命令、腳本的執(zhí)行

        • 2 如果你輸入的是sql,它會交給一個叫做Driver的東東,去編譯解析。

        • 3 把編譯出來的東西交給hadoop去跑...然后返回查詢結(jié)果。

        說了這么多,其實你就可以把hive理解成搭建在hadoop(hdfs和mapreduce)之上的語言殼子...


        如何搭建?如何使用?

        學(xué)習(xí)如何使用Hive還是個很重要的部分的!這里就不詳細的說了,都舉個小例子,具體的還是去擼官網(wǎng)吧!

        創(chuàng)建

        在Hive里面創(chuàng)建表和在普通的數(shù)據(jù)庫中創(chuàng)建表示類似的,都是先創(chuàng)建(或者使用默認的)數(shù)據(jù)庫,然后創(chuàng)建表。

        create database xxx; -- 創(chuàng)建數(shù)據(jù)庫
        use xxx; --使用數(shù)據(jù)庫
        create table student(id string,name string,age int); --創(chuàng)建表

        導(dǎo)入導(dǎo)出數(shù)據(jù)

        數(shù)據(jù)的導(dǎo)入最常用的就是從hdfs的文件導(dǎo)入或者本地文件導(dǎo)入,也可以從某個查詢結(jié)果直接創(chuàng)建或者導(dǎo)入。

        Hive還支持把查詢結(jié)果導(dǎo)出到文件...

        數(shù)據(jù)的導(dǎo)入

        查詢

        最普通的查詢,就是select from句式了,Hive還是做得比較通用的

        --普通查詢
        select * from xxx;
        --帶條件的查詢
        select * from xxx where age>30;
        --限制返回列
        select name,age from xxx;
        --內(nèi)連接
        select a.*,b.* from tablea a join tableb b on a.id=b.sid;
        --左連接
        select * from a left outer join b on a.id=b.sid;
        --右連接
        select * from a right outer join b on a.id=b.sid;

        函數(shù)

        Hive支持一大堆的函數(shù),比如普通的函數(shù)UDF:

        floor、ceil、rand、cast等等

        還支持聚合類型的函數(shù)UDAF:

        count、avg、min、max、sum

        還支持生成多行的函數(shù)。

        更厲害的是,支持自定義擴展~~ 比如你們公司有個mapreduce的專家,可以封裝很多的函數(shù),然后別的會sql的分析人員,就可以使用這些函數(shù)做數(shù)據(jù)倉庫的分析了。

        存儲

        首先需要說明的是,Hive在存儲的時候是不做任何處理的。不像是數(shù)據(jù)庫,存進去的數(shù)據(jù)要先進行特定的解析,比如解析成一個一個的字段,然后挨個存儲。每個數(shù)據(jù)庫的存儲引擎不同,解析的方式就不太一樣。

        在Hive中的數(shù)據(jù)都是存儲在hdfs中的,如果沒有特殊的聲明,會以文本的形式存儲,即不會再存儲前做任何操作。簡直就相當于是原封不動的拷貝。當你執(zhí)行查詢的時候,會按照預(yù)先指定的解析規(guī)則解析,然后返回。

        舉個例子更好理解點:

        你的文件:
        1,a
        2,b
        3,c
        那么創(chuàng)建表的時候會這樣:
        
        create table xxx(a string,b string) row format delimited fields terminated by ',';
        
        這個fields terminated by ','就聲明了字段按照逗號進行分割。
        那么當hive執(zhí)行查詢的時候,就會遍歷文件,遇到逗號就分隔成一個字段~最后把結(jié)果返回。

        畢竟hdfs還是按照塊來存儲數(shù)據(jù)的....這也是為什么Hive不支持局部的修改和刪除,只能整體的覆蓋、刪除。

        除了前面說的文本格式(TextFile),Hive還支持SequenceFile、RCFile,各有各的優(yōu)勢。sequenceFile相當于把數(shù)據(jù)切分了,然后可以局部的記錄或者塊進行壓縮。RCFile則是列式存儲,這樣可以提高壓縮比;還可以在查詢的時候跳過不必要的列。

        分區(qū)

        在Hive中數(shù)據(jù)庫和表其實都是hdfs中的一個目錄,比如你的a數(shù)據(jù)庫下的表b,存儲的路徑是這樣的:

        /user/hive/warehouse/a.db/b
        后面兩個部分a.db/b是很關(guān)鍵的,即“數(shù)據(jù)庫名.db/表名”

        在Hive還支持分區(qū)的概念。即按照某個特定的字段,對表進行劃分。通常這個字段都是虛擬的,比如時間....

        create table aa(a string,b string) partitioned by(c string);

        這樣就創(chuàng)建了分區(qū)表,如果c字段有"aaa"和"bbb"兩個值,最終的目錄就是醬嬸的!

        /user/hive/warehouse/a.db/b/c=aaa
        /user/hive/warehouse/a.db/b/c=bbb

        注意都是目錄哦!真正的文件在這些目錄下面。

        由于都是目錄,就很好理解,為什么分區(qū)查詢會快了!因為在hive中所有的查詢,基本都相當于是全表的掃描,因此要是能通過分區(qū)字段進行過濾,那么可以跳過很多不必要的文件了。

        在Hive中支持靜態(tài)分區(qū)(即你導(dǎo)數(shù)據(jù)的時候指定分區(qū)字段的值)、動態(tài)分區(qū)(按照字段的值來定分區(qū)的名稱)。需要注意的是,動態(tài)分區(qū)會有很多潛在的風險,比如太多了!所以一定要合理規(guī)劃你的表存儲的設(shè)計。

        索引

        在hive0.7.0+的版本中,也是支持索引的。比如:

        CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD;
        
        CREATE INDEX table03_index ON TABLE table03 (column4) AS 'BITMAP' WITH DEFERRED REBUILD;

        你也可以自定義索引的實現(xiàn)類,只要替換AS ''里面的東西,變成自己的包名類名就行。

        不過一樣的,添加索引雖然會加快索引??墒且惨馕吨黾恿舜鎯Φ呢摀?..所以自己衡量吧!