1、sql語句的模塊解析
當(dāng)我們寫一個(gè)查詢語句時(shí),一般包含三個(gè)部分,select部分,from數(shù)據(jù)源部分,where限制條件部分,這三部分的內(nèi)容在sql中有專門的名稱:
當(dāng)我們寫sql時(shí),如上圖所示,在進(jìn)行邏輯解析時(shí)會(huì)把sql分成三個(gè)部分,project,DataSource,F(xiàn)ilter模塊,當(dāng)生成執(zhí)行部分時(shí)又把他們稱為:Result模塊、
DataSource模塊和Opertion模塊。
那么在關(guān)系數(shù)據(jù)庫中,當(dāng)我們寫完一個(gè)查詢語句進(jìn)行執(zhí)行時(shí),發(fā)生的過程如下圖所示:
整個(gè)執(zhí)行流程是:query -> Parse -> Bind -> Optimize -> Execute
1、寫完sql查詢語句,sql的查詢引擎首先把我們的查詢語句進(jìn)行解析,也就是Parse過程,解析的過程是把我們寫的查詢語句進(jìn)行分割,把project,DataSource和Filter三個(gè)部分解析出來從而形成一個(gè)邏輯解析tree,在解析的過程中還會(huì)檢查我們的sql語法是否有錯(cuò)誤,比如缺少指標(biāo)字段、數(shù)據(jù)庫中不包含這張數(shù)據(jù)表等。當(dāng)發(fā)現(xiàn)有錯(cuò)誤時(shí)立即停止解析,并報(bào)錯(cuò)。當(dāng)順利完成解析時(shí),會(huì)進(jìn)入到Bind過程。
2、Bind過程,通過單詞我們可看出,這個(gè)過程是一個(gè)綁定的過程。為什么需要綁定過程?這個(gè)問題需要我們從軟件實(shí)現(xiàn)的角度去思考,如果讓我們來實(shí)現(xiàn)這個(gè)sql查詢引擎,我們應(yīng)該怎么做?他們采用的策略是首先把sql查詢語句分割,分割不同的部分,再進(jìn)行解析從而形成邏輯解析tree,然后需要知道我們需要取數(shù)據(jù)的數(shù)據(jù)表在哪里,需要哪些字段,執(zhí)行什么邏輯,這些都保存在數(shù)據(jù)庫的數(shù)據(jù)字典中,因此bind過程,其實(shí)就是把Parse過程后形成的邏輯解析tree,與數(shù)據(jù)庫的數(shù)據(jù)字典綁定的過程。綁定后會(huì)形成一個(gè)執(zhí)行tree,從而讓程序知道表在哪里,需要什么字段等等
3、完成了Bind過程后,數(shù)據(jù)庫查詢引擎會(huì)提供幾個(gè)查詢執(zhí)行計(jì)劃,并且給出了查詢執(zhí)行計(jì)劃的一些統(tǒng)計(jì)信息,既然提供了幾個(gè)執(zhí)行計(jì)劃,那么有比較就有優(yōu)劣,數(shù)據(jù)庫會(huì)根據(jù)這些執(zhí)行計(jì)劃的統(tǒng)計(jì)信息選擇一個(gè)最優(yōu)的執(zhí)行計(jì)劃,因此這個(gè)過程是Optimize(優(yōu)化)過程。
4、選擇了一個(gè)最優(yōu)的執(zhí)行計(jì)劃,那么就剩下最后一步執(zhí)行Execute,最后執(zhí)行的過程和我們解析的過程是不一樣的,當(dāng)我們知道執(zhí)行的順序,對(duì)我們以后寫sql以及優(yōu)化都是有很大的幫助的.執(zhí)行查詢后,他是先執(zhí)行where部分,然后找到數(shù)據(jù)源之?dāng)?shù)據(jù)表,最后生成select的部分,我們的最終結(jié)果。執(zhí)行的順序是:operation->DataSource->Result
雖然以上部分對(duì)SparkSQL沒有什么聯(lián)系,但是知道這些,對(duì)我們理解SparkSQL還是很有幫助的。
2、SparkSQL框架的架構(gòu)
要想對(duì)這個(gè)框架有一個(gè)清晰的認(rèn)識(shí),首先我們要弄清楚,我們?yōu)槭裁葱枰猻parkSQL呢?個(gè)人建議一般情況下在寫sql能夠直接解決的問題就不要使用sparkSQL,如果想刻意使用sparkSQL,也不一定能夠加快開發(fā)的進(jìn)程。使用sparkSQL是為了解決一般用sql不能解決的復(fù)雜邏輯,使用編程語言的優(yōu)勢(shì)來解決問題。我們使用sparkSQL一般的流程如下圖:
如上圖所示,一般情況下分為兩個(gè)部分:a、把數(shù)據(jù)讀入到sparkSQL中,sparkSQL進(jìn)行數(shù)據(jù)處理或者算法實(shí)現(xiàn),然后再把處理后的數(shù)據(jù)輸出到相應(yīng)的輸出源中。
1、同樣我們也是從如果讓我們開發(fā),我們應(yīng)該怎么做,需要考慮什么問題來思考這個(gè)問題。
a、第一個(gè)問題是,數(shù)據(jù)源有幾個(gè),我們可能從哪些數(shù)據(jù)源讀取數(shù)據(jù)?現(xiàn)在sparkSQL支持很多的數(shù)據(jù)源,比如:hive數(shù)據(jù)倉庫、json文件,.txt,以及orc文件,同時(shí)現(xiàn)在還支持jdbc從關(guān)系數(shù)據(jù)庫中取數(shù)據(jù)。功能很強(qiáng)大。
b、還一個(gè)需要思考的問題是數(shù)據(jù)類型怎么映射?。课覀冎喇?dāng)我們從一個(gè)數(shù)據(jù)庫表中讀入數(shù)據(jù)時(shí),我們定義的表結(jié)構(gòu)的字段的類型和編程語言比如scala中的數(shù)據(jù)類型映射關(guān)系是怎樣的一種映射關(guān)系?在sparkSQL中有一種來解決這個(gè)問題的方法,來實(shí)現(xiàn)數(shù)據(jù)表中的字段類型到編程語言數(shù)據(jù)類型的映射關(guān)系。這個(gè)以后詳細(xì)介紹,先了解有這個(gè)問題就行。
c、數(shù)據(jù)有了,那么在sparkSQL中我們應(yīng)該怎么組織這些數(shù)據(jù),需要什么樣的數(shù)據(jù)結(jié)構(gòu)呢,同時(shí)我們對(duì)這些數(shù)據(jù)都可以進(jìn)行什么樣的操作?sparkSQL采用的是DataFrame數(shù)據(jù)結(jié)構(gòu)來組織讀入到sparkSQL中的數(shù)據(jù),DataFrame數(shù)據(jù)結(jié)構(gòu)其實(shí)和數(shù)據(jù)庫的表結(jié)構(gòu)差不多,數(shù)據(jù)是按照行來進(jìn)行存儲(chǔ),同是還有一個(gè)schema,就相當(dāng)于數(shù)據(jù)庫的表結(jié)構(gòu),記錄著每一行數(shù)據(jù)屬于哪個(gè)字段。
d、當(dāng)數(shù)據(jù)處理完以后,我們需要把數(shù)據(jù)放入到什么地方,并切以什么樣的格式進(jìn)行對(duì)應(yīng),這個(gè)a和b要解決的問題是相同的。
2、sparkSQL對(duì)于以上問題的實(shí)現(xiàn)邏輯也很明確,從上圖已經(jīng)很清楚,主要分為兩個(gè)階段,每個(gè)階段都對(duì)應(yīng)一個(gè)具體的類來實(shí)現(xiàn)。
a、 對(duì)于第一個(gè)階段,sparkSQL中存在兩個(gè)類來解決這些問題:HiveContext,SQLContext,同時(shí)hiveContext繼承了SQLContext的所有方法,同時(shí)又對(duì)其進(jìn)行了擴(kuò)展。因?yàn)槲覀冎溃?hive和mysql的查詢還是有一定的差別的。HiveContext只是用來處理從hive數(shù)據(jù)倉庫中讀入數(shù)據(jù)的操作,SQLContext可以處理sparkSQL能夠支持的剩下的所有的數(shù)據(jù)源。這兩個(gè)類處理的粒度是限制在對(duì)數(shù)據(jù)的讀寫上,同時(shí)對(duì)表級(jí)別的操作上,比如,讀入數(shù)據(jù)、緩存表、釋放緩存表表、注冊(cè)表、刪除注冊(cè)的表、返回表的結(jié)構(gòu)等的操作。
b、sparkSQL處理讀入的數(shù)據(jù),采用的是DataFrame中提供的方法。因?yàn)楫?dāng)我們把數(shù)據(jù)讀入到sparkSQL中,這個(gè)數(shù)據(jù)就是DataFrame類型的。同時(shí)數(shù)據(jù)都是按照Row進(jìn)行存儲(chǔ)的。其中 DataFrame中提供了很多有用的方法。以后會(huì)細(xì)說。
c、在spark1.6版本以后,又增加了一個(gè)類似于DataFrame的數(shù)據(jù)結(jié)構(gòu)Dataset,增加此數(shù)據(jù)結(jié)構(gòu)的目的是DataFrame有軟肋,他只能處理按照Row進(jìn)行存儲(chǔ)的數(shù)據(jù),并且只能使用DataFrame中提供的方法,我們只能使用一部分RDD提供的操作。實(shí)現(xiàn)Dataset的目的就是讓我們能夠像操作RDD一樣來操作sparkSQL中的數(shù)據(jù)。
d、其中還有一些其他的類,但是現(xiàn)在在sparkSQL中最主要的就是上面的三個(gè)類,其他類以后碰到了會(huì)慢慢想清楚。
3、sparkSQL的hiveContext和SQLContext的運(yùn)行原理
hiveContext和SQLContext與我第一部分講到的sql語句的模塊解析實(shí)現(xiàn)的原理其實(shí)是一樣的,采用了同樣的邏輯過程,并且網(wǎng)上有好多講這一塊的,就直接粘貼復(fù)制啦!!
sqlContext總的一個(gè)過程如下圖所示:
1.SQL語句經(jīng)過SqlParse解析成UnresolvedLogicalPlan;
2.使用analyzer結(jié)合數(shù)據(jù)數(shù)據(jù)字典(catalog)進(jìn)行綁定,生成resolvedLogicalPlan;
3.使用optimizer對(duì)resolvedLogicalPlan進(jìn)行優(yōu)化,生成optimizedLogicalPlan;
4.使用SparkPlan將LogicalPlan轉(zhuǎn)換成PhysicalPlan;
5.使用prepareForExecution()將PhysicalPlan轉(zhuǎn)換成可執(zhí)行物理計(jì)劃;
6.使用execute()執(zhí)行可執(zhí)行物理計(jì)劃;
7.生成SchemaRDD。
在整個(gè)運(yùn)行過程中涉及到多個(gè)SparkSQL的組件,如SqlParse、analyzer、optimizer、SparkPlan等等
hiveContext總的一個(gè)過程如下圖所示:
1.SQL語句經(jīng)過HiveQl.parseSql解析成Unresolved LogicalPlan,在這個(gè)解析過程中對(duì)hiveql語句使用getAst()獲取AST樹,然后再進(jìn)行解析;
2.使用analyzer結(jié)合數(shù)據(jù)hive、源數(shù)據(jù)Metastore(新的catalog)進(jìn)行綁定,生成resolved LogicalPlan;
3.使用optimizer對(duì)resolved LogicalPlan進(jìn)行優(yōu)化,生成optimized LogicalPlan,優(yōu)化前使用了ExtractPythonUdfs(catalog.PreInsertionCasts(catalog.CreateTables(analyzed)))進(jìn)行預(yù)處理;
4.使用hivePlanner將LogicalPlan轉(zhuǎn)換成PhysicalPlan;
5.使用prepareForExecution()將PhysicalPlan轉(zhuǎn)換成可執(zhí)行物理計(jì)劃;
6.使用execute()執(zhí)行可執(zhí)行物理計(jì)劃;
7.執(zhí)行后,使用map(_.copy)將結(jié)果導(dǎo)入SchemaRDD。
到此這篇關(guān)于Spark SQL的整體實(shí)現(xiàn)邏輯的文章就介紹到這了,更多相關(guān)Spark SQL實(shí)現(xiàn)邏輯內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- Spark SQL常見4種數(shù)據(jù)源詳解
- Spark學(xué)習(xí)筆記之Spark SQL的具體使用
- pyspark.sql.DataFrame與pandas.DataFrame之間的相互轉(zhuǎn)換實(shí)例
- 淺談DataFrame和SparkSql取值誤區(qū)
- Spark SQL操作JSON字段的小技巧
- Spark SQL數(shù)據(jù)加載和保存實(shí)例講解