個(gè)人VIP

登錄丨注冊(cè)

我的試題籃

首頁(yè) 章節(jié)組卷智能組卷找試卷同步測(cè)試中考題庫(kù)

專題資訊教案作文

會(huì)員特權(quán)

· 全站終身VIP

199元

一次性購(gòu)買，終身無(wú)限制使用

立刻搶購(gòu)

限時(shí)立減100元

· 全站年VIP

179元/年

全站14007325+權(quán)威精品試題
1年無(wú)限制使用

立刻搶購(gòu)

全站VIP包含以下所有學(xué)科分類會(huì)員：

高中

語(yǔ)文

數(shù)學(xué)

英語(yǔ)

物理

化學(xué)

生物

地理

政治

歷史

初中

語(yǔ)文

數(shù)學(xué)

英語(yǔ)

物理

化學(xué)

生物

地理

政治

歷史

小學(xué)

語(yǔ)文

數(shù)學(xué)

英語(yǔ)

道德與法治

科學(xué)

查看更多特權(quán)

當(dāng)前位置：

網(wǎng)站首頁(yè)

題庫(kù)

大數(shù)據(jù)的利用過(guò)程是

題目

大數(shù)據(jù)的利用過(guò)程是（）。

A:采集—統(tǒng)計(jì)—清洗—挖掘

B:采集—清洗—統(tǒng)計(jì)—挖掘

C:采集—挖掘—清洗—統(tǒng)計(jì)

D:采集—清洗—挖掘—統(tǒng)計(jì)

可圈可點(diǎn)用戶

2022-01-13 09:58

優(yōu)質(zhì)解答

答案

解析

大數(shù)據(jù)處理：采集、導(dǎo)入/預(yù)處理、統(tǒng)計(jì)/分析、挖掘

擴(kuò)展知識(shí)

1、大數(shù)據(jù)時(shí)代處理數(shù)據(jù)理念的三大轉(zhuǎn)變：要全體不要抽樣，要效率不要絕對(duì)精確，要相關(guān)不要因果。

2、具體的大數(shù)據(jù)處理方法確實(shí)有很多，但是根據(jù)筆者長(zhǎng)時(shí)間的實(shí)踐，總結(jié)了一個(gè)普遍適用的大數(shù)據(jù)處理流程，并且這個(gè)流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個(gè)處理流程可以概括為四步，分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析，最后是數(shù)據(jù)挖掘。

3、在大數(shù)據(jù)的采集過(guò)程中，其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高，因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作，比如火車票售票網(wǎng)站和淘寶，它們并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn)，所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。

4、導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大，每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆，甚至千兆級(jí)別。

5、統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大，其對(duì)系統(tǒng)資源，特別是I/O會(huì)有極大的占用。

6、與前面統(tǒng)計(jì)和分析過(guò)程不同的是，數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題，主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算，從而起到預(yù)測(cè)（Predict）的效果，從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜，并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大，常用數(shù)據(jù)挖掘算法都以單線程為主。

查看答案

可圈可點(diǎn)用戶

2022-01-13 14:58

相關(guān)題庫(kù)