大數據就業實戰培訓 Oracle就業實戰培訓
機器學習的回報可能很有吸引力,現在可能會讓你想要開始。但與此同時,在開始自己的項目之前,您需要考慮機器學習挑戰。
這篇文章并不是要嚇跑你; 相反,它意味著確保你做好準備,并且在開始之前你仔細考慮了你需要考慮的事項。
我們采訪了Oracle信息管理平臺團隊的數據科學家Brian MacDonald,他談到了他所看到的陷阱以及公司可以采取哪些措施來避免它們。
這些機器學習挑戰包括:
解決技能差距問題
了解如何管理您的數據
操作數據
1.解決機器學習技能差距問題
當然,最大的困難是在大數據環境中使用機器學習所帶來的技能差距。有一些人認為大數據會讓生活變得美麗而且很容易上手。
你要找到的最大挑戰是發現合適的人。對于熟練掌握機器學習和小型游泳池的人來說,有很大的需求。但正如我們在關于機器學習成功的文章中所描述的那樣 ,擁有高管支持是關鍵。如果你有行政支持,你也將獲得資金來尋找和招募那些有價值的人。
這是值得思考的問題。如果您處于對成本非常敏感的情況,因為熟練的數據科學家很昂貴,那么您可能沒有足夠大的業務問題來使機器學習值得做。
假設一位技術熟練的數據科學家花費您的公司300,000美元到400,000美元(包括所有福利和獎勵)。如果那個人無法幫助你解決每年至少價值一百萬的問題,那么你可能不需要那個人。對?
另一方面,如果你真的相信這個人(或團隊)可以幫助你解決數以千萬計的問題,那么你還在等什么呢?
很難找到人。但如果它對貴公司來說真的很重要,你就可以找到它們。
這是另一個需要考慮的問題:工具和軟件。雖然有一些工具可以提供幫助,但您很少能夠找到所需的精確,完美的 機器學習工具 ,這些工具隨時可供您使用。你將不得不考慮你將要使用的工具。
Python,R,SQL,TensorFlow?如果您使用這些,他們將如何處理您的數據湖?您將如何處理可能帶來挑戰的設置和配置?在開始之前仔細考慮細節并確保您有足夠的資金。
2.了解如何管理大數據
機器學習是一個混亂的過程。只是擁有一個大數據平臺并不意味著它會更容易。事實上,它可能會變得更加混亂,因為你會有 更多的 數據。該數據使您可以執行更多操作,但這也意味著必須完成更多數據準備。
你必須從整體上思考如何處理這個問題。以下是一些需要考慮的問題:
您的數據來自哪里?
你怎么解決這個問題?
您希望如何處理數據準備?
一旦完成,您將如何構建模型并實現一切操作?
如果您還沒有良好的BI實踐或分析實踐,并且如果您沒有以可以想到的所有方式使用數據,那么跳轉到機器學習確實是一個挑戰。已經有數據驅動的決策絕對是至關重要的。如果您沒有,我們建議您在開始機器學習之前將其安裝到位。
如果你決定開始,這里有一些其他的考慮因素。在開始之前仔細考慮它們:
快速變化
在機器學習領域,創新正在迅速發展,這意味著快速變革。今天有什么好處明天可能不太好,你不能總是依賴軟件,因為它是一個更不穩定的空間。您可能會遇到更多不同版本和沖突的問題。
純粹的數據量
通過機器學習,您將不得不處理數據 - 批次和許多不同類型的數據。了解您是否使用了所有這些,流程,是否采樣等等 - 所有這些都是一個挑戰,尤其是當您深入了解數據并處理數據移動時。
確保您能夠面對這一挑戰,并確保您制定計劃。
3.操作您的大數據
大多數數據科學家面臨的最大問題是什么?它正在運作數據。
假設你已經建立了一個模型,它可以預測導致流失的因素。你如何將這種模式傳達給可能影響這些數字的人?你怎么能把它帶到CRM或移動應用程序?
如果您有預測設備故障的模型,您如何及時將其交給操作員以防止故障?采用模型并使其可操作性存在許多挑戰。這可能是目前數據科學家面臨的最大技術挑戰。
您可以構建世界上最美麗的模型。但是,如果它不能真正影響公司的利潤,那么你的高級管理層真的會關心嗎?您可能認為您討價還價的部分只是為了提供數據。但事實并非如此。您必須確保實際使用您的數據。獲得行政支持對此非常有幫助。
所以機器學習并不容易。但它可以完成大事。為了激勵您并提醒您可能的事情,我們將分享一個真實的客戶示例和他們的機器學習項目。
by:Sherry Tiao