• <code id="qkqy2"><abbr id="qkqy2"></abbr></code>
    <dfn id="qkqy2"><dd id="qkqy2"></dd></dfn>
    <rt id="qkqy2"><em id="qkqy2"></em></rt>

    四川中衛(wèi)北斗科技有限公司

    在線咨詢
    微信

    微信掃一掃

    長(zhǎng)按二維碼關(guān)注微信加好友

    2021年的數(shù)據(jù)科學(xué)趨勢(shì)

    發(fā)布時(shí)間:2021-01-04 14:10

              在不穩(wěn)定的2020年之后,對(duì)新的一年有何看法?

              關(guān)于2020年已經(jīng)說(shuō)了太多話了。這么多恥辱,不幸,悲傷……是的,我們都知道!我們?cè)谝黄饐?

              但是,圍繞我們的所有這些恥辱和不幸并沒(méi)有阻止巨大的研究和進(jìn)步。偉大的成就并沒(méi)有道歉,"抱歉,那我要等2021年……"。太好了,世界在不斷發(fā)展。

              數(shù)據(jù)科學(xué)正變得如此成熟,以至于我回顧了以前的回顧性文章(2019、2020),我覺(jué)得我們需要比以往任何時(shí)候都更加開(kāi)始討論復(fù)雜而嚴(yán)肅的話題。我是那個(gè)變老嗎?

              當(dāng)然,像Tensorflow甚至sklearn這樣的核心技術(shù)都在發(fā)展,但是這些是現(xiàn)在的主要問(wèn)題嗎?我相信不是。

              在這篇文章中,我將集中討論兩個(gè)主要主題。在不破壞太多的情況下,它們是:

              事實(shí)與共同點(diǎn)我們都可以做數(shù)據(jù)科學(xué)嗎?

              有興趣嗎我們走吧。

              1. 事實(shí)和共同點(diǎn)

              不能說(shuō)技術(shù)進(jìn)步不好。它們是我們可以用于我們想像的任何工具的工具,無(wú)論好壞。可以找到廣泛的例子,其中技術(shù)始于軍事應(yīng)用,并成功地應(yīng)用于民用技術(shù)(我喜歡這個(gè)清單)。但是,有很多我們首先不希望在軍事應(yīng)用中使用的數(shù)據(jù)科學(xué)工具……

              我為什么要談?wù)撍?讓我呆一會(huì)兒,繼續(xù)前進(jìn)……今年,我們(至少)發(fā)生了兩個(gè)非常特殊的事件-美國(guó)大選和COVID-19。我開(kāi)始注意到側(cè)面(觀點(diǎn)/立場(chǎng)/陳述)變得比以往更加兩極化。我個(gè)人和朋友們進(jìn)行了一些艱難的討論。我開(kāi)始感到我們?nèi)鄙僖恍〇|西–需要一個(gè)共同點(diǎn)?;旧?,我們之間可以達(dá)成共識(shí)的是事實(shí)?看起來(lái)很簡(jiǎn)單,但如今卻如此復(fù)雜。

               人們開(kāi)始依靠自己的新聞?lì)l道(某些情況下,社交媒體供稿),每個(gè)新聞?lì)l道都有自己的觀點(diǎn)和針對(duì)性的建議,而沒(méi)有過(guò)濾掉對(duì)廣告內(nèi)容的正確或錯(cuò)誤的判斷。我們可以進(jìn)行富有成效(健康)的討論的共同基礎(chǔ)開(kāi)始消失。對(duì)其他來(lái)源不信任。

               這與數(shù)據(jù)科學(xué)有何關(guān)系?它涉及最被低估的領(lǐng)域之一,人們通常要么做出粗略的假設(shè),要么獨(dú)自忽略。稱為數(shù)據(jù)來(lái)源(Wiki定義)。

               我希望在2021年,有關(guān)數(shù)據(jù)來(lái)源的討論會(huì)增加。

               數(shù)據(jù)從哪里來(lái)?我們可以相信嗎?它是否包含代表性數(shù)據(jù)?在部署模型之前,我們應(yīng)該對(duì)數(shù)據(jù)有什么了解嗎?我們?cè)趺粗缹?lái)它將繼續(xù)成為可靠的來(lái)源?

              我真誠(chéng)的認(rèn)為,我們還沒(méi)有認(rèn)真對(duì)待數(shù)據(jù)來(lái)源評(píng)估。有很多不好的例子,使用未經(jīng)檢查的數(shù)據(jù)會(huì)導(dǎo)致更多的錯(cuò)誤信息或歧視。

              現(xiàn)在,回到技術(shù)進(jìn)步,并與數(shù)據(jù)來(lái)源聯(lián)系起來(lái),今年,我們看到了通用對(duì)抗網(wǎng)絡(luò)(GAN)的一些令人印象深刻的應(yīng)用。例如,伊麗莎白女王的Deepfake通過(guò)第4頻道到達(dá)大眾(youtube視頻)。大家的反應(yīng)不一,但我可以看到,該視頻的目的是將信任討論擺到桌面上。我們可以相信自己的眼睛嗎?從現(xiàn)在起,我們可能需要變得更加懷疑。

               對(duì)Deepfake的無(wú)節(jié)制使用會(huì)破壞公眾對(duì)報(bào)紙和電視的信任。數(shù)據(jù)來(lái)源必須明確,我們需要找到一種方法來(lái)確定什么可以被信任。

               2. 我們都可以做數(shù)據(jù)科學(xué)嗎?

              2020年為我們帶來(lái)了數(shù)據(jù)科學(xué)應(yīng)用程序的許多發(fā)展,它使用了最近幾年(某種)可用的技術(shù),但現(xiàn)在使用了更多的計(jì)算能力。兩個(gè)例子:

              OpenAI的生成式預(yù)訓(xùn)練變壓器3(GPT-3)。它使用預(yù)先訓(xùn)練的算法生成文本。具體來(lái)說(shuō),他們已經(jīng)獲取了通過(guò)爬網(wǎng)收集的文本信息以及OpenAI選擇的其他文本,包括Wikipedia的文本。您可以在此處檢查一些出色的應(yīng)用程序(例如,圖靈測(cè)試)。Deepmind的AlphaFold。該團(tuán)隊(duì)解決了蛋白質(zhì)折疊的巨大挑戰(zhàn),這一挑戰(zhàn)使科學(xué)界困惑了50年。

               幾年前,我們可以看到數(shù)據(jù)科學(xué)的發(fā)展來(lái)自單身人士或小型創(chuàng)業(yè)公司。如今,由于我們處于一個(gè)階段,我們需要大量的計(jì)算資源來(lái)訓(xùn)練某些模型,因此這變得更加困難。例如,Deepmind提到Alphafold,

               …使用大約16個(gè)TPUv3(即128個(gè)TPUv3內(nèi)核或大約相當(dāng)于100-200個(gè)GPU)運(yùn)行了幾周…

               關(guān)于OpenAI的GPT-3,

                使用Tesla V100云實(shí)例訓(xùn)練GPT-3的成本將超過(guò)460萬(wàn)美元。

               這是否意味著Data Science / AI的民主程度降低了?群眾仍然可以使用嗎?

               一種解決方案是對(duì)需要較少數(shù)據(jù)才能取得良好結(jié)果的模型的開(kāi)發(fā)進(jìn)行更深入的研究。我們一直專(zhuān)注于模型的準(zhǔn)確性/ ROC / RMSE / etc。在最近幾年中,并沒(méi)有太多地影響它們的效率。資源不是無(wú)限的,特別是對(duì)于業(yè)余數(shù)據(jù)科學(xué)家來(lái)說(shuō),他們也希望在不依賴大型基礎(chǔ)架構(gòu)的情況下對(duì)應(yīng)用程序有所了解(=高成本,=第三方)。

                另一個(gè)解決方案可以是所有人都可以使用的開(kāi)源預(yù)訓(xùn)練模型。但是,如果所有者不完全清楚如何創(chuàng)建模型以及使用哪些數(shù)據(jù),則可能屬于上述問(wèn)題(數(shù)據(jù)來(lái)源)。盡管如此,只要公眾具有適當(dāng)?shù)耐该鞫群烷_(kāi)放性,他們可以參與創(chuàng)建這些經(jīng)過(guò)預(yù)先訓(xùn)練的模型,我們也許可以達(dá)成共識(shí)。

    掃一掃在手機(jī)上閱讀本文章

    版權(quán)所有? 四川中衛(wèi)北斗科技有限公司    蜀ICP備14007264號(hào)-3    技術(shù)支持: 竹子建站
    国产精品无码2021在线观看,欧美一级特黄特黄大片连接,亚洲欧洲无码一区2区无码,国产精品无套内谢 国产AⅤ视频一区二区三区 欧美亚洲国产卡通
  • <code id="qkqy2"><abbr id="qkqy2"></abbr></code>
    <dfn id="qkqy2"><dd id="qkqy2"></dd></dfn>
    <rt id="qkqy2"><em id="qkqy2"></em></rt>