靚麗時尚館

位置:首頁 > 健康生活 > 心理

分光計實驗資料怎麼計算

心理2.04W
分光計實驗資料怎麼計算

0°0ƌ''÷59°57ཎ'' =6÷(59×60²+57×60+18) =0.0000278=萬分之0.278

在資料分析的道路上越走越遠

陰差陽錯的做了資料分析,而且一開始我還不知道自己在做的是資料分析,看了很多資料分析的書,也走了一些彎路,做了很多實踐專案,突然很想把自己作為一個小白的資料分析之路的成長過程寫下來。

這個系列寫一寫從QC裡面學到的資料分析方法。

上一節,我們針對QC中的現狀調查來簡要說了資料分析的方法論,既然要進行現狀調查,意思就是對現有的情況做分析,那必然得從現有的資料中找問題,當我們有了一大堆資料,又用了方法論進行了背景分析後,就要開始真正對資料著手了——資料處理,也就是把拿到的原始資料經過一系列加工後變成我們想要的資料。

01

資料處理

首先我們要明確,處理資料可能會佔到你資料分析的80%的時間,這意味著你將花大把的時間在理解資料和處理資料上,工欲善其事必先利其器,所以我們要學會一些可以做資料處理的工具,當然這並不是說“術”就一定高於法,要知道,“術”經過密集的培訓,人人都可以在短時間內學會,但“法”是要依靠大量的經驗積累而成,資料分析行業裡總有這麼一個說法:三分技術,七分業務,可想而知,對業務規則的理解和對資料分析方法的琢磨是多麼的重要。另外,excel是一個非常適合小白入門的資料分析工具,且Excel已經不能用強大來形容,所以入門資料分析就先好好學一下Excel,是很有必要的。

02

重複資料的處理

對於重複資料的處理當然是刪除,但如何找到重複的資料,當然也不是靠數。在excel裡變得簡單許多,如可以用到countif公式、可以用篩選功能、可以用條件格式,最簡單的就是用資料透視表計算某個欄位的頻次就可以指定是否重複了。

03

缺失值的處理

對於缺失值的處理,我們可以直接想到的就是刪除以及用其他值替換,沒錯,就是這樣出來,但是首先我們得要弄清楚,為什麼會有缺失,這對我們的行為操作是很深遠影響的,舉例來說,使用者年齡這個欄位的缺失,是因為使用者沒有填而缺失,而有的欄位如一些需要公式計算的欄位,是因為分母為0了導致的錯誤運算,還有一些則可能是非人為原因導致的缺失,如資料儲存失敗、機器故障等。只有在明確了資料是為什麼缺失的時候,才可以做到“因材施教”,採取不同的對策。

直接刪除。直接刪除帶有缺失值資料的相關所有欄位,那麼剩下來的資料就還是完全的,不影響後續的操作,當然缺點是如果缺失資料太大還這樣直接刪除的話,資料量就會變少,同時也就失去了分析的意義。

對缺失值替換。眾數、中位數、平均數、最大值、最小值等都可以用來替換平均值,做法簡單,但是當然這是人為替換的,不能代表資料本身的含義。

04

資料抽取

a)       欄位合併

說實話,在資料分析裡合併欄位很少見,通常我們是要把欄位拆解成不可再細分的最小欄位,因為欄位合併非常的好做,但是欄位拆解就相對來說困難的多了。

b)      欄位分列

欄位分列不是很好分,但也不是完全沒有方法可尋,excel裡有一個數據分列的功能,基本可以實現80%的需求,那還有20%就慢慢結合函式來做吧。

c)       欄位匹配

Vlookup是excel一哥的地位有別的函式不服嗎。有了vlookup已經可以解決我們多少工作中的難題,節省多少時間,提高多少效率,所以什麼text、left、right函式都是鬧著玩的,vlookup一定要用的爐火純青。

05

資料轉換

a)       行列轉換。即轉置。

b)      資料標準化。我們可能要對幾個不同單位的欄位統一綜合分析,可能我們會給他們設定權重最後判斷數值的平均得分,那麼就需要用到資料標準化。常用的有(0,1)標準化,和z標準化,(0,1)標準化很好理解,就是把值重新鎖定在(0,1)之間,當然我們還可以通過對公式的簡單變化讓值在(-1,0)、(-1,1)之間都是可以的。Z-標準化則更符合常態分佈的邏輯。

c)       資料計算。通過對原始資料進行簡單的計算,產生更有意義更明確的衍生變數。包括各種Excel的函式,求和、平均啥的這裡就不一一列舉了,用的比較多的vlookup、count、countif以及函式巢狀可以重點掌握以下,excel裡函式巢狀用的驚為天人的話,相信你只用excel就可以做資料探勘了(手動滑稽一下)。

d)      變數分佈轉換。原始資料分佈偏差太大的,我們會對變數進行取對數、開平方、取指數等操作改善變數的分佈。

06

異常值的判斷和處理

異常值畫個圖可以很明顯的看出來,通常是出現次數少且偏離資料集太大的值,異常值對於平均值的影響是非常大的,如果保留異常值,可能整體的資料都沒法進行分析,但如果直接刪掉異常值,又可能錯失了一個判別動態的好機會。因此對於異常值可能需要我們辯證地看待。我剛入門資料分析的時候,做了一個案例,我把所有的值都打點在地圖上,按某個欄位計數,和柱狀圖一樣,值越大,柱狀圖越高,我發現只有一個地方的柱狀圖異常的高,而其他點因為這個異常值的影響,已經看不出來有什麼區別了,但是隻要我把這個異常值給刪掉,整個圖就又變得一片光明瞭,趨勢差異呈現的非常明顯,當時我還不懂這個叫做異常值,我的老大給我講解了一通以後,我變得豁然開朗,且當時按個異常值後來被發現是受裝置影響導致的。

先到這裡,後續再補充更新吧。

因為最近恰好在瞭解QC相關的東西,然後發現QC的套路居然能對標資料分析的過程,而且很多資料分析的書裡面都有QC的影子,覺得QC實在是一大神奇的操作,於是剛好結合這個契機,來寫一寫自己對於資料分析的理解,算是總結,也算是學習

標籤:分光計 計算