2020年4月7日

摘要:本文從業務分析的歸因/相關性分析的方式,引入了維度建模,兩者具有相同分析路徑。然后介紹了維度建模的基礎——事實表和維度表,它們關聯之后的產物即星型模型。 閱讀全文
posted @ 2020-04-07 22:16 camash 閱讀 (165) 評論 (0) 編輯

2020年3月29日

摘要:近幾年隨著「大數據」、「數據驅動」、「數據中臺」等概念在互聯網界的熱炒,懂數據的獲取、處理到算法推薦、模型預測等人才也得到熱捧。觀感上,這些技能領域是隨著大數據時代而來的。而實際上,早在上世紀80年到90年代初數據倉庫和數據決策支持系統概念已經提出,本質上都是將多源頭的數據集中起來,采用統計學的方法 閱讀全文
posted @ 2020-03-29 21:42 camash 閱讀 (174) 評論 (0) 編輯

2020年2月2日

摘要:為了解決我的macbook pro 13在Mojave下的閃屏問題,將系統更新到了Catalina。使用MacVim是發現部分字符的下半部分顯示不全,如g, q的下部分。嘗試在配置文件中調整字體大小和行間距都不能解決問題。 但是,如果通過command + 進行縮放后,顯示就正常了。懷疑是兼容性問題 閱讀全文
posted @ 2020-02-02 22:46 camash 閱讀 (24) 評論 (0) 編輯

2020年1月11日

摘要:結合 "假設檢驗" 的理論知識,本文使用Python對實際數據進行假設檢驗。 導入測試數據 從線上下載測試數據文件,數據鏈接:https://pan.baidu.com/s/1t4SKF6U2yyjT365FaE692A 數據字段說明: gender:性別,1為男性,2為女性 Temperature 閱讀全文
posted @ 2020-01-11 16:41 camash 閱讀 (544) 評論 (0) 編輯

2019年12月15日

摘要:假如要對一份統計數據進行分析,一般其來源來自于社會調研/普查,所以數據不是總體而是一定程度的抽樣。對于抽樣數據的分析,就可以結合上篇 "統計量及其抽樣分布" 的內容,判斷數據符合哪種分布。使用已知分布特性,可以完成對總體的統計分析。 本文使用python函數判斷數據集是否符合特定抽樣分布。 數據來源 閱讀全文
posted @ 2019-12-15 21:33 camash 閱讀 (323) 評論 (0) 編輯

2019年12月1日

摘要:接上篇 "概率分布" ,這篇文章講概率分布在python的實現。 文中的公式使用LaTex語法,即在\begin{equation}至\end{equation}的內容可以在 "https://www.codecogs.com/latex/eqneditor.php?lang=zh cn" 頁面轉換 閱讀全文
posted @ 2019-12-01 21:41 camash 閱讀 (930) 評論 (0) 編輯

2019年11月17日

摘要:目前,做數據分析工作,基本人手Numpy,pandas,scikit learn。而這些計算程序包都是基于python平臺的,所以搞數據的都得先裝個python環境。。。(當然,你用R或Julia請忽略本文) 在macOS上,默認安裝有python 2.7,鑒于python2即將停止更新,如果沒有大 閱讀全文
posted @ 2019-11-17 18:15 camash 閱讀 (341) 評論 (0) 編輯

2019年8月27日

摘要:k means算法在人群聚類場景中,是一個非常實用的工具。(該算法的原理可以參考 "K Means算法的Python實現" ) 常見調用方式 該算法常規的調用方式如下: 異常現象 常規情況下,以上處理后,會根據dataframe上的索引列順序的 (0~8的數值)。 但是,我們在執行代碼過程中,出現了 閱讀全文
posted @ 2019-08-27 22:06 camash 閱讀 (368) 評論 (0) 編輯

2019年8月24日

摘要:背景:將測試環境的中kettle轉換傳輸到生產環境上出現hadoop插件無法獲取的錯誤 原因 : 遷到生產后,因為服務器帶了主機名,所以在插件配置中使用主機名,而非ip地址。 處理方式 : 將里面的主機名改成ip地址即可。若遇到hadoop插件未發現的問題,可以考慮使用此法。 參考鏈接 : "1" 閱讀全文
posted @ 2019-08-24 22:40 camash 閱讀 (219) 評論 (0) 編輯

2019年5月19日

摘要:最近在重新學習統計學的一些基礎知識,整理筆記的時候需要輸入一些數學公式。從學校畢業之后,就沒有在文檔中插入過公式了。按照以前的經驗,我把輸入公式的方式分成兩類。 所見即所得的方式,常見的就是微軟word中的公式編輯器。 所想即所得的方式,按照LaTeX語法描述公式,使用工具將語句解析公式。 第一種方 閱讀全文
posted @ 2019-05-19 12:10 camash 閱讀 (579) 評論 (0) 編輯

導航

統計

最新chease0ldman老人