資料科學學習手冊|Python資料處理、探索、視覺化與建模實作
作者簡介
Sam Lau 是加州大學聖地牙哥分校 Halıcıoğlu 資料科學研究所的助理教學教授,擁有十年的教學經驗,並曾在加州大學柏克萊分校與聖地牙哥分校設計並教授旗艦級資料科學課程。 Joey Gonzalez 是加州大學柏克萊分校電機工程與電腦科學系的副教授,亦為柏克萊人工智慧研究團隊與 RISE Lab 的創始成員之一。他同時是 Turi Inc. 與 Aqueduct 的共同創辦人,致力於開發資料科學工具。 Deborah Nolan 為加州大學柏克萊分校統計學名譽教授,並擔任計算、資料科學與社會學院的學生事務副院長。
Description
「這本書正是我當年提出『資料科學家』這個職稱時,所希望能擁有的一本書。如果您希望投身資料科學/工程、人工智慧,或機器學習領域,就該從這裡開始。」 ── DJ Patil 博士,美國首任首席資料科學家 身為一位有志成為資料科學家的讀者,能夠理解各類組織為何仰賴資料來做出關鍵決策──無論是公司在設計網站、還是市政府在改善公共服務,或者是科學家在致力於阻止疾病擴散。而您也希望具備將雜亂資料整理為可行洞見的能力。我們將這整個過程稱為「資料科學生命週期」:也就是從資料的收集、整理、分析,到導出結論的完整流程。 本書是第一本涵蓋程式設計與統計兩大基礎技能、並貫穿整個資料科學生命週期的書籍。本書的對象包括希望成為資料科學家的人、與資料科學家共事的專業人士,以及希望跨越「技術/非技術」界線的資料分析師。只要具備基本的 Python 程式設計知識,便可學習如何透過業界標準工具(如 pandas)來處理資料: .將感興趣的問題精煉為可透過資料探究的研究問題 .執行資料蒐集,其中可能涉及文字處理、網頁爬蟲等技術 .透過資料清理、探索與視覺化,萃取出有價值的洞見 .學會使用建模來描述資料特性 .推廣研究結果,進行超出資料本身的推論