【招生對象】
零基礎學員
【授課方式】
遠程+面授
【上課時間】
周一到周日9-18點
【學習目標】
不再單一依靠開源公開數據網站的數據,適當擺脫對國家統計年鑒、wind數據庫、知網數據的依賴,能夠從更多元的渠道獲取數據,使用python更高效的處理數據,并用更前沿的技術分析和挖掘數據信息,為我們的科研工作減輕中間工作負擔。
【課程亮點】
本課程致力于講授完整的結構化數據、文本數據的獲取、存儲、讀取、處理和分析過程,我們期望課程可以幫助到廣大的用戶,包括所有想要使用python編程語言實現數據獲取和文本分析的在校師生、以及致力于將數據分析與挖掘的價值廣泛運用到實際場景的商業人士。
【師資力量】
辛立偉
擅長數據架構、數據分析
教學經驗20年
CDA數據分析研究院講師
SUN中國社區會員
趙仁乾
擅長數據架構、數據分析
教學經驗7年
北京郵電大學管理科學與工程碩士
北京電信規劃設計院
吳昊天
擅長數據架構、數據分析
教學經驗8年
電子科技大學大數據中心
CDA數據分析研究院技術負責人兼高級講師
【課程內容】
01章概述 爬蟲與文本分析概述
01-01結構化數據/文本數據的獲取方法概述
01-02高效的編程語言實現結構化數據處理與文本分析的價值
02章編程基礎
02-01python編程基礎(標準數據類型,控制流,自定義函數,類,os文件處理模塊)
02-02python重要數據科學計算庫(Numpy,Pandas,Matplotlib,Pyecherts,wordcloud)
03章數據獲取
03-01爬蟲基礎(網絡爬蟲簡介,爬蟲的基本原理,HTML 簡介,數據存儲)
03-02網頁抓取(使用 Urllib網頁抓取,requests實戰)
03-03BeautifulSoup4(簡介,安裝,BS 對象的種類,遍歷文檔樹,搜索文檔樹)
03-04Xpath(什么是Xpath,Xpath開發工具,Xpath常用規則)
03-05動態渲染頁面抓取(Selenium的安裝,基本使用,聲明瀏覽器對象,訪問頁面,定位元素,節點交互,動作鏈,執行 JavaScript,獲取節點信息,延時等待,前進后退,Cookies,選項卡管理,異常處理)
03-06爬蟲實戰(網站的爬取,基電商評價文本爬取)
04章數據存儲與讀取
04-01可供讀取數據類型介紹(excel、pdf、txt、html、mysql數據庫文件介紹)
04-02數據的存儲(將數據存儲到excel表,txt文本,word文檔)
04-03數據的讀取(python批量讀取多個多子表excel,python讀取txt文件,word文檔)
05章數據處理
05-01正則表達式(什么是正則表達式,正則表達式匹配規則,re模塊的使用)
05-02文本處理常用方法(字符串的不變性,排序行,段落格式化,二進制轉化為ASCII,重復字詞過濾,提取郵件地址,提取URL地址,大寫轉換,符號化,刪除停用詞,同義詞與反義詞處理,文本翻譯,單詞替換,拼寫檢查,WordNet接口,語料訪問,標記單詞,塊和裂口,塊分類,文本分類,雙字母組,文字改寫,文字換行,頻率分布,文字摘要,詞干算法,約束搜索)
05-03結構化數據處理--數據清洗(numpy數值計算要點串講,Pandas數據處理串講,python統計圖表展示)
06章文本分析實戰
06-01重要的庫(jieba庫簡介)
06-02關鍵詞提取(關鍵詞任務概述,TF-IDF算法原理,相似文章推薦原理介紹,實例:紅樓夢文本分析的實現,文件與詞庫的讀取,完成分詞與詞云圖的繪制)
06-03文本分類(新聞素材介紹,新聞內容的關鍵詞提取,詞向量轉化與ngram模型,樸素貝葉斯算法完成新聞分類)
【教學現場】
【機構環境】
【發展歷程】
2006年 開展數據統計、計量實戰,學術研究等相關培訓視頻和現場班
2007年 開展數據統計、數據分析相關培訓班
2011年 隨著大數據熱潮的來臨,依托累計上萬類共享資料,多年沉淀師資團隊,論壇召集多位專家,研發CDA數據分析師體系
2013年CDA數據分析師品牌成立,提供系統化的大數據、數據分析人才培養和認證
2014年 CDA INSTITUTE 成立 ,并推出第 一屆全國CDA數據分析師認證考試
2015年第 一屆中國數據分析師行業峰會(CDAS)在9月11日成功舉辦,參會人數逾3000人
2016年 CDA匯聚海內外大數據、數據分析專家上千人,推出就業班、數據科學家訓練營、企業內訓、CDA俱樂部等多個項目
2017年整合論壇與CDA數據分析師業內資源,形成數據分析領域生態圈,并進一步升級CDA企業內訓體系,正式推出大數據實驗室
2018年北上廣深等多個城市均有校區;擁有200多位專業師資;培養學員超過3萬人,每年6月/12月全國28個城市舉辦CDA認證考試
2019年已舉辦九屆數據分析師認證考試,得到業界廣泛認可,學員遍布各大知名企業。人工智能產品“好學AI”問世,引領DT時代新一波技術培訓浪潮
【機構榮譽】
IBM大學戰略合作伙伴
電子工業出版社 優秀合作者
教育管理信息化專業委員會理事單位
2018年度職業教育人才培訓品牌機構
2018年度大數據影響力先鋒企業
2018入選教育部產學合作協同育人項目
網易云課堂2017年度最 佳服務獎
2017年度中國互聯網+ 最 佳培訓機構獎
中國大數據產業生態聯盟理事單位
【機構簡介】
目前,CDA已與國內100多所高校進行了戰略合作,建立了CDA數據分析師考試中心及人才培養基地;已出版30多本CDA數據分析師系列叢書,市場發行量數萬冊;已進行500多期線上線下數據分析及大數據培訓課程,培養學員10萬+人次;已在全國70+城市舉辦15屆CDA數據分析師認證考試,報考考生數萬人;已開展了四屆中國數據分析師行業峰會(CDA SUMMIT),每屆參會人數3000多人;中國數據分析師俱樂部(CDA CLUB)每周舉辦各類型線上線下沙龍會議、公開課等活動共1000多期。