摘要:針對微博平臺大數(shù)據(jù)的采集、挖掘、分析等熱點問題,深入介紹并分析了采集平臺的相關(guān)理論技術(shù),通過對采集平臺功能結(jié)構(gòu)及后臺數(shù)據(jù)庫設(shè)計、頁面爬取和解析、反爬蟲的應(yīng)用技術(shù)設(shè)計、分布式策略設(shè)計等四個方面的技術(shù)研究,設(shè)計并實現(xiàn)了一種基于分布式的微博數(shù)據(jù)采集平臺;給出了主從模式系統(tǒng)架構(gòu);達到了用戶只需根據(jù)需要輸入待爬取微博頁面的ID,并選擇要采集的數(shù)據(jù)類型,即可獲得所需數(shù)據(jù)的目的。經(jīng)測試,系統(tǒng)搭建成本低,爬取性能高,可運用于微博數(shù)據(jù)的輿情分析和數(shù)據(jù)調(diào)研等研究方面的基礎(chǔ)數(shù)據(jù)采集。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社
一對一咨詢服務(wù)、簡單快捷、省時省力
了解更多 >直郵到家、實時跟蹤、更安全更省心
了解更多 >去除中間環(huán)節(jié)享受低價,物流進度實時通知
了解更多 >正版雜志,匹配度高、性價比高、成功率高
了解更多 >