|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
標(biāo)題 |
BBS輿情系統(tǒng)爬蟲模塊的研究(19 卷) |
英文標(biāo)題 |
Research on crawler module of BBS Public Opinion System |
摘要 |
針對重要的輿論平臺BBS論壇,提出利用網(wǎng)絡(luò)爬蟲構(gòu)建適合抓取論壇數(shù)據(jù)的爬蟲模塊。通過分析BBS論壇以及比較不同類別爬蟲的特點(diǎn),介紹BBS爬蟲模塊的工作流程以及需要選擇的策略,討論URL的處理與重定向問題的解決方法,并提出對不同論壇模塊定制不同任務(wù)的抓取策略。 |
作者 |
新聞作者:張 旭,張振江,劉 云 |
關(guān)鍵字 |