|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
標(biāo)題 |
網(wǎng)頁信息自動(dòng)抽取技術(shù)的研究(19 卷) |
英文標(biāo)題 |
Research on automatic extraction technology of Web information |
摘要 |
在網(wǎng)絡(luò)輿情分析中,經(jīng)常要從大量的網(wǎng)頁信息中抽取出有用的數(shù)據(jù)。但一般的網(wǎng)頁信息抽取技術(shù)都是基于對HTML文檔的分析。本文提出網(wǎng)頁信息自動(dòng)抽取的方法,可以濾除網(wǎng)頁噪聲,快速準(zhǔn)確地獲取所需要的網(wǎng)頁信息。該方法首先將HTML轉(zhuǎn)換為結(jié)構(gòu)化的XML文檔,然后結(jié)合DOM4J和XPath語言 |
作者 |
新聞作者:胡少榮,孟嗣儀,劉 云,張彥超,丁 飛 |
關(guān)鍵字 |