如何仅从 HTML 页面中提取主要文本内容?
更新
Boilerpipe似乎工作得很好,但我意识到我不仅需要主要内容,因为许多页面没有文章,而只是链接到整个文本的简短描述(这在新闻门户网站中很常见),我不想丢弃这些短文本。
因此,如果API这样做,请以某种不同于单个文本的方式获取不同的文本部分/块(仅在一个文本中全部没有用),请报告。
问题
我从随机站点下载一些页面,现在我想分析页面的文本内容。
问题是网页有很多内容,如菜单,宣传,横幅等。
我想尝试排除所有与页面内容无关的内容。
以此页面为例,我不希望上面的菜单和页脚中的链接。
重要:所有页面都是HTML,并且是来自各种不同站点的页面。我需要有关如何排除这些内容的建议。
目前,我认为从HTML中排除“菜单”和“横幅”类中的内容以及看起来像专有名称(第一个大写字母)的连续单词。
解决方案可以基于文本内容(没有HTML标签)或HTML内容(带有HTML标签)
编辑:我想在我的Java代码中执行此操作,而不是外部应用程序(如果可能的话)。
我尝试了一种方法来解析此问题中描述的HTML内容:https://stackoverflow.com/questions/7035150/how-to-traverse-the-dom-tree-using-jsoup-doing-some-content-filtering