html正文提取工具goose的安装及简单使用Demo
2024-10-19 12:09:42
1.git clone https://github.com/grangier/python-goose.git
2.cd python-goose
3.sudo pip install -r requirements.txt
此时会报一个安装nltk的错误,执行下面命令单独安装:
sudo apt-get install python-nltk
4.sudo python setup.py install
至此安装完毕!!!!!!!
---------------------------------------------------------
下面付简单的使用demo:
def goose_extraction(response):
try:
import traceback
import chardet
from goose import Goose
from goose.text import StopWordsChinese
charset = chardet.detect(response.content)
coding = charset.get('encoding').lower() # 网页编码类别:gbk,gb2312,utf-8等
if coding and coding.startswith(u'gb'):
codeHtml = response.content.decode("GB18030").encode('utf-8')
elif coding.startswith(u'utf'):
codeHtml = response.content
else:
codeHtml = response.content.decode(coding, 'ignore')
g = Goose({'stopwords_class': StopWordsChinese}) # 中文
article = g.extract(raw_html=codeHtml)
content = article.cleaned_text
html = '<div>' + ''.join(['<p>'+con+'</p>\n' for con in content.split('\n\n')]) + '</div>'
return content, html
except Exception as e:
traceback.print_exc(e)
最新文章
- tomcat有哪些性能调优方法
- linux下使用SSL代理(SSLedge)
- CSS布局——居中
- sublime 安装常用插件
- Custom Action : dynamic link library
- HDU 3265 Posters(线段树)
- Ubuntu第一次使用调教教程
- AndroidUI--SlidingMenu使用例子
- Linux SSH 安装Tomcat
- 项目Beta冲刺预热
- Linux下Zookeeper安装使用
- Laravel 学习笔记
- Docker: docker network 容器网络
- [Oracle]ORA-14400:插入的分区关键字未映射到任何分区
- 接口、抽象类、泛型、hashMap
- java获取随机密码
- 遇到OutOfMemoryException异常了
- Django:学习笔记(3)——REST实现
- JS获取元素计算过后的样式
- python3创建目录