1.git clone https://github.com/grangier/python-goose.git

2.cd python-goose

3.sudo pip install -r requirements.txt
此时会报一个安装nltk的错误,执行下面命令单独安装:

sudo apt-get install python-nltk

4.sudo python setup.py install

至此安装完毕!!!!!!!

---------------------------------------------------------

下面付简单的使用demo:

def goose_extraction(response):
    try:

import traceback

        import chardet
        from goose import Goose
        from goose.text import StopWordsChinese
        charset = chardet.detect(response.content)
        coding = charset.get('encoding').lower()  # 网页编码类别:gbk,gb2312,utf-8等
        if coding and coding.startswith(u'gb'):
            codeHtml = response.content.decode("GB18030").encode('utf-8')
        elif coding.startswith(u'utf'):
            codeHtml = response.content
        else:
            codeHtml = response.content.decode(coding, 'ignore')
        g = Goose({'stopwords_class': StopWordsChinese})  # 中文
        article = g.extract(raw_html=codeHtml)
        content = article.cleaned_text
        html = '<div>' + ''.join(['<p>'+con+'</p>\n' for con in content.split('\n\n')]) + '</div>'
        return content, html
    except Exception as e:
        traceback.print_exc(e)

最新文章

  1. tomcat有哪些性能调优方法
  2. linux下使用SSL代理(SSLedge)
  3. CSS布局——居中
  4. sublime 安装常用插件
  5. Custom Action : dynamic link library
  6. HDU 3265 Posters(线段树)
  7. Ubuntu第一次使用调教教程
  8. AndroidUI--SlidingMenu使用例子
  9. Linux SSH 安装Tomcat
  10. 项目Beta冲刺预热
  11. Linux下Zookeeper安装使用
  12. Laravel 学习笔记
  13. Docker: docker network 容器网络
  14. [Oracle]ORA-14400:插入的分区关键字未映射到任何分区
  15. 接口、抽象类、泛型、hashMap
  16. java获取随机密码
  17. 遇到OutOfMemoryException异常了
  18. Django:学习笔记(3)——REST实现
  19. JS获取元素计算过后的样式
  20. python3创建目录

热门文章

  1. NOIP 模拟 7 回家
  2. javascript html 鼠标放大镜效果
  3. springboot中添加事务注解
  4. Math.round() 函数返回一个数字四舍五入后最接近的整数。
  5. C#的生产者和消费者 实例
  6. 利用sql语句复制一条或多条记录
  7. Python中的变量以及变量的命名
  8. JS 之 每日一题 之 算法 ( 划分字母区间 )
  9. 安装和配置CloudWatchAgent
  10. (九)羽夏看C语言——C++番外篇