package main

import (
"fmt"
"strconv"
"net/http"
"regexp"
"strings"
"os"
) //地址的规律
//第一页:https://www.pengfu.com/xiaohua_1.html
//第二页:https://www.pengfu.com/xiaohua_2.html
//第三页:https://www.pengfu.com/xiaohua_3.html //查看每个页面的源码,可以看到标题的“<h1 class="dp-b"><a href="”有10个,它的实际搜索条件为<h1 class="dp-b"><a href="段子的地址"
//进行到段子的地址后,有两个h1,就是标题,但是我在使用的时候发现网页里有两个地方使用了h1的标签,后面过滤一下,只
//可能过滤到两个,只取一个
//内容开头<div class="content-txt pt10"> 结尾<a id="prev" href="https://www.pengfu.com/content_1850587_1.html"></a> func HttpGet(url string) (result string, err error) {
resp, err1 := http.Get(url)
if err1 != nil {
err = err1
return
}
defer resp.Body.Close() //关闭 //读取网络内容
buf := make([]byte, *)
for true {
n, _ := resp.Body.Read(buf)
if n == {
break
}
result += string(buf[:n])//累加读取的内容
}
return
} func SpiderOneJoy(url string) (title, content string, err error) {
//爬取页面内容
result, err1 := HttpGet(url)
if err1 != nil {
fmt.Println("SpiderOneJoy HttpGet err = ", err)
err = err1
return
}
//取关键信息,标题
re1 := regexp.MustCompile(`<h1>(.*?)</h1>`)
if re1 == nil {
err = fmt.Errorf("%s", "SpiderOneJoy regexp.MustCompile err ")
return
}
//取内容
tmpTitle := re1.FindAllStringSubmatch(result, )//因为我只过滤第一个内容
for _, data := range tmpTitle{
title = data[]
title = strings.Replace(title, "\r", "", -)
title = strings.Replace(title, "\n", "", -)
title = strings.Replace(title, " ", "", -)
title = strings.Replace(title, "\t", "", -)
break
}
//取关键信息,内容
re2 := regexp.MustCompile(`<div class="content-txt pt10">(?s:(.*?))<a id="prev" href="`)
if re2 == nil {
err = fmt.Errorf("%s", "SpiderOneJoy regexp.MustCompile err ")
return
}
//取内容
tmpContent := re2.FindAllStringSubmatch(result, -)
for _, data := range tmpContent{
content = data[]
content = strings.Replace(content, "\r", "", -)
content = strings.Replace(content, "\n", "", -)
content = strings.Replace(content, " ", "", -)
content = strings.Replace(content, "\t", "", -)
content = strings.Replace(content, "\t", "", -)
content = strings.Replace(content, "<br>", "", -)
content = strings.Replace(content, "<br/>", "", -) //这种方式不太好,肯定有更好的办法
break
}
return
} func StoreJoyToFile(i int, fileTitile, fileContent []string) {
//新建文件
f, err := os.Create(strconv.Itoa(i) + ".txt")
if err != nil {
fmt.Println("os.Create err = ", err)
return
} defer f.Close() //写内容
n := len(fileTitile)
for i := ; i < n; i++{
//写标题
f.WriteString(fileTitile[i] + "\n")
//写内容
f.WriteString(fileContent[i] + "\n")
f.WriteString("--------------------------------------\n")
}
} func SpiderPage(i int, page chan <- int) {
url := "https://www.pengfu.com/xiaohua_" + strconv.Itoa(i) + ".html"
fmt.Printf("正在爬取%s\n", url) //爬取页面内容
result, err := HttpGet(url)
if err != nil {
fmt.Println("HttpGet err = ", err)
return
}
//fmt.Println("r = ", result)
//取内容<h1 class="dp-b"><a href="”有10个,它的实际搜索条件为<h1 class="dp-b"><a href="段子的地址",这里只需要地址内容
re := regexp.MustCompile(`<h1 class="dp-b"><a href="(.*?)"`)
if re == nil {
fmt.Println("regexp.MustCompile err ")
return
}
//解析表达式、并取关键信息
joyUrls := re.FindAllStringSubmatch(result, -) fileTitle := make([]string, )
fileContent := make([]string, ) //fmt.Println("url = ", joyUrls)
//取网址,遍历后第一个返回下标,这里不要,第二个返回内容
for _, data := range joyUrls{
fmt.Println("data = ", data[])
//爬取每一个段子
title, content, err := SpiderOneJoy(data[])//它应该返回标题和内容,并可能会有报错,共三个返回值
if err != nil {
fmt.Println("SpiderOneJoy err ", err)
continue
}
//fmt.Printf("title = #%v#\n", title)//使用这种方式打印就能看到结果里是否包含一些空格
//fmt.Printf("content = #%v#\n", content)
fileTitle = append(fileTitle, title) //将所有的标题放在一个切片里
fileContent = append(fileContent, content) //将所有的内容放在一个内容里
}
//将内容写入到文件
StoreJoyToFile(i, fileTitle, fileContent)
page <- i //告诉程序是哪一页爬完了
} func DoWork(start, end int) {
fmt.Printf("准备爬取第%d页到第%d页的网址\n", start, end)
page := make(chan int)
for i:=start; i<=end; i++ {
//定义一个函数,爬主页面
go SpiderPage(i, page)
}
for i:=start; i<=end; i++ {
fmt.Printf("第%d个页面爬取完成", <-page)
}
} func main() {
var start, end int
fmt.Printf("请输入起始页>=1:> ")
fmt.Scan(&start)
fmt.Printf("请输入结束页:> ")
fmt.Scan(&end)
DoWork(start, end)
}

最新文章

  1. Hibernate —— 映射关联关系
  2. [转]MySQL去除重复数据
  3. 【软件使用】GitHub使用教程for VS2012
  4. Android WebView使用深入浅出
  5. Fedora下安装ORACLE 11g
  6. Hibernate检索策略(抓取策略)(Hibernate检索优化)
  7. Javascript获取浏览器窗口大小 获取屏幕,浏览器,网页高度宽度
  8. Part 13 Cast and Convert functions in SQL Server
  9. 【Asp.Net MVC--资料汇总】杂七杂八
  10. [摘抄] 为什么 Linq 可以高效率查询 SQL ?
  11. POJ 1905 Expanding Rods 二分答案几何
  12. JDBC连接MySQL数据库
  13. mysql的优化措施,从sql优化做起
  14. 集合问题 离线+并查集 HDU 3938
  15. C#的命名管道(named pipe)
  16. 详实的SQL学习笔记
  17. SQL作业及调度创建
  18. yaf框架加载全局公共函数
  19. JSONObject转换分析
  20. Dubbo2.6.5入门——管控台的安装

热门文章

  1. Java中的&lt;&lt; 和 &gt;&gt; 和 &gt;&gt;&gt; 详细分析
  2. Mac OS Virtualbox 倒入 ova 镜像文件
  3. webpack快速入门(二):使用入门
  4. 使用product_user_profile来实现用户权限的设定
  5. 新版台式机安装win7操作系统
  6. MessageBox 函数
  7. C++实现进制转换
  8. 热门数据挖掘模型应用入门(一): LASSO回归
  9. Sping实战之通过JAVA代码装配Bean
  10. C# 本地文件夹上传至网络服务器中(待续)