爬取今日头条搜索效果,编辑距离算法、奇异值剖析、k-means聚类
作者:华体会体育app下载 发布时间:2023-03-04 02:21
本文摘要:今日头条爬虫,主要爬取关键词搜索效果,包罗编辑距离算法、奇异值剖析、k-means聚类完整下载地址:文章末尾。

华体会体育app登录入口

今日头条爬虫,主要爬取关键词搜索效果,包罗编辑距离算法、奇异值剖析、k-means聚类完整下载地址:文章末尾。ToutiaoCrawler接口示例:keywordk:搜索的关键字 count:本页文章数量 cur_tab:当前页数 Demo:ToutiaoCrawlerToutiaoCrawlerdemo.py 这里可以凭据需求获取文章标题、标签、内容链接Demo效果以及调试示例:--------------------以下为项目代码,部门接口已失效--------------------需要python3.6版本首先安装需要的包,使用pycharm打开会自动安装 建立数据库和数据表ToutiaoCrawler/toutiao.sql;设置mysql毗连ToutiaoCrawler/ToutiaoCrawler/Utils/Util.py运行Crawler/get_toutiao_news_byapi.py 获取新闻列表运行Crawler/get_toutiao_content_byapi.py 获取新闻内容(到这一步数据库已经有内容了) 运行Analysis/levenshtein.py 盘算编辑距离运行svd/svd.py 奇异值剖析运行svd/test_kmeans.py 举行聚类分析和绘图如果需要txt文件,执行Utils/list_to_txt.py 焦点代码示例:# coding:utf-8import requestsimport jsonfrom ToutiaoCrawler.Model.keyword import keywordfrom ToutiaoCrawler.Model.news import News# 关键词搜索from ToutiaoCrawler.Utils.Util import insert_data, select_source_url_returnset# 通过关键词搜索今日头条def keyword_search(keyword): source_url_list = select_source_url_returnset() url = 'http://www.toutiao.com/search_content/?offset=0&format=json&keyword= ' + keyword + '&autoload=true&count=200&cur_tab=1' toutiao_data = requests.get(url).text data = json.loads(toutiao_data) items = data['data'] news_list = [] link_head = 'http://toutiao.com' for n in items: if 'title' in n: news = News() news.title = n['title'] news.tag = n['tag'] news.source = n['source'] news.source_url = link_head + n['source_url'] # 两会关键词 news.keyword = keyword # 今日头条自带关键词 news.keywords = n['keywords'] #如果已经存在source_url则跳过 if news.source_url in source_url_list: print('数据库已有该记载!') continue print('新添加记载:',news.title) news_list.append(news) # print(news.title, news.source_url, news.source, news.keyword, news.keywords) return news_list# 相关词搜索def related_search(keyword): related_url = 'http://www.toutiao.com/search/related/?keyword=' + keyword related_data = requests.get(related_url).text related = json.loads(related_data)['data'] for n in related: print(n) keyword_search(n)for k in keyword.keyword: news_list = keyword_search(k) print(len(news_list)) insert_data(news_list)项目代码下载地址:https://github.com/haibincoder/ToutiaoCrawler.git。


本文关键词:爬取,今日,头条,搜索,效果,编辑,华体会体育app官网下载,距离,算法,、

本文来源:华体会体育app下载-www.xdjggs.com

电话
047-73060005