1. 文章来源与技术热点
从36氪科技频道、36氪AI频道和虎嗅网前沿科技频道获取最新的科技动态和AI资讯。这些平台提供了丰富的行业分析和技术趋势报道,适合快速了解当前的科技热点。
2. 国内pip镜像地址
为了加速Python包的下载速度,可以使用国内镜像源。常用的镜像地址如下:
- 阿里云:
https://mirrors.aliyun.com/pypi/simple - 清华大学:
https://pypi.tuna.tsinghua.edu.cn/simple - 中国科学技术大学:
https://pypi.mirrors.ustc.edu.cn/simple - 豆瓣:
https://pypi.douban.com/simple
例如,使用清华大学镜像安装requests库:
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
import requests
from bs4 import BeautifulSoup
def get_news_titles_and_links(url, max_entries=10):
try:
# 发送HTTP GET请求
response = requests.get(url)
response.raise_for_status() # 检查请求是否成功
# 解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
# 找到包含新闻列表的HTML元素
news_list = soup.find_all('p', class_='title-wrapper ellipsis-2')
# 存储新闻标题和链接的列表
news_data = []
# 遍历新闻列表,提取标题和链接,最多爬取max_entries条数据
for i, news in enumerate(news_list):
if i >= max_entries:
break
title_tag = news.find('a', class_='article-item-title weight-bold')
if title_tag:
title = title_tag.get_text(strip=True)
link = title_tag['href']
# 处理相对链接
if link.startswith('/'):
link = 'https://www.m' + link
news_data.append({'title': title, 'link': link})
return news_data
except requests.exceptions.RequestException as e:
print(f"请求错误: {e}")
return []
if __name__ == "__main__":
url = 'https://www.test.on/'
news_data = get_news_titles_and_links(url, max_entries=10)
# 整体输出新闻标题和链接
for news in news_data:
print(f"标题: {news['title']}\n链接: {news['link']}\n")
3. 文章处理流程
以下是文章处理的工作流:
- 根据关键字查询结果:搜索相关文章并进行拓展重写,评分后同步到站点数据库。
- 爬取最新文章:从指定网站(如techweb)抓取最新文章,进行内容重写和标签化,评分后同步到博客系统。
- 提出需求编写代码:根据特定需求编写代码,测试无误后形成博客文章。如果输入指令为“保存到博客”,则自动执行
saveto_blog_web工作流,传入最后一次对话输出的内容。
具体步骤如下:
- 爬取文章列表
- 读取链接内容
- 内容重写
- 标签化
- 文章评分
- 同步博客
- 聚合参数
- 结果集格式化输出
4. 提高写入成功率
确保在写入博客时有完善的重试逻辑,以降低接口出错导致的文章写入失败率。最终目标是将文章同步推送到微信公众号中,汇总好之后整体推送。
5. 数据验证
调用API检查是否能正常读取并入库,查看文章API接口调用情况,确保数据准确性和完整性。
6. 注意事项
仅用于学习目的,不可商业化或自动化采集。未经调整的模型生成的代码质量不高,不适合直接用于学习辅助。