^ 正の文、
Published on 2025-04-11 / 4 Visits
0
0

自动化读取文章

1. 文章来源与技术热点

36氪科技频道36氪AI频道虎嗅网前沿科技频道获取最新的科技动态和AI资讯。这些平台提供了丰富的行业分析和技术趋势报道,适合快速了解当前的科技热点。

2. 国内pip镜像地址

为了加速Python包的下载速度,可以使用国内镜像源。常用的镜像地址如下:

  • 阿里云: https://mirrors.aliyun.com/pypi/simple
  • 清华大学: https://pypi.tuna.tsinghua.edu.cn/simple
  • 中国科学技术大学: https://pypi.mirrors.ustc.edu.cn/simple
  • 豆瓣: https://pypi.douban.com/simple

例如,使用清华大学镜像安装requests库:

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
import requests
from bs4 import BeautifulSoup

def get_news_titles_and_links(url, max_entries=10):
    try:
        # 发送HTTP GET请求
        response = requests.get(url)
        response.raise_for_status()  # 检查请求是否成功

        # 解析HTML内容
        soup = BeautifulSoup(response.content, 'html.parser')

        # 找到包含新闻列表的HTML元素
        news_list = soup.find_all('p', class_='title-wrapper ellipsis-2')

        # 存储新闻标题和链接的列表
        news_data = []

        # 遍历新闻列表,提取标题和链接,最多爬取max_entries条数据
        for i, news in enumerate(news_list):
            if i >= max_entries:
                break
            title_tag = news.find('a', class_='article-item-title weight-bold')
            if title_tag:
                title = title_tag.get_text(strip=True)
                link = title_tag['href']
                # 处理相对链接
                if link.startswith('/'):
                    link = 'https://www.m' + link
                news_data.append({'title': title, 'link': link})

        return news_data

    except requests.exceptions.RequestException as e:
        print(f"请求错误: {e}")
        return []

if __name__ == "__main__":
    url = 'https://www.test.on/'
    news_data = get_news_titles_and_links(url, max_entries=10)

    # 整体输出新闻标题和链接
    for news in news_data:
        print(f"标题: {news['title']}\n链接: {news['link']}\n")

3. 文章处理流程

以下是文章处理的工作流:

  1. 根据关键字查询结果:搜索相关文章并进行拓展重写,评分后同步到站点数据库。
  2. 爬取最新文章:从指定网站(如techweb)抓取最新文章,进行内容重写和标签化,评分后同步到博客系统。
  3. 提出需求编写代码:根据特定需求编写代码,测试无误后形成博客文章。如果输入指令为“保存到博客”,则自动执行saveto_blog_web工作流,传入最后一次对话输出的内容。

具体步骤如下:

  • 爬取文章列表
  • 读取链接内容
  • 内容重写
  • 标签化
  • 文章评分
  • 同步博客
  • 聚合参数
  • 结果集格式化输出

4. 提高写入成功率

确保在写入博客时有完善的重试逻辑,以降低接口出错导致的文章写入失败率。最终目标是将文章同步推送到微信公众号中,汇总好之后整体推送。

5. 数据验证

调用API检查是否能正常读取并入库,查看文章API接口调用情况,确保数据准确性和完整性。

6. 注意事项

仅用于学习目的,不可商业化或自动化采集。未经调整的模型生成的代码质量不高,不适合直接用于学习辅助。



Comment