今天终于算是基本搞定了mitbbs包子自动抓取器,可以算是beta版上线了

这货实际上就是两个php脚本,现在默默运行在服务器的后台,基本工作步骤如下:

  1. 利用bobo提供的脚本获取并解析mitbbs的主页以及特定板块的RSS内容

  2. 对解析得到的主题进行筛选,只留下之前未处理过的新主题,连同链接和时间戳一起存入数据库

  1. 与此同时对新主题进行检查,根据特定特定规则(主要是看是否包含“包子”子串)选出需要的主题发送邮件通知

  2. 对保存超过三天的行进行删除处理

主要的收获有二:

  1. 字符集问题,包括数据库字符集问题和php字符集问题

  2. 电子邮件问题,包括php发电子邮件问题以及centOS发电子邮件问题


update:

收不到邮件,经检查发现其他功能都正常,问题出在最后一步发邮件上。 最后发现是php.ini里面sendmail_path前面的注释没有去掉。。