关键词提取的解决想法

最近在推一个“器械动态”的模块，初步定了发布的路径（微信公众号AlberF和网页http://qaqc.vip/af02/news.php），输出端初步成型。为了节省时间，输入端的人工采集明显符合事宜，趁着周末，查了一下基于python的采集方案。
采集明显是采用爬虫模式，但爬取的网站充斥着大量不相关的信息，这有必要采取过滤。过滤就涉及到关键词符合度评分或选择问题。查了一下资料，目前关键词提取大致是三种方案，一种是词频发，如TF-IDF；二是相关度，如Google文献；三是还没搞清楚的词向量，如word2vec。
这些专业性的方法目前看来还是比较高深，还是先尝试一下自己的想法：我们关注的往往是某个行业的特性新闻，这样的话，在搜索前，脑海中已经存在大部分的关键词和常见的阅读路径。如想看新冠疫情的新闻，新冠、疫情就是常见的关键词。把常见的阅读路径中链接信息下载或在线，用查找信息中出现关键词的符合程度或次数，过滤掉未出现的关键词的信息，剩下的就是自己想要的。
突然感觉这个跟图书馆的搜搜引擎功能类似。

Alber

Comments | NOTHING