关键词提取的解决想法


最近在推一个“器械动态”的模块,初步定了发布的路径(微信公众号AlberF和网页http://qaqc.vip/af02/news.php),输出端初步成型。为了节省时间,输入端的人工采集明显符合事宜,趁着周末,查了一下基于python的采集方案。
采集明显是采用爬虫模式,但爬取的网站充斥着大量不相关的信息,这有必要采取过滤。过滤就涉及到关键词符合度评分或选择问题。查了一下资料,目前关键词提取大致是三种方案,一种是词频发,如TF-IDF;二是相关度,如Google文献;三是还没搞清楚的词向量,如word2vec。
这些专业性的方法目前看来还是比较高深,还是先尝试一下自己的想法:我们关注的往往是某个行业的特性新闻,这样的话,在搜索前,脑海中已经存在大部分的关键词和常见的阅读路径。如想看新冠疫情的新闻,新冠、疫情就是常见的关键词。把常见的阅读路径中链接信息下载或在线,用查找信息中出现关键词的符合程度或次数,过滤掉未出现的关键词的信息,剩下的就是自己想要的。
突然感觉这个跟图书馆的搜搜引擎功能类似。

声明:Alber.F|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - 关键词提取的解决想法

医疗器械质量和注册管理的信息化的尝试者