万能文章采集器v2.17.7.0绿色免费版
- 软件大小:994 KB
- 更新日期:2021-12-16
- 软件语言:简体中文
- 软件类别:国产软件
- 软件授权:免费软件
- 软件官网:未知
- 适用平台:Windows10, Windows8, Windows7, WinVista, WinXP
- 软件厂商:
软件介绍 人气软件 相关文章 网友评论 下载地址
软件特点
一、依托于水淼软件独家万能正文识别智能算法,可实现任何网页正文自动提取准确率95%以上。二、只需输入关键词,就能采集到百度新闻和网页、搜狗新闻和网页、360新闻和网页、谷歌新闻和网页、必应新闻和网页、雅虎;可批量关键词全自动采集。
三、可定向采集指定网站栏目列表下的所有文章,智能化匹配,无需编写复杂规则。
四、文章转译功能,可对采集好的文章,将其翻译到英文再翻译回中文,实现翻译伪原创,支持谷歌和有道翻译。
五、史上最简单最智能文章采集器,支持全功能试用,效果如何一试就知!
功能介绍
什么是高精度正文识别算法此算法由水淼自主研发,可以在一个网页里提取出正文部分,通常精度可以达到95%,如果再进一步设置最少字数,采集的文章的精度(正确性)可以达到99%。同时文章标题也实现99%的提取精度。当然,一些网页排版格式比较混乱、不规则时,该精度可能有所下降。
正文提取模式
正文提取算法有3种模式,标准、严格、精确标签。大多数情况,标准和严格模式是相同的提取结果。下面说的是特殊情况:
标准模式:即一般性提取,大多数时候能够精确提取正文,但一些特殊页面会导致提取到一些不需要内容(但本模式能够较好识别类似百度经验的文章页面)
严格模式:顾名思义,比标准模式严格一点,可以很大程度避免不相关内容提取为正文,但对于特殊分段页面如百度经验的页面(不是一般
段落,而是有格式的多个独立div段),一般只能提取到某一段,而标准模式则可以提取全部段。
精确标签:当标准和严格模式不管用时,可以精确指定目标正文的标签头。本模式只适合网络批处理。
所以可以根据实际情况来切换模式。可以使用本地批处理的读网页正文功能来测试指定网页适合哪种模式提取。
采集时的处理选项
采集时可以同时进行转译、过滤、查词等处理。对于已采集好的文章可以使用《本地批处理》处理。
其中的转译功能,就是将中文翻译成英文再翻译回中文,也就产生了伪原创效果。支持原格式转译,也就是不改变文章原有标签结构、排版格式。
采集目标为网址
可以在网址模板里插入 #网址#、#标题#来组合引用
分页采集和相对路径转为绝对路径
打勾“自动采集分页”就能将分页文章采集合并,编辑框设置值为采集分页的最大数量。建议设置一个有限值如10页,避免一些分页过多的采集耗费时间长,合并后的文章体积大。如果需要采集全部分页,可以设置为0。
而文章里的所有相对路径都将自动转为绝对路径,如此可确保图片等正常显示。
多线程
支持多线程高速采集网页。可以根据网速而定,电信2m可以5个线程,电信4m可以10个线程,更多以此类推,但需适当设置,设置太多将可能严重影响采集效率甚至影响系统效率。如果采集时有其他占用流量的软件在运行比如在线视频播放,可以适当降低线程数。
文章标题和文章内容重复的处理
程序可以智能判断并过滤重复文章
当采集到的文章标题(文件名)与本地已经保存的文章标题相同时,水淼将首先判断两篇文章的相似度,当相似度大于 60% 时,水淼判断为相同文章,这时再比较两篇文章的文字多寡,自动使用文字多的文章覆盖写出到相同文件名处。这样的生成情况是不累加到生成数量的。
而当相似度低于 60% 时,水淼判断为不同文章,将自动重命名标题(取3到5个随机字母接在标题尾)保存到文件。
文章快速筛选器
虽然水淼研究了一个准确率极高的正文提取算法,但难免还是有极少数提取错误,这些错误主要是:目标网页的主体是在线视频,或主体内容过于简短而无法形成正文的特征。因此可以通过设置提取最终结果的字数多少来提高准确率(在“正文最少字数”参数,这个字数是程序将正文去标签、去行、去空格之后的纯文字字数)。
而文章快速筛选器就是为了快速查看采集好的文章,方便判断删除提取正文错误的文章。同时也方便基于网络信息采集目的而需要进行的炼选过程。
生成篇数不固定的问题
百度、搜搜默认每页100条结果,谷歌默认每页10条结果。
一些网站访问速度超时(尤其是谷歌收录的不少都是一些被墙的网站),或设置了正文最少字数,或程序忽略已在本地有同名的相似内容文章,或黑名单白名单的过滤等,都会造成实际生成篇数低于一页搜索最大结果数。
总体来说,百度采集的质量最好,生成篇数贴近搜索结果数。
使用说明
1 下载完成后不要在压缩包内运行软件直接使用,先解压;2 软件同时支持32位64位运行环境;
3 如果软件无法正常打开,请右键使用管理员模式运行。
使用方法
选择关键词设置搜索间隔、采集类型、时间语言、排序方式、采集目标等参数
编辑网站的黑名单、白名单
设置转译选项、过滤选项、插词选项
点击“开始采集”按钮
更新日志
新增对部分做了防采集处理的网站进行加强采集功能。下载地址
-
万能文章采集器v2.17.7.0绿色免费版
普通下载地址
资源服务器故障请点击上面网盘下载
其他版本下载
- 查看详情Chrome浏览器2024电脑版 V125.0.6422.113 官方最新版2.06M 简体中文24-05-27
- 查看详情任我行浏览器电脑版 V18.5 官方最新版12.4M 简体中文24-05-16
- 查看详情360极速浏览器32位电脑版 V13.5.2044.0 官方最新版67.1M 简体中文24-05-08
- 查看详情Microsoft Edge 32位 V124.0.2478.51 官方最新版154.5M 简体中文24-04-23
- 查看详情Google Chrome浏览器 V124.0.6367.61 官方正式版109.88M 简体中文24-04-19
- 查看详情OpenWebMonitor(网页内容监控提醒) V4.3.5 最新版51.1M 简体中文24-02-22
- 查看详情全能模拟王无限制破解版 V20.1.4 授权版9.91M 简体中文24-02-22
- 查看详情uc浏览器PC安装包 V6.2.4098.3 最新免费版44.49M 简体中文24-01-05
人气软件
-
360极速浏览器绿色精简优化版 V13.5.1060.0 吾爱破解版73.71M
/简体中文 -
Tampermonkey油猴v4.8官方版1.3 MB
/简体中文 -
企微宝v2.6.4破解版118 MB
/简体中文 -
Big JPG(AI人工智能图片放大的在线工具)v1.0免安装便携版10 MB
/简体中文 -
HTTP Debugger Pro特别破解版v9.0.39.94 MB
/简体中文 -
迷你派采集器(Chrome网页采集器插件)v1.0.35免费版1 KB
/简体中文 -
谷歌访问助手v2.3.0破解版108 KB
/简体中文 -
Stylus(Chrome网页样式管理器插件)v1.5.17免费版1.14 MB
/简体中文 -
万能网页编辑器v1.0.1.1绿色版918 KB
/简体中文 -
水淼万能文章采集器v2.18.3.0破解版5.85 MB
/简体中文
相关文章
-
无相关信息
查看所有评论>>网友评论共0条
精彩评论