【站长搜索网成都】8月18日报道(文/周丽梅)海藻,一种生长在海中的藻类,通过自身体内的色素体以及光合作用来合成有机物,海洋世界之所以如此热闹,海藻功不可没。运用到日常生活中,海藻的吸附、净化功能给生活带来了不少的便利
【站长搜索网成都】8月18日报道(文/周丽梅)
海藻,一种生长在海中的藻类,通过自身体内的色素体以及光合作用来合成有机物,海洋世界之所以如此热闹,海藻功不可没。运用到日常生活中,海藻的吸附、净化功能给生活带来了不少的便利。而运用到互联网中,“海藻”想做一个净化互联网环境的监测工具。
一瞬间蹦跶出来的碎碎念
浏览网页时,突然蹦出的弹窗不禁让人心生厌烦,然而这只是互联网不良环境的冰山一角,暴力、色情、淫秽信息充斥着互联网,尽管国家一直在努力“打黄扫非”,网络传播淫秽色情信息的现象仍然屡见不鲜。一方面是广受人们诟病的淫秽信息,另一方面则是不断被挖掘的需求。
海藻的创始人梁栋告诉站长搜索网,男性之间会互相分享收藏的黄色网站,朋友经常会问他有没有此类网站,梁栋时常帮朋友用磁力链接搜索下载,也就是一次次的过程中就在心里嘀咕,互联网色情信息泛滥,为何不做个鉴色的API,“海藻”便是一瞬间蹦跶出来的碎碎念。
简单来说,海藻是一款鉴色工具,色情视频、敏感词汇等都在其检测范围,产品已于8月初上线。对海藻而言,目前要检测好淫秽不良信息,关键还是要打好文字鉴色与磁力链接过滤这两个“组合拳”。
文字鉴色:
用户直接将待检测文字(字数无限制)Post给海藻,系统便可自动检测并返回数据。海藻通过采用CRF方法,在常用语义分词上自建了分词模型并训练完善。梁栋说:“基于字符串的分词模型是分不出波多野结衣、小泽玛利亚等词性的,而标准的基于深度学习的分词模型对这些特性词模型也需要很久的时间才能分出,海藻通过自建的分词模型,确保其分词准确率。”
像绿坝这样的净网系统,检测到关键字或敏感词汇则杀,误杀率较高,那海藻又如何降低其检测的误杀率呢?梁栋说:“海藻将用户Post的文章进行TF-IDF,TF-IDF算法能提取出一篇文章中最重要的几个关键词,通过TF、IDF两个维度乘积排序计算文章最重要的关键词,海藻计算词频对词频进行了标准化,采用相对词频来确保文章长短对其算法不影响。”
简而言之,现阶段海藻正在努力构建一个更为专业的“色情分词模型”和TF-IDF关键词配合不良信息库,降低检测的误杀率。
磁力链接过滤:
现阶段,海藻的磁力链接检测在技术上分为两方面:一方面,从数据库中直接取得已经标注为色情信息的磁力链接。另一方面,海藻通过后台解析出磁力链接的文件内容,同时辅助以海藻本身的文字鉴色接口对磁力链接文件内容标题进行辅助鉴色。
梁栋说;“海藻磁链鉴色前期大规模采集了百度等公司标注的不良磁链,海藻本身也有提交接口,现在已经转化为自发监测。不管磁链里面是什么内容,海藻都会自动检测,现检测结果多以色情视频和图片为主,以视频量最大。”
另外,海藻还建了一个基于DHT协议的BT资源搜索引擎,可实现24小时不间断的索引资源,目前有微信版和网页版的查询入口,同时还可以采集现有的网路上存在的BT引擎的信息。
具体是怎样操作的呢?梁栋说:“海藻采用API调用的方式,如搜索波多野结衣时,搜索信息结果会充斥一些色情视频,随便点一个就会出现磁力链接与迅雷链接。因为磁链是去中心化的服务器,所以并不能有效的抑制住磁链里面的色情信息传播,使用迅雷等P2P下载工具便可以很方便的下载大规模高清的色情视频。而海藻的磁力链接检测,通过鉴别这个磁力链接检测到磁链是含有不良信息的,系统会自动判定这个磁链是是否为色情链接。”
海藻除了目前已上线的“组合拳”外,之后会在后期上线图片、视频、批量过滤等功能。梁栋说:“海藻以后会尝试和企业进行合作实现盈利,如内容搜索引擎、下载引擎以及一些加速产品等,海藻使用的场景还是很广泛的。”
就如海藻首页上的那句话一般“还互联网一片净土”,虽然听起来很空、大,但梁栋不也一直在为此努力吗。
据站长搜索网了解,海藻目前尚未获得投资,正在积极洽谈中。
产品:海藻网址:www.haizao.me
站长搜索网:关注创业公司,原创科技博客!【我们帮助任何有梦想的创业团队!创业团队寻求报道请点这里。承诺:完全免费,谨防假冒。】
想了解更多创业创新知识,快添加站长搜索网微信公众账号:ilieyun
标签: 打好 组合拳 一个 净化 互联网 环境 鉴色 工具 海藻
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!