.Net文本抽取类库 Thrinax(一)基于网页区块的正文抽取

好久不见,这次给大家带来一个全新的基于 .Net 的中文网页信息抽取的类库,Thrinax。该库的目标是通过一种简单的,低人工参与的方式来实现稳定的获取网页中的有效信息;这将会是一个系列文章,在书写文章的同时,类库也会不断完善,今天带来第一篇,基于网页区块的详情页信息抽取。

保护好你的Elasticsearch全文检索库

Elasticsearch是一款基于Lucence的全文检索数据库,在文本分析、搜索等领域被广泛使用,但是默认的配置通过限制仅允许局域网访问来保证数据的安全性,如果你需要对公网提供服务,便需要额外安装插件来实现访问控制了。裸奔不仅可能带来被脱库,甚至数据会被删除而且不可恢复。本文将介绍如何选择和配置插件来保障Elasticsearch的安全。

.NET Core 现已支持DRPC,同时带来Apache Thrift

上篇文章为大家带来了新版本的 Storm 适配器,今天来弥补一下上次匆忙发布带来的遗憾。是的,DRPC for .net Core 来了,当然,为了实现这个功能,一个精简版本的 Apache Thrift for .net core 也产生了;这个类库根据 Roadmap for adding new language bindings 完成,为了不带来误解,该项目暂时不开源,仅在 Nugut 中供 storm-net-adapter 使用,如果你也暂时需要它,可以通过 Nuget 搜索 Tnidea.Thrift 获得。

Storm 1.0.1发布,.NET 适配也已到来

Apache Storm 1.0.0刚发布不久,1.0.1版本也在几天前到来;该版本主要是完成一些BUG修复和小的改进,通过一段时间新版本的使用,特将个人感受和一些遇到的问题归纳如下;另外 .NET 版本的 Storm 适配器也已经发布,源码在 storm-net-adapter,如果你希望便捷的体验Storm 1.0.1,可以通过 Docker 来部署,地址在:storm-mono-docker,该镜像已经集成了Mono,你也可以查看我之前的文章来详细了解。

再谈网络爬虫中的编码识别问题

在之前的文章中,我给大家介绍了 Nchardet 结合网页头部声明来识别网页的编码。通过较长时间段生产环境的使用,效果并不是十分理想。首先是 Nchardet 带来了极大的CPU的开销,尤其是对大规模的爬虫集群来说几乎无法接受;其次猜测的准确性距离100%还有一段距离。因此,就有了今天的这篇文章。

使用DRPC构建分布式多语言编程架构

Distributed RPC(DRPC)作为Storm基于Thrift协议的RPC实现,已在之前的文章中被多次提及;在一个多开发语言的环境中,RPC是必不可少的一环,常见的RPC实现方式除了thrift外也还有很多,甚至基于Http协议的RESTful API也可以算作是其中的一员。本文将为您解读:为什么在这么多的RPC方式中选择使用DRPC来构建多语言编程架构,而不是使用Thrift或者其它方式?