Json 在接口、配置以及日志中被广泛应用,但是 json 格式本身并不方便进行查看,做了一个简单的网页版工具,可以将 json 数组转换为 Table,方便进行检索和查看。
.Net文本抽取类库 Thrinax(二)网站列表页模式识别
上一篇文章给大家介绍了如何使用 Thrinax 抽取网站正文页信息。在实际使用中,新闻类网站基本遵循 “首页>频道>正文” 的页面模式,识别频道页(列表页)成为了获得信息的基础,今天给大家带来该系列的第二篇,基于模式识别的网站列表页信息抽取。
.Net文本抽取类库 Thrinax(一)基于网页区块的正文抽取
好久不见,这次给大家带来一个全新的基于 .Net 的中文网页信息抽取的类库,Thrinax。该库的目标是通过一种简单的,低人工参与的方式来实现稳定的获取网页中的有效信息;这将会是一个系列文章,在书写文章的同时,类库也会不断完善,今天带来第一篇,基于网页区块的详情页信息抽取。
使用 EF Core CodeFirst 操作 Mysql 数据库
EntityFramework(以下简称EF) 作为 .NET 广受欢迎的数据库操作中间件,支持了几乎所有你用过的关系型数据库,本文将非常基础的介绍其在 Mysql 中的使用。EF 常见的使用模式有三种:CodeFirst, ModelFirst, DBFirst;三种方式各有所特点,一般要根据实际的业务情况做选择。
保护好你的Elasticsearch全文检索库
Elasticsearch是一款基于Lucence的全文检索数据库,在文本分析、搜索等领域被广泛使用,但是默认的配置通过限制仅允许局域网访问来保证数据的安全性,如果你需要对公网提供服务,便需要额外安装插件来实现访问控制了。裸奔不仅可能带来被脱库,甚至数据会被删除而且不可恢复。本文将介绍如何选择和配置插件来保障Elasticsearch的安全。
.NET Core 现已支持DRPC,同时带来Apache Thrift
上篇文章为大家带来了新版本的 Storm 适配器,今天来弥补一下上次匆忙发布带来的遗憾。是的,DRPC for .net Core 来了,当然,为了实现这个功能,一个精简版本的 Apache Thrift for .net core 也产生了;这个类库根据 Roadmap for adding new language bindings 完成,为了不带来误解,该项目暂时不开源,仅在 Nugut 中供 storm-net-adapter 使用,如果你也暂时需要它,可以通过 Nuget 搜索 Tnidea.Thrift 获得。
.NET Core 也能玩转 Storm
.Net Core 自发布以来广受关注,基于其开源与跨平台的特性,可以预见其在 web 开发领域越来越受青睐。现在,Apache Storm 的 .Net Core 版本的适配器正式发布,你现在也可以使用 .Net Core 开发 Topology,实现分布式跨平台的实时计算。
Storm 1.0.1发布,.NET 适配也已到来
Apache Storm 1.0.0刚发布不久,1.0.1版本也在几天前到来;该版本主要是完成一些BUG修复和小的改进,通过一段时间新版本的使用,特将个人感受和一些遇到的问题归纳如下;另外 .NET 版本的 Storm 适配器也已经发布,源码在 storm-net-adapter,如果你希望便捷的体验Storm 1.0.1,可以通过 Docker 来部署,地址在:storm-mono-docker,该镜像已经集成了Mono,你也可以查看我之前的文章来详细了解。
再谈网络爬虫中的编码识别问题
在之前的文章中,我给大家介绍了 Nchardet 结合网页头部声明来识别网页的编码。通过较长时间段生产环境的使用,效果并不是十分理想。首先是 Nchardet 带来了极大的CPU的开销,尤其是对大规模的爬虫集群来说几乎无法接受;其次猜测的准确性距离100%还有一段距离。因此,就有了今天的这篇文章。
使用DRPC构建分布式多语言编程架构
Distributed RPC(DRPC)作为Storm基于Thrift协议的RPC实现,已在之前的文章中被多次提及;在一个多开发语言的环境中,RPC是必不可少的一环,常见的RPC实现方式除了thrift外也还有很多,甚至基于Http协议的RESTful API也可以算作是其中的一员。本文将为您解读:为什么在这么多的RPC方式中选择使用DRPC来构建多语言编程架构,而不是使用Thrift或者其它方式?