技术

Json 解析与筛选查询工具

Json 在接口、配置以及日志中被广泛应用，但是 json 格式本身并不方便进行查看，做了一个简单的网页版工具，可以将 json 数组转换为 Table，方便进行检索和查看。

Thrinax

.Net文本抽取类库 Thrinax（二）网站列表页模式识别

上一篇文章给大家介绍了如何使用 Thrinax 抽取网站正文页信息。在实际使用中，新闻类网站基本遵循 “首页>频道>正文” 的页面模式，识别频道页（列表页）成为了获得信息的基础，今天给大家带来该系列的第二篇，基于模式识别的网站列表页信息抽取。

Thrinax

.Net文本抽取类库 Thrinax（一）基于网页区块的正文抽取

好久不见，这次给大家带来一个全新的基于 .Net 的中文网页信息抽取的类库，Thrinax。该库的目标是通过一种简单的，低人工参与的方式来实现稳定的获取网页中的有效信息；这将会是一个系列文章，在书写文章的同时，类库也会不断完善，今天带来第一篇，基于网页区块的详情页信息抽取。

技术

使用 EF Core CodeFirst 操作 Mysql 数据库

EntityFramework(以下简称EF) 作为 .NET 广受欢迎的数据库操作中间件，支持了几乎所有你用过的关系型数据库，本文将非常基础的介绍其在 Mysql 中的使用。EF 常见的使用模式有三种：CodeFirst, ModelFirst, DBFirst；三种方式各有所特点，一般要根据实际的业务情况做选择。

运维

保护好你的Elasticsearch全文检索库

Elasticsearch是一款基于Lucence的全文检索数据库，在文本分析、搜索等领域被广泛使用，但是默认的配置通过限制仅允许局域网访问来保证数据的安全性，如果你需要对公网提供服务，便需要额外安装插件来实现访问控制了。裸奔不仅可能带来被脱库，甚至数据会被删除而且不可恢复。本文将介绍如何选择和配置插件来保障Elasticsearch的安全。

Storm

.NET Core 现已支持DRPC，同时带来Apache Thrift

上篇文章为大家带来了新版本的 Storm 适配器，今天来弥补一下上次匆忙发布带来的遗憾。是的，DRPC for .net Core 来了，当然，为了实现这个功能，一个精简版本的 Apache Thrift for .net core 也产生了；这个类库根据 Roadmap for adding new language bindings 完成，为了不带来误解，该项目暂时不开源，仅在 Nugut 中供 storm-net-adapter 使用，如果你也暂时需要它，可以通过 Nuget 搜索 Tnidea.Thrift 获得。

Storm

.NET Core 也能玩转 Storm

.Net Core 自发布以来广受关注，基于其开源与跨平台的特性，可以预见其在 web 开发领域越来越受青睐。现在，Apache Storm 的 .Net Core 版本的适配器正式发布，你现在也可以使用 .Net Core 开发 Topology，实现分布式跨平台的实时计算。

Storm

Storm 1.0.1发布，.NET 适配也已到来

Apache Storm 1.0.0刚发布不久，1.0.1版本也在几天前到来；该版本主要是完成一些BUG修复和小的改进，通过一段时间新版本的使用，特将个人感受和一些遇到的问题归纳如下；另外 .NET 版本的 Storm 适配器也已经发布，源码在 storm-net-adapter，如果你希望便捷的体验Storm 1.0.1，可以通过 Docker 来部署，地址在：storm-mono-docker，该镜像已经集成了Mono，你也可以查看我之前的文章来详细了解。

爬虫

再谈网络爬虫中的编码识别问题

在之前的文章中，我给大家介绍了 Nchardet 结合网页头部声明来识别网页的编码。通过较长时间段生产环境的使用，效果并不是十分理想。首先是 Nchardet 带来了极大的CPU的开销，尤其是对大规模的爬虫集群来说几乎无法接受；其次猜测的准确性距离100%还有一段距离。因此，就有了今天的这篇文章。

Storm

使用DRPC构建分布式多语言编程架构

Distributed RPC（DRPC）作为Storm基于Thrift协议的RPC实现，已在之前的文章中被多次提及；在一个多开发语言的环境中，RPC是必不可少的一环，常见的RPC实现方式除了thrift外也还有很多，甚至基于Http协议的RESTful API也可以算作是其中的一员。本文将为您解读：为什么在这么多的RPC方式中选择使用DRPC来构建多语言编程架构，而不是使用Thrift或者其它方式？