代码人生的小狗窝

一行行枯燥的代码,却描绘出人生的点点滴滴

推荐文章

禁止搜索引擎收录的步骤

    禁止搜索引擎收录的方法 1. 什么是robots.txt文件? 搜索引擎使用spider程序自动访问互联网上的网页并 获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。   请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。   2. robots.txt文件放在哪里? robots.txt 文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(511

2019-12-06

商品搜索引擎资料拾掇

    商品搜索引擎资料整理一、搜索引擎框架 搜索引擎Solr和ElasticSearch了解:http://blog.csdn.net/u013142781/article/details/51224988 Solr: 教程:http://blog.csdn.net/jediael_lu/article/category/2370109 书籍:Lucene In Action(第2版)中文版 ElasticSearch: 博客实例教程:http://www.eggtwo.com/news/detail/143 网页教程:http://es.xiaoleilu.com/010_Intro/10_Installing_ES.html、http://udn.yyuap.com/doc/mastering-elasticsearch/chapter-5/54_README.html 书籍

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(2190

2019-12-09

solr搜索引擎_电商搜寻(java代码实现)

    solr搜索引擎_电商搜索(java代码实现) pom.xml: <!--solr搜索引擎--> <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-core</artifactId> <version>4.10.3</version> </dependency> <!-- https://mvnrepository.com/artifact/org.apache.solr/solr-solrj --> <dependency> <groupId>org.apache.solr&

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(1769

2019-12-08

coreseek (sphinx)+ Mysql + Thinkphp筹建中文搜索引擎详解

    coreseek (sphinx)+ Mysql + Thinkphp搭建中文搜索引擎详解  一, 前言    1,研究coreseek的动机    我有一个自己的笔记博客,经常在上面做一些技术文章分析。在查询一些文章的时候,以前只能将要查询的内容去mysql中用like模糊匹配。在文章多了的情况下,这样做法效率肯定不行。于是我把目标投向了中文搜索插件coreseek,并成功的把它使用到了我的项目当中。 效果图: 希望通过这篇分析,让有兴趣的同学少走些弯路。 2,概念介绍   sphinx是开源的搜索引擎,它支持英文的全文检索。但英文的天然分词符是空格,而中文则有比较复杂的分词要求。中国人提供了一个可供企业使用的,基于Sphinx的中文全文检索引擎。也就是说Coreseek实际上的内核还是Sphinx。但其最大的不同是coreseek有一个中文分词利器mmse

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(1218

2019-12-04

[PHP] 网盘搜索引擎-采摘爬取百度网盘分享文件实现网盘搜索(二)

    [PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索(二)前情提要:最近使用PHP实现了简单的网盘搜索程序,并且关联了微信公众平台,名字是网盘小说。用户可以通过公众号输入关键字,公众号会返回相应的网盘下载地址。就是这么一个简单的功能,类似很多的网盘搜索类网站,我这个采集和搜索程序都是PHP实现的,全文和分词搜索部分使用到了开源软件xunsearch。 上一篇([PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索)中我重点介绍了怎样去获取一大批的百度网盘用户,这一篇介绍怎样获得指定网盘用户的分享列表。同样的原理,也是找到百度获取分享列表的接口,然后去循环就可以了。   查找分享接口 随便找一个网盘用户的分享页面,点击最下面的分页链接,可以看到发起的请求接口,这个就是获取分享列表的接口。 整个的请求url是这个 https://pan.baidu.co

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(2104

2019-12-08

实时搜索引擎Elasticsearch(五)——Java API的使用

    实时搜索引擎Elasticsearch(5)——Java API的使用 介绍了使用Rest方式调用ES的聚合API。Rest API使用了HTTP协议,按理来说,可以直接使用类似HttpClient的工具直接调用Rest API。虽然笔者并没有尝试过,但稍微想想一下就知道这种方法是可行的。这种方法主要有下面几个弊端: 需要开启ES的Http服务和端口。ES提供的Http服务功能非常全面,没有提供权限控制,防护也比较脆弱。一旦遭到破解,则数据面临极大的风险。所以,建议在生产中关闭Http服务,或者自己增加一层代理来实现权限控制。 调用比较困难。Rest API的核心是url和post数据,url直接需传入字符串,这样就不能使用IDE的查错功能。需要记忆的东西太多,不确定时就要去查API,影响开发效率。 Http协议的一大特点是无连接性。也就是每一次请求都需要建立新的连接,我们知道

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(1949

2019-12-08

[转]搜索引擎取舍: Elasticsearch与Solr

    [转]搜索引擎选择: Elasticsearch与Solr 搜索引擎选型调研文档 Elasticsearch简介* Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。 它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。 Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。 但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的学习了解,才能明白它是如何运行的,Lucene确实非常复杂。 Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(2116

2019-12-08

搜索引擎抉择

    搜索引擎选择 Elasticsearch简介* Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。 它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。 Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。 但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的学习了解,才能明白它是如何运行的,Lucene确实非常复杂。 Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的运行原理。 当然Elasticsearch并不仅仅是Lucene这么简

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(2283

2019-12-07

搜索引擎取舍: Elasticsearch与Solr 搜索引擎选型调研文档

    搜索引擎选择: Elasticsearch与Solr 搜索引擎选型调研文档 搜索引擎选择: Elasticsearch与Solr搜索引擎选型调研文档Elasticsearch简介*Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的学习了解,才能明白它是如何运行的,Lucene确实非常复杂。Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(1110

2019-12-08

软件工程师的基础生存技能:搜索引擎

    程序员的基础生存技能:搜索引擎如果票选近二十年最伟大的发明,我相信搜索引擎肯定会占据一个不容小觑的位置,它不单是一项发明,更是一项成就,最大程度消灭了信息的不平等。既然人人都可以接触到海量的信息,那么衡量信息财富多寡就只剩下技巧这惟一的标准了:善用搜索引擎的都是信息时代的富翁,不懂搜索引擎的都是信息时代的负翁。 而像程序员这种必须终生学习的职业,搜索引擎就是我们的左膀右臂。懂搜索引擎就是我们的基本功,不,应该是童子功。只是大部分新手都在过分粗放的使用搜索引擎,而花几分钟时间了解搜索引擎的技巧和语法,就能让自己的信息财富来一个大跃进,不也是一笔划算的买卖么。 而对于技术类问题的检索,谷歌的表现水准无疑要甩百度几条街;所以善用搜索引擎的第一条原则必然是:一如既往毫不犹豫百折不挠的使用Google。而对于一名程序员来说,保证自己随时随地能访问Google,是最最基本的技能,哪怕花费少许金钱也是物

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(1148

2019-12-08

分布式搜索引擎Elasticsearch的容易使用

    分布式搜索引擎Elasticsearch的简单使用官方网址:https://www.elastic.co/products/elasticsearch/ 一、特性 1、支持中文分词 2、支持多种数据源的全文检索引擎 3、分布式 4、基于lucene的开源搜索引擎 5、Restful api 二、资源 smartcn, 默认的中文分词 :https://github.com/elasticsearch/elasticsearch-analysis-smartcn mmseg :https://github.com/medcl/elasticsearch-analysis-mmseg ik:https://github.com/medcl/elasticsearch-analysis-ik pinyin, 拼音分词可用于输入拼音提示中文 :https://github.com/

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(1722

2019-12-07

MySQL搜索引擎小结

    MySQL搜索引擎总结 转载:http://mp.weixin.qq.com/s?__biz=MzA5Mjg2NTQxOA==&mid=2650420350&idx=1&sn=61673a528ec43bbd84e53b35a54b1ae8&chksm=8868029bbf1f8b8d7c330c05ce2e671b769a03189de41d7c629bcf28dadf2d5e135c3c883c94&mpshare=1&scene=1&srcid=03220h54UTF98MdH0f4xN1UG#rd   什么是存储引擎? 关系数据库表是用于存储和组织信息的数据结构,可以将表理解为由行和列组成的表格,类似于Excel的电子表格的形式。有的表简单,有的表复杂,有的表根本不用来存储任何长期的数据,有的表读取时非常快,但是插入

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(907

2019-12-07

搜索引擎迁徙初步

    搜索引擎迁移初步 搜索引擎迁移记录    背景:        项目中存在一个旧项目,搜索主要依赖数据库的like模糊匹配,由于数据量和用户量的不断增多,考虑迁移至ElasticSearch中。        内容比较多,会分几次发布,希望大家持续关注,本次主要发出一个大纲情况。          涉及内容:        ElasticSearch+LogStash+Kibana    大纲:          部署ElasticSearch             软件版本: elasticsearch-2.3.5       软件环境: CentOS 6.7+JDK 1.7       部署步骤       配置修改:          启动ES          插入测试数据          开发Java客户端:                集成POM文件     

    阅读全文>>

作者:coody分类:【_搜索引擎浏览(2239

2019-12-07
上一页 1/27页 下一页