YDB是什么?
YDB全称延云YDB,是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎,具有万亿数据规模下的秒级性能表现,并具备企业级的稳定可靠表现。
YDB是一个细粒度的索引,精确粒度的索引。数据即时导入,索引即时生成,通过索引高效定位到相关数据。YDB与Spark深度集成,Spark对YDB检索结果集直接分析计算,同样场景让Spark性能加快百倍。
我们的开发人员曾在阿里与腾讯任职,期间研发了多套即席分析索引系统,积累丰富的经验,正是这些经验的积累,才成就了如今的延云YDB。
11年:支付宝黄金策的后台技术-海狗 (参考资料)
12年:阿里开源项目Committer MDRLL (多维分析 参考资料)与 JStorm(流计算 参考资料)
14年:腾讯的Hermes(每天千亿总量万亿的即席分析 参考资料)
YDB的主要特性
为探索性分析与即席分析而设计
YDB的即席分析(Ad Hoc)概念的解释
1:当场,就是当场去查询,现场 随意、即兴 查询。
2:响应时间要求为几秒才能称为即席。
即席分析与普通分析的区别
1普通的应用分析是定制开发的,大多是预先计算好的。
2即席分析是用户在使用时临时生产的分析,查询条件事先未知,系统无法预先优化这些查询,在现场没法预先准备,所以即席查询的性能也是评估数据仓库的一个重要指标。
YDB适合的行业
在公安系统的-典型的场景
齐全的功能
卓越的排序性能
按照时间逆序排序可以说是很多日志系统的硬指标。在延云YDB系统中,我们改变了传统的暴力排序方式,通过索引技术,可以超快对数据进行单列排序,不需要全表暴力扫描,这个技术我们称之为BlockSort。
卓越的检索与分析性能(相比Spark的性能提升倍数)
与ORACLE性能对比
查布控场景性能
哪些用户适合使用YDB?
1传统关系型数据,已经无法容纳更多的数据,查询效率严重受到影响的用户。
2目前在使用SOLR、ES做全文检索,觉得solr与ES提供的分析功能太少,无法完成复杂的业务逻辑,或者数据量变多后SOLR与ES变得不稳定,在掉片与均衡中不断恶性循环,不能自动恢复服务,运维人员需经常半夜起来重启集群的情况。
3基于对海量数据的分析,但是苦于现有的离线计算平台的速度和响应时间无满足业务要求的用户。
4需要对用户画像行为类数据做多维定向分析的用户。
5需要对大量的UGC(User Generate Content)数据进行检索的用户。
6当你需要在大数据集上面进行快速的,交互式的查询时。
7当你需要进行数据分析,而不只是简单的键值对存储时。
8当你想要分析实时产生的数据时。
企业级特性:稳定,可靠,易用
第一阶段JavaWeb企业开发入门
Java技术现状、前景、企业开班课程概览;Web技术构成;HTML5及CSS3;BootStrapUI框架
Java开发环境搭建;Java基础;HTTP及Tomcat;JSPServlet动态网页
MySQL基础,简单数据增删改查,JDBC操作
第二阶段JavaWeb企业级中小型项目开发
Ajax异步交互编程;JavaScriptDOM操作和事件驱动编程;jQuery脚本库
高级SQL操作;JavaIO及异常处理
企业软件开发流程;Git源代码管理工具使用;Maven工具使用
第三阶段JavaWeb企业级大型项目开发Ⅰ
Struts2框架;Spring框架;Hibernate框架
SSH框架整合及应用;Java反射及代理,以及在框架中的应用;文件操作和流(IO、处理、压缩等)
正则表达式;easyUI框架;SQLServer;权限管理
第四阶段JavaWeb企业级大型项目开发Ⅱ
SpringMVC框架;Mybatis框架;JSON/XML数据处理及移动应用接口开发
常用数据库优化;MemCache、Redis的使用;Restful设计
第三方平台接入,微信公众号开发;系统日志记录
第五阶段JavaWeb企业级架构及多场景开发
WebService开发;SOA企业架构;Mycat中间件;Nginx反向代理;Lucene/Solr全文检索
Oracle数据库;Rabbit/ActiveMQ使用;系统高并发实战及优化
DubboZookeeper分布式系统搭建;微信/支付宝支付开发
第六阶段Java大数据开发基础及应用
LinuxShell编程;Hadoop技术体系和开发实战;Spark开发基础
百度、 谷歌就是典型的全文搜索引擎。它们都是通过从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
1、简单查询。在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。
2、使用双引号用(" ")。给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。
3、使用加号(+)。在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。
4、使用减号(-)。在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。
5、使用通配符(和)。通配符包括星号()和问号(),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“compter”,则只能找到“computer、compater、compete 等单词。
我说到的spring data jpa 只需要定义个借口,继承JpaRepository就可以了,然后就能做crud操作,而且有方便的分页和排序功能。我现在需要把全文索引功能整合进来,用添加solrServer bean 的方法应该是可以,但是比较繁琐,理由见原帖。<bean id="solrServer" class="orgapachesolrclientsolrjimplCommonsHttpSolrServer">
本文2023-08-21 04:05:36发表“古籍资讯”栏目。
本文链接:https://www.yizhai.net/article/62249.html