DYM Blog

Thinking will not overcome fear but action will.

基于RMI的分布式搜索的框架搭建

基于RMI的分布式搜索的框架搭建

本文迁移自老博客,原始链接为 https://seven.blog.ustc.edu.cn/%e5%9f%ba%e4%ba%8ermi%e7%9a%84%e5%88%86%e5%b8%83%e5%bc%8f%e6%90%9c%e7%b4%a2%e7%9a%84%e6%a1%86%e6%9e%b6%e6%90%ad%e5%bb%ba/ 开发分布式的简单应用时,可以考虑使用java的RMI技术...

网页内容的解析

网页内容的解析

本文迁移自老博客,原始链接为 https://seven.blog.ustc.edu.cn/%e7%bd%91%e9%a1%b5%e5%86%85%e5%ae%b9%e7%9a%84%e8%a7%a3%e6%9e%90/ 在使用heritrix爬虫抓取网页时,在工程目录下自动生成“jobs”文件夹,包含本次抓取任务。抓取下来网页以镜像方式存放,也就是将 URL 地址按“/”进行切分,进而按...

基于LRU的缓冲区简单模拟

基于LRU的缓冲区简单模拟

本文迁移自老博客,原始链接为 https://seven.blog.ustc.edu.cn/%e5%9f%ba%e4%ba%8elru%e7%9a%84%e7%bc%93%e5%86%b2%e5%8c%ba%e7%ae%80%e5%8d%95%e6%a8%a1%e6%8b%9f/ 实现一个Storage and Buffer Manager,功能的抽象视图如下所示,即高效率的实现上层App...

本文迁移自老博客,原始链接为 https://seven.blog.ustc.edu.cn// 实现一个Storage and Buffer Manager。然后使用给定的测试数据(data-5w-50w-zipf.txt文档提供的数据)进行测试,并且记录总的I/O次数和缓冲区的命中次数以及运行的时间。最后输出:总的I/O次数、缓冲区的整体命中率、实验总的运行时间。

基于lucene的索引和搜索功能的简单实现

基于lucene的索引和搜索功能的简单实现

本文迁移自老博客,原始链接为 https://seven.blog.ustc.edu.cn/%e5%9f%ba%e4%ba%8elucene%e7%9a%84%e7%b4%a2%e5%bc%95%e5%92%8c%e6%90%9c%e7%b4%a2%e5%8a%9f%e8%83%bd%e7%9a%84%e7%ae%80%e5%8d%95%e5%ae%9e%e7%8e%b0/ 首先是爬取网络...

dblp.xml到.arff的转换

dblp.xml到.arff的转换

本文迁移自老博客,原始链接为 https://seven.blog.ustc.edu.cn/dblp-xml%e5%88%b0-arff%e7%9a%84%e8%bd%ac%e6%8d%a2/ 将dblp.xml文件中的数据转化成为weka可用的arff格式的文件。由于一开始对weka的文件格式不熟悉,绕了很多弯路,所以值得把方法记下来。 使用dom4j 包中的saxReader 逐条解析...

常见排序算法总结

常见排序算法总结

本文迁移自老博客,原始链接为 https://seven.blog.ustc.edu.cn/%e5%b8%b8%e8%a7%81%e6%8e%92%e5%ba%8f%e7%ae%97%e6%b3%95%e6%80%bb%e7%bb%93/ 希尔排序算法 1)  希尔排序原理: 首先取一个小于n的增量gap(一般选择数组长度的一半),将待排数据分成n/gap个组,其中距离为gap的数据分在同...

Learning Generational Garbage Collection

Learning Generational Garbage Collection

本文迁移自老博客,原始链接为 https://seven.blog.ustc.edu.cn/learning-generational-garbage-collection/ Through a large number of programs, we can found that most of the newly created objects have a very short su...

本文迁移自老博客,原始链接为 https://seven.blog.ustc.edu.cn// Through a large number of programs, we can found that most of the newly created objects have a very short survival time.In other words, the objects ...

离散数学笔记2

离散数学笔记2

本文迁移自老博客,原始链接为 https://seven.blog.ustc.edu.cn/%e7%a6%bb%e6%95%a3%e6%95%b0%e5%ad%a6%e7%ac%94%e8%ae%b02/ 1.一个序列是一个表,表里面的元素有序,S是序列,Sn表示序列的第n项,把n叫做序列的下标。 2.算法复杂度是问题分为三种:1.在多项式时间立可解,可行的,易处理;2.在多项式时间里面解...