Tag Archives: datasharing

两篇与数据有关的中文论文

1. 吴立宗, 南卓铜, 王亮绪, 2014. 科学数据出版—促进数据共享的一种新模式. 中国科技资源导刊, (5): 72-78.

2. 史健宗, 南卓铜*, 赵林, 2014. 多年冻土元数据标准研究和应用. 遥感技术与应用, 29(5): 878-885

下载 (OneDrive)

吴立宗等,2014

史健宗等,2014

下载(百度云)

吴立宗等,2014

史健宗等,2014

数据中心专刊出来了

[1] 李新,丁永建,南卓铜. “中国西部环境与生态科学数据中心”专栏(总论)[J]. 遥感技术与应用. 2013, 28(3): 353—354.
[2] Wang L, Wu L, Nan Z. B2C pattern based data sharing system for composite scientific data center[J]. Remote Sensing Technology and Application. 2013, 28(3): 355—361.[王亮绪,吴立宗,南卓铜. 基于B2C架构的综合性科学数据共享系统[J]. 遥感技术与应用. 2013, 28(3): 355—361.]
[3] Wu L, Wang L, Nan Z, et al. Application of DOI in data citation: issues and suggestions[J]. Remote Sensing Technology and Application. 2013, 28(3): 377—382.[吴立宗,王亮绪,南卓铜,等. DOI在数据引用中的应用:问题与建议[J]. 遥感技术与应用. 2013, 28(3): 377—382.]
[4] Wu L, Wang L, Nan Z, et al. Scientific data publication: A review and framework[J]. Remote Sensing Technology and Application. 2013, 28(3): 383—390.[吴立宗,王亮绪,南卓铜,等. 科学数据出版现状及其体系框架[J]. 遥感技术与应用. 2013, 28(3): 383—390.]

 

青海湖数据平台的一个论文

Wang L, Nan Z, Ge J, et al. Design and application of Data Center for Eco-Environment Protection in the Qinghai Lake Basin[J]. Remote Sensing Technology and Application. 2013, 28(1): 166—172.[王亮绪,南卓铜,葛劲松,等. 青海湖流域生态环境科学数据平台的设计与应用[J]. 遥感技术与应用. 2013, 28(1): 166—172.]

Get the paper: Link

A paper: 中国西部环境与生态科学数据中心在线共享平台的设计与实现

[1] Nan Z, Li X, Wang L, et al. Design and implementation of online data sharing portal of Environmental and Ecological Science Data Center for the West China[J]. Journal of Glaciology and Geocryology. 2010, 32(5): 970—975.[南卓铜,李新,王亮绪,等. 中国西部环境与生态科学数据中心在线共享平台的设计与实现[J]. 冰川冻土. 2010, 32(5): 970—975.] (PDF)

注: 本文2009年投的稿,到现在才出来,描述的内容是Westdc v2的内容,目前Westdc已经更新到v3版本。具体的技术实现已经不一样,但一些设计理念仍是一致的。

Papers: Westdc另三篇介绍性文章

[1] Nan Z, Wang L, Wu L, et al. Experiences of Knowledge Integration from the Environmental and Ecological Science Data Center for West China[J]. CHINA SCIENCE & TECHNOLOGY RESOURCES REVIEW. 2010, 42(5): 15—21, 36.[南卓铜,王亮绪,吴立宗,等. 科学数据中心的知识集成[J]. 中国科技资源导刊. 2010, 42(5): 15—21, 36.] – Download (in PDF)

[2] Wu L, Tu Y, Wang L, et al. Application of Digital Object Identifier in Scientific Data Publication[J]. CHINA SCIENCE & TECHNOLOGY RESOURCES REVIEW. 2010, 42(5): 22—29.[吴立宗,涂勇,王亮绪,等. 浅谈科学数据出版中的数字对象唯一标识符[J]. 中国科技资源导刊. 2010, 42(5): 22—29.] – Download (in PDF)

[3] Wang L, Wu L, Nan Z, et al. Environmental and Ecological Science Data Center for West China: Review and Outlook[J]. CHINA SCIENCE & TECHNOLOGY RESOURCES REVIEW. 2010, 42(5): 30—36.[王亮绪,南卓铜,吴立宗,等. 西部数据中心数据集成和共享的回顾与展望[J]. 中国科技资源导刊. 2010, 42(5): 30—36.] – Download (in PDF)

读取网站的Alexa排名/Get Alexa ranking data for your site

南卓铜(Zhuotong Nan, zhn1@pitt.edu)

由于网站自己设置的网站访问数有时不真实,为了比较网站的访问量,我们一般使用权威的第三方网站来比较访问量。Alexa网站提供被大家认可的排名数据。比如,访问http://www.alexa.com/data/details/traffic_details/westdc.westgis.ac.cn,可以看到“西部数据中心”目前排名访问。

Alexa提供了收费的Web service允许大家使用其数据,大概是每1000次请求0.15美金(见这里)。收费并不高,而且包括众多的功能。

然而作为程序员,有时候宁愿挑战一下自己的能力。比如有没有一种免费而且合法的手段来获取它的排名数据,比如Westdc.westgis.ac.cn目前排名1,080,823里的这个名次(May 06 2008)。

Alexa为了挣钱,使用了一些方法来防止简单的页面数据获取。比如我们看排名的HTML片断:

<span class=”descBold”> &nbsp;<!–Did you know? Alexa offers this data programmatically.  Visit http://aws.amazon.com/awis for more information about the Alexa Web Information Service.–><span class=”c669″>1,</span><span class=”cbf1″>34</span>0<span class=”cd05″>80</span><span class=”c9d1″>,8</span><span class=”c2e8″>23</span></span>

直接从Web页面拷贝的结果是1,34080,823,而不是正确的1,080,823。这是因为Alexa增加了一些<span>标签来混淆HTML代码,这些<span>的CSS被设置成display:none,所以在浏览器里显示却是正确的。而且这些混淆的<span>标签是随机任何组合的。

解决方案可以从模拟浏览器显示出发,逐步剥离没用的信息,最终获取排名数字。

a. 获取整个HTML源代码;分析获取源代码中有关排名的HTML片断;
b. 下载干扰的CSS表,取得display属性为none的全部css类名;
c. 利用css类名列表,从HTML片断中移去对应的<span>标签和标签内的数字;
d. 移去剩余的HTML标签;
e. 转成数值输出。

以下代码演示了此方法,使用了c# 2.0,在Visual Studio 2005编译运行通过。代码里使用了正则表达式。

/* Purpose: to get Alexa ranking data by using c#
* Author: Zhuotong Nan (zhn1@pitt.edu)
* Date: May 06 2008
*/
using System;
using System.Collections.Generic;
using System.Text;
using System.Text.RegularExpressions;

namespace wml.stat
{
class AlexaRanking
{
public static int Rank(string url)
{
int ret = -1;

Uri uri = new Uri(url);
string newUrl = “http://www.alexa.com/data/details/traffic_details/” + uri.Host;
System.Net.WebClient wc = new System.Net.WebClient();
string html=wc.DownloadString(newUrl);

//pattern for obtaining html codes in relation to ranking data
string htmlpattern = @” about the Alexa Web Information Service.–>(.+?)</span><!–“;
string snipet = Regex.Match(html, htmlpattern).Groups[1].Value;

//get css file which store css classes preventing from scrambling
string cssUrl = “http://client.alexa.com/common/css/scramble.css”;
string cssfile = wc.DownloadString(cssUrl);

//css class pattern for getting CSS class listing with no display to the browse
string cssclassPattern=@”.(.*?) {“;
MatchCollection cssmc = Regex.Matches(cssfile, cssclassPattern);
//css classes without display, forming reg patterns
List<string> css_nodisp_patterns = new List<string>();
foreach (Match m in cssmc)
{
css_nodisp_patterns.Add( “<span class=”” + m.Groups[1].Value
+””>.*?</span>”);
}
//remove those classes from html snippet
foreach (string p in css_nodisp_patterns)
{
snipet=Regex.Replace(snipet, p, “”);
}

//see html snippet left
//remove span tags
string tagPattern = “<[^>]*>”;
snipet=Regex.Replace(snipet, tagPattern, “”);

ret = Int32.Parse(snipet, System.Globalization.NumberStyles.AllowThousands);
return ret;
}

static void Main(string[] args)
{
AlexaRanking.Rank(“http://westdc.westgis.ac.cn”);
}
}
}

本文独立实现,但后来google发现有人利用了差不多的方法,只不过在实现上用了PHP,最终产生的结果稍有不同,见 http://plice.net/?p=10

数据中心最新技术进展

2007.9.12 – 发布一个新版本到服务器上。

2007.9.12 – 修正特色数据光盘的文档和图片上传问题,美化了其CSS。

2007.9.11 – 增加了后台的留言管理。

2007.9.10 – 重写产品推荐管理模块。

2007.9.7 – 重写全局的文档和链接管理模块。

2007.9.6 – 重写数据工具上传控件,修正数据工具首页在firefox下的CSS问题。

2007.9.5 – 修正工具上传组件的问题。

2007.9.4 – 重构了工具相关的CSS。

2007.9.4 – 控制面板增加了我的留言管理。

2007.9.3 – 增加了控制面板和用户密码更改功能。重构了离线数据申请和数据通讯模块。

2007.9.2 – 改进了用户管理当返回无记录异常的问题。

2007.9.2 – 实现了项目开发者日志聚合功能;在About.aspx页面上添加了点击项目日志提示等候的功能。

2007.9.1 – 修正BlogRssEdit不能编译的问题,删除了Link字段。

2007.9.1 – Refactor Westdc.Data v2,现在不必关心Settings的配置,在Runtime时会自动从Web.config读取Connection String。

2007.8.31 – 增加可打印版本设置。

2007.8.30 – 更新了网筝模块,上传了最新网筝驱动程序。

2007.8.29 – 调整了新闻模块的显示,更改了RSS图标。

2007.8.29 – 后台添加特色数据集镜像文件管理;更改了后台管理的左侧栏控件,现在支持缩放。