Tag Archives: datasharing

下载GAME/TIBET数据

GAME/TIBET是中日合作的陆气相互作用研究项目,在青藏公路沿线布设了一些站点进行相关项目(如自动气象站、地面辐射、降水、径流、土壤温度/湿度、卫星同步观测、探空等)的观测。时间跨度大概是1997-1998,先进行了第一阶段的观测(POP),然后开展加密观测(IOP)。国内能获取数据的地方大概是寒旱区科学数据中心(http://westdc.westgis.ac.cn)或者WDCD冰川冻土中心,后者其实是前者的英文版本。但目前两者数据服务器不大稳定。
另一个可能获取其数据的地方是DIAS的GAME/Tibet数据中心,由日方负责人Koike
Toshio教授团队维护,网址是http://search.diasjp.net/en/dataset/GAME_Tibet,有完善的文档记录,如果对GAME-TIBET观测项目不清楚的话,可以进去看。
Image[4]

Continue reading

两篇与数据有关的中文论文

1. 吴立宗, 南卓铜, 王亮绪, 2014. 科学数据出版—促进数据共享的一种新模式. 中国科技资源导刊, (5): 72-78.

2. 史健宗, 南卓铜*, 赵林, 2014. 多年冻土元数据标准研究和应用. 遥感技术与应用, 29(5): 878-885

下载 (OneDrive)

吴立宗等,2014

史健宗等,2014

下载(百度云)

吴立宗等,2014

史健宗等,2014

数据中心专刊出来了

[1] 李新,丁永建,南卓铜. “中国西部环境与生态科学数据中心”专栏(总论)[J]. 遥感技术与应用. 2013, 28(3): 353—354.
[2] Wang L, Wu L, Nan Z. B2C pattern based data sharing system for composite scientific data center[J]. Remote Sensing Technology and Application. 2013, 28(3): 355—361.[王亮绪,吴立宗,南卓铜. 基于B2C架构的综合性科学数据共享系统[J]. 遥感技术与应用. 2013, 28(3): 355—361.]
[3] Wu L, Wang L, Nan Z, et al. Application of DOI in data citation: issues and suggestions[J]. Remote Sensing Technology and Application. 2013, 28(3): 377—382.[吴立宗,王亮绪,南卓铜,等. DOI在数据引用中的应用:问题与建议[J]. 遥感技术与应用. 2013, 28(3): 377—382.]
[4] Wu L, Wang L, Nan Z, et al. Scientific data publication: A review and framework[J]. Remote Sensing Technology and Application. 2013, 28(3): 383—390.[吴立宗,王亮绪,南卓铜,等. 科学数据出版现状及其体系框架[J]. 遥感技术与应用. 2013, 28(3): 383—390.]

 

青海湖数据平台的一个论文

Wang L, Nan Z, Ge J, et al. Design and application of Data Center for Eco-Environment Protection in the Qinghai Lake Basin[J]. Remote Sensing Technology and Application. 2013, 28(1): 166—172.[王亮绪,南卓铜,葛劲松,等. 青海湖流域生态环境科学数据平台的设计与应用[J]. 遥感技术与应用. 2013, 28(1): 166—172.]

Get the paper: Link

A paper: 中国西部环境与生态科学数据中心在线共享平台的设计与实现

[1] Nan Z, Li X, Wang L, et al. Design and implementation of online data sharing portal of Environmental and Ecological Science Data Center for the West China[J]. Journal of Glaciology and Geocryology. 2010, 32(5): 970—975.[南卓铜,李新,王亮绪,等. 中国西部环境与生态科学数据中心在线共享平台的设计与实现[J]. 冰川冻土. 2010, 32(5): 970—975.] (PDF)

注: 本文2009年投的稿,到现在才出来,描述的内容是Westdc v2的内容,目前Westdc已经更新到v3版本。具体的技术实现已经不一样,但一些设计理念仍是一致的。

Papers: Westdc另三篇介绍性文章

[1] Nan Z, Wang L, Wu L, et al. Experiences of Knowledge Integration from the Environmental and Ecological Science Data Center for West China[J]. CHINA SCIENCE & TECHNOLOGY RESOURCES REVIEW. 2010, 42(5): 15—21, 36.[南卓铜,王亮绪,吴立宗,等. 科学数据中心的知识集成[J]. 中国科技资源导刊. 2010, 42(5): 15—21, 36.] – Download (in PDF)

[2] Wu L, Tu Y, Wang L, et al. Application of Digital Object Identifier in Scientific Data Publication[J]. CHINA SCIENCE & TECHNOLOGY RESOURCES REVIEW. 2010, 42(5): 22—29.[吴立宗,涂勇,王亮绪,等. 浅谈科学数据出版中的数字对象唯一标识符[J]. 中国科技资源导刊. 2010, 42(5): 22—29.] – Download (in PDF)

[3] Wang L, Wu L, Nan Z, et al. Environmental and Ecological Science Data Center for West China: Review and Outlook[J]. CHINA SCIENCE & TECHNOLOGY RESOURCES REVIEW. 2010, 42(5): 30—36.[王亮绪,南卓铜,吴立宗,等. 西部数据中心数据集成和共享的回顾与展望[J]. 中国科技资源导刊. 2010, 42(5): 30—36.] – Download (in PDF)

读取网站的Alexa排名/Get Alexa ranking data for your site

南卓铜(Zhuotong Nan, [email protected])

由于网站自己设置的网站访问数有时不真实,为了比较网站的访问量,我们一般使用权威的第三方网站来比较访问量。Alexa网站提供被大家认可的排名数据。比如,访问http://www.alexa.com/data/details/traffic_details/westdc.westgis.ac.cn,可以看到“西部数据中心”目前排名访问。

Alexa提供了收费的Web service允许大家使用其数据,大概是每1000次请求0.15美金(见这里)。收费并不高,而且包括众多的功能。

然而作为程序员,有时候宁愿挑战一下自己的能力。比如有没有一种免费而且合法的手段来获取它的排名数据,比如Westdc.westgis.ac.cn目前排名1,080,823里的这个名次(May 06 2008)。

Alexa为了挣钱,使用了一些方法来防止简单的页面数据获取。比如我们看排名的HTML片断:

<span class=”descBold”> &nbsp;<!–Did you know? Alexa offers this data programmatically.  Visit http://aws.amazon.com/awis for more information about the Alexa Web Information Service.–><span class=”c669″>1,</span><span class=”cbf1″>34</span>0<span class=”cd05″>80</span><span class=”c9d1″>,8</span><span class=”c2e8″>23</span></span>

直接从Web页面拷贝的结果是1,34080,823,而不是正确的1,080,823。这是因为Alexa增加了一些<span>标签来混淆HTML代码,这些<span>的CSS被设置成display:none,所以在浏览器里显示却是正确的。而且这些混淆的<span>标签是随机任何组合的。

解决方案可以从模拟浏览器显示出发,逐步剥离没用的信息,最终获取排名数字。

a. 获取整个HTML源代码;分析获取源代码中有关排名的HTML片断;
b. 下载干扰的CSS表,取得display属性为none的全部css类名;
c. 利用css类名列表,从HTML片断中移去对应的<span>标签和标签内的数字;
d. 移去剩余的HTML标签;
e. 转成数值输出。

以下代码演示了此方法,使用了c# 2.0,在Visual Studio 2005编译运行通过。代码里使用了正则表达式。

/* Purpose: to get Alexa ranking data by using c#
* Author: Zhuotong Nan ([email protected])
* Date: May 06 2008
*/
using System;
using System.Collections.Generic;
using System.Text;
using System.Text.RegularExpressions;

namespace wml.stat
{
class AlexaRanking
{
public static int Rank(string url)
{
int ret = -1;

Uri uri = new Uri(url);
string newUrl = “http://www.alexa.com/data/details/traffic_details/” + uri.Host;
System.Net.WebClient wc = new System.Net.WebClient();
string html=wc.DownloadString(newUrl);

//pattern for obtaining html codes in relation to ranking data
string htmlpattern = @” about the Alexa Web Information Service.–>(.+?)</span><!–“;
string snipet = Regex.Match(html, htmlpattern).Groups[1].Value;

//get css file which store css classes preventing from scrambling
string cssUrl = “http://client.alexa.com/common/css/scramble.css”;
string cssfile = wc.DownloadString(cssUrl);

//css class pattern for getting CSS class listing with no display to the browse
string cssclassPattern=@”.(.*?) {“;
MatchCollection cssmc = Regex.Matches(cssfile, cssclassPattern);
//css classes without display, forming reg patterns
List<string> css_nodisp_patterns = new List<string>();
foreach (Match m in cssmc)
{
css_nodisp_patterns.Add( “<span class=”” + m.Groups[1].Value
+””>.*?</span>”);
}
//remove those classes from html snippet
foreach (string p in css_nodisp_patterns)
{
snipet=Regex.Replace(snipet, p, “”);
}

//see html snippet left
//remove span tags
string tagPattern = “<[^>]*>”;
snipet=Regex.Replace(snipet, tagPattern, “”);

ret = Int32.Parse(snipet, System.Globalization.NumberStyles.AllowThousands);
return ret;
}

static void Main(string[] args)
{
AlexaRanking.Rank(“http://westdc.westgis.ac.cn”);
}
}
}

本文独立实现,但后来google发现有人利用了差不多的方法,只不过在实现上用了PHP,最终产生的结果稍有不同,见 http://plice.net/?p=10

ISO 19115 editor

一直在关注ISO 19115元数据有关的一些进展。
它的editor比较有名的包括:
– GeoNetwork OpenSource Desktop
– DISY Preludio
– ISO Metadata Editor (IME)
– CatMDEdit
– M3Cat
– MetaD
– ArcCatalog ISO Wizard
另外,OGC catalogue service也是比较有意思的一个东西。大家感兴趣可以从Google搜索以上产品。