Toshio教授团队维护,网址是http://search.diasjp.net/en/dataset/GAME_Tibet,有完善的文档记录,如果对GAME-TIBET观测项目不清楚的话,可以进去看。
李红星,吴立宗,南卓铜*,王亮绪,王建,赵彦博,张耀南,马瀚青. 科学数据联合出版模式与内容研究. 遥感技术与应用. 2016, 31(04): 801-808.
[1] 李新,丁永建,南卓铜. “中国西部环境与生态科学数据中心”专栏(总论)[J]. 遥感技术与应用. 2013, 28(3): 353—354.
[2] Wang L, Wu L, Nan Z. B2C pattern based data sharing system for composite scientific data center[J]. Remote Sensing Technology and Application. 2013, 28(3): 355—361.[王亮绪,吴立宗,南卓铜. 基于B2C架构的综合性科学数据共享系统[J]. 遥感技术与应用. 2013, 28(3): 355—361.]
[3] Wu L, Wang L, Nan Z, et al. Application of DOI in data citation: issues and suggestions[J]. Remote Sensing Technology and Application. 2013, 28(3): 377—382.[吴立宗,王亮绪,南卓铜,等. DOI在数据引用中的应用:问题与建议[J]. 遥感技术与应用. 2013, 28(3): 377—382.]
[4] Wu L, Wang L, Nan Z, et al. Scientific data publication: A review and framework[J]. Remote Sensing Technology and Application. 2013, 28(3): 383—390.[吴立宗,王亮绪,南卓铜,等. 科学数据出版现状及其体系框架[J]. 遥感技术与应用. 2013, 28(3): 383—390.]
Get 专栏总论
Get Wang et al.
Get Wu et al, DOI
Wang L, Nan Z, Ge J, et al. Design and application of Data Center for Eco-Environment Protection in the Qinghai Lake Basin[J]. Remote Sensing Technology and Application. 2013, 28(1): 166—172.[王亮绪,南卓铜,葛劲松,等. 青海湖流域生态环境科学数据平台的设计与应用[J]. 遥感技术与应用. 2013, 28(1): 166—172.]
Get the paper: Link
[1] Li X, Nan Z, Cheng G, et al. Towards an Improved Data Stewardship and Service for Environmental and Ecological Science Data in West China[J]. International Journal of Digital Earth. 2011. DOI:10.1080/17538947.2011.558123. PDF下载
[1] Nan Z, Li X, Wang L, et al. Design and implementation of online data sharing portal of Environmental and Ecological Science Data Center for the West China[J]. Journal of Glaciology and Geocryology. 2010, 32(5): 970—975.[南卓铜,李新,王亮绪,等. 中国西部环境与生态科学数据中心在线共享平台的设计与实现[J]. 冰川冻土. 2010, 32(5): 970—975.] (PDF)
注: 本文2009年投的稿,到现在才出来,描述的内容是Westdc v2的内容,目前Westdc已经更新到v3版本。具体的技术实现已经不一样,但一些设计理念仍是一致的。
[1] Nan Z, Wang L, Wu L, et al. Experiences of Knowledge Integration from the Environmental and Ecological Science Data Center for West China[J]. CHINA SCIENCE & TECHNOLOGY RESOURCES REVIEW. 2010, 42(5): 15—21, 36.[南卓铜,王亮绪,吴立宗,等. 科学数据中心的知识集成[J]. 中国科技资源导刊. 2010, 42(5): 15—21, 36.] – Download (in PDF)
[2] Wu L, Tu Y, Wang L, et al. Application of Digital Object Identifier in Scientific Data Publication[J]. CHINA SCIENCE & TECHNOLOGY RESOURCES REVIEW. 2010, 42(5): 22—29.[吴立宗,涂勇,王亮绪,等. 浅谈科学数据出版中的数字对象唯一标识符[J]. 中国科技资源导刊. 2010, 42(5): 22—29.] – Download (in PDF)
[3] Wang L, Wu L, Nan Z, et al. Environmental and Ecological Science Data Center for West China: Review and Outlook[J]. CHINA SCIENCE & TECHNOLOGY RESOURCES REVIEW. 2010, 42(5): 30—36.[王亮绪,南卓铜,吴立宗,等. 西部数据中心数据集成和共享的回顾与展望[J]. 中国科技资源导刊. 2010, 42(5): 30—36.] – Download (in PDF)
南卓铜(Zhuotong Nan, zhn1@pitt.edu)
由于网站自己设置的网站访问数有时不真实,为了比较网站的访问量,我们一般使用权威的第三方网站来比较访问量。Alexa网站提供被大家认可的排名数据。比如,访问http://www.alexa.com/data/details/traffic_details/westdc.westgis.ac.cn,可以看到“西部数据中心”目前排名访问。
Alexa提供了收费的Web service允许大家使用其数据,大概是每1000次请求0.15美金(见这里)。收费并不高,而且包括众多的功能。
然而作为程序员,有时候宁愿挑战一下自己的能力。比如有没有一种免费而且合法的手段来获取它的排名数据,比如Westdc.westgis.ac.cn目前排名1,080,823里的这个名次(May 06 2008)。
Alexa为了挣钱,使用了一些方法来防止简单的页面数据获取。比如我们看排名的HTML片断:
<span class=”descBold”> <!–Did you know? Alexa offers this data programmatically. Visit http://aws.amazon.com/awis for more information about the Alexa Web Information Service.–><span class=”c669″>1,</span><span class=”cbf1″>34</span>0<span class=”cd05″>80</span><span class=”c9d1″>,8</span><span class=”c2e8″>23</span></span>
直接从Web页面拷贝的结果是1,34080,823,而不是正确的1,080,823。这是因为Alexa增加了一些<span>标签来混淆HTML代码,这些<span>的CSS被设置成display:none,所以在浏览器里显示却是正确的。而且这些混淆的<span>标签是随机任何组合的。
解决方案可以从模拟浏览器显示出发,逐步剥离没用的信息,最终获取排名数字。
a. 获取整个HTML源代码;分析获取源代码中有关排名的HTML片断;
b. 下载干扰的CSS表,取得display属性为none的全部css类名;
c. 利用css类名列表,从HTML片断中移去对应的<span>标签和标签内的数字;
d. 移去剩余的HTML标签;
e. 转成数值输出。
以下代码演示了此方法,使用了c# 2.0,在Visual Studio 2005编译运行通过。代码里使用了正则表达式。
/* Purpose: to get Alexa ranking data by using c#
* Author: Zhuotong Nan (zhn1@pitt.edu)
* Date: May 06 2008
*/
using System;
using System.Collections.Generic;
using System.Text;
using System.Text.RegularExpressions;namespace wml.stat
{
class AlexaRanking
{
public static int Rank(string url)
{
int ret = -1;Uri uri = new Uri(url);
string newUrl = “http://www.alexa.com/data/details/traffic_details/” + uri.Host;
System.Net.WebClient wc = new System.Net.WebClient();
string html=wc.DownloadString(newUrl);//pattern for obtaining html codes in relation to ranking data
string htmlpattern = @” about the Alexa Web Information Service.–>(.+?)</span><!–“;
string snipet = Regex.Match(html, htmlpattern).Groups[1].Value;//get css file which store css classes preventing from scrambling
string cssUrl = “http://client.alexa.com/common/css/scramble.css”;
string cssfile = wc.DownloadString(cssUrl);//css class pattern for getting CSS class listing with no display to the browse
string cssclassPattern=@”.(.*?) {“;
MatchCollection cssmc = Regex.Matches(cssfile, cssclassPattern);
//css classes without display, forming reg patterns
List<string> css_nodisp_patterns = new List<string>();
foreach (Match m in cssmc)
{
css_nodisp_patterns.Add( “<span class=”” + m.Groups[1].Value
+””>.*?</span>”);
}
//remove those classes from html snippet
foreach (string p in css_nodisp_patterns)
{
snipet=Regex.Replace(snipet, p, “”);
}//see html snippet left
//remove span tags
string tagPattern = “<[^>]*>”;
snipet=Regex.Replace(snipet, tagPattern, “”);ret = Int32.Parse(snipet, System.Globalization.NumberStyles.AllowThousands);
return ret;
}static void Main(string[] args)
{
AlexaRanking.Rank(“http://westdc.westgis.ac.cn”);
}
}
}
本文独立实现,但后来google发现有人利用了差不多的方法,只不过在实现上用了PHP,最终产生的结果稍有不同,见 http://plice.net/?p=10。