Skip to main content

Data Awesome

UID

  • DOI - Digital Object Identifier - 数字对象标识符
    • 学术论文、数据集、软件等数字对象的永久标识
    • doi.org
    • 10.1000/182 (前缀/后缀结构)
    • by International DOI Foundation (IDF)
  • ORCID - Open Researcher and Contributor ID - 开放研究者和贡献者标识符
    • 研究人员的唯一标识,解决同名问题
    • 0000-0000-0000-0000 (16位数字,每4位用连字符分隔)
    • 免费注册和使用、与多个学术平台集成、可关联研究成果、资助信息等
    • https://orcid.org/
  • ISBN - International Standard Book Number - 国际标准书号
    • 图书的唯一标识
    • 包含国家/地区、出版社、书目和校验码信息
    • ISBN-13 (978-0-123456-78-9) 或 ISBN-10 (0-123456-78-9)
    • by International ISBN Agency
    • https://www.isbn-international.org/
  • ISSN - International Standard Serial Number - 国际标准连续出版物号
    • 期刊、杂志、报纸等连续出版物标识
    • 不区分载体形式,同一刊物的印刷版和电子版有不同ISSN
    • by ISSN International Centre
    • https://www.issn.org/
  • ISNI - International Standard Name Identifier - 国际标准名称标识符
    • 创作者、表演者、研究人员等公共身份的标识
    • 涵盖范围比ORCID更广,包括艺术家、作家等
    • 16位数字,通常以4位为一组显示
    • by ISNI International Agency
    • https://isni.org/
  • ARK - Archival Resource Key
    • 开放标准,免费使用;支持版本控制和元数据访问;独立于特定技术平台
    • 数字资源的持久标识,特别适用于文化遗产机构
    • ark:/NAAN/Name (Name Assigning Authority Number/名称)
    • https://www.ark.org/
  • Handle System
    • 字对象的分布式信息系统
    • DOI 底层所基于的技术、提供分布式解析服务、支持多种数据类型的标识
    • https://handle.net/
  • IMDb ID - Internet Movie Database Identifier
    • 电影、电视剧、演员、导演等的标识
    • 标题: tt1234567 (tt + 7位数字)
    • 人员: nm1234567 (nm + 7位数字)
  • RFC - Request for Comments
    • IETF 和其他组织发布的技术文档标识符
    • 格式: RFC 1234
  • PMID - PubMed Identifier - PubMed 文献标识符
  • arXiv ID - arXiv Identifier - 预印本文章标识符
    • 学术预印本与电子论文
    • 新式: yymm.nnnnn[vN](如 2101.01234v2),旧式: archive/YYMMNNN
    • 解析示例: https://arxiv.org/abs/2101.01234
    • by arXiv (Cornell University 运营,社区支持)
  • VIAF - Virtual International Authority File - 虚拟国际权威文件标识符
    • 人名、机构名、作品等规范数据的聚合标识
    • 纯数字,例如 113230702
    • 解析示例: https://viaf.org/viaf/113230702/
    • by OCLC 与各国家/地区图书馆联合维护
  • Wikidata QID - Wikidata Item Identifier - 维基数据实体标识符
    • 各类实体项(人、地、组织、概念等)的唯一标识
    • 格式: Q + 数字,例如 Q42
    • 解析示例: https://www.wikidata.org/wiki/Q42
    • by Wikimedia Foundation
标识符适用范围格式费用持久性解析服务
DOI数字对象10.xxxx/xxxx付费全球
ORCID研究人员0000-0000-0000-0000免费全球
ISBN图书978-x-xxx-xxxxx-x付费全球
ISSN期刊xxxx-xxxx付费全球
ARK档案资源ark:/xxxxx/xxxx免费分布式
Handle数字对象xxxx/xxxx付费分布式
<!-- 在HTML中引用DOI -->

<a href="https://doi.org/10.1000/182">doi:10.1000/182</a>

<!-- 在学术引用中 -->

Author, A. (2023). Title. _Journal_, 1(1), 1-10. https://doi.org/10.1000/182

<!-- ORCID集成示例 -->
<a href="https://orcid.org/0000-0000-0000-0000">
<img src="https://orcid.org/sites/default/files/images/orcid_16x16.png" alt="ORCID iD">
0000-0000-0000-0000
</a>
  • UID - Unique Identifier
  • PID - Persistent Identifier

Crawler

ETL Pipeline

ML Pipeline

  • flyteorg/flyte Kubernetes-native workflow automation platform - Machine Learning & Data Processing
  • polyaxon/polyaxon Machine Learning Platform for Kubernetes

Workflow

Archive

Wayback Machine

Dataset

File Format

  • Parquet - 列格式
    • 压缩比、存储效率高
    • 支持嵌套数据结构
  • Avro - 行格式
  • ORC - Optimized Row Columnar
    • 记录额外索引信息
  • Arrow - 内存
    • 主要用于处理
  • CSV, TSV
  • JSON
  • JSONL - .jsonl, .ndjson
    • 每行一个 JSON

Misc

Tools

Extract

Understand

Online

Chinese

Datasets