Skip to main content

Data Awesome

Crawler

ETL Pipeline

ML Pipeline

  • flyteorg/flyte Kubernetes-native workflow automation platform - Machine Learning & Data Processing
  • polyaxon/polyaxon Machine Learning Platform for Kubernetes

Workflow

Archive

Wayback Machine

Dataset

File Format

  • Parquet - 列格式
    • 压缩比、存储效率高
    • 支持嵌套数据结构
  • Avro - 行格式
  • ORC - Optimized Row Columnar
    • 记录额外索引信息
  • Arrow - 内存
    • 主要用于处理
  • CSV, TSV
  • JSON
  • JSONL - .jsonl, .ndjson
    • 每行一个 JSON

Misc

Tools

Extract

Understand

Online

Chinese