계산 벤치마크

잠재적인 Earth Engine 컴퓨팅 비용을 모델링하기 위해 여러 벤치마크 작업을 실행하고 해당 컴퓨팅 공간을 기록했습니다. 이러한 데이터는 유사한 기준을 기반으로 자체 처리의 컴퓨팅 비용을 모델링하는 데 유용할 수 있습니다 ('이 데이터 사용 방법' 참고).

방법론

Notebooks

Colab 노트북을 사용하여 이러한 측정값을 생성하고 다른 노트북을 사용하여 Cloud Monitoring의 결과를 파싱합니다.

작업

여기에는 몇 가지 일반적인 Earth Engine 작업이 포함되어 있습니다.

  • 이미지 내보내기Export.image.toCloudStorage() 일괄 처리 함수를 사용하는 래스터 이미지 내보내기입니다. 이는 대량의 픽셀을 Cloud Storage로 내보내는 데 자주 사용됩니다.
  • BigQuery로 내보내기는 래스터에서 점을 샘플링하고 Export.table.toBigQuery() 일괄 처리 함수를 사용하여 Google BigQuery에 씁니다. BigQuery에 쓰면 BigQuery에서 분석할 뿐만 아니라 BigQuery와 통합되는 다른 도구 및 서비스 (예: Looker Studio)에서 사용할 수도 있습니다.
  • 대량 추출은 여러 지점 주변의 이미지 256x256 패치를 다운로드합니다. 이는 작은 픽셀 패치에서 학습 및 추론을 사용하는 머신러닝 워크플로에서 일반적입니다.

처리 중

이 필드는 특정 결과를 생성하는 데 사용된 픽셀 처리 파이프라인을 보여줍니다. 이러한 모든 작업에는 기본적으로 래스터 이미지 (직접 내보내기, 도형으로 샘플링 또는 패치 추출)가 포함되며 '처리' 옵션은 해당 래스터에서 픽셀을 생성하는 메커니즘을 설명합니다.

유일한 옵션은 'Sentinel-2 모자이크'이지만 향후 이 페이지가 업데이트되어 다양한 처리 옵션과 관련된 벤치마크를 표시할 수 있습니다. Sentinel-2 모자이크는 관련 기간, 해상도 등의 Sentinel-2 데이터를 기반으로 필터링 및 합성 알고리즘을 사용하여 구성됩니다. 구체적인 매개변수와 작업은 측정 노트북에 설명되어 있습니다. Sentinel-2 컴포지션은 매우 일반적인 첫 번째 단계 또는 중간 데이터 제품이지만 구체적인 매개변수(예: 구름 덮음 비율)는 다릅니다.

지역

여기에서 사용되는 지역은 다음과 같습니다.

  • 베이 지역: 샌프란시스코 베이 지역 주변의 간단한 ee.Geometry.Rectangle입니다. 이 이미지에는 육지와 바다 픽셀이 모두 포함되어 있으므로 일부 지역은 Sentinel-2 이미지로만 표시됩니다.

    면적 (약) 10m/픽셀 크기 30m/픽셀 크기 120m/픽셀 크기
    22,779km² [21342,13554]
    2.9E8픽셀
    [7114x4518]
    3.2E7픽셀
    [1779x1130]
    2010270픽셀

  • 나이지리아: 단순화된 LSIB 데이터 세트의 나이지리아 경계입니다. 이 지역은 가장 넓은 지역이며, 구름이 많은 지역 (구름이 없는 픽셀이 적음)이면서 적도에 가까워 (Sentinel-2와 같은 극궤도 위성의 방문 빈도가 상대적으로 적음) 흥미롭습니다.

    면적 (약) 10m/픽셀 크기 30m/픽셀 크기 120m/픽셀 크기
    912,554km² [133595x107035]
    1.4E10픽셀
    [44532x35679]
    1.6E9픽셀
    [11133x8920]
    9.9E7픽셀

  • 독일: 단순화된 LISB 데이터 세트의 독일 경계입니다. 다른 지역보다 시즌성의 영향을 더 많이 받습니다.

    면적 (약) 10m/픽셀 크기 30m/픽셀 크기 120m/픽셀 크기
    356,077km² [102130x86666]
    8.9E9픽셀
    [34044x28889]
    9.8E8픽셀
    [8511x7223]
    6.1E7픽셀

영역에 관한 자세한 내용은 Code 편집기의 영역 뷰를 참고하세요.

확장

모든 픽셀 계산은 그리드 내에서 이루어집니다 (예: 샘플링할 모자이크를 만들 때). 여기에 설정된 배율은 투영의 실제 배율 지점에서 픽셀의 크기를 미터 단위로 제어합니다.

'scale' 값을 더 크게 사용하면 해상도가 낮아집니다. 예를 들어 'scale'을 늘리면 지역의 이미지 내보내기에서 픽셀 수가 줄어듭니다.

기간

각 작업은 기본 데이터 세트에서 합성 단계를 실행합니다. 여기에 표시된 기간은 데이터 세트를 필터링할 때 고려되는 총 캘린더 시간입니다 (일반적으로 시간이 길수록 데이터가 더 많음).

여기서 구체적인 기간은 2024년 1월 1일 이전의 3개월, 6개월, 1년입니다.

샘플

샘플 수는 작업에 따라 다르게 해석됩니다.

  • 테이블 형식의 데이터를 BigQuery로 내보낼 때는 데이터 세트에서 샘플링되어 내보낸 무작위 포인트의 개수입니다. 다시 말해 최종 BigQuery 데이터 세트의 행 수입니다.

  • 대용량 API 엔드포인트를 사용하여 TFRecord 패치를 내보낼 때는 관심 영역 내 임의의 지점에서 샘플링된 총 256x256픽셀 영역의 개수입니다. 패치는 이 방법론과 겹칠 수 있습니다.

  • 이미지 내보내기의 경우 일반적인 의미에서 '샘플링'되지 않으므로 (모든 픽셀 값이 계산됨) 샘플 수가 '해당 사항 없음'으로 표시됩니다. 이미지 내보내기를 샘플의 그리드로 생각할 수 있으며, 여기서 샘플 수는 결과의 픽셀 수입니다.

이 데이터를 사용하는 방법

이 측정값 예시는 설명을 위한 것입니다. Earth Engine 성능 및 EECU 시간 비용의 실제 사례를 제공하기 위한 것이지만 보장되는 것은 아닙니다. 자세한 내용은 '주의사항' 섹션을 참고하세요.

자체 처리 워크플로를 사용하여 샘플을 생성하려면 '노트북' 섹션의 두 노트북을 사용하세요. 이를 통해 맞춤 코드에 대한 여러 측정값을 생성하고 Cloud Monitoring에서 결과를 읽고 집계할 수 있습니다.

주의사항

캐싱은 이러한 결과에 영향을 미치지만 임의 시드 (측정 노트북RANDOM_SEED)를 사용하면 캐시된 결과를 최대한 건너뛰어 실행 간에 값을 더 일관되게 만들 수 있습니다. 그러나 이 기법은 완벽하지 않습니다. 직접적인 사용자 제어 범위에 속하지 않는 캐시 (예: 이미지 타일의 캐시)가 있기 때문입니다.

데이터 카탈로그의 상태도 이러한 결과에 영향을 미칩니다. 기본 컬렉션이 변경되거나, 다시 처리되거나, 새 데이터가 백필될 수 있기 때문입니다.

또한 Earth Engine 제공 인프라의 모든 사용자의 활동 수준도 영향을 미칠 수 있습니다. 캐시의 시스템 전반적인 사용량이 많거나 유사한 계산을 실행하는 다른 사용자가 많으면 결과의 EECU 시간이 영향을 받을 수 있습니다.

벤치마크 데이터

이는 실제 벤치마크 (2024년 3월 8일 현재 실행에 드는 실제 비용)이지만 보장되지는 않습니다. 실제 컴퓨팅 비용은 상당히 달라질 수 있습니다.

EECU 시간당 처리 비용은 Google Cloud 결제의 특정 요금제 및 통화 변환에 따라 다를 수 있습니다 (예: USD 또는 EUR).

  • 이미지 내보내기
  • BigQuery로 내보내기
  • 대량 추출
  • Sentinel-2 컴포지트
  • Bay Area
  • 독일
  • 나이지리아
  • 10미터
  • 30미터
  • 120미터
  • 3개월
  • 6개월
  • 12개월
  • 해당 사항 없음
  • 샘플 100개
  • 샘플 500개
  • 샘플 1,000개

Earth Engine 벤치마크에 관한 참고사항

작업 처리 중 지역 확장 기간 샘플 Compute 벤치마크
이미지 내보내기 Sentinel-2 컴포지트 Bay Area 10미터 12개월 해당 사항 없음 105.09 EECU-시간
이미지 내보내기 Sentinel-2 컴포지트 Bay Area 10미터 6개월 해당 사항 없음 41.53 EECU-시간
이미지 내보내기 Sentinel-2 컴포지트 Bay Area 10미터 3개월 해당 사항 없음 29.95 EECU-시간