잠재적인 Earth Engine 컴퓨팅 비용을 모델링하기 위해 여러 벤치마크 작업을 실행하고 해당 컴퓨팅 공간을 기록했습니다. 이러한 데이터는 유사한 기준을 기반으로 자체 처리의 컴퓨팅 비용을 모델링하는 데 유용할 수 있습니다 ('이 데이터 사용 방법' 참고).
방법론
Notebooks
Colab 노트북을 사용하여 이러한 측정값을 생성하고 다른 노트북을 사용하여 Cloud Monitoring의 결과를 파싱합니다.
작업
여기에는 몇 가지 일반적인 Earth Engine 작업이 포함되어 있습니다.
- 이미지 내보내기는
Export.image.toCloudStorage()
일괄 처리 함수를 사용하는 래스터 이미지 내보내기입니다. 이는 대량의 픽셀을 Cloud Storage로 내보내는 데 자주 사용됩니다. - BigQuery로 내보내기는 래스터에서 점을 샘플링하고
Export.table.toBigQuery()
일괄 처리 함수를 사용하여 Google BigQuery에 씁니다. BigQuery에 쓰면 BigQuery에서 분석할 뿐만 아니라 BigQuery와 통합되는 다른 도구 및 서비스 (예: Looker Studio)에서 사용할 수도 있습니다. - 대량 추출은 여러 지점 주변의 이미지 256x256 패치를 다운로드합니다. 이는 작은 픽셀 패치에서 학습 및 추론을 사용하는 머신러닝 워크플로에서 일반적입니다.
처리 중
이 필드는 특정 결과를 생성하는 데 사용된 픽셀 처리 파이프라인을 보여줍니다. 이러한 모든 작업에는 기본적으로 래스터 이미지 (직접 내보내기, 도형으로 샘플링 또는 패치 추출)가 포함되며 '처리' 옵션은 해당 래스터에서 픽셀을 생성하는 메커니즘을 설명합니다.
유일한 옵션은 'Sentinel-2 모자이크'이지만 향후 이 페이지가 업데이트되어 다양한 처리 옵션과 관련된 벤치마크를 표시할 수 있습니다. Sentinel-2 모자이크는 관련 기간, 해상도 등의 Sentinel-2 데이터를 기반으로 필터링 및 합성 알고리즘을 사용하여 구성됩니다. 구체적인 매개변수와 작업은 측정 노트북에 설명되어 있습니다. Sentinel-2 컴포지션은 매우 일반적인 첫 번째 단계 또는 중간 데이터 제품이지만 구체적인 매개변수(예: 구름 덮음 비율)는 다릅니다.
지역
여기에서 사용되는 지역은 다음과 같습니다.
베이 지역: 샌프란시스코 베이 지역 주변의 간단한
ee.Geometry.Rectangle
입니다. 이 이미지에는 육지와 바다 픽셀이 모두 포함되어 있으므로 일부 지역은 Sentinel-2 이미지로만 표시됩니다.면적 (약) 10m/픽셀 크기 30m/픽셀 크기 120m/픽셀 크기 22,779km² [21342,13554]
2.9E8픽셀[7114x4518]
3.2E7픽셀[1779x1130]
2010270픽셀나이지리아: 단순화된 LSIB 데이터 세트의 나이지리아 경계입니다. 이 지역은 가장 넓은 지역이며, 구름이 많은 지역 (구름이 없는 픽셀이 적음)이면서 적도에 가까워 (Sentinel-2와 같은 극궤도 위성의 방문 빈도가 상대적으로 적음) 흥미롭습니다.
면적 (약) 10m/픽셀 크기 30m/픽셀 크기 120m/픽셀 크기 912,554km² [133595x107035]
1.4E10픽셀[44532x35679]
1.6E9픽셀[11133x8920]
9.9E7픽셀독일: 단순화된 LISB 데이터 세트의 독일 경계입니다. 다른 지역보다 시즌성의 영향을 더 많이 받습니다.
면적 (약) 10m/픽셀 크기 30m/픽셀 크기 120m/픽셀 크기 356,077km² [102130x86666]
8.9E9픽셀[34044x28889]
9.8E8픽셀[8511x7223]
6.1E7픽셀
영역에 관한 자세한 내용은 Code 편집기의 영역 뷰를 참고하세요.
확장
모든 픽셀 계산은 그리드 내에서 이루어집니다 (예: 샘플링할 모자이크를 만들 때). 여기에 설정된 배율은 투영의 실제 배율 지점에서 픽셀의 크기를 미터 단위로 제어합니다.
'scale' 값을 더 크게 사용하면 해상도가 낮아집니다. 예를 들어 'scale'을 늘리면 지역의 이미지 내보내기에서 픽셀 수가 줄어듭니다.
기간
각 작업은 기본 데이터 세트에서 합성 단계를 실행합니다. 여기에 표시된 기간은 데이터 세트를 필터링할 때 고려되는 총 캘린더 시간입니다 (일반적으로 시간이 길수록 데이터가 더 많음).
여기서 구체적인 기간은 2024년 1월 1일 이전의 3개월, 6개월, 1년입니다.
샘플
샘플 수는 작업에 따라 다르게 해석됩니다.
테이블 형식의 데이터를 BigQuery로 내보낼 때는 데이터 세트에서 샘플링되어 내보낸 무작위 포인트의 개수입니다. 다시 말해 최종 BigQuery 데이터 세트의 행 수입니다.
대용량 API 엔드포인트를 사용하여 TFRecord 패치를 내보낼 때는 관심 영역 내 임의의 지점에서 샘플링된 총 256x256픽셀 영역의 개수입니다. 패치는 이 방법론과 겹칠 수 있습니다.
이미지 내보내기의 경우 일반적인 의미에서 '샘플링'되지 않으므로 (모든 픽셀 값이 계산됨) 샘플 수가 '해당 사항 없음'으로 표시됩니다. 이미지 내보내기를 샘플의 그리드로 생각할 수 있으며, 여기서 샘플 수는 결과의 픽셀 수입니다.
이 데이터를 사용하는 방법
이 측정값 예시는 설명을 위한 것입니다. Earth Engine 성능 및 EECU 시간 비용의 실제 사례를 제공하기 위한 것이지만 보장되는 것은 아닙니다. 자세한 내용은 '주의사항' 섹션을 참고하세요.
자체 처리 워크플로를 사용하여 샘플을 생성하려면 '노트북' 섹션의 두 노트북을 사용하세요. 이를 통해 맞춤 코드에 대한 여러 측정값을 생성하고 Cloud Monitoring에서 결과를 읽고 집계할 수 있습니다.
주의사항
캐싱은 이러한 결과에 영향을 미치지만 임의 시드 (측정 노트북의 RANDOM_SEED
)를 사용하면 캐시된 결과를 최대한 건너뛰어 실행 간에 값을 더 일관되게 만들 수 있습니다. 그러나 이 기법은 완벽하지 않습니다. 직접적인 사용자 제어 범위에 속하지 않는 캐시 (예: 이미지 타일의 캐시)가 있기 때문입니다.
데이터 카탈로그의 상태도 이러한 결과에 영향을 미칩니다. 기본 컬렉션이 변경되거나, 다시 처리되거나, 새 데이터가 백필될 수 있기 때문입니다.
또한 Earth Engine 제공 인프라의 모든 사용자의 활동 수준도 영향을 미칠 수 있습니다. 캐시의 시스템 전반적인 사용량이 많거나 유사한 계산을 실행하는 다른 사용자가 많으면 결과의 EECU 시간이 영향을 받을 수 있습니다.
벤치마크 데이터
이는 실제 벤치마크 (2024년 3월 8일 현재 실행에 드는 실제 비용)이지만 보장되지는 않습니다. 실제 컴퓨팅 비용은 상당히 달라질 수 있습니다.
EECU 시간당 처리 비용은 Google Cloud 결제의 특정 요금제 및 통화 변환에 따라 다를 수 있습니다 (예: USD 또는 EUR).
- 이미지 내보내기
- BigQuery로 내보내기
- 대량 추출
- Sentinel-2 컴포지트
- Bay Area
- 독일
- 나이지리아
- 10미터
- 30미터
- 120미터
- 3개월
- 6개월
- 12개월
- 해당 사항 없음
- 샘플 100개
- 샘플 500개
- 샘플 1,000개
Earth Engine 벤치마크에 관한 참고사항