網路監視器的運作方式 - Amazon CloudWatch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

網路監視器的運作方式

本節提供有關 Amazon CloudWatch Internet Monitor 如何運作的資訊。這包括如何 AWS 收集用於協助偵測網際網路連線問題的資料,以及如何計算效能和可用性分數的說明。

內容

Internet Monitor 如何專注於僅您的應用程式流量足跡

網路監視器僅專注於監控 AWS 資源使用者存取的網際網路子集,而不是像其他工具一樣廣泛監控來自全球每個區域的網站。這也是一種具有成本效益的解決方案,大型公司和小型公司都負擔得起。

網路監視器使用相同的強大探查和問題偵測演算法,這些演算法 AWS 利用內部,並透過在網路監視器中建立運作狀態事件來提醒您影響應用程式的連線問題。接著,網路監視器會依據應用程式資源,藉由覆蓋您作用中檢視者建立的流量設定檔,讓您存取產生的效能和可用性地圖。

網路監視器僅會使用這些資訊向您顯示相關事件 (即具有作用中檢視者之位置所發生的事件),以及這些事件對整體檢視者數量的影響。因此,事件具有多少影響,以百分比表示,取決於您全球的總流量。

網路監視器會儲存用戶端位置對 和 ASNs或城市網路 的網際網路測量。網路監視器也會為應用程式流量以及每個 AWS 區域 和邊緣位置建立彙總 CloudWatch 指標。

此外,網際網路監視器每五分鐘會將網際網路測量結果發佈至 CloudWatch 記錄網際網路,讓將流量傳送到每個監視器的前 500 個城市網路能夠支援使用 CloudWatch 工具和資料的其他方法。您也可以選擇將所有受監控之城市網路 (最多 500,000 個城市網路服務限制) 的網際網路度量發佈至 Amazon S3 儲存貯體。如需詳細資訊,請參閱在 Amazon Internet Monitor 中將網際網路測量發佈至 Amazon S3 CloudWatch

網路監視器的優點如下:

  • 使用網路監視器不會給 AWS上託管的應用程式增加額外負載或成本。

  • 您無需在用戶端資源或應用程式中納入效能測量代碼。

  • 您可以了解應用程式連線之網際網路的效能和可用性,包括「最後一哩」相關資訊。

請注意,由於網際網路監視器會根據您的 AWS 資源建立測量,因此網際網路監視器只會建立應用程式流量特有的事件。一般來說,不會回報全域網際網路問題。此外,當服務位置為 時 AWS 區域,發出的測量和事件旨在代表區域層級的連線,並且不會準確表示最終使用者位置與可用區域之間的連線。

如何 AWS 測量連線問題和計算測量

Amazon CloudWatch Internet Monitor 透過自治系統編號 (POPs) 在不同 Amazon 存在 CloudFront 點 () AWS 區域 與不同用戶端位置之間使用網際網路連線資料ASNs,通常是網際網路服務供應商 ()ISPs。這是 AWS 運算子每天在內部使用的連線資料,用於主動偵測全球網際網路的連線問題。

對於每個 AWS 區域,我們知道網際網路的哪些部分與 區域通訊,並執行下列動作:

  • 我們會積極監控該部分的網際網路,30 天為一個時段,滾動監控。

  • 我們會同時使用網路和高階通訊協定探查工具,包括輸入和輸出探查。

AWS 具有主動和被動探查,可測量從 CloudFront 服務到整個網際網路的每個 AWS 區域 和 90 百分位數的延遲 (效能) 和可連線性 (可用性)。服務與客戶位置之間的連線異常模式會受到監控,然後以提醒的形式向客戶報告。

如需詳細資訊,請參閱下列的章節:

計算可用性和 RTT

往返時間 (RTT) 是使用者傳回回應給使用者的請求所需的時間。不同最終使用者位置的往返時間彙總值會根據每個最終使用者位置驅動的流量大小加權。

例如,有兩個最終使用者位置,一個服務 90% 的流量,一個服務 5 ms 的流量RTT,另一個服務 10% 的流量,10 ms 的流量RTT,結果為 5.5 ms RTT的彙總 (從 5 ms * 0.9 + 10 ms * 0.1)。

請注意,測量最後一哩延遲的資源有所不同。對於網際網路監視器延遲測量,VPCs、Network Load Balancer 和 WorkSpaces 目錄不包含最後一哩延遲。

計算效能和可用性分數

AWS 具有大量的歷史資料,關於 AWS 服務和不同城市網路 (位置 和 ASNs) 之間的網際網路效能和可用性。網路監視器可藉由對這些資料進行統計分析,偵測應用程式效能和可用性下降的時機,並將效能和可用性與已計算的預估基準比較。為了方便您查看上述下降情況,會以運作狀態分數形式 (效能分數和可用性分數) 向您回報該資訊。

我們會以不同精細度計算運作狀態分數。以最精細的程度,我們計算地理區域的運作狀態分數,例如城市或都會區域,以及 ASN(城市網路 )。我們也會將監視器中應用程式的個別運作狀態分數,彙總為整體運作狀態分數。如果您在未篩選任何特定地理區域或服務提供者的情況下,檢視效能或可用性分數,網路監視器會提供整體運作狀態分數。

整體運作狀態分數會涵蓋指定時段內的整個應用程式情況。整個應用程式城市網路配對的效能或可用性分數達到或低於效能或可用性的相應運作狀態事件閾值時,網路監視器會觸發運作狀態事件。整體效能和可用性閾值預設都是 95%。網路監視器也會根據您設定的值,依局部閾值 (如果預設啟用該選項)建立運作狀態事件。若要進一步了解設定運作狀態事件閾值,請參閱變更運作狀態事件閾值

當您探索監視器和日誌檔案中的資訊以調查問題並進一步了解時,您可以依特定城市 (位置)、網路 (ASNs 或網際網路服務供應商) 或兩者進行篩選。因此,您可以根據您選擇的篩選條件,使用篩選條件來查看不同城市ASNs、 或城市網路對的運作狀態分數。

  • 可用性分數表示發現可用性下降的預估流量百分比。網路監視器會根據監控到的總流量和可用性指標測量結果,預估經歷可用性下降的流量百分比。例如,最終使用者/服務位置配對的可用性分數為 99%,這表示該對經歷可用性下降的流量為 1%。

  • 效能分數表示發現效能下降的流量百分比。例如,最終使用者/服務位置配對的效能分數為 99%,這表示該對經歷效能下降的流量為 1%。

計算 TTFB和 RTT(延遲)

到第一個位元組 (TTFB) 的時間是指用戶端發出請求到從 server. AWS calculations 收到第一個位元組資訊之間的時間。計算用於TTFB測量從 Amazon EC2或 Amazon CloudFront 到網際網路監視器測量節點 (包括節點最後一英里) 所經過的時間。也就是說,網際網路監視器TTFB會針對 測量使用者到 Amazon EC2區域的時間EC2,以及針對 測量使用者到 CloudFront TTFB的時間 CloudFront。

對於往返時間 (RTT),網際網路監視器包含從城市網路 (即用戶端位置和 ASN,通常是網際網路服務供應商) 到 的時間,如公有 IP 地址所映射 AWS 區域。這表示從閘道或 後方存取網際網路的使用者,網際網路監視器沒有最後一哩可見性VPN。

請注意,測量最後一哩延遲的資源有所不同。對於網際網路監視器延遲測量,VPCs、Network Load Balancer 和 WorkSpaces 目錄不包含最後一哩延遲。

網路監視器包含 CloudWatch 儀表板上流量洞察索引標籤的流量最佳化建議區段中的平均TTFB資訊,可協助您評估應用程式不同設定的選項,以改善效能。

區域和可用區域測量和彙總

雖然網際網路監視器會在區域層級彙總測量並共用影響,但會在可用區域 (AZ) 層級計算影響。這表示,如果事件中只有一個 AZ 受到影響,且您的大多數流量流經該 AZ,您確實會看到對流量的影響。不過,對於相同的事件,如果您的應用程式流量未流經受影響的 AZ,則不會看到影響。

請注意,這僅適用於非 WorkSpaces Directoryies 的資源。 WorkSpaces 目錄只會在區域層級進行測量。

網路監視器的地理位置準確度

對於位置資訊,網際網路監視器會使用 提供的 IP 地理位置資料MaxMind。網路監視器測量中位置資訊的準確性取決於 MaxMind資料的準確性。

請注意,對於美國以外的地點,Metro水準測量可能不精確。

網路監視器建立和解決運作狀態事件的時機

網路監視器會根據目前設定的閾值,為您監控的應用程式流量建立和關閉運作狀態事件。網路監視器有預設閾值組態,您也可以設定自己的閾值組態。網路監視器會判斷連線問題對您應用程式造成的整體影響,以及對應用程式有用戶端之局部區域的影響,並在超過閾值時建立運作狀態事件。

網路監視器會根據服務可透過 取得之網路流量的網際網路效能和可用性的歷史資料,計算連線問題對用戶端位置的影響 AWS。它會根據用戶端使用您應用程式的地理位置ASNs和服務,套用與您應用程式相關的資訊:受影響的城市網路對。位置是根據您新增至監視器的資源決定。網路監視器就會使用統計分析,偵測效能和可用性下降的時機,這會影響應用程式用戶端體驗。

網路監視器計算的效能和可用性分數會以發現下降的流量百分比來表示。影響則與此相反:表示問題對客戶的最終使用者造成的問題嚴重程度。例如,若全域可用性下降是 93%,則對應的影響將會是 7%。

應用程式城市網路配對的效能或可用性分數全域達到或低於效能或可用性的相應運作狀態事件閾值時,會使網路監視器產生運作狀態事件。效能和可用性閾值預設都是 95%。符合或低於閾值的值是累積計算,因此可能代表幾個較小事件合起來達到閾值百分比,或者單一事件達到或低於閾值層級。

只要觸發事件的效能或可用性分數符合或低於相應整體影響運作狀態事件閾值百分比,運作狀態事件就會保持未解決狀態。觸發事件的分數或合併分數上升到超過閾值時,網路監視器會解決運作狀態事件。

網路監視器也會根據局部閾值和問題影響的整體流量百分比,建立運作狀態事件。您可以設定局部閾值的選項,或一併關閉局部閾值。

效能分數和可用性分數的預設運作狀態事件閾值都是 95%。如果您願意,可以在網際網路監視器建立運作狀態事件時指定自己的自訂閾值。如需設定閾值的詳細資訊,請參閱變更運作狀態事件閾值

運作狀態事件回報時機

網路監視器會使用彙總器來收集有關網際網路問題的所有訊號,以在幾分鐘內於監視器中建立運作狀態事件。

如果可能,網際網路監視器會分析運作狀態事件的來源,以判斷其是由 AWS 或 所造成ASN。在事件解決後,運作狀態事件分析會繼續進行。網路監視器最多可以使用新資訊更新事件一小時。

網際網路監視器如何使用 IPv4和IPv6流量

如果您透過任何 IP 系列 (IPv4 或 ) 將流量提供給該網路,網際網路監視器只會透過 來測量網路的運作狀態IPv4,並顯示運作狀態事件,以及可用性和效能指標IPv6。如果您從雙堆疊資源提供流量,例如雙堆疊 CloudFront 分佈,則網際網路監視器會引發運作狀態事件,並僅在IPv4流量具有與IPv6流量相同的資源問題時,才會顯示效能分數或可用性分數下降。

請注意, 和 位元組輸出中整體位元組的網際網路監視器指標會準確反映所有網際網路流量 (IPv4 和 IPv6)。

網路監視器如何選取要包含的城市網路子集

當您設定監控器監控的城市網路數量上限,或選擇要監控的流量百分比時,網際網路監控會根據最新的流量磁碟區選擇要包含 (監控) 的城市網路。

例如,如果您將城市網路上限設定為 100,網際網路監視器會根據最近 1 小時內的應用程式流量來監控 (最多) 100 個城市網路。具體而言,網際網路監視器會監控最近一小時時段內流量最多的前 100 個城市網路。

若要說明這一點,請表示目前時間是下午 2:30。在此案例中,您在監視器中看到的流量是在下午 1:00 到下午 2:00 之間擷取,而網際網路監視器用來判斷前 100 個城市網路的流量測量是在下午 12:00 到下午 1:00 之間擷取。

如何建立全球網際網路天氣圖 (常見問題)

Amazon CloudWatch Internet Monitor 網路氣象圖可在網際網路監視器主控台上提供給所有已驗證 AWS 的客戶。本節包含如何建立網際網路氣象圖以及如何使用它的詳細資訊。

什麼是網際網路監視器網際網路天氣圖?

網際網路天氣圖提供全球網際網路問題的視覺化表示。它強調受影響的用戶端位置,即城市加上 ASN(通常是網際網路服務供應商)。地圖顯示可用性和效能問題的組合,這些問題最近影響了全球頂級用戶端位置 AWS 和服務的客戶網際網路體驗。

地圖的資料來自何處?

資料是以網際網路的主動和被動探查組合為基礎。若要進一步了解網際網路監視器如何測量資料,您可以閱讀 如何 AWS 測量連線問題 一節。

地圖多久更新一次?

網路氣象圖每 15 分鐘更新一次。

哪些網路會追蹤中斷?

AWS 追蹤全球網路,這些網路代表客戶用來建立 網際網路連線的重要 IP 字首 AWS。對於網路傳送和接收的流量,我們將中斷範圍範圍範圍範圍範圍範圍範圍範圍範圍範圍範圍範圍範圍範圍範圍範圍範圍為最佳發言者的用戶端位置 AWS 。

什麼決定了地圖中是否包含網際網路事件?

以下是我們用來判斷網際網路天氣圖中是否包含網際網路事件的一些高階條件:

  • AWS 偵測到有可用性或效能事件。

  • 例如,如果事件短暫存在,持續時間不到 5 分鐘,我們會忽略它。

  • 然後,如果事件位於分類為熱門發言者的用戶端位置,則視為中斷。

網路氣象圖使用哪些閾值?

用於判斷中斷的閾值對於網際網路天氣圖不是靜態的。網路監視器會根據偵測與預期值的偏差,來決定事件的構成。您可以透過檢閱網際網路監視器如何判斷何時為使用 服務建立的監視器建立運作狀態事件,來進一步了解運作方式。當您建立監視器時,網際網路監視器會產生專屬於您自己的應用程式流量的網際網路流量運作狀態測量。網路監視器也會針對影響應用程式網際網路流量的問題,提醒您運作狀態事件。

我可以如何處理此資料?

網際網路天氣圖提供過去 24 小時內在全球各地發生的關鍵網際網路事件的快速摘要。它可協助您獲得網際網路監控體驗的風味,而無需將您自己的網際網路流量加入網際網路監控。若要充分利用 AWS 和 的網際網路監控功能,針對託管在 上的應用程式和服務將其個人化 AWS,您可以在網際網路監視器中建立監視器。

建立監視器時,您可以讓網際網路監視器識別影響應用程式用戶端的特定網際網路路徑,並存取可協助您改善客戶體驗的 功能和功能。您也會主動收到特別影響應用程式流量和用戶端的新網際網路問題通知。

如何取得事件的更多詳細資訊?

按一下地圖上的中斷以查看詳細資訊,包括事件何時開始和結束、受影響的城市和 ASN,以及它是什麼類型的問題 (即效能問題或可用性問題)。

若要取得事件的詳細資訊,以及取得應用程式流量的自訂測量,請在網際網路監視器 中建立監視器