これはレイアウト確認用のダミーテキストです。
Mapbox Movementの調整
これはレイアウト確認用のダミーテキストです。
Mapbox Movementの調整

Mapbox Movement は、研究機関 がCOVID-19危機に対する人々の反応を調査したり、大手小売業者、物流会社、および営業チームが事業の優先順位を決定するのに役立つデータ製品です。これは、特定の地域における人々の密度と、他の地域や過去の日付と比較して、それらの人々がどれだけ移動しているかについて、重要な質問に答えるのに役立ちます。Mapbox Movementは、集約されたモバイルデバイスのテレメトリを調整されたセンサーとして使用して、空間と時間の両方で人々の密度を近似する、当社独自のデータセットです。この記事では、Mapbox Movementデータが何であるかを簡単に説明し、次に、その調整方法について詳しく説明します。

人間の密度を常に正確に測定することはできません。ただし、ごくわずかな空間と時間であれば、非常に簡単に行うことができます。スマートフォンや車載ナビゲーションシステムのようなGPS対応でインターネットに接続されたデバイスの普及と、それらが生成する匿名化されたデータのストリームにより、Mapboxはほぼすべての場所で、ほぼすべての時間、空間と時間におけるデバイス密度を測定できます。
プライバシーに関する注記: Mapboxでは、ユーザーから完全に匿名化されたデータのみを収集および使用し、収集したデータの責任ある管理者であり続けるよう努めています。プライバシーポリシーの詳細については、こちらをご覧ください。テレメトリデータの使用に関する原則については、こちらをご覧ください。
一言で言えば、Mapbox Movement製品は、Mapboxを通過する集約された(そして匿名化された)GPSテレメトリをセンサーとして表しており、これを調整して、空間と時間における人間の密度の相対的な傾向に関する興味深く貴重なデータを取得します。
3つのブロックの物語: サンフランシスコの3つの異なるブロックで測定された、2020年2月/3月/4月のCOVID19の制限の影響を示す、無料でお試しいただける公開データからの例:


いくつかのトレンド:
適切な調整は常に困難であり、それは特にここで当てはまります。人間の密度の数値の実際のグラウンドトゥルース測定は、必要な非常に細かい空間的および時間的スケールでは存在しません。他のプロバイダーからの同様のデータセットは他にも存在し、データの健全性チェックのために、定期的にそれらのデータと比較しています(Appleのモビリティ、Googleのモビリティ、およびエコノミストのノーマルシーインデックスとの比較については、こちらのアナウンスをご覧ください)。ただし、それらのいずれも「グラウンドトゥルース」ではありません。
Mapbox Movementは、「デバイス密度の調整」において、競合他社よりも大きなアドバンテージを持っています。Mapboxを利用した地図は、多数の異なるアプリで使用されており、それぞれが異なるユーザー層を対象とし、主要なモバイルデバイスプラットフォーム(iOSとAndroid)の両方で、世界中で実行されています。平均の法則を使用することで、データ自体を調整することができます。
中間の力:各アプリが全体的な母集団の異なる、相関性のないサブサンプルをサンプリングすると仮定すると、各アプリのアクティビティのデバイス密度タイムラインを計算し、それらのタイムライン全体で中央値を求めることができます。その中央値曲線は、デバイス密度の生の集計よりも、人間の密度の傾向をはるかに信頼性の高い尺度となります。異なるアプリのユーザーベースが互いに相関性が高い場合、この仮定は成り立ちません。ただし、当社のデータでは、多くの場合、それらが考えるよりも相関性が低いことが示されています。Mapboxは、天気アプリから車載ナビゲーション、フィットネスアプリ、位置情報ゲームまで、あらゆるものを強化しており、それぞれが実際に現実の人間の非常に異なるサブセットをサンプリングしています。
アクションの中間: 以下のプロットは、2020年2月/3月/4月におけるサンフランシスコのアプリごとのデバイス密度カウントのプロキシを示しています。色付きの各線は、単一のアプリから集約および匿名化されたデータを示しています。注:これらの曲線はアプリごとのデバイス密度と相関していますが、これらの値の直接的な尺度ではありません。


このアプリの多様性というコンセプトは、両刃の剣です。Mapboxを使用するアプリは、時々チャーンします。最近Mapboxの使用を開始した新しいアプリから大量のデータが流れ始めたり、アプリが突然消えたり、一部のアプリが1つの都市で数日間だけ口コミで広まったりすることがあります。これらの個々のアプリが十分に人気がある場合、これらの種類の変更は、母集団サンプリング率(したがって、総データ数)に大きな影響を与えます。中央値が再び救済に:プロバイダー間の中央値メカニズムは、偏ったサブ母集団効果の処理に加えて、アプリのチャーンの処理に最適です。
時間と空間について考える:アプリ間の中央値曲線は効果的ですが、中央値曲線を計算するのに十分な数の異なるアプリからの十分なデータが存在する場合にのみ機能します。アプリ間の中央値という考え方は、データを大量に消費します。データセットがアプリ間の中央値を取得するのに十分なテレメトリを厳密に必要とする場合、結果として得られるデータ製品は、比較的大規模な領域(例:都市)でのみ利用可能になり、ほとんどの顧客のユースケースに必要な、はるかに細かい粒度(例:単一の市街地)では利用できません。
実際のアクティビティが時間ごと、ブロックごとに異なっていたとしても、信号から調整された人口統計とアプリのチャーン効果は、より長い時間スケール(例えば、日ごと、月ごと)と、より大きな空間スケール(例えば、都市ごと、または都市対郊外対地方)でのみ変化します。この事実を利用して、単位のない補正係数Fを計算できます。より大きなスケールでアプリごとのメディアン曲線を計算し、その曲線と実際のデバイス密度曲線の間の差を測定します。次に、このFを、より細かい空間粒度で調整されたアクティビティ指標を得るために、未調整のデバイス密度に適用できるように、必要なより小さな空間スケールにスムーズに補間できます。
これをGIFで説明します:
日本は、これらのアプローチが結集した素晴らしい例を提供しています。2019年から2020年にかけて、Mapboxは日本での事業を劇的に拡大し、テレメトリの量は急増しました。日本の公式なCOVID-19対応は米国とは大きく異なっていましたが、COVIDは全世界に影響を与えました。同じ2020年2月から4月の期間を日本で見ると、当時の日本の街の様子がわかります。

生(未調整)のデバイス密度曲線は間違っています。少なくとも、日本の活動が4月に一晩で2倍になったわけではないため、人間の密度の貧弱なプロキシです。一方、調整されたアクティビティ曲線は素晴らしいように見えます。それは実際に何が起こっていたかを示しています。日本が減速し、自宅にいるようになったため、活動は継続的に低下しました。では、その奇妙なデバイス曲線で何が起こったのでしょうか? Mapbox で構築された新しいアプリケーションが、日本で膨大な量のデータを生成し始めました。
そして、その優れた調整済みアクティビティカーブに到達するには?それはすべて中央値にあります。以下は、その期間のアプリごとのデバイス密度曲線であり、黒色で中央値曲線が重ねられています。

右上にある赤い曲線にご注目ください。新しいアプリが4月1日にリリースされ、24時間以内に0から10,000,000に増加しています!(Y軸は対数スケールであることに注意してください。)しかし、中央値の曲線は安定したままです。したがって、中央値の曲線によって算出されるF-ファクターは、比較のタイムラインを損なうことなく、データカバレッジの劇的な拡大による精度の向上というメリットを享受できます。
さまざまな都市間、および都市と地方の間で、人口統計の変動をどのように考慮していますか(参照:この発表のローカライズされたアプリの調整セクション)?これは、都市規模の空間スケールでアプリごとのメディアン曲線を計算してF係数を算出し、それらのF係数を補間して、最終的なMovement製品が提供される都市ブロック規模を可能にすることによって実現されます。
Mapboxは全世界をカバーし、3年以上の履歴タイムラインを提供しています。これは、数百万行のデータを数十億行に補間することを意味します。これは、動的に計算される空間階層を利用して、ローカルを意識した方法で行われます。これにより、データの密度が地域によって大きく異なるため、データがサポートする最大空間粒度でアプリごとのメジアン曲線を定義できます。疎にサンプリングされ、空間的に変化する大規模なデータセットを、必要とされる詳細かつ均一な空間スケールに補間できます。
これらのデータを実際に入手して自分で調べてみたい場合は、こちらで公開サンプルデータについて詳しく知ることができます。
これはレイアウト確認用のダミーテキストです。