Android XR、Geospatial API、Gemini を使用して複合現実ツアーガイドを構築する

7 分で読了

今年の Google I/Oで、空間エクスペリエンスのアップデートを発表しました。Geospatial APIJetpack XR 用 ARCoreでプレビュー版として利用できるようになりました。Google の Visual Positioning System(VPS)を Android XR に導入することで、Android XR は、対応エリアでデジタル コンテンツを 1 メートル未満の精度で現実世界に固定し、正確な方向を特定できるようになります。*Geospatial API で何ができるかを探るため、Google のチームはデモとして XR Geospatial Tour を構築しました。

新しい街を歩きながら、有線 XR グラス(近日発売予定の XREAL Project Aura など)を装着すると、知識豊富な地元のガイドがすぐに案内してくれることを想像してみてください。2D マップを見下ろす必要はありません。3D モデルが優しく道を案内し、目の前にある史跡についてインテリジェントな音声で説明してくれます。Google は、Geospatial APIFirebase AI Logic を使用した Gemini APIGoogle マップのグラウンディングJetpack XR SDK を組み合わせて、ハンズフリーの没入型ウォーキング ツアー エクスペリエンスを作成しました。

 

 

免責事項: 動画とツアーガイド アプリケーションはデモ用です。一部のシーケンスは短縮されています。描かれているハードウェアは開発中のものであり、最終製品の詳細は異なる場合があります。

実装の詳細について説明し、これらの API を組み合わせて世界規模の空間エクスペリエンスを構築する方法を紹介します。

1. ARCore Geospatial API(VPS)でユーザーの位置を特定する

GPS のパワーと VPS の精度を組み合わせることで、XR でのナビゲーション エクスペリエンスを向上させることができます。VPS の精度と正確な方向により、3D ウェイポイントを現実世界に合わせることができます。

Android XR の Geospatial API を使用すると、カスタム エクスペリエンスを構築できます。高度なコンピュータ ビジョンを使用することで、VPS は GPS よりも正確なGeospatialPose(緯度、経度、方角を含む)を提供しようとします。

デバイスの向きを Geospatial 座標にマッピングして、ユーザーの Geospatial ポーズを取得する方法は次のとおりです。

// Retrieve the current geospatial pose from the ARCore session
val result = geospatial.createGeospatialPoseFromPose(arDevice.state.value.devicePose)
if (result is CreateGeospatialPoseFromPoseSuccess) {
    val pose = result.pose
    Log.d("VPS", "Accurate Location: ${pose.latitude}, ${pose.longitude}")
}

エクスペリエンス全体がこの精度に依存しているため、horizontalAccuracyorientationYawAccuracy がしきい値を満たすまでモニタリングします。ユーザーが屋内または認識されない場所にいる場合は、「屋外の公共スペースに移動して周囲を見渡してください」というメッセージが表示されます。

2. Gemini API と Google マップのグラウンディングで旅程を作成する

場所が特定されたら、Firebase AI Logic を使用した Gemini API を使用して、Gemini モデルに地元のツアーガイドとして機能するように指示します。ユーザーの座標をモデルに渡し、近くのウォーキング ツアーを含む構造化された JSON レスポンスを出力するように指示します。

   val configForTools = ToolConfig(
      functionCallingConfig = null,
      retrievalConfig = retrievalConfig {
        latLng = FirebaseLatLng(pose.latitude, pose.longitude)
        languageCode = "en"
      }
    )

    val responseJsonSchema = Schema.obj(
      mapOf(
        "locationIntro" to Schema.string(),
        "tours" to Schema.array(
          Schema.obj(
            mapOf(
              "title" to Schema.string(),
              "description" to Schema.string(),
              "stops" to Schema.array(
                Schema.obj(
                  mapOf(
                    "name" to Schema.string(),
                    "detailedName" to Schema.string(),
                    "description" to Schema.string()
                  )
                )
              )
            )
          )
        )
      )
    )

    val model = Firebase.ai(backend = GenerativeBackend.googleAI()).generativeModel(
      modelName = "gemini-3.5-flash",
      tools = listOf(Tool.googleMaps()),
      generationConfig = generationConfig {
        responseMimeType = "application/json"
        responseSchema = responseJsonSchema
      }
    )

   val result = model.generateContent("The user is at latitude ${pose.latitude} and longitude ${pose.longitude}. Generate exactly 3 diverse tours near this location (e.g., historical, food, nature). All tour ideas should be walking distance only.")

大規模言語モデルは豊富な説明を生成するのに優れていますが、正確な緯度/経度座標をハルシネーション(幻覚)することがあります。この問題を解決するために、Google マップのグラウンディングを使用して AI をグラウンディングしました。

3. 音声で案内する: Gemini 2.5 TTS

ツアーガイドが本当に存在しているように感じられるように、動的な音声解説を実装しました。

gemini-2.5-flash-tts model を使用すると、モデル生成構成を構成して、テキストだけでなく音声データをネイティブに返すことができます。ResponseModality.AUDIO をリクエストする方法は次のとおりです。

val ttsModel = Firebase.ai(backend = GenerativeBackend.googleAI())
    .generativeModel(
        modelName = "gemini-2.5-flash-tts",
        generationConfig = generationConfig {
            // Instruct the model to return Audio
            responseModalities = listOf(ResponseModality.AUDIO)
        }
    )

val response = ttsModel.generateContent("Say in a neutral but positive voice:\n$prompt")

// Extract the raw audio bytes from the response
val audioBytes = response.candidates.firstOrNull()?.content?.parts
    ?.filterIsInstance<InlineDataPart>()
    ?.firstOrNull { it.mimeType.contains("audio") }?.inlineData

4. Jetpack XR で 3D で再現する

最後のピースは、このデータをユーザーの視野にレンダリングすることです。Jetpack XR SDK を使用すると、2D Android UI から空間コンピューティングに直感的に移行できます。

Jetpack Compose for XR を使用して空間コンポーネントを構築しました。ツアーのポイントを表すために、InfoSphere という Composable を作成しました。これには、空間に浮かぶ 3D オーブの GltfModel が含まれており、操作して情報を表示できます。

Jetpack XR SDK を使用すると、SpatialBoxSceneCoreEntity を使用して、Compose UI の横に 3D モデルを配置できます。また、InteractableComponent を使用して、ユーザーのタップに応答しました。

従来の Compose UI サーフェスの AnimatedSpatialVisibility と SceneCoreEntity 3D 要素を組み合わせることで、データを現実世界にシームレスに統合できます。

@Composable
fun InfoSphere(
    content: InfoBubbleContent,
    session: Session,
    sphereModel: GltfModel,
    isSelected: Boolean,
    onClick: () -> Unit
) {
    // SpatialBox lets us arrange 3D components and SpatialPanels together
    SpatialBox(
        SubspaceModifier
            .offset(x = 2.dp, y = 1.dp, z = (-3).dp) // Positioned in 3D space
    ) {
        // Smoothly animate the visibility of our 2D Compose UI Panel
        AnimatedSpatialVisibility(visible = isSelected) {
            SpatialPanel {
                InfoBubble(content) // Regular 2D Compose UI
            }
        }
        // Render our interactive 3D sphere
        SceneCoreEntity(
            factory = {
                GltfModelEntity.create(session, sphereModel).also { entity ->
                    // Make the 3D model respond to user taps
                    entity.addComponent(InteractableComponent.create(session) { inputEvent ->
                        if (inputEvent.action == InputEvent.Action.UP) {
                            onClick()
                        }
                    })
                }
            }
        )
    }
}

Android XR でできることを確認する

XR Geospatial Tour アプリを構築したことで、Android デベロッパーにとって、世界規模の空間エクスペリエンスの参入障壁がこれまで以上に低くなっていることがわかりました。Android XR で Geospatial API がプレビュー版として利用できるようになったため、アプリは周囲の現実世界をシームレスに理解できます。_Compose for XR_ の API を VPS の高精度な位置情報データと Gemini の生成機能と組み合わせることで、ユーザーがどこにいるか、何を見ているかを理解するエクスペリエンスを作成できます。

Android XR を実際に体験していただけるよう、XREAL Project Aura を含む Android XR デベロッパー Catalyst プログラムへの応募を開始しました。本日より、今後数か月以内に XREAL Project Aura デベロッパー キットまたはディスプレイ グラス デベロッパー キットを入手するための応募を開始します。

*免責事項: 一部のデバイスで利用できます。インターネット接続が必要です。対応するアプリおよびサーフェスで機能します。結果は状況に応じて変わります。

続きを見る