たとえば、友人からメールで届いた「キャンプの持ち物リスト」を開いた状態で「これをリマインダーに追加して、家に帰ったら通知して」と話しかける。するとSiriは画面のテキストを読み取ってリスト化し、自宅に着いたタイミングで知らせる場所ベースの通知まで、一度の依頼で設定してくれる。「今、目の前にあるこれ」を主語にして頼める感覚は、想像以上に効く。
画面の内容を理解して動くという発想自体は、実はアップル独自のものではない。グーグルは2026年5月の「Android Show 2026」で発表した「Gemini Intelligence」で、画面に表示されたテキストやUI要素を解析し、ユーザーに代わってアプリを操作する機能を打ち出している。GeminiはPixelでもAndroidの「Screen Context」設定を通じて画面のテキストやスクリーンショットを読ませられる。
アプローチの違いはこうだ。グーグルは画面理解をすでに製品化して先行しており、アップルは「OSの標準アシスタントが、追加設定なしで画面の文脈を扱う」点に重きを置く。OpenAIのChatGPTなど汎用AIは依然として、ユーザーがスクリーンショットや前提情報を「先に渡す」必要がある。アップルの新Siriが狙うのは、この「渡す手間」を端末側が肩代わりする体験だ。
「誰が言ってたっけ」を探して実行
筆者が本社で思わず声を上げたのが、ここだ。「妹が最近すすめてくれたポッドキャストを再生して」と頼むと、Siriは連絡先で「妹」と登録された相手のメッセージ履歴を探し出し、ポッドキャストアプリで再生まで一気に繋げた。
これまでなら、メッセージアプリを開いてアプリ内検索をかけ、「あれ何だっけ」と自分で探す必要があった作業だ。それを、話しかけるだけで完結させてくれる。端末内のメッセージ、メール、写真、メモを横断して意味を理解し、行動まで起こす――「言葉にすると当たり前だが、実はかなり難しいこと」を、Siriはさらりとやってのける。複数のアプリを行き来していた時間が消える点は、メールと予定とメモを一日中往復する人ほど恩恵が大きい。
こうした「文脈を理解して実行する」力は、これまで手の届きにくかった機能のハードルも下げる。たとえばiPhoneには、複数の操作を自動化できる「ショートカット」アプリが標準搭載されているが、「使いたいけれど設定が難しい」と感じる人が大半だった。それが新しいOSでは、やりたいことを言葉で説明するだけでショートカットが自動で組み上がり、Siriから呼び出して実行できる。これまで一部のマニアだけのものだった自動化が、話しかけるだけで誰でも使える領域に入ってくる。

