すべてのデータ型

読めるものはすべて証拠になる。

L0はディスク上の生データ。L1はエージェントが読める形式。L2は必要な時に構造化。同じURLが3つすべてに通る。

オフィスは多くの言語を読みます。 PDF、Excel、写真、ボイスメモ、JSONLチャットログ — すべてエージェントがgrepできる可読テキストになり、元のバイトまでスレッドで遡れます。

L0 — 生ファイル、グラウンドトゥルース

LAYER 0 · CANONICAL

到着したバイト。一切手を加えない。

オフィスが目にするあらゆる種類のファイルは、まずディスクに着地します。生バイトは届いたそのままに保存されます — 元のエンコーディング、元のタイムスタンプ、元のすべて。

Gmail · Outlook · SMTP。ヘッダー、本文、添付 — まとめて保持。

PDF

契約書、請求書、マニュアル、船級証書。

DOCX

書簡、提案書、議事録、社内メモ。

XLSX

帳簿、スケジュール、航海データ、KPI。

CSV · JSON

エクスポート、APIペイロード、ERPフィード — すでに構造化済み。

IMAGE

写真、スクリーンショット、スキャンされた帳票。L1でOCR + キャプション。

AUDIO

ボイスメモ、通話録音。L1で文字起こし。

VIDEO

ウォークスルー、デモ、CCTV。L1で文字起こし + キーフレーム。

CHAT

WhatsApp · Slack · Teams · Line。スレッド化された会話。

ERP ROW

ソースシステムからミラーリング。PMS、会計、乗組員。

RECEIPT

請求書、銀行明細、GST関連文書。

AGENT CHAT

エージェント自身の作業ログ。これも証拠として扱う。

生バイトはあるべき場所に留まる — 受信箱、ドキュメントフォルダ、写真フォルダ、チャットログのディレクトリ。決して動かさない。決して書き換えない。これらがオフィスのグラウンドトゥルースです。

L0 → L1 — 一度変換すれば、永遠に読める

LAYER 1 · READABLE

すべての生ファイルの隣にmarkdownサイドカーを置く。

PDFはエージェントにとってテキストではありません。写真もテキストではない。音声もテキストではない。小型で安価なモデルが各生ファイルを一度読み、可読な.mdサイドカーを書き、それを隣のディスク上に置きます。

RAW

ファイルが到着

2026-05-20-vendor.pdf · 届いた通りにバイトを保存。

READ

コンバータが読む

小型で安価なモデル。PDFのテキスト + 表。画像キャプション。音声の文字起こし。

.MD

サイドカーが書き出される

2026-05-20-vendor.mdが生ファイルの隣に並ぶ。フロントマターがバイトを指す。

USE

エージェントが.mdを読む

grep可能 · 引用可能 · 推論可能。生データは誰かが尋ねればワンクリックで参照できる。

↩

URL保持

フロントマターのsource_urlが生バイトまで遡るパスを保持。常に検証可能。

L1 → L2(任意)— 構造化解析を上に重ねる

LAYER 2 · ANALYSIS · OPTIONAL

必要なケースのための構造化抽出。

もう一度パスをかける価値があるファイルがあります。船舶レポートには燃料数値の表があり、請求書には明細行があり、CTスキャンには測定値があります。L2はこれらを可読な.mdの隣に置く構造化された.jsonとして捉えます。散文で十分な場合はこのレイヤーをスキップします。

JSONテーブル

XLSX、PDF、写真から構造化された行として抽出された表データ。

OCRテキスト

スキャンされた帳票や手書きメモを検索可能な文字列に変換。

文字起こし

音声 · 動画を話者タグ、タイムスタンプ、セグメント付きで。

要約

長い可読ファイルの先頭に置く短い段落。読了時間を最優先。

エンティティ

言及された人物 · 会社 · 船舶 · アクト。グラフ用にタグ付け。

URL保持

L2ファイルもsource_urlを保持。同じチェーン。途切れなし。

エージェント自身のチャットもLayer 0

エージェント自身の会話 — 何を尋ねられ、何を答え、どのツールが発火し、どのファイルを読んだか — も同じライブラリに流れ込みます。L0における単なるもう一つのファイル種別に過ぎません。

L0 · AGENT CHAT

エージェントの作業ログも証拠です。

Claude Codeは各セッションを.jsonlファイルに書き出します — 追記専用、1メッセージ1行。デーモンが行をライブラリDBにミラーリングします。ストーリービルダーは後で、エージェントチャットの付箋とメールの付箋を、ソースを気にせずに混ぜ合わせます。パイプラインは一つ。来歴も同じ。

Layer 0raw on disk.md sidecar.json structuredfrontmattersource_urlJSONL chatagent chat = evidence

次に読む

視点と付箋 L3 — 多くのレンズ、それぞれから1枚の短い付箋。

ストーリー L4 · L5 — 付箋が集約、ストーリーが相互リンク、最上層に最終ストーリー。

アーキテクチャライブラリはどう構築されるか。

オフィスライブラリに戻る 6層のスパイン。