Data Collection Policy
1. What we collect
| Data type | Source | Purpose |
|---|---|---|
| Public HTML pages | SEOAI-CorpusBot crawl | Compute AI-readiness signals + embeddings |
| Page metadata (title, h1, meta description, language) | Extracted from HTML | Structured search + benchmarking |
| Domain-level snapshots (page counts, language distribution) | Aggregated | Trend analysis for paying customers |
Embeddings (1024-dim bge-m3 vectors) | Computed from page text | Semantic search via Data API |
Crawl timestamps (discovered_at, last_crawled_at, fetched_at) | Recorded by crawler | Data freshness audit trail |
2. What we do NOT collect
- Personally identifiable information (names, emails, phone numbers) extracted for marketing or contact use.
- Anything behind login walls, paywalls, or session tokens.
- Cookies, fingerprints, or tracking from visited sites.
- Form submissions, query strings with PII patterns, or POST bodies.
- Content from domains that have opted out (via robots.txt, web form, or email).
3. Retention
- Pages: 12 months rolling. Pages older than 12 months are pruned monthly.
- Embeddings: tied to their source page — deleted when the page is pruned.
- Snapshots: kept indefinitely (aggregate-only, anonymized at the domain level).
- API usage logs: 90 days for security review, then aggregated and purged.
- Opt-out request records: retained indefinitely as a compliance audit trail.
4. Deletion on request
Anyone can request deletion via:
- Web form — immediate, synchronous deletion.
- Email opt-out@seoai.space — processed within 7 days.
- Blocking
SEOAI-CorpusBotinrobots.txt— applied on next crawl cycle (within 30 days).
5. Storage + sub-processors
- Primary database & storage: enterprise cloud infrastructure (Asia-Pacific region), encrypted at rest.
- Raw HTML archive: encrypted object storage, compressed.
- Embedding compute: on-demand GPU compute (ephemeral, per batch).
- Email delivery: Resend.
- Payments: Stripe.
6. Legal posture
- GDPR: We do not process personal data of EU residents through corpus crawls. The corpus targets business-domain public pages only.
- APPI (Japan): No personal data (個人情報) is retained from crawls. Business directory information falls outside APPI's personal-info scope.
- Copyright / fair use: Page text is processed for non-expressive purposes (metadata extraction, embedding) consistent with Japanese Copyright Act Article 30-4 and analogous fair-use principles.
7. Data subject rights
If you believe SEOAI holds personal data about you, contact privacy@seoai.space. We respond within 30 days.
データ収集ポリシー
1. 収集データ
| データ種別 | 取得元 | 目的 |
|---|---|---|
| 公開 HTML ページ | SEOAI-CorpusBot クロール | AI対応度信号+エンベディング算出 |
| ページメタ(title, h1, meta description, 言語) | HTML から抽出 | 構造化検索・ベンチマーク |
| ドメインスナップショット(ページ数・言語分布) | 集計 | 有料顧客向けトレンド分析 |
エンベディング(1024次元 bge-m3) | ページテキストから算出 | データAPI 経由の意味検索 |
クロール日時(discovered_at, last_crawled_at, fetched_at) | クローラー記録 | データ鮮度監査 |
2. 収集しないもの
- マーケティング・連絡目的の個人識別情報(氏名・メール・電話番号)。
- ログイン・ペイウォール・セッショントークン配下のコンテンツ。
- 訪問先サイトの Cookie・フィンガープリント・トラッキング情報。
- フォーム送信内容・PII を含むクエリパラメータ・POST ボディ。
- オプトアウト済みドメイン(robots.txt・Webフォーム・メールいずれかで申請)の内容。
3. 保持期間
- ページ:ローリング12ヶ月。月次で12ヶ月超を削除。
- エンベディング:元ページに連動。ページ削除時に同時削除。
- スナップショット:無期限保持(集約値のみ、ドメイン単位匿名化)。
- API 利用ログ:セキュリティレビュー目的で90日、以降は集約・廃棄。
- オプトアウト申請記録:監査証跡として無期限保持。
4. 削除リクエスト
- Webフォーム — 即時・同期削除。
- opt-out@seoai.space へメール — 7日以内に処理。
robots.txtでSEOAI-CorpusBotをブロック — 次回クロール時(30日以内)反映。
5. 保管・サブプロセッサ
- 主データベース・ストレージ:アジア太平洋リージョンのエンタープライズ向けクラウド基盤(保存時暗号化)。
- 生 HTML アーカイブ:暗号化オブジェクトストレージ(圧縮)。
- エンベディング計算:オンデマンドGPU(バッチごとに一時利用)。
- メール配信:Resend。
- 決済:Stripe。
6. 法的整理
- GDPR:EU 居住者の個人データはコーパスクロールで処理しません。対象は事業ドメインの公開ページのみ。
- 個人情報保護法(APPI):クロールから個人情報は保持しません。事業者ディレクトリ情報は APPI の個人情報範囲外です。
- 著作権/フェアユース:ページテキストは非享受目的(メタ抽出・エンベディング)で処理し、日本著作権法 第30条の4 及び類似の公正利用原則に沿います。
7. データ主体の権利
SEOAI が貴方の個人データを保持していると思われる場合は privacy@seoai.space へご連絡ください。30日以内に回答します。