Compliance FAQ
robots.txt (Disallow + Crawl-delay), stores no personal data, retains pages for 12 months, and deletes on request within 7 days.
Crawling
Do you respect robots.txt?
Yes, automatically. We fetch /robots.txt for every domain. If the homepage is disallowed for our bot, we crawl zero pages. Every URL is filtered via Python's stdlib RobotFileParser. Full details on the Crawler Policy page.
Do you honor Crawl-delay?
Yes. The Crawl-delay directive is read per host and used as the minimum spacing between our requests (default floor 200ms; any higher value in robots.txt wins).
How do you identify yourselves?
User-Agent: SEOAI-CorpusBot/1.0 (+https://seoai.space; contact=support@seoai.space)
Are crawl timestamps stored?
Yes — every domain has discovered_at and last_crawled_at; every page has fetched_at. Customers can query last_crawled_at via the public Data API.
Data
Do you collect personal data?
No. We do not extract emails, phone numbers, or names from crawled pages for use. Business-directory information (company name, address from schema.org/Organization markup, etc.) is treated as business metadata, not personal data.
Where is data stored?
Enterprise cloud infrastructure in the Asia-Pacific region, encrypted at rest. Sub-processors are listed in Data Policy §5.
What's the retention period?
Pages: 12 months rolling. Embeddings: tied to pages. API logs: 90 days. Opt-out audit records: indefinite.
Legal frameworks
GDPR (EU)
The corpus targets business-domain public pages, not personal data of identifiable individuals. Where a reviewer believes personal data is involved, deletion can be requested via the opt-out flow.
APPI (Japan, 個人情報保護法)
No 個人情報 is retained from crawls. Public business directory information falls outside APPI's personal-info scope. Opt-out is processed within 7 days regardless.
Copyright (Japan Article 30-4 / international fair use)
Page text is processed for non-expressive analytical purposes (metadata extraction, embedding for semantic indexing). This is consistent with Japanese Copyright Act Article 30-4 and similar fair-use provisions elsewhere.
Security + access control
API authentication
Bearer tokens issued per organization. SHA-256 hashed at rest — plaintext is shown once at creation and never persisted.
Rate limiting
Per-key monthly quota by tier; per-IP burst limit (default 120/min); auto-revoke on abuse heuristics (error storms, >50 unique IPs/hour per key).
Audit logging
Every API call logged: endpoint, key ID, status, latency, IP, timestamp. 90-day retention.
Contact
| Topic | Address |
|---|---|
| Compliance / legal | compliance@seoai.space |
| Data subject rights / privacy | privacy@seoai.space |
| Crawler abuse / opt-out | opt-out@seoai.space |
| Security disclosures | security@seoai.space |
| General support | support@seoai.space |
コンプライアンス FAQ
robots.txt(Disallow・Crawl-delay)を完全遵守、個人情報は保持せず、ページは12ヶ月で削除、削除リクエストは7日以内に処理します。
クロール
robots.txt を遵守しますか?
はい、自動で。各ドメインの /robots.txt を取得し、ホームページが Disallow の場合は1ページもクロールしません。各URLは Python 標準 RobotFileParser でフィルタ。詳細は クローラーポリシー。
Crawl-delay を尊重しますか?
はい。ホスト単位で Crawl-delay を読み取り、リクエスト最低間隔として使用(デフォルト 200ms、robots.txt のより長い値を優先)。
身元はどう示しますか?
User-Agent: SEOAI-CorpusBot/1.0 (+https://seoai.space; contact=support@seoai.space)
クロール日時は保存していますか?
はい — 各ドメインに discovered_at・last_crawled_at、各ページに fetched_at。Data API で last_crawled_at を取得可能。
データ
個人データを収集しますか?
いいえ。クロールしたページから メール・電話・氏名 を抽出して利用することはありません。schema.org/Organization 等の事業者ディレクトリ情報は事業者メタとして扱い、個人情報とは区別します。
データはどこに保管されますか?
アジア太平洋リージョンのエンタープライズ向けクラウド基盤(保存時暗号化)。サブプロセッサ一覧は データポリシー §5。
保持期間は?
ページ:ローリング12ヶ月。エンベディング:ページに連動。API ログ:90日。オプトアウト監査記録:無期限。
法的枠組み
GDPR(EU)
事業ドメインの公開ページのみが対象で、識別可能個人の個人データではありません。個人データに該当するとレビューア が判断する場合、オプトアウト経由で削除可能です。
個人情報保護法(APPI)
個人情報はクロールから保持しません。公開事業者ディレクトリは APPI の個人情報範囲外です。削除リクエストは いずれの場合も7日以内に処理します。
著作権(日本:第30条の4/海外:フェアユース)
ページテキストは非享受目的(メタ抽出、意味検索のためのエンベディング)で処理しており、日本著作権法 第30条の4 及び海外類似フェアユース規定に整合します。
セキュリティ・アクセス制御
API 認証
組織単位の Bearer トークン。保存時は SHA-256 ハッシュ化、プレーンテキストは発行時のみ表示・以後保持しません。
レート制限
キー単位の月間クォータ(ティア別)、IP単位バースト制限(デフォルト 120/分)、異常検知時の自動失効(エラー集中、1時間に50以上のIPで同一キー使用等)。
監査ログ
全 API コール記録:エンドポイント、キーID、ステータス、レイテンシ、IP、時刻。90日保持。
連絡先
| 用途 | 宛先 |
|---|---|
| コンプライアンス・法務 | compliance@seoai.space |
| データ主体の権利・プライバシー | privacy@seoai.space |
| クローラー苦情・オプトアウト | opt-out@seoai.space |
| セキュリティ報告 | security@seoai.space |
| 一般サポート | support@seoai.space |