何この挙動?
どういう意味?
このブログには、ブログ slug (URL の /blog/ 以下の部分) に .typ や .md をつけると、そのフォーマットで記事を取得できるという機能があります。
これは ChatGPT などのウェブ検索ができる AI に記事を読ませるときに使えるかなと思って実装したものなのですが、ChatGPT に記事を読ませようとしたところ、以下のような返答が返ってきました。
現時点では、そのURLの中身をこちら側で取得して読むことができません。
こちらからアクセスすると取得処理が失敗し、ツール側で「Failed to fetch … (400)」というエラーになります。なぜこうなったのか
もともと .typ や .md でアクセスしたときの Content-Type ヘッダは IANA Media Typesに基づき、、text/vnd.typst; charset=utf-8 や text/markdown; charset=utf-8 となっていました。
しかしどうやら ChatGPT のウェブ検索は、Content-Type ヘッダが text/html や text/plain などの一般的なものでないと 400 エラーになるようです。
IANA Media Types に登録されている正しい Content-Type ヘッダを返しているのに 400 エラーになるのは納得がいかないのですが、とりあえず ChatGPT に記事を読ませるためには仕方がないので、AI クローラーかどうかを User-Agent で判定して、AI が .typ や .md でアクセスしたときの Content-Type ヘッダを text/plain; charset=utf-8 に変更しました。
おわりに
ChatGPT のウェブ検索を使うときに Content-Type ヘッダが普通じゃないと 400 エラーになるというのはドキュメントにも明記されていないし、結構厄介な問題だと思うので、OpenAI さんドキュメントに明記してほしいです。
せめて理由を Failed to fetch にするのはやめてくれ。