Birkaç ay önce tuhaf bir şey fark etmeye başladık. Bizi Google’da ararsanız her şey yolunda görünüyordu. İçeriğimiz iyi sıralandı, dokümanlar düzgün bir şekilde dizine eklendi, her şey normal.
Ancak ChatGPT, Claude veya Perplexity’ye hakkımızda soru sorduğunuz anda cevaplar tuhaf bir şekilde tutarsız hale geldi.
Bazen bizim yerimize rakipler tavsiye ediliyordu. Bazen tamamen yanlış bilgilerle anılırdık, yinelenen yanıtlardan biri, uzun süredir desteklememize rağmen abonelikleri desteklemediğimizdi.
İlk başta sorunun içeriğin kendisinden kaynaklandığını varsaydık, ancak konuyu derinlemesine inceledikten sonra asıl sorunun çok daha basit olduğunu gördük: Yapay zeka tarayıcıları sitemizi düzgün bir şekilde okumuyordu.
Yararlı içeriğin çoğu, hidrasyonun, karmaşık HTML yapısının veya insanların iyi idare ettiği ancak modellerin zorlandığı biçimlendirmenin arkasında yatıyordu.
Bu nedenle, her sayfanın özellikle AI tarayıcılarına yönelik bir fiyat düşürme sürümünün bulunduğu dahili bir kurulum oluşturduk. Temiz yapı, JS yok, ayrıştırılması kolay.
Bu kısım oldukça iyi çalıştı.
Bizi şaşırtan şey, biz bu konuda yazdıktan sonra neredeyse konuştuğumuz her ekibin aynı şeyin bir versiyonunu geliştirmiş olmasıydı. Farklı başlıklar, farklı bot tespiti, farklı URL kuralları, herkes aynı sorunu biraz farklı çözüyor.
Bu yüzden kendimizinkini temizlemeye ve açık kaynak yapmaya karar verdik.
Gönderdiğimiz ana şey aslında çerçeve bağdaştırıcıları veya takımları değil, spesifikasyonun kendisidir. Temel olarak AI tarayıcılarına tutarlı bir şekilde indirim sunmak için paylaşılan bir sözleşme.
Şunun gibi şeyler:
- işaretleme uç noktaları nasıl açığa çıkar
- olması gereken başlıklar
- bot keşfi
- içerik müzakeresi
- paletli taşıma
- doğrulama
Ayrıca bir sitenin gerçekten yapay zeka tarafından okunabilen içeriği doğru şekilde sunup sunmadığını kontrol eden küçük bir CLI oluşturduk. Bu dahili olarak faydalı oldu çünkü bundan önce çoğunlukla her şeyde curl ile hata ayıklıyor ve başlıkları manuel olarak kontrol ediyorduk.
Spesifikasyonu yazmanın komik bir yan etkisi, kendi uygulamamızın tam olarak doğru olmadığını fark etmekti. Bazı yanıtlarda Vary: Accept’i kaçırıyorduk ve uygun 406 yanıtlarını döndürmek yerine sessizce HTML’ye geri dönüyorduk.
Kimse fark etmedi çünkü tarayıcılar şu anda hala oldukça bağışlayıcı.
Bunun sonuçta standart bir şey haline gelip gelmediğini veya herkesin sonsuza kadar kendi biraz uyumsuz versiyonunu oluşturmaya devam edip etmediğini gerçekten merak ediyorum.
Özellikle URL kuralları ve tarayıcı tespiti konusunda daha fazla ilgi gösterilmesini isterim. Herkesin farklı yaptığı kısım bu gibi görünüyor.
