パスワードを忘れた? アカウント作成
16721043 story
Google

CNET、Google検索結果のランキングを上げるために古い記事を削除 58

ストーリー by headless
削除 部門より
Gizmodo が入手した CNET の内部メモによると、CNET では Google の検索結果でランキングが上がることを期待して古い記事を定期的に削除しているそうだ (The Verge の記事Gizmodo の記事Search Engine Roundtable の記事CNET の内部メモ: PDF)。

CNET が「content pruning」「content deprecation」などと呼ぶ古い記事の削除は、最新の情報を探す人を混乱させたり、いら立たせたりするような古い情報や余分な情報を整理して CNET ドメインの権威とユーザーエクスペリエンスを改善するのが主な目的だという。削除の決まった記事は事前に Internet Archive の Wayback Machine API を使用して保存されるそうだ。著者のページを Internet Archive に保存されたバージョンと見比べると、1 年ほどで数百~数千本の記事が削除された著者もいるようだ。

これにより、CNET が検索結果で他社よりも上に表示べき新鮮で価値のあるサイトであるとのシグナルを Google に送ることができるとのこと。CNET のような大型サイトでの SEO トラフィックを目的としたコンテンツ削除は業界で幅広く行われているとのことだが、Google は古いコンテンツの削除を推奨していない
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2023年08月11日 21時37分 (#4509561)

    削除の決まった記事は事前に Internet Archive の Wayback Machine API を使用して保存される

    ってことは、単に自分で管理コストを払いたくなかっただけかもしれない

    いっそのこと、他のアーカイブにどんどん転載させるというのはどうだろう。
    転載サイトもちょっと古いとは言え、記事がただ or 低コストで手にはいって、
    うまくやれば広告収入もいくらか得られるかも

    • by Anonymous Coward

      ストレージコストはどんどん下がってるし、手を加える必要のない過去の記事の管理コストって微々たるもんでしょう。
      内部メモを読んでも管理コストには一切触れられてないし、一読して純粋にSEO目的っぽい印象。

      • by Anonymous Coward on 2023年08月12日 12時35分 (#4509699)

        ニュースサイトの場合は古い記事をとっておくと訴訟リスクが高まるんですよ。
        その当時は正しいと思われていたことが後になって間違っていることがわかった場合、
        修正するか注釈をつけて新しい記事へのリンクを張るなどしなければならない。
        古い記事の内容をすべて覚えているわけではないので、クレームが来て初めて気がつくこともある。
        (このパターンは記事の主題ではない、発信側からすれば非常に些細な部分が多い)。

        家族のほのぼの系の話題でも離婚したり子供を失ったり、当事者からすれば「あの記事を削除してほしい」ということもある。
        完全に削除するかどうかは別として、一定の年月がすぎたら簡単にはアクセスできないようにアーカイブ化するのは普通の処理。

        # ちょっとだけ中の人

        親コメント
        • by Anonymous Coward

          どうせ訴えられたところで公益情報ということで原告が負けますので気にしなくていいですよ
          むしろ逆に金をゲットできるチャンスです

  • 公開日と、改訂日がわからない記事はあてにならない。

  • by Anonymous Coward on 2023年08月11日 18時16分 (#4509489)

    古い記事を削除しているウェブサイトを、Googleが検索結果でランキングを露骨に下げれば良い。
    更に、古い記事を削除している駄目なウェブサイトと、Googleが検索結果表示時に明示すればもっと良い。

    • by Anonymous Coward

      何とケンカしてんの?

      • by Anonymous Coward

        Googleでしょ
        やってることと言ってることが違うんだからもう・・・

      • by Anonymous Coward

        どうして何かと喧嘩していると思ったの?

  • by Anonymous Coward on 2023年08月11日 18時32分 (#4509493)

    そもそも、Googleが新鮮=良いなんてスコアリングしたからSEOでこんな事になったんだよね。

    結果、日付だけが新しいいかがでしたblogとかの水増し系が上位に来る事に。
    他にもDPZみたいに、デジタルリマスター版と呼称する再配信する所もあるし。

    • by Anonymous Coward

      GoogleのAIってバカなのか、賢すぎて一番広告収入が増えるのが現状なのか、どっちなんだろうな。

      • by Anonymous Coward

        大抵は新着情報を探すための検索だから高校ビジネスも踏まえ合理的ではあるんだよな
        取捨選択したら企業による選別だと騒がれもしたし
        いつまでも古い記事が有能とは限らないし悩みどころだな

    • by Anonymous Coward

      要はGoogle神には誰も逆らえないのです
      信者になったつもりはないのに、誰もが信者になっているという恐ろしさ

    • by Anonymous Coward

      そのせいで有益なコンテンツが沢山あったGeoCitiesは、死んでしまいました。。

    • by Anonymous Coward

      メルカリでアイテム検索すると、TITLEタグに【2023年最新】と入るようになった
      天下のメルカリが、あまりに露骨すぎるSEO...

    • by Anonymous Coward

      昔は歴史のあるサイトの方がスコアが高くって
      長く情報を積み重ねた価値のあるサイトが上位に出やすかったんだよね。

      でもいつのまにかSEOに頼ったゴミのようなどうでしょうサイトが上位に並ぶように……
      その方が広告収入が増えるとかそんな話なんだろうか?

      • by Anonymous Coward

        今でも根拠ない中古ドメインの値段を釣り上げて売りたい業者は歴史あるドメインに価値があると言い回って売りまわってますよ。

        最近はグーグル検索結果の「この結果について」のところに「Google によって初めてインデックスに登録されたのは、xx 年以上前です」が出すようになったので、ここの数字がリセットされてる中古ドメインはリンク数やドメイン歴の価値がなく、グーグル内部で前のドメイン保有者のサイトの価値を弾くようになってしまってるので、中古ドメインに意味ないのがバレてしまったようですけど。商標侵害リスクまで背負って中古ドメイン買うのはやめた方がいいよ。

        • by Anonymous Coward

          そゃ売買した(古い)ドメインに価値なんぞ有るわけがない。
          価値があるのは蓄積してる情報なんだから。

          蓄積してる情報に対するスコアが下がってるんじゃない?って話に
          なんでドメインの売買なんてズレた話を出しての?

    • by Anonymous Coward

      DPZのデジタルリマスター版は嬉しいけどなぁ
      画像サイズアップ、記事形式を旧デザインから現デザインに変更
      で読みやすくなるんだから

      過去の全記事を無償で変換しとけよってのも無茶だろうし

      • by Anonymous Coward

        アナログリマスターだったらどうなるのか気になります

  • by Anonymous Coward on 2023年08月11日 19時00分 (#4509501)

    一社でweb記事を焚書するモチベーションを生み出せるってのが恐ろしい

    • by Anonymous Coward

      WebArchiveにつっこんでいるのであれば、単に店頭在庫切れ、図書館によろしくでいいのではないかと。

      # 検索性? マイクロフィルムだと思えばどっこいどっこい

      • by Anonymous Coward

        CNETが積極的にWebArchiveに登録してるならともかく、クローラーによる自動収集でしょ。そしてご存知の通りWebArchiveは完全じゃない。

        喩えるなら図書館というより個人所有の本を探してくださいね、に近いと思いますよ。

        • by Anonymous Coward on 2023年08月11日 21時19分 (#4509555)

          CNETが削除前に自らInternet Archive / Wayback Machineに登録するんですよ? 原文に書いてあるじゃないですか

          Articles set to be deprecated will be sent to the Internet Archive / Wayback Machine. We will do a bulk send to the Internet Archive using the Wayback Machine API.

          非推奨に設定された記事は、Internet Archive / Wayback Machineに送信されます。Wayback Machine APIを使ってInternet Archiveに一括送信します。(DeepL翻訳)

          https://www.documentcloud.org/documents/23903730-faq-on-cnet-content-p... [documentcloud.org]

          親コメント
        • by Anonymous Coward

          削除の決まった記事は事前に Internet Archive の Wayback Machine API を使用して保存されるそうだ。

          ってストーリーに書いてあるんですけど

          APIを使うってことは積極的に登録するってこと

      • by Anonymous Coward

        CNETはアーカイブしてくれてるけど、皆がアーカイブしてくれる訳じゃ無いからなぁ……
        誰かがアーカイブ作業してくれないと残らない。

        しっかし、新しいだけのページに価値が伴う訳でもないのになんでそんなアルゴリズムなんだろうな。
        今だと生成AIの吐いたゴミが無限増殖してくだけだろうし……

        • by Anonymous Coward

          変化の早い業界だから、古いバージョンのデータとか要らねぇって思ってたんじゃない?
          新しいページなら、新しい知見やその時の最新バージョンの事を書いてるに違いないという思い込み。

          • by Anonymous Coward

            その結果が更新もしてないのにページ題名に今の日付で何年何月最新版の文字列を載せておくスパムサイトだらけになったわけだな

        • by Anonymous Coward

          保存と検索のコストの削減じゃね?

  • by Anonymous Coward on 2023年08月11日 20時04分 (#4509522)

    そこが一番大事だと思うんだけど
    順位下がったらCNETが無能
    順位上がったらGoogleが無能

    • by Anonymous Coward

      なんで順位上がるとGoogleが無能なの?

      • by Anonymous Coward

        古い記事が削除されたらその記事が検索結果から消えるだけ、というのがあるべき姿だから
        削除された記事と関係のない他の記事の順位を上げる理由がない
        仮に上がったらその検索アルゴリズムはおかしい

  • by Anonymous Coward on 2023年08月11日 20時06分 (#4509524)

    かつては、個人サイトの古くて有用な記事がたくさん検索できてたGoogleだけど、
    新鮮な情報を優先するように変更して以降、個人サイトの古くて有用な記事が検索できなくなり、
    かわりに、しっかりSEO対策してある、キュレーションサイトとかリライトサイトみたいなのばかりが
    ヒットするようになった

    • by Anonymous Coward on 2023年08月11日 20時36分 (#4509536)

      デフォルトでは新しいものが優先で古いブログとかは切り捨てられるけど
      「何年何月より古いもの」という指定をして検索すると見つかることがある

      検索も語句だけだとダメだけど、URLの一部だけ(例えば2ch)でも分かるなら検索に
      追加すると引っ掛かることがある

      親コメント
        • by Anonymous Coward

          20年以上前の2chへの書き込みをついこないだ探した経験からすると、
          最終的に見つけることはできたけどとても全文検索の結果とは言えないほど
          Googleの覚えているキーワードが絞られている感じ。

          自分の書き込んだスキャナの型番(EPSON製だけど性能がいまいちでユーザーがほとんどいないと思われる機種)で
          検索しても2chのスレッドは全くヒットせず、検索結果のリストも1ページで打ち切られてしまう。
          しかもスキャナとは関係ない似たような型番を持つ別製品のページばかり。
          目的のページを探すためにはスレッド名やスレの内容の組み合わせをかなり試す必要があった。
          (見つかったスレッドは現在の5chに引き継がれて今でもネット上に存在している)

          ちなみに、10年前にも同じスレッドを探していて、そのときは型番だけで見つけることができていた。
          PCの中を漁っていたらそのときに保存したPDFが出てきた。
          内容はGoogleのキャッシュだが、PDFの各ページにキャッシュのURLが表示されていて、そのときの検索ワードも
          含まれているので確か。

          • by Anonymous Coward

            ページがインデックスされてても含まれてるワードがインデックスされてないのか……
            で、類似性のあるワードを束ねて曖昧検索する事には積極的と。
            そりゃあ求めてるページが全然出ない筈だわ……

            なんつうか、生成AIの返答ノーチェックで採用したり
            I'm Feeling Luckyボタンしか使わん縛りしてる人には有益なんだろうけど、
            目的の情報を真面目に探す人にとっては有害極まる仕様だなぁ……
            そういう需要は生成AIに流れてくだろうし今のインデックスに未来は無さそう。

            • by Anonymous Coward

              名詞はキーワードとして全部残しておいて欲しいけど、何年間か誰も検索しなかった単語はどんどん削っているんだろうね
              昔読んだ記事の内容を確認しようとして製品名で検索するとPC Watchとかの記事でも見つからないことはときどき経験している
              便利帳としては使えるけど知識データベースとしてはもう使えないと感じている

          • by Anonymous Coward

            2chへの書き込みは割と最近の投稿でも見つけにくいから、古いとか新しいとか関係ないんだよ。
            じゃあ他の検索エンジンなら見つけられるかっていうとGoogleに輪を掛けてヒドイ。
            ネット上に溢れる情報量が桁違いに増えたので全文検索が不可能になったって印象。

            • by Anonymous Coward

              古い記事が出ない/削除が好ましいってのも、Googleがサイト毎のクロール可能上限とかのボトルネックが有って溢れてるだけだったりして。

    • by Anonymous Coward

      それは新鮮な情報だから優先されているのではなくて、しっかりSEOしてるから優先されているのでは

    • by Anonymous Coward

      "txlvog"で検索すると、
      https://www.google.com/search?q=txlvog [google.com]

      205件ヒットして4番目の検索候補に「txlvog 糖心-飘零影院」が出てくるのだが、このサイト名である"txlvog 糖心"を検索すると、検索結果はゼロになる。
      https://www.google.com/search?q=txlvog+%E7%B3%96%E5%BF%83 [google.com]

      だから、もうSEOを人間が理解するのは不可能で、AIにやってもらうしかないんじゃないかな。

      # このレスがGoogleにキャッシュされたら、検索結果が変わるだろうから検証できなくなるだろうけど。

      • by Anonymous Coward

        まずtxlvogは適当な文字列でGoogleはサイト名やドメイン名と認識できてない、だから「もしかして」が表示されている。
        もしかしてが表示されているということは、もしかしてのキーワードと、このキーワードが混同している検索結果になっている可能性が高い。
        中国語サイトなので、中国語以外のUseragentやIPアドレス環境だと、表示する価値が差が下がるから出てこなくなる。
        複数の言語で検索すると、上のを繰り返してさらに減るので、0件になる可能性もある。

        これだけの理屈はあるよ。

  • by Anonymous Coward on 2023年08月11日 21時13分 (#4509551)

    真に「最新の情報を探す人を混乱させたり、いら立たせたりするような古い情報や余分な情報を整理して CNET ドメインの権威とユーザーエクスペリエンスを改善する」ために古い記事を削除するなら悪い話じゃない。
    ただ、「Google検索結果のランキングを上げるため」に古い記事を削除するのは間違ってる。
    ストーリーのリンク先のニュースサイトでSEO専門家が言ってるようにそれでランキングが上がったりはしない可能性が高い。
    ひょっとしたらCNETの担当者もGoogle検索への影響は半信半疑だけど、それにかこつけてAIに書かせた質の低い記事 [srad.jp]を削除したいだけなのかもしれない。

  • by Anonymous Coward on 2023年08月11日 23時41分 (#4509596)

    いわば新聞開いたら何年も前の記事って事態にならないようにしてるってだけだろ。
    記事に対する価値が掲載当初時は情報としての価値だが、時間がたった時は資料的な価値と異なってくるのだから保管場所が変わるのは当然だろ。
    それにとか言ってる人もいるけどアーカイブに移動させているわけで無かったことにしているわけではない。もうバカとしか。

    • by Anonymous Coward

      設立後30年たって気づいたCNETはバカって話?

  • by Anonymous Coward on 2023年08月12日 1時02分 (#4509610)

    消したいページだけ

  • by Anonymous Coward on 2023年08月12日 10時58分 (#4509682)

    客に不便をかけると自分たちが儲かるような妄想に囚われてるだけ

  • by Anonymous Coward on 2023年08月12日 11時46分 (#4509690)

    黎明期は使っている人がいないために、検索しても情報が見つからなかった
    近い将来、サイト側の都合で検索しても情報が見つからない。
    削除した理由、情報が古いから
    コストがかかるのはわかるけど、以下の問題が別に発生する。

    今後10年、20年後。昔の趣味などをキーワードに検索しても
    何も出てこない空白の時代になっている可能性がある。
    気づけば誰も情報を保存してなかったなんてことが起こるよね。

typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...