CNET、Google検索結果のランキングを上げるために古い記事を削除 58
ストーリー by headless
削除 部門より
削除 部門より
Gizmodo が入手した CNET の内部メモによると、CNET では Google の検索結果でランキングが上がることを期待して古い記事を定期的に削除しているそうだ
(The Verge の記事、
Gizmodo の記事、
Search Engine Roundtable の記事、
CNET の内部メモ: PDF)。
CNET が「content pruning」「content deprecation」などと呼ぶ古い記事の削除は、最新の情報を探す人を混乱させたり、いら立たせたりするような古い情報や余分な情報を整理して CNET ドメインの権威とユーザーエクスペリエンスを改善するのが主な目的だという。削除の決まった記事は事前に Internet Archive の Wayback Machine API を使用して保存されるそうだ。著者のページを Internet Archive に保存されたバージョンと見比べると、1 年ほどで数百~数千本の記事が削除された著者もいるようだ。
これにより、CNET が検索結果で他社よりも上に表示べき新鮮で価値のあるサイトであるとのシグナルを Google に送ることができるとのこと。CNET のような大型サイトでの SEO トラフィックを目的としたコンテンツ削除は業界で幅広く行われているとのことだが、Google は古いコンテンツの削除を推奨していない。
CNET が「content pruning」「content deprecation」などと呼ぶ古い記事の削除は、最新の情報を探す人を混乱させたり、いら立たせたりするような古い情報や余分な情報を整理して CNET ドメインの権威とユーザーエクスペリエンスを改善するのが主な目的だという。削除の決まった記事は事前に Internet Archive の Wayback Machine API を使用して保存されるそうだ。著者のページを Internet Archive に保存されたバージョンと見比べると、1 年ほどで数百~数千本の記事が削除された著者もいるようだ。
これにより、CNET が検索結果で他社よりも上に表示べき新鮮で価値のあるサイトであるとのシグナルを Google に送ることができるとのこと。CNET のような大型サイトでの SEO トラフィックを目的としたコンテンツ削除は業界で幅広く行われているとのことだが、Google は古いコンテンツの削除を推奨していない。
逆に考えると (スコア:1)
ってことは、単に自分で管理コストを払いたくなかっただけかもしれない
いっそのこと、他のアーカイブにどんどん転載させるというのはどうだろう。
転載サイトもちょっと古いとは言え、記事がただ or 低コストで手にはいって、
うまくやれば広告収入もいくらか得られるかも
Re: (スコア:0)
ストレージコストはどんどん下がってるし、手を加える必要のない過去の記事の管理コストって微々たるもんでしょう。
内部メモを読んでも管理コストには一切触れられてないし、一読して純粋にSEO目的っぽい印象。
Re:逆に考えると (スコア:1)
ニュースサイトの場合は古い記事をとっておくと訴訟リスクが高まるんですよ。
その当時は正しいと思われていたことが後になって間違っていることがわかった場合、
修正するか注釈をつけて新しい記事へのリンクを張るなどしなければならない。
古い記事の内容をすべて覚えているわけではないので、クレームが来て初めて気がつくこともある。
(このパターンは記事の主題ではない、発信側からすれば非常に些細な部分が多い)。
家族のほのぼの系の話題でも離婚したり子供を失ったり、当事者からすれば「あの記事を削除してほしい」ということもある。
完全に削除するかどうかは別として、一定の年月がすぎたら簡単にはアクセスできないようにアーカイブ化するのは普通の処理。
# ちょっとだけ中の人
Re: (スコア:0)
どうせ訴えられたところで公益情報ということで原告が負けますので気にしなくていいですよ
むしろ逆に金をゲットできるチャンスです
まあ何にしても (スコア:1)
公開日と、改訂日がわからない記事はあてにならない。
じゃあ簡単だ (スコア:0)
古い記事を削除しているウェブサイトを、Googleが検索結果でランキングを露骨に下げれば良い。
更に、古い記事を削除している駄目なウェブサイトと、Googleが検索結果表示時に明示すればもっと良い。
Re: (スコア:0)
何とケンカしてんの?
Re: (スコア:0)
Googleでしょ
やってることと言ってることが違うんだからもう・・・
Re: (スコア:0)
どうして何かと喧嘩していると思ったの?
新鮮=良い (スコア:0)
そもそも、Googleが新鮮=良いなんてスコアリングしたからSEOでこんな事になったんだよね。
結果、日付だけが新しいいかがでしたblogとかの水増し系が上位に来る事に。
他にもDPZみたいに、デジタルリマスター版と呼称する再配信する所もあるし。
Re: (スコア:0)
GoogleのAIってバカなのか、賢すぎて一番広告収入が増えるのが現状なのか、どっちなんだろうな。
Re: (スコア:0)
大抵は新着情報を探すための検索だから高校ビジネスも踏まえ合理的ではあるんだよな
取捨選択したら企業による選別だと騒がれもしたし
いつまでも古い記事が有能とは限らないし悩みどころだな
Re: (スコア:0)
x高校〇広告
Re: (スコア:0)
要はGoogle神には誰も逆らえないのです
信者になったつもりはないのに、誰もが信者になっているという恐ろしさ
Re: (スコア:0)
そのせいで有益なコンテンツが沢山あったGeoCitiesは、死んでしまいました。。
Re: (スコア:0)
メルカリでアイテム検索すると、TITLEタグに【2023年最新】と入るようになった
天下のメルカリが、あまりに露骨すぎるSEO...
Re: (スコア:0)
昔は歴史のあるサイトの方がスコアが高くって
長く情報を積み重ねた価値のあるサイトが上位に出やすかったんだよね。
でもいつのまにかSEOに頼ったゴミのようなどうでしょうサイトが上位に並ぶように……
その方が広告収入が増えるとかそんな話なんだろうか?
Re: (スコア:0)
今でも根拠ない中古ドメインの値段を釣り上げて売りたい業者は歴史あるドメインに価値があると言い回って売りまわってますよ。
最近はグーグル検索結果の「この結果について」のところに「Google によって初めてインデックスに登録されたのは、xx 年以上前です」が出すようになったので、ここの数字がリセットされてる中古ドメインはリンク数やドメイン歴の価値がなく、グーグル内部で前のドメイン保有者のサイトの価値を弾くようになってしまってるので、中古ドメインに意味ないのがバレてしまったようですけど。商標侵害リスクまで背負って中古ドメイン買うのはやめた方がいいよ。
Re: (スコア:0)
そゃ売買した(古い)ドメインに価値なんぞ有るわけがない。
価値があるのは蓄積してる情報なんだから。
蓄積してる情報に対するスコアが下がってるんじゃない?って話に
なんでドメインの売買なんてズレた話を出しての?
Re: (スコア:0)
DPZのデジタルリマスター版は嬉しいけどなぁ
画像サイズアップ、記事形式を旧デザインから現デザインに変更
で読みやすくなるんだから
過去の全記事を無償で変換しとけよってのも無茶だろうし
Re: (スコア:0)
アナログリマスターだったらどうなるのか気になります
web焚書のモチベーション (スコア:0)
一社でweb記事を焚書するモチベーションを生み出せるってのが恐ろしい
Re: (スコア:0)
WebArchiveにつっこんでいるのであれば、単に店頭在庫切れ、図書館によろしくでいいのではないかと。
# 検索性? マイクロフィルムだと思えばどっこいどっこい
Re: (スコア:0)
CNETが積極的にWebArchiveに登録してるならともかく、クローラーによる自動収集でしょ。そしてご存知の通りWebArchiveは完全じゃない。
喩えるなら図書館というより個人所有の本を探してくださいね、に近いと思いますよ。
Re:web焚書のモチベーション (スコア:1)
CNETが削除前に自らInternet Archive / Wayback Machineに登録するんですよ? 原文に書いてあるじゃないですか
https://www.documentcloud.org/documents/23903730-faq-on-cnet-content-p... [documentcloud.org]
Re: (スコア:0)
ってストーリーに書いてあるんですけど
APIを使うってことは積極的に登録するってこと
Re: (スコア:0)
CNETはアーカイブしてくれてるけど、皆がアーカイブしてくれる訳じゃ無いからなぁ……
誰かがアーカイブ作業してくれないと残らない。
しっかし、新しいだけのページに価値が伴う訳でもないのになんでそんなアルゴリズムなんだろうな。
今だと生成AIの吐いたゴミが無限増殖してくだけだろうし……
Re: (スコア:0)
変化の早い業界だから、古いバージョンのデータとか要らねぇって思ってたんじゃない?
新しいページなら、新しい知見やその時の最新バージョンの事を書いてるに違いないという思い込み。
Re: (スコア:0)
その結果が更新もしてないのにページ題名に今の日付で何年何月最新版の文字列を載せておくスパムサイトだらけになったわけだな
Re: (スコア:0)
保存と検索のコストの削減じゃね?
で、実際に順位上がったの? (スコア:0)
そこが一番大事だと思うんだけど
順位下がったらCNETが無能
順位上がったらGoogleが無能
Re: (スコア:0)
なんで順位上がるとGoogleが無能なの?
Re: (スコア:0)
古い記事が削除されたらその記事が検索結果から消えるだけ、というのがあるべき姿だから
削除された記事と関係のない他の記事の順位を上げる理由がない
仮に上がったらその検索アルゴリズムはおかしい
古くて有用な情報が検索できないGoogle (スコア:0)
かつては、個人サイトの古くて有用な記事がたくさん検索できてたGoogleだけど、
新鮮な情報を優先するように変更して以降、個人サイトの古くて有用な記事が検索できなくなり、
かわりに、しっかりSEO対策してある、キュレーションサイトとかリライトサイトみたいなのばかりが
ヒットするようになった
Re:古くて有用な情報が検索できないGoogle (スコア:1)
デフォルトでは新しいものが優先で古いブログとかは切り捨てられるけど
「何年何月より古いもの」という指定をして検索すると見つかることがある
検索も語句だけだとダメだけど、URLの一部だけ(例えば2ch)でも分かるなら検索に
追加すると引っ掛かることがある
Re:古くて有用な情報が検索できないGoogle (スコア:1)
この辺の話ね
「デフォルトでは新しいものが優先」というのも事実かどうか疑わしい
Re: (スコア:0)
20年以上前の2chへの書き込みをついこないだ探した経験からすると、
最終的に見つけることはできたけどとても全文検索の結果とは言えないほど
Googleの覚えているキーワードが絞られている感じ。
自分の書き込んだスキャナの型番(EPSON製だけど性能がいまいちでユーザーがほとんどいないと思われる機種)で
検索しても2chのスレッドは全くヒットせず、検索結果のリストも1ページで打ち切られてしまう。
しかもスキャナとは関係ない似たような型番を持つ別製品のページばかり。
目的のページを探すためにはスレッド名やスレの内容の組み合わせをかなり試す必要があった。
(見つかったスレッドは現在の5chに引き継がれて今でもネット上に存在している)
ちなみに、10年前にも同じスレッドを探していて、そのときは型番だけで見つけることができていた。
PCの中を漁っていたらそのときに保存したPDFが出てきた。
内容はGoogleのキャッシュだが、PDFの各ページにキャッシュのURLが表示されていて、そのときの検索ワードも
含まれているので確か。
Re: (スコア:0)
ページがインデックスされてても含まれてるワードがインデックスされてないのか……
で、類似性のあるワードを束ねて曖昧検索する事には積極的と。
そりゃあ求めてるページが全然出ない筈だわ……
なんつうか、生成AIの返答ノーチェックで採用したり
I'm Feeling Luckyボタンしか使わん縛りしてる人には有益なんだろうけど、
目的の情報を真面目に探す人にとっては有害極まる仕様だなぁ……
そういう需要は生成AIに流れてくだろうし今のインデックスに未来は無さそう。
Re: (スコア:0)
名詞はキーワードとして全部残しておいて欲しいけど、何年間か誰も検索しなかった単語はどんどん削っているんだろうね
昔読んだ記事の内容を確認しようとして製品名で検索するとPC Watchとかの記事でも見つからないことはときどき経験している
便利帳としては使えるけど知識データベースとしてはもう使えないと感じている
Re: (スコア:0)
2chへの書き込みは割と最近の投稿でも見つけにくいから、古いとか新しいとか関係ないんだよ。
じゃあ他の検索エンジンなら見つけられるかっていうとGoogleに輪を掛けてヒドイ。
ネット上に溢れる情報量が桁違いに増えたので全文検索が不可能になったって印象。
Re: (スコア:0)
古い記事が出ない/削除が好ましいってのも、Googleがサイト毎のクロール可能上限とかのボトルネックが有って溢れてるだけだったりして。
Re: (スコア:0)
それは新鮮な情報だから優先されているのではなくて、しっかりSEOしてるから優先されているのでは
Re: (スコア:0)
"txlvog"で検索すると、
https://www.google.com/search?q=txlvog [google.com]
205件ヒットして4番目の検索候補に「txlvog 糖心-飘零影院」が出てくるのだが、このサイト名である"txlvog 糖心"を検索すると、検索結果はゼロになる。
https://www.google.com/search?q=txlvog+%E7%B3%96%E5%BF%83 [google.com]
だから、もうSEOを人間が理解するのは不可能で、AIにやってもらうしかないんじゃないかな。
# このレスがGoogleにキャッシュされたら、検索結果が変わるだろうから検証できなくなるだろうけど。
Re: (スコア:0)
まずtxlvogは適当な文字列でGoogleはサイト名やドメイン名と認識できてない、だから「もしかして」が表示されている。
もしかしてが表示されているということは、もしかしてのキーワードと、このキーワードが混同している検索結果になっている可能性が高い。
中国語サイトなので、中国語以外のUseragentやIPアドレス環境だと、表示する価値が差が下がるから出てこなくなる。
複数の言語で検索すると、上のを繰り返してさらに減るので、0件になる可能性もある。
これだけの理屈はあるよ。
目的による、かも (スコア:0)
真に「最新の情報を探す人を混乱させたり、いら立たせたりするような古い情報や余分な情報を整理して CNET ドメインの権威とユーザーエクスペリエンスを改善する」ために古い記事を削除するなら悪い話じゃない。
ただ、「Google検索結果のランキングを上げるため」に古い記事を削除するのは間違ってる。
ストーリーのリンク先のニュースサイトでSEO専門家が言ってるようにそれでランキングが上がったりはしない可能性が高い。
ひょっとしたらCNETの担当者もGoogle検索への影響は半信半疑だけど、それにかこつけてAIに書かせた質の低い記事 [srad.jp]を削除したいだけなのかもしれない。
CNETの記事の話だろ (スコア:0)
いわば新聞開いたら何年も前の記事って事態にならないようにしてるってだけだろ。
記事に対する価値が掲載当初時は情報としての価値だが、時間がたった時は資料的な価値と異なってくるのだから保管場所が変わるのは当然だろ。
それにとか言ってる人もいるけどアーカイブに移動させているわけで無かったことにしているわけではない。もうバカとしか。
Re: (スコア:0)
設立後30年たって気づいたCNETはバカって話?
noindexメタタグ入れるのはダメなの? (スコア:0)
消したいページだけ
経営者によくある病気 (スコア:0)
客に不便をかけると自分たちが儲かるような妄想に囚われてるだけ
インターネットで情報が見つからない (スコア:0)
黎明期は使っている人がいないために、検索しても情報が見つからなかった
近い将来、サイト側の都合で検索しても情報が見つからない。
削除した理由、情報が古いから
コストがかかるのはわかるけど、以下の問題が別に発生する。
今後10年、20年後。昔の趣味などをキーワードに検索しても
何も出てこない空白の時代になっている可能性がある。
気づけば誰も情報を保存してなかったなんてことが起こるよね。