てがみ: qatacri at protonmail.com | 統計 | 2021

202109800

Brave Search エンジンのランキングが思ったよりいい。 Google が札束で叩いて集めた優秀な研究者とエンジニア、大量のユーザーからの膨大なデータ、潤沢なマシンリソースなどなどを惜しみなく注ぎこんだ検索エンジンでさえ、悪質な SEO に苦戦している。特にユーザーからの莫大なデータは Google 以外が持ちえないもので、少人数の優秀なチームが対抗するのは難しい領域に思える。

Brave Search は Tailcat という会社を買収したもので、この人たちはもともと Cliqz という会社で検索エンジンを作っていたらしい。どちらも公式ページに情報はほとんど残っていないが、 Cliqz は別の場所に tech blog が残っている。

Tech @ Cliqz

スコアリングに関する記事はこのあたり。

A New Search Engine
Building a search engine from scratch
Search Quality at Cliqz

データについては種明かしがある。 Cliqz は Firefox 拡張をリリースしていて、 (query, URL) のセットを収集していた。このデータはブラウザのデフォルトサーチエンジン、つまりほとんどが Google 由来ものである。まあユーザー数が少なくデータが十分に取れない初期に、多少のチートをするのは仕方ないとは思う (「多少」なのかは私には判断できないけれど)。

もう一点、現在の Brave Search は自身のデータが十分でないときに、サードパーティの結果をミックスする。このことは明記されていて、クエリーごとにミックスされている割合も表示される。これで同じようなデータを取れている可能性はある。

Search results independence | Brave Search

検索結果を編集した形で提供することを許している検索エンジンは、事実上 Bing しかないような。