バニーガール情報ポータル

バニーガール情報ポータル


キワードでの取得がねぇ…

2013-08-19

どうも、管理人です。

サイトに「キーワード新着」というカテゴリを作って情報を垂れ流しているわけですが、最近どうも情報収集がうまくいっていないのです。

もともと、旧サイトのバージョンでの情報収集はGoogleアラートからのメールで、それを手てコピペするという旧世代まんまの動きだったわけです。
で、まぁ、それじゃぁイカンということで、GoogleアラートのRSSを一旦自前データーベースに格納して、そこでカテゴリや一般成人種別、掲載可不可などの処理を行うツールを作って、そこで公開設定したものを表示するようにしたわけです。こいつのおかげで作業時間が大幅に短縮できたのでラクになったと思っていたわけですが、GoogleアラートでのRSS配信が終了しちゃいました。

そんな中、代替サービスとして「TalkWalker Alerts」というのがいいらしいというので設定、受信RSSの仕様がGoogleと違うが、まぁそこはxml解析だけの差なんでさほど問題なかったわけですが、このTalkWalker AlertsからのRSSは文字化けがひどい。
送られてくるソースを見たら変なところに半角スペースが入っているのが原因で、半角スペース除去プログラム作って、そこで変換かけたのをデーターベースに流し込むという半ば強引な手法でなんとかしたのが先月あたりの話。TalkWalker Alertsでの文字化けに悩んでいる方々、半角スペースの除去がキモですよ。

で、しばらく運用してみて分かったことが、アラート精度の低さ。 Googleと比べるなって話もあるんでしょうが『これなら許せるなぁ』という精度にもぜんぜん届いていない。Googleでも選別すると10件中2,3件くらいだったのが100件中1件あるかないか。
こりゃダメだというわけで、Googleアラートのメール受信に切り替えて、サーバー内にメールが届いたら解析してデーターベースに流し込むプログラムを作って設置したのが先週あたりの話。

ところが、Googleアラートも以前に比べたらぜんぜんひっかからなくなってる。さらに、送信してくるメールの仕様が変わったらしく、現在沈黙中。しょーがないのでTalkWalker Alertsからの情報も再開させてみましたが、やっぱり精度の悪さにムカムカしてくる。

どうもGoogleアラートでRSS受信してた人は結構いたらしく、TalkWalker Alertsに移行させたみたいですが、「文字化けがひどい」「精度が低い」などでGoogleアラートのメール+はてブという流れになってきているような気がしますが、うちみたいな特殊な使い方だと、どーしよーかねぇ、みたいな。何かいい案思いつくまではどうしようもなさそうです。他の部分の製作しながら考えます。