バニーガール情報ポータル

バニーガール情報ポータル

管理人の雑記(Blog)

キワード取得、その後

2013-09-24

どうも管理人です。

あれこれと情報取得部分の改善をやっておりました。メールから取得するスクリプト書いたり、PHPでcronったり。
ですがね、気が付かないうちというか知らぬ間にGoogleアラートでのRSS配信再開されてましたorz

あちこちのBlogでも書かれていたので、無くなって困ってた人も多少なりともいたんですねぇ。同時にTalkWalker Alertsの精度の低さと文字化けにも困ってた人結構いるみたいで。

とりあえず、設定を元に戻しました。最近のGoogleアラートは設定を変えると該当キーワードでの摘出が安定するまでちょっと時間かかるっぽいんですよね。メールに切り替えたときは、1周間くらいメール届かないか、届いても1,2件みたいな感じでしたので。

でも、これ、予告もなく終了して予告もなく復活しているので、いつ何時どうなることやら感がものごっつあるのでしばらくは様子見ですかね。

つか、他のシステムさっさと移行しろってか、ごもっともとです、はい。

キワードでの取得がねぇ…

2013-08-19

どうも、管理人です。

サイトに「キーワード新着」というカテゴリを作って情報を垂れ流しているわけですが、最近どうも情報収集がうまくいっていないのです。

もともと、旧サイトのバージョンでの情報収集はGoogleアラートからのメールで、それを手てコピペするという旧世代まんまの動きだったわけです。
で、まぁ、それじゃぁイカンということで、GoogleアラートのRSSを一旦自前データーベースに格納して、そこでカテゴリや一般成人種別、掲載可不可などの処理を行うツールを作って、そこで公開設定したものを表示するようにしたわけです。こいつのおかげで作業時間が大幅に短縮できたのでラクになったと思っていたわけですが、GoogleアラートでのRSS配信が終了しちゃいました。

そんな中、代替サービスとして「TalkWalker Alerts」というのがいいらしいというので設定、受信RSSの仕様がGoogleと違うが、まぁそこはxml解析だけの差なんでさほど問題なかったわけですが、このTalkWalker AlertsからのRSSは文字化けがひどい。
送られてくるソースを見たら変なところに半角スペースが入っているのが原因で、半角スペース除去プログラム作って、そこで変換かけたのをデーターベースに流し込むという半ば強引な手法でなんとかしたのが先月あたりの話。TalkWalker Alertsでの文字化けに悩んでいる方々、半角スペースの除去がキモですよ。

で、しばらく運用してみて分かったことが、アラート精度の低さ。 Googleと比べるなって話もあるんでしょうが『これなら許せるなぁ』という精度にもぜんぜん届いていない。Googleでも選別すると10件中2,3件くらいだったのが100件中1件あるかないか。
こりゃダメだというわけで、Googleアラートのメール受信に切り替えて、サーバー内にメールが届いたら解析してデーターベースに流し込むプログラムを作って設置したのが先週あたりの話。

ところが、Googleアラートも以前に比べたらぜんぜんひっかからなくなってる。さらに、送信してくるメールの仕様が変わったらしく、現在沈黙中。しょーがないのでTalkWalker Alertsからの情報も再開させてみましたが、やっぱり精度の悪さにムカムカしてくる。

どうもGoogleアラートでRSS受信してた人は結構いたらしく、TalkWalker Alertsに移行させたみたいですが、「文字化けがひどい」「精度が低い」などでGoogleアラートのメール+はてブという流れになってきているような気がしますが、うちみたいな特殊な使い方だと、どーしよーかねぇ、みたいな。何かいい案思いつくまではどうしようもなさそうです。他の部分の製作しながら考えます。

それさえもおそらくは混沌な日々

2013-08-16

はい。どうも管理人です。

現在、システム面に関しては、旧サイトからのデータ移動を諦めた状況です。
単なるデータベースの差異なら変換するなり対応の方法はあるのですが、旧サイトはネイティブな自作ソフトを介在してデータをやっつけて、それをMovableTypeのDBに放り込むとか、今考えるとかなりムチャな仕様だったもので。

しかも、当時はAmazonやDMMの情報の取得は、URLから実HTMLを読み込んで自前解析してたので、現状のAPIとの差異がありすぎる。
まぁ、DMMのAPIに関しては今でも不十分な感じですし、取得した画像URLを叩くと「そんなURL無いよっ」って怒られる場合が多々あるのでいっそHTML取得型に戻しちゃおうか考えたのですが、見た目が統一されててもカテゴリごとにDIVや構成が違うという、まさに混沌としてるんで・・・。

ですので、まとめてえいやっと移動ではなく、データベースを今から新規で作るってことです。さすがに全カテゴリ一気は厳しいので、何かのジャンルから徐々に作っていこうかと思います。
このへんのは旧サイトと同じで『現在販売していないモノでもデーターベースとして残す』ことにしていますのでかなーり忘れているようなものまで新規で追加されちゃう可能性が。ま、APIで発売日は取得できるので、その日付で並べ替えるつもりです。

ではまた。