過去に作ったソフトウェアのメモ-第一弾-したらば巡回くん(7)
ようやく動かせるようになりました。気づいたことについて書いていきます。カテゴリー別に13個のサーバーインスタンスでデータを収集しています。
・途中でエラーで停止したのが3つある
これはAPIから取得した値が予想外のものだったため。そのうち修正して実行し直します。
・収集するデータに制約を加えれば結構安定してデータが取れる
1つの板で最大5つのスレッドだけ、1つのスレッドには最大で500までのレスまで…というふうに取得するデータ数に制限をかけました。この制限化だとプログラムは安定して動きますね。
・制約のもとでも、結構データ量は大きい
今回とってきたデータの量は7.29GBです。テキストだけで7.29GBってすごいなーって思いました。
・終端の値が間違ってる
カテゴリー別に終端を記録しています。これの数字がちょっと正しくないみたいです。また今度、判定をゆるくして巡回し直します。
・収集したデータはプログラムの改善に使う
AAの判定方法とか…巡回の間隔とか…。今の感覚設定だとだいたい3割のアクセスがエラーになります。アクセス間隔が0.8秒程度になるように組むのがいいのかもしれません。無駄な通信は避けたいですし。
今度の記事では、AA関連板の判定法についてメモしていきたいです。がんばります。