データクリーニングを通してDatasetSFPcの作成
ここまで用いた点過程データ(DatasetSFP)は複数の意匠登録者が同一座標が付けられているケースがある。原因を調べた結果、以下の三つが見つかった。
- 複数の文字列が同一住所を指定するケース
- 利用したジオコーディング・サービスが番地レベルまでしか同定しておらず、同一の番地に複数の登録者が存在するケース
- 複数の登録者が同一建物に入居するケース
以上のケースを訂正するため、当てはめる住所文字列の座標が以下のマップサイトを用いて同定された。
更に、複数の登録者が同一建物に入居する場合、伊藤香織(2004)の手法に従って建築面積に応じて位置座標の分散を行った。建築面積として、地理院地図上の家形を計測した値を利用した。
伊藤香織(2004)を参考とする手法
>
位置の分散は以下の手順で行う。住所に対応する家形の面積Aを地理院地図上の計測によって得て、家形中心の座標をGoogleマップから得る。東西軸x南北軸y(平面直角座標系第9系)に平行な一辺√Aの平方形で建物を近似する。x座標y座標をそれぞれ図の確率密度に従う乱数によって決定し、中心点から移動させる。
SQL Server上の計算:
select F1.[AddressID], case when F1.[RanX] + F1.[RanXz] > 1.0 then (F1.[RanX] - 1.0)* F1.AFactor else F1.[RanX] * F1.[AFactor] end as [ShiftLong], case when F1.[RanY] + F1.[RanYz] > 1.0 then (F1.[RanY] - 1.0)* F1.AFactor else F1.[RanY] * F1.[AFactor] end as [ShiftLat] from ( select A1.AddressID, SQRT(A1.Area) / 222638.0 as [AFactor], RAND(CHECKSUM(newid())) as [RanX], RAND(CHECKSUM(newid())) as [RanXz], RAND(CHECKSUM(newid())) as [RanY], RAND(CHECKSUM(newid())) as [RanYz] from [AddressAreas] as A1 ) as F1
以上の作業により、DatasetSFPのポイント1193点がDatasetSFPcの1255点まで減らされた。