trim()で消えない憎い奴
HTMLファイルを読み込んで、必要な要素だけ取得してまとめるというよくある作業をやっていてハマったのが「 」。見た目は半角スペースなんだけど、trim()関数使っても消えないし、取得した要素には残るし。
で、試行錯誤してうまくいった方法がコチラ↓
$input_filename = '2380.htm'; // 処理したいファイル
$output_filename = 'after2380.htm'; // 処理後のファイル
$fpr = fopen($input_filename, 'r');
$fpw = fopen($output_filename, 'w');
while ($line = fgets($fpr)) {
// を消す
$str = html_entity_decode($line);
$result = preg_replace("/\xC2\xA0/", "", $str);
fwrite($fpw, $result);
}
fclose($fpr);
fclose($fpw);
参考にさせていただいたのは、次の2つの記事です。
[PHP]改行なしスペース( 、0xA0)を、普通の空白(0x20)に置換する
ありがとうございます!
どなたかのお役に立てれば幸いです。


コメント