2006-01-31
■[Ruby] Webページのタイトルを取得する そのに 
id:ha-tan:20060130:1138546013の続きです。
やっぱり</head>か<body>がきたら処理をあきらめるようにしました。あとタイトル文字列の両端の空白を削除するようにしました。
#!/usr/bin/env ruby
# -*- ruby -*-
require 'open-uri'
require 'kconv'
ARGV.each do |uri|
open(uri, 'r') do |file|
buf = ''
while line = file.gets
buf << line
if buf =~ /<title[^>]*>([^<]*)<\/title>/im
puts Kconv.kconv($1.strip, Kconv::EUC)
break
end
break if buf =~ /(?:<\/head>|<body[^>]*>)/i
end
end
end
そうそう、上のプログラムではopen-uriを使っています。普段はこんな感じでURLを指定するのですが、
$ ./htmltitle.rb http://d.hatena.ne.jp/ha-tan/
$ ./htmltitle.rb local_file.html
■インフルエンザが蔓延しそう 
いっしょに仕事している人達がバタバタ逝きそうな気配です。今職場にはウイルスが大量にバラまかれています。自己防衛のため職場ではマスクがかかせません。僕だけ残して逝かないでー。
[コメントを書く]