1.09.2012 / 21:37

Нахождение 10 наиболее частых слов на web странице

[копировать] [скачать]
from urllib2 import urlopen
u = urlopen("http://python.org")
words = {}
# (словарь — неупорядоченный [[ассоциативный массив]])
for line in u:
# читаем u по строкам
 line = line.strip(" \n")
# отбрасываем начальные и конечные пробелы
 for word in line.split(" "):
# режем каждую строку на слова, ограниченные пробелами
  try:
# блок обработки исключений
   words[word] += 1
# пытаемся увеличить words[word] на единицу
  except KeyError:
# если не получилось (раньше words [word] не было)
   words[word] = 1
pairs = words.items()
# делаем из словаря список пар
# pairs == [("яблоко",5), ("апельсин",12), ("груша",8)]
pairs.sort(key=lambda x: x[1], reverse=True)
for p in pairs[:10]:
 print p[0], p[1]

Нахождение 10 наиболее частых слов на web странице

Реклама

Мы в соцсетях