Ich versuche, eine Liste von Hostnamen aufzulösen. Das Problem ist, wenn ich auf eine nicht vorhandene Domain stoße, verlangsamt dies den gesamten Prozess. Der Code ist eine triviale for-Schleife:
for domain in domains:
try:
if socket.gethostbyname(domain.split('@')[1]):
file1.write(domain)
else:
file2.write(domain)
except socket.gaierror:
pass
Ich habe mich gefragt, ob es eine einfache Möglichkeit gibt, das zu parallelisieren, was sich in der for-Schleife befindet.
3 Antworten
Sie können eines der Beispiele von Gevent verwenden: dns_mass_resolve.py. Es gibt auch eine nützliche Möglichkeit, das Zeitlimit für alle Abfragen festzulegen.
from __future__ import with_statement
import sys
import gevent
from gevent import socket
from gevent.pool import Pool
N = 1000
# limit ourselves to max 10 simultaneous outstanding requests
pool = Pool(10)
finished = 0
def job(url):
global finished
try:
try:
ip = socket.gethostbyname(url)
print ('%s = %s' % (url, ip))
except socket.gaierror:
ex = sys.exc_info()[1]
print ('%s failed with %s' % (url, ex))
finally:
finished += 1
with gevent.Timeout(2, False):
for x in xrange(10, 10 + N):
pool.spawn(job, '%s.com' % x)
pool.join()
print ('finished within 2 seconds: %s/%s' % (finished, N))
import thread
def resolve_one_domain(domain):
...
for domain in domains:
thread.start_new_thread(resolve_one_domain, [domain])
Ich kenne keine einfache Lösung. Die Verwendung mehrerer Threads / Prozesse wäre kompliziert und würde wahrscheinlich nicht viel helfen, da Ihre Ausführungsgeschwindigkeit an E / A gebunden ist. Daher würde ich mir eine asynchrone Bibliothek wie Twisted ansehen. In IReactorCore
gibt es eine Methode resolve
: http://twistedmatrix.com/documents/12.2.0/api/twisted.internet.interfaces.IReactorCore.html
Verwandte Fragen
Neue Fragen
python
Python ist eine dynamisch typisierte Mehrzweck-Programmiersprache mit mehreren Paradigmen. Es wurde entwickelt, um schnell zu lernen, zu verstehen, zu verwenden und eine saubere und einheitliche Syntax durchzusetzen. Bitte beachten Sie, dass Python 2 ab dem 01.01.2020 offiziell nicht mehr unterstützt wird. Fügen Sie für versionenspezifische Python-Fragen das Tag [python-2.7] oder [python-3.x] hinzu. Wenn Sie eine Python-Variante (z. B. Jython, PyPy) oder eine Bibliothek (z. B. Pandas und NumPy) verwenden, fügen Sie diese bitte in die Tags ein.