如何确保 Java 线程在不同内核上运行

我正在用Java编写一个多线程应用程序,以提高顺序版本的性能。它是 0/1 背包问题的动态规划解决方案的并行版本。我有一个英特尔酷睿2双核,Ubuntu和Windows 7 Professional在不同的分区上。我在 Ubuntu 中运行。

我的问题是,并行版本实际上比顺序版本需要更长的时间。我认为这可能是因为线程都映射到同一内核线程,或者它们被分配到同一个内核。有没有办法确保每个Java线程都映射到一个单独的内核?

我已经阅读了有关此问题的其他帖子,但似乎没有任何帮助。

下面是 KnapsackThread 类(扩展 Thread)的 main() 和所有 run() 的结尾。请注意,他们使用切片和额外方法来计算myLowBound和myHiBound,确保每个线程在dynProgMatrix的域中不会重叠。因此,不会有竞争条件。

    dynProgMatrix = new int[totalItems+1][capacity+1];
    for (int w = 0; w<= capacity; w++)
        dynProgMatrix[0][w] = 0;
    for(int i=0; i<=totalItems; i++)
        dynProgMatrix[i][0] = 0;
    slice = Math.max(1,
            (int) Math.floor((double)(dynProgMatrix[0].length)/threads.length));
    extra = (dynProgMatrix[0].length) % threads.length;

    barrier = new CyclicBarrier(threads.length);
    for (int i = 0; i <  threads.length; i++){
        threads[i] = new KnapsackThread(Integer.toString(i));
    }
    for (int i = 0; i < threads.length; i++){
        threads[i].start();
    }

    for (int i = 0; i < threads.length; i++){
        try {
            threads[i].join();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
}

public void run(){
    int myRank = Integer.parseInt(this.getName());

    int myLowBound;
    int myHiBound;

    if (myRank < extra){
        myLowBound = myRank * (slice + 1);
        myHiBound = myLowBound + slice;
    }
    else{
        myLowBound = myRank * slice + extra;
        myHiBound = myLowBound + slice - 1;
    }

    if(myHiBound > capacity){
        myHiBound = capacity;
    }

    for(int i = 1; i <= totalItems; i++){
        for (int w = myLowBound; w <= myHiBound; w++){

            if (allItems[i].weight <= w){
               if (allItems[i].profit + dynProgMatrix[i-1][w-allItems[i].weight]
                        > dynProgMatrix[i-1][w])
                {
                    dynProgMatrix[i][w] = allItems[i].profit +
                                      dynProgMatrix[i-1][w- allItems[i].weight];
                }
                else{
                    dynProgMatrix[i][w] = dynProgMatrix[i-1][w];
                }
            }
            else{
                dynProgMatrix[i][w] = dynProgMatrix[i-1][w];
            }
        }
        // now place a barrier to sync up the threads
        try {
            barrier.await(); 
        } catch (InterruptedException ex) { 
            ex.printStackTrace();
            return;
        } catch (BrokenBarrierException ex) { 
            ex.printStackTrace(); 
            return;
        }
    }
}

更新:

我写了另一个版本的背包,使用蛮力。此版本的同步非常少,因为我只需要在单个线程的执行结束时更新 bestSoFar 变量。因此,除了最后的那一小个关键部分之外,每个线程几乎应该完全并行执行。

我运行了这个与顺序蛮力,仍然需要更长的时间。除了我的线程按顺序运行之外,我没有看到任何其他解释,因为它们被映射到同一内核或同一本机线程。

有人有任何见解吗?


答案 1

我怀疑这将是由于对所有线程使用相同的内核。调度取决于操作系统,但是如果您为操作系统调出性能管理器,您应该能够看到发生了什么 - 它通常会显示每个内核的繁忙程度。

需要更长时间的可能原因:

  • 大量同步(必要或不必要的)
  • 任务花费的时间太短,以至于线程创建占用了很大一部分时间
  • 上下文切换,如果要创建太多线程 - 对于 CPU 密集型任务,请创建尽可能多的线程。

答案 2

我有一段时间遇到同样的问题。我有一个CPU密集型程序,我将其分为2个线程(双核CPU),但是一个美丽的日子,在处理更多数据时,它只是停止使用两个内核。我只是提高了堆内存大小(在我的情况下),它再次正常工作。-Xmx1536m